Hadoop测试TeraSort
2015-10-09 16:53
405 查看
http://www.opstool.com/article/249
使用teragen产生数据
使用Teragen来产生数据,示例如下:
teragen的参数解释:
参数1:表示要产生的数据的行数。Teragen每行数据的大小是100B。
要产生1T的数据,需要的行数=102410241024*1024/100=10995116277行
参数2 : 产生的数据放置的文件夹地址
默认的teragen的启动的map数比较少,只有2个,如果要指定map数可以加-Dmapred.map.tasks=map数的方式。比如我们来产生1T的数据
ls一下目录是否产出
使用Terasort排序
使用terasort对刚才使用teragen产生的数据进行排序,排序结果输出到/user/hadoop/terasort/1T-output。
默认的reduce数目是1,会导致任务跑得非常慢。通过-Dmapred.reduce.tasks指定reduce数目,这里我们设置50个
启动Teragen之后,会提交mapre reduce任务来,产生TeraSort需要的数据
使用Teravalidate 进行验证
使用TeraValidate 对Terasort的结果进行验证:
相关文档:
常用hadoop命令
hadoop样例程序
理解hadoop fsck、fs -dus、-count -q的大小输出
Hadoop查看本地Sequencefile文件
Hadoop如何Kill指定用户的所有Job
最新最早最热
0条评论
使用teragen产生数据
使用Teragen来产生数据,示例如下:
hadoop jar hadoop-*-examples.jar teragen 参数1 参数2
teragen的参数解释:
参数1:表示要产生的数据的行数。Teragen每行数据的大小是100B。
要产生1T的数据,需要的行数=102410241024*1024/100=10995116277行
参数2 : 产生的数据放置的文件夹地址
默认的teragen的启动的map数比较少,只有2个,如果要指定map数可以加-Dmapred.map.tasks=map数的方式。比如我们来产生1T的数据
hadoop jar hadoop-*-examples.jar teragen -Dmapred.map.tasks=100 10995116277 terasort/1T-input
ls一下目录是否产出
hadoop@myhost $ hadoop fs -ls /user/hadoop/terasort/ Found 1 items drwxr-xr-x - hadoop cug-admin 0 2013-07-13 12:49 /user/hadoop/terasort/1T-input
使用Terasort排序
使用terasort对刚才使用teragen产生的数据进行排序,排序结果输出到/user/hadoop/terasort/1T-output。
默认的reduce数目是1,会导致任务跑得非常慢。通过-Dmapred.reduce.tasks指定reduce数目,这里我们设置50个
hadoop jar hadoop-*-examples.jar terasort -Dmapred.reduce.tasks=50 \ /user/hadoop/terasort/1T-input /user/hadoop/terasort/1T-output
启动Teragen之后,会提交mapre reduce任务来,产生TeraSort需要的数据
使用Teravalidate 进行验证
使用TeraValidate 对Terasort的结果进行验证:
hadoop jar hadoop-*-examples.jar teravalidate /user/hadoop/terasort/1T-output /user/hadoop/terasort/1T-validate
相关文档:
常用hadoop命令
hadoop样例程序
理解hadoop fsck、fs -dus、-count -q的大小输出
Hadoop查看本地Sequencefile文件
Hadoop如何Kill指定用户的所有Job
最新最早最热
0条评论
相关文章推荐
- OpenWrt的luci web管理器添加新菜单(四)
- linux下源码安装mysql
- Window环境下基于Tomcat & Zookeeper搭建Solr Cloud 5.1
- Apache cxf JaxWs基本应用
- 高可用集群实验一:lvs的NAT模式、DR模式搭建及性能对比
- docker 安装及简单配置
- webrtc学习: audio_device之opensles
- 连接池c3p0 ,Proxool ,Druid ,Tomcat Jdbc Pool对比测试
- ParallelsDesktop v11.0.2-31348
- CentOS6.5+hadoop1.2.1安装配置测试记录
- Solr中设置时区Timezone, Tomcat/Jetty
- Apache服务器最新版下载、安装及配置(win版)
- linux获取网线插拔状态的实现
- (转)xshell基本操作步骤
- Start Tomcat v8.0 Server at localhost错误
- openwrt修改主机名
- linux查看文件大小,卸载挂载硬盘
- 三层架构和MVC的一些感悟(iOS相关)
- nginx不浏览直接下载文件
- openwrt默认开机启动ssh的方法