您的位置:首页 > 运维架构 > Linux

VirtualBox5.0.18+CentOS7.2+Hadoop2.7.2配置与开发(2)用YARN完成WordCount作业

2016-05-03 00:14 495 查看

运行WordCount作业

步骤:

进入hadoop目录,删除input目录和output目录(如果有);

启动hdfs系统,ResourceManager和NodeManager。

$cd   /usr/hadoop-2.7.2

$sbin/start-dfs.sh

$sbin/start-yarn.sh   

在/usr/hadoop-2.7.2中新建目录userData,userData内存放两个文本文件file1.txt和file2.txt。

$cat userData/file1.txt

Hello world.

Bye world.

$ cat userData/file2.txt

Hello  Hadoop.

Bye Hadoop.

重建hdfs内的input目录(如果有)。

查看hdfs的目录及全部子目录和文件:

$ bin/hadoop   fs   -ls -R   .

如果input目录为空,则可用rmdir删除它:

$ bin/hadoop   fs   -rmdir  ./input

如果output目录不为空,则用rm的递归选项删除它:

$ bin/hadoop   fs   -rm  -R  ./output

在hdfs内新建input目录。

$  bin/hadoop  fs -mkdir  ./input

将userData内的file1.txt和file2.txt两个文件上传到HDFS中的input目录

$ bin/hadoop  fs -putuserData/file1.txt  ./input

$ bin/hadoop  fs -put userData/file2.txt ./input

$ bin/hadoop   fs   -ls -R  .

drwxr-xr-x   - hadoopsupergroup          0 2016-05-02 12:07input

-rw-r--r--   1 hadoopsupergroup         24 2016-05-02 12:06 input/file1.txt

-rw-r--r--   1 hadoopsupergroup         27 2016-05-02 12:07input/file2.txt

执行hadoop自带的WordCount程序,统计单词数

$cd  /usr/hadoop-2.7.2/share/hadoop/mapreduce

$/usr/hadoop-2.7.2/bin/hadoop jar  hadoop-mapreduce-examples-2.7.2.jarwordcount  ./input  ./output

输出信息:略

$ cd /usr/hadoop-2.7.2

$ bin/hadoop   fs   -ls -R  .

drwxr-xr-x   - hadoopsupergroup          0 2016-05-02 12:07input

-rw-r--r--   1 hadoopsupergroup         24 2016-05-02 12:06input/file1.txt

-rw-r--r--   1 hadoopsupergroup         27 2016-05-02 12:07 input/file2.txt

drwxr-xr-x   - hadoopsupergroup          0 2016-05-02 12:11output

-rw-r--r--   1 hadoopsupergroup          0 2016-05-02 12:11output/_SUCCESS

-rw-r--r--   1 hadoopsupergroup         33 2016-05-02 12:11 output/part-r-00000

查看运行结果:

$ bin/hadoop   fs   -cat ./output/part-r-00000

Bye  2

Hadoop.      2

Hello        2

world.       2

可见单词统计正确!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息