您的位置：首页 > 运维架构 > Linux

VirtualBox5.0.18+CentOS7.2+Hadoop2.7.2配置与开发（2）用YARN完成WordCount作业

2016-05-03 00:14 495 查看

运行WordCount作业

步骤：

进入hadoop目录，删除input目录和output目录（如果有）；

启动hdfs系统，ResourceManager和NodeManager。

$cd   /usr/hadoop-2.7.2

$sbin/start-dfs.sh

$sbin/start-yarn.sh

在/usr/hadoop-2.7.2中新建目录userData，userData内存放两个文本文件file1.txt和file2.txt。

$cat userData/file1.txt

Hello world.

Bye world.

$ cat userData/file2.txt

Hello Hadoop.

Bye Hadoop.

重建hdfs内的input目录（如果有）。

查看hdfs的目录及全部子目录和文件：

$ bin/hadoop   fs   -ls -R   .

如果input目录为空，则可用rmdir删除它：

$ bin/hadoop   fs   -rmdir ./input

如果output目录不为空，则用rm的递归选项删除它：

$ bin/hadoop   fs   -rm -R ./output

在hdfs内新建input目录。

$ bin/hadoop fs -mkdir ./input

将userData内的file1.txt和file2.txt两个文件上传到HDFS中的input目录

$ bin/hadoop fs -putuserData/file1.txt ./input

$ bin/hadoop fs -put userData/file2.txt ./input

$ bin/hadoop   fs   -ls -R .

drwxr-xr-x   - hadoopsupergroup          0 2016-05-02 12:07input

-rw-r--r--   1 hadoopsupergroup         24 2016-05-02 12:06 input/file1.txt

-rw-r--r--   1 hadoopsupergroup         27 2016-05-02 12:07input/file2.txt

执行hadoop自带的WordCount程序，统计单词数

$cd /usr/hadoop-2.7.2/share/hadoop/mapreduce

$/usr/hadoop-2.7.2/bin/hadoop jar hadoop-mapreduce-examples-2.7.2.jarwordcount ./input ./output

输出信息：略

$ cd /usr/hadoop-2.7.2

$ bin/hadoop   fs   -ls -R .

drwxr-xr-x   - hadoopsupergroup          0 2016-05-02 12:07input

-rw-r--r--   1 hadoopsupergroup         24 2016-05-02 12:06input/file1.txt

-rw-r--r--   1 hadoopsupergroup        27 2016-05-02 12:07 input/file2.txt

drwxr-xr-x   - hadoopsupergroup          0 2016-05-02 12:11output

-rw-r--r--   1 hadoopsupergroup          0 2016-05-02 12:11output/_SUCCESS

-rw-r--r--   1 hadoopsupergroup         33 2016-05-02 12:11 output/part-r-00000

查看运行结果：

$ bin/hadoop   fs   -cat ./output/part-r-00000

Bye 2

Hadoop.      2

Hello        2

world.       2

可见单词统计正确！

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： linux centos hadoop virtualbox yarn

相关文章推荐

新的分享

章节导航