您的位置:首页 > 运维架构

Ubuntu15.10下Hadoop2.6.0伪分布式环境安装配置及Hadoop Streaming的体验

2015-10-08 13:57 851 查看
Ubuntu用的是Ubuntu15.10Beta2版本,正式的版本好像要到这个月的22号才发布。
参考的资料主要是http://www.powerxing.com/install-hadoop-cluster/和《Hadoop基础教程》这本书。
我的用户名是wuyouwulv,所以在接下来的代码中如果出现wuyouwulv的地方只要更改一下用户名就可以了。
搭建hadoop伪分布式环境并不需要为此创建一个新的group和user,所以我这里用的一直都是wuyouwulv这个用户。
我所需的文件都放在我的U盘根目录下的hadoop2.6目录下,它们包括:
core-site.xml
hadoop-2.6.0.tar.gz
hadoop-env.sh
hdfs-site.xml
mapred-site.xml
onenodeinstall.sh
readme.txt
其中主要的内容如下:
core-site.xml

#!/usr/bin/python
import sys

current = ""
count = 0

for line in sys.stdin:
word, c = line.split("\t")
if word == current:
count += 1
else:
if current != "":
print current + "\t" + str(count)
current = word
count = 1
print current + "\t" + str(count)


wcreducer.py
这里注意的是“bin/hdfs dfs -mkdir -p /user/wuyouwulv”处的wuyouwulv必须是当前的这个用户,见http://stackoverflow.com/questions/20821584/hadoop-2-2-installation-no-such-file-or-directory
input和output对应的目录是HDFS中的目录而不是本地目录。
最终这个程序实现了WordCount的功能。
两个python程序要加上可执行权限:
~/hadoop$ chmod a+x *.py
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: