您的位置:首页 > 运维架构

Mac OS Hadoop Mahout安装

2012-11-23 18:31 281 查看
Mac OS Hadoop Mahout安装

1. 下载Hadoop,Mahout:

可以直接从labs.renren.com/apache-mirror/hadoop和labs.renren.com/apache-mirror/mahout下载

2. 配置Hadoop配置文件:

(1) core-site.xml:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000/</value>
</property>
</configuration>


(2) mapred-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>


(3) hdfs-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>


(4) 在 hadoop-env.sh文件末尾加入以下配置信息:

export JAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/1.6.0/Home
export HADOOP_INSTALL=/Users/alex/Documents/DevRes/hadoop-0.21.0
export PATH=$PATH:$HADOOP_INSTALL/bin


3. 配置SSH

在系统偏好设置->共享里勾选'远程登录'选项

配置无密钥登陆:

(1) 生成密钥(公钥):

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa


ssh-keygen代表生成密钥;-t表示指定生成的密钥类型;dsa是dsa密钥认证的意思,即密钥类型;-P用于提供密语;-f指定生成的密钥文件

(2) 把公钥加入认证文件中:

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys


设置完成后用SSH登陆本机就不会要求输入密码

4. 运行Hadoop:

格式化:

bin/hadoop namenode -format


启动所有进程:

bin/start-all.sh


如果报错:

Unable to load realm info from SCDynamicStore


则在hadoop-env.sh文件末尾加入:

export HADOOP_OPTS="-Djava.security.krb5.realm=OX.AC.UK -Djava.security.krb5.kdc=kdc0.ox.ac.uk:kdc1.ox.ac.uk"


5. 测试WordCount

首先生成输入文件input.txt:

hello world
hello hadoop


在HDFS下创建目录input:

bin/hadoop fs -mkdir input


将输入文件放入该目录中:

bin/hadoop fs -put input.txt input


执行Hadoop自带的example.jar中的WordCount:

bin/hadoop jar hadoop-version-example.jar wordcount input output


运行结果会放入output文件夹中,显示该文件夹中的信息:

bin/hadoop fs -ls output


会显示三个文件:_SUCCESS,_logs,part-r-00000,真正的结果存放在part-r-00000中:

bin/hadoop fs -cat output/part-r-00000


最终的结果为:

hadoop    1
hello    2
world    1


6. 配置Mahout:

在/etc/profile文件末尾加入以下配置信息

export=JAVA_HOME/System/Library/Frameworks/JavaVM.framework/Versions/1.6.0/Home
export MAHOUT_HOME=/path/to/mahout


执行bin/mahout --help,如果有帮助信息则说明安装成功

7. 在Eclipse中配置Hadoop和Mahout

(1) 配置Hadoop和在别的OS下配置Hadoop一样,都是将Hadoop的Eclipse-plugin的jar包导入Eclipse的plugin文件夹,然后在Eclipse的preference->Hadoop Map/Reduce下配置Hadoop的安装路径

(2) 配置好Hadoop后,新建一个Map/Reduce工程,然后将mahout目录下的core,core-job,math,util四个jar包加入到该工程的Build Path中即可

参考文献:

[1] Mac OS下安装伪分布式Hadoop

[2] Mac OS下安装伪分布式Hadoop及Eclipse插件

[3] 配置SSH免密钥登陆

[4] Unable to load realm info from SCDynamicStore错误解决
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: