您的位置:首页 > 运维架构

Mahout 0.10.1安装(Hadoop2.6.0)及Kmeans测试

2015-09-19 00:29 351 查看

1.版本和安装路径

Ubuntu 14.04

Mahout_Home=/opt/mahout-0.10.1

Hadoop_Home=/usr/local/hadoop

Mavent_Home=/opt/apache-mavent-3.3.3

Hadoop version=2.6.0

Mahout version=0.10.1

Mavent version=3.3.3

2.Mahout重新编译

Mahout下载:http://archive.apache.org/dist/mahout/

在2.0版本以上的hadoop上使用时, 需要重新编译

$ git clone https://github.com/apache/mahout.git $ mvn clean package -Dhadoop2 -Dhadoop2.version=2.6.0 -DskipTests=true

编译完成后将编译出来的
\mahout\examples\target\mahout-examples-SNAPSHOT-0.10.1.jar
\mahout\examples\target\mahout-examples-SNAPSHOT-0.10.1-job.jar
替换mahout目录中的mahout-examples-0.10.1.jar, mahout-examples-0.10.1-job.jar两个文件

3.环境变量

sudo gedit ~/.bashrc


  

#Mahout
HADOOP_HOME=/usr/local/hadoop
HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

MAHOUT_HOME=/opt/mahout-0.10.1
MAHOUT_CONF_DIR=$MAHOUT_HOME/conf

PATH=$PATH:$HADOOP_HOME/bin:$MAHOUT_HOME/bin

#Maven
MAVEN_HOME=/opt/apache-maven-3.3.3
export MAVEN_HOME
export PATH=${PATH}:${MAVEN_HOME}/bin


安装路径要跟自己的要一致

环境变量更改立即生效:

source ~/.bashrc


在Mahout安装路径下运行命令:mahout,安装成功。



4.kmeans简单运行

下载测试数据集synthetic_control.data

http://archive.ics.uci.edu/ml/databases/synthetic_control/

在HDFS中创建testdata目录,必须是testdata目录!并且每次运行hadoop都要删掉原来的output目录!

bin/hadoop fs -mkdir -p testdata


上传到HDFS中testdata目录中

hadoop fs -copyFromLocal /home/hadoop/桌面/synthetic_control.data testdata


在Mahout安装目录下启动kmeans

mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job


结果:



查看output目录:

eclipse下


  
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: