您的位置:首页 > 运维架构

VirtualBox搭建Hadoop2.7.2环境(1)——伪分布式

2016-02-02 18:03 489 查看

1. 软件

软件/OS版本
Hadoop2.7.2
Ubuntu14.04 (32位)
VirtualBox4.3.24
openjdk1.7.0_91
ssh-
rsync-

2.下载安装软件包

1) 下载解压Hadoop 2.7.2

tar -xf hadoop-2.7.2.tar.gz ~/

2) 命令行安装

sudo apt-get install rsync

sudo apt-get install ssh

sudo apt-get install openjdk-7-jdk

3. 配置环境

1) 软件配置

/etc/profile

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-i386


#HADOOP

export HADOOP_HOME=~/hadoop-2.7.2

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"


2) ssh配置

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa //生成秘钥

$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys //公钥加入信任列表

$ chmod 0600 ~/.ssh/authorized_keys  //设置为所有者读写权限


3) Hadoop配置

1) etc/hadoop/core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>


2) etc/hadoop/hdfs-site.xml:

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>


3) etc/hadoop/hadoop-env.sh

# The java implementation to use.

export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-i386


4. Hadoop实施

1) 格式化文件系统

$ bin/hdfs namenode -format


2) 启动NameNode守护进程和DataNode守护进程

$ sbin/start-dfs.sh


3) 网页访问NameNode

http://localhost:50070/

4) 创建执行MapReduce任务所需要的HDFS目录

$ bin/hdfs dfs -mkdir /user


$ bin/hdfs dfs -mkdir /user/ckelsel


5) 待分析数据放入分布式文件系统

$ bin/hdfs dfs -put etc/hadoop input


6) 执行自带的分析用例

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'


7) 将输出结果从分布式文件系统拷贝到本地,检验结果

$ bin/hdfs dfs -get output output


$ cat output/*


8) 测试结束,关闭守护进程

$ sbin/stop-dfs.sh
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: