您的位置:首页 > 大数据

基于hadoop与spark的大数据分析实战——第一章 Hadoop部署与实践

2016-05-28 18:34 881 查看

第一章、     Hadoop部署与实践

1       准备工作

准备工作包括5个步骤。经过这五个步骤之后使得案例中的3台主机实现互通。以下是准备工作。

1.1        设置静态IP

为了避免影响集群的额稳定性。

E.G.

虚拟机              用户名              密码                   IP

master              hadoop              hadoop              10.0.1.27

slave-One         hadoop              hadoop              10.0.1.39

slave-Two         hadoop              hadoop              10.0.1.40

 

1.2        建立SSH服务

#sudoapt-get install openssh-server

#sshhadoop@10.0.1.39

 

1.3        无密钥登陆

各节点生成密钥:

ssh-keygen

上步会在/home/changlongli目录下生成.ssh文件夹

将各节点的id_rsa.pub文件集中到master

#scp.ssh/id_rsa.pubhadoop@10.0.1.27:~/.ssh/slave_one.pub

将各节点的id_rsa.pub中内容追加到authorized_keys文件

#cat id_rsa.pub>>~/.ssh/authorized_keys

将authorized_keys文件分发到各个节点

#scp.ssh/authorized_keys
hadoop@10.0.1.39:~/.ssh/

 

1.4        Hostname设置

#sudo vim /etc/hosts

10.0.1.27        Master

10.0.1.39        Slave-One

10.0.1.40        slave-Two

1.5        手动配置jdk

文件夹jdk1.7.0-40上传值服务器各节点

#auto_sync_simple.sh  jdk1.7.0-40

/home/hadoop/Cloud/jdk1.7.0_40

打开/etc/profile以及~/.bashrc文件,追加如下信息

ExportJAVA_HOME=/home/hadoop/Cloud/jdk1.7.0_40

ExportCLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

ExportPATH=#JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin

执行命令:

#source ~/.bashrc

当然可以直接使用apt get install来安装jdk

2       安装过程

2.1        Hadoop下载

到hadoop官网http://hadoop.apache.org下载hadoop,下面使用2.6.0版本。

将hadoop-2.6.0.tar.gz上传到服务器

#scpDownloads/hadoop-2.6.0.tar.gz hadoop@Slave-One:~/Cloud

#scpDownloads/hadoop-2.6.0.tar.gz hadoop@Slave-Two:~/Cloud

解压文件

#tar –zxvf hadoop-2.6.0.tar.gzhadoop-2.6.0

2.2        hadoop文件配置

下面列出的是需要配置的几个文件。如下表

配置文件                   职能属性

core-site.xml             Hadoop的配置项

mapred-site.xml      Mapreduce守护进程的配置项,包括jobtracker和tasktracker

hdfs-site.xml             Hdfs守护进程的配置

yarn-site.xml             yarn守护进程的配置

masters                      记录运行辅助namenode的机器列表

slaves                          记录运行datanode和tasktracker的机器列表

 

配置文件如下:

core-site.xml

<property>

         <name>io.native.lib.avalible</name>

         <value>true</value>

</property>

 

<property>

         <name>fs.default.name</name>

         <value>hdfs://mcmaster:9000</value>

         <final>true</final>

</property>

 

<property>

         <name>hadoop.tmp.dir</name>

         <value>/home/hadoop/Cloud/workspace/tmp</value>

</property>

 

<property>

         <name>yam.ersourcemanager.address</name>

         <value>mcmaster:8080</value>

</property>

 

…google…去吧。。。。

 

2.3        分发

#./auto_sync_simple.sh ~/Cloud/hadoop-2.6.0/home/hadoop/Cloud/

2.4        启动

#cd hadoop-2.6.0

#bin/hafs namenode –format

#sbin/start-all.sh

启动界面

在浏览器中打开localhost:8088/cluster和50070端口

2.5        测试集群

制作输入文件

$echo hello word>>in1.txt

$echo hekkohadoop>>in2.txt

将输入文件上传到HDFS

$cd ~/Cloud/hadoop-2.6.0;/

$bin/hadoop fs -mkdir /usr

$bin/hadoop fs- mkdir/usr/input

$bin/hadoop fs –put in1.txt/usr/input

$bin/hadoop fs –put in2.txt/usr/input

执行hadoop内置的example测试程序

$bin/hadoop jar ~Cloud/hadoop-2.6.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar  wordcount /usr/input  /usr/output

 通过hdfs就可以看到。

3       常见问题

–  集群防火墙关闭

–  节点时钟同步

–  执行权限问题

–  HDFS缓存问题

 

4       本章小结

本章对hadoop的安装与部署进行详细讲述。同时也对常见问题进行总结。解决方案找google。

 
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  大数据 hadoop spark