基于hadoop与spark的大数据分析实战——第一章 Hadoop部署与实践
2016-05-28 18:34
881 查看
第一章、 Hadoop部署与实践
1 准备工作
准备工作包括5个步骤。经过这五个步骤之后使得案例中的3台主机实现互通。以下是准备工作。1.1 设置静态IP
为了避免影响集群的额稳定性。E.G.
虚拟机 用户名 密码 IP
master hadoop hadoop 10.0.1.27
slave-One hadoop hadoop 10.0.1.39
slave-Two hadoop hadoop 10.0.1.40
1.2 建立SSH服务
#sudoapt-get install openssh-server#sshhadoop@10.0.1.39
1.3 无密钥登陆
各节点生成密钥:ssh-keygen
上步会在/home/changlongli目录下生成.ssh文件夹
将各节点的id_rsa.pub文件集中到master
#scp.ssh/id_rsa.pubhadoop@10.0.1.27:~/.ssh/slave_one.pub
将各节点的id_rsa.pub中内容追加到authorized_keys文件
#cat id_rsa.pub>>~/.ssh/authorized_keys
将authorized_keys文件分发到各个节点
#scp.ssh/authorized_keys
hadoop@10.0.1.39:~/.ssh/
1.4 Hostname设置
#sudo vim /etc/hosts10.0.1.27 Master
10.0.1.39 Slave-One
10.0.1.40 slave-Two
1.5 手动配置jdk
文件夹jdk1.7.0-40上传值服务器各节点#auto_sync_simple.sh jdk1.7.0-40
/home/hadoop/Cloud/jdk1.7.0_40
打开/etc/profile以及~/.bashrc文件,追加如下信息
ExportJAVA_HOME=/home/hadoop/Cloud/jdk1.7.0_40
ExportCLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
ExportPATH=#JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin
执行命令:
#source ~/.bashrc
当然可以直接使用apt get install来安装jdk
2 安装过程
2.1 Hadoop下载
到hadoop官网http://hadoop.apache.org下载hadoop,下面使用2.6.0版本。将hadoop-2.6.0.tar.gz上传到服务器
#scpDownloads/hadoop-2.6.0.tar.gz hadoop@Slave-One:~/Cloud
#scpDownloads/hadoop-2.6.0.tar.gz hadoop@Slave-Two:~/Cloud
解压文件
#tar –zxvf hadoop-2.6.0.tar.gzhadoop-2.6.0
2.2 hadoop文件配置
下面列出的是需要配置的几个文件。如下表配置文件 职能属性
core-site.xml Hadoop的配置项
mapred-site.xml Mapreduce守护进程的配置项,包括jobtracker和tasktracker
hdfs-site.xml Hdfs守护进程的配置
yarn-site.xml yarn守护进程的配置
masters 记录运行辅助namenode的机器列表
slaves 记录运行datanode和tasktracker的机器列表
配置文件如下:
core-site.xml
<property>
<name>io.native.lib.avalible</name>
<value>true</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://mcmaster:9000</value>
<final>true</final>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/Cloud/workspace/tmp</value>
</property>
<property>
<name>yam.ersourcemanager.address</name>
<value>mcmaster:8080</value>
</property>
…google…去吧。。。。
2.3 分发
#./auto_sync_simple.sh ~/Cloud/hadoop-2.6.0/home/hadoop/Cloud/2.4 启动
#cd hadoop-2.6.0#bin/hafs namenode –format
#sbin/start-all.sh
启动界面
在浏览器中打开localhost:8088/cluster和50070端口
2.5 测试集群
制作输入文件$echo hello word>>in1.txt
$echo hekkohadoop>>in2.txt
将输入文件上传到HDFS
$cd ~/Cloud/hadoop-2.6.0;/
$bin/hadoop fs -mkdir /usr
$bin/hadoop fs- mkdir/usr/input
$bin/hadoop fs –put in1.txt/usr/input
$bin/hadoop fs –put in2.txt/usr/input
执行hadoop内置的example测试程序
$bin/hadoop jar ~Cloud/hadoop-2.6.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount /usr/input /usr/output
通过hdfs就可以看到。
3 常见问题
集群防火墙关闭 节点时钟同步
执行权限问题
HDFS缓存问题
4 本章小结
本章对hadoop的安装与部署进行详细讲述。同时也对常见问题进行总结。解决方案找google。相关文章推荐
- 详解HDFS Short Circuit Local Reads
- Spark RDD API详解(一) Map和Reduce
- 使用spark和spark mllib进行股票预测
- Hadoop_2.1.0 MapReduce序列图
- 使用Hadoop搭建现代电信企业架构
- Spark随谈——开发指南(译)
- 单机版搭建Hadoop环境图文教程详解
- Spark,一种快速数据分析替代方案
- 康诺云推出三款智能硬件产品,为健康管理业务搭建数据池
- MySQL中使用innobackupex、xtrabackup进行大数据的备份和还原教程
- hadoop常见错误以及处理方法详解
- hadoop 单机安装配置教程
- hadoop的hdfs文件操作实现上传文件到hdfs
- hadoop实现grep示例分享
- php+ajax导入大数据时产生的问题处理
- C# 大数据导出word的假死报错的处理方法
- Apache Hadoop版本详解
- linux下搭建hadoop环境步骤分享
- hadoop client与datanode的通信协议分析
- hadoop中一些常用的命令介绍