002如何构建hadoop集群环境?
2016-04-26 23:15
399 查看
待我君临天下,结发与蕊可好。@夏瑾墨
实验室机器配置情况:
3台PowerEdge R730 Server
1台PowerEdge R410 Server
1台kvm
1台交换机
我们打算配置三个节点规模的集群,所以我们计划集群有1一个namenode
背景知识:本篇文章介绍如何在一个计算机集群上构建Hadoop系统。hadoop的主体用java语言写成,能够在任意一个安装了jvm(Java Virtual Machine)(Java虚拟机)的平台上运行。
第一部分:系统准备篇
集群规范:
1. 给服务器装linux系统:统一安装版本centos 6.5 64bits
2. 安装java环境:
查看系统安装的java版本:rpm -qa|grep jdk
rpm -qa | grep java
rpm -e –nodeps java-1.6.0-openjdk-1.6.0.0-1.66.1.13.0.el6.x86_64
yum -y remove java-1.6.0-openjdk-1.6.0.0-1.45.1.11.1.el6.i686 或者
rpm -e –nodeps java-1.6.0-openjdk-1.6.0.0-1.45.1.11.1.el6.i686
修改环境变量:vim /etc/profile,增加如下内容:
export JAVA_HOME=/usr/java/jdk1.8.0_25
export CLASSPATH=.:JAVAHOME/jre/lib/rt.jar:JAVA_HOME/lib/dt.jar:
JAVAHOME/lib/tools.jarexportPATH=PATH:$JAVA_HOME/bin
使用java -version 查看java是否安装正确
安装java 输入指令:java -version 检查java是否被正确安装
3.SSH配置实现免密码登录节点
(关键是把datanode的authorized_keys追加到namenode的authorized_keys中)
hadoop控制脚本依赖ssh来执行针对整个集群的操作,因此为了支持无缝工作,建议安装ssh。安装完毕以后,就能够使得hadoop集群节点之间无需键入密码即可登录集群内的机器,进行集群配置,主要有以下几步:
a) 在控制台运行ps –e | grep ssh,如果看到sshd则表示ssh-server已经启动了,跳过b),直接到c)进行操作;否则,进行b)操作;
b) 运行sudo apt-get install openssh-server(服务器)、
sudo apt-get install openssh-client(客户端),进行安装。命令执行结束后,可以使用a)方法进行验证; c)生成RSA公私钥,实现节点之间无密码访问(使得集群的安装环境尽可能一致,可以减少很多配置步骤,因此我们都在root权限下面进行配置): I) 在master上使用root权限登陆系统,并进入/root/.ssh
目录,运行命令ssh-keygen –t rsa,敲回车到底(为操作方便我们选择不要密码),生成id_rsa,id_rsa.pub; II) master使用scp命令将公钥远程复制到salve1和slave2:
复制到slave1:scp -r id_rsa.pub root@slave1:/root/.ssh
复制到slave2:scp -r id_rsa.pub root@slave2:/root/.ssh III) 在slave1和slave2下,将master
传过来的公钥添加到 authorized_keys:
cat id_rsa.pub >> authorized_keys IV) 至此,master到slave1和slave2即实现了无密码登陆
第二部分:安装CDH(Cloudera Distribution Hadoop)管理端
背景知识:
1.Cloudera的CDH和Apache的Hadoop的区别
Hadoop遵从Apache开源协议,用户可以免费地任意使用和修改Hadoop,也正因此,市面上出现了很多Hadoop版本,其中比较出名的一是Cloudera公司的发行版,我们将该版本称为CDH(Cloudera Distribution Hadoop)。
2.CDH支持Yum/Apt包,Tar包,RPM包,Cloudera Manager四种方式安装,Apache hadoop只支持Tar包安装
3.CDH使用推荐的Yum/Apt包安装时,有以下几个好处:
a、联网安装、升级,非常方便 2、自动下载依赖软件包
b、Hadoop生态系统包自动匹配,不需要你寻找与当前Hadoop匹配的Hbase,Flume,Hive等软件,Yum/Apt会根据当前安装Hadoop版本自动寻找匹配版本的软件包,并保证兼容性。
c、自动创建相关目录并软链到合适的地方(如conf和logs等目录);自动创建hdfs, mapred用户,hdfs用户是HDFS的最高权限用户,mapred用户则负责mapreduce执行过程中相关目录的权限
1.检查是否存在httpd服务:service httpd status
2.yum install httpd
1、通过yum源安装以httpd开头的命名的软件包
2、yum install 代表使用yum 源安装,前提需要配置好yum源;
是通配符,这里代表“所有”的意思,httpd就是以httpd开头的,例如httpd-devel、httpd-tools等都会被按装。如果想知道这条命令会按装哪些包,可以用yum search httpd*看下。
3.httpd常用命令如下,供参考:
启动命令:service httpd start
关闭命令:service httpd stop
重启命令:service httpd restart
查看状态:service httpd status
4.下载cm5.2.0-centos6.tar.gz的地址: http://archive-primary.cloudera.com/cm5/repo-as-tarball/5.2.0/
Cd /home/soft/cloudera (cm5.2.0-centos6.tar.gz存储的目录)
解压:tar -zxvf cm5.2.0-centos6.tar.gz
cd /var/www/html ,创建相关目录:mkdir -p cm5/redhat/6/x86_64
cd cm5/redhat/6/x86_64
mv /home/soft/cloudera/cm .
chmod -R ugo+rX cm
访问http:///cm5/redhat/6/x86_64/cm/,测试文件索引页面是否正常,如果页面空白或者为You don’t have permission to access,请检查准备工作中的防火墙和selinux是否关闭
5.
实验室机器配置情况:
3台PowerEdge R730 Server
1台PowerEdge R410 Server
1台kvm
1台交换机
我们打算配置三个节点规模的集群,所以我们计划集群有1一个namenode
背景知识:本篇文章介绍如何在一个计算机集群上构建Hadoop系统。hadoop的主体用java语言写成,能够在任意一个安装了jvm(Java Virtual Machine)(Java虚拟机)的平台上运行。
第一部分:系统准备篇
集群规范:
1. 给服务器装linux系统:统一安装版本centos 6.5 64bits
2. 安装java环境:
查看系统安装的java版本:rpm -qa|grep jdk
rpm -qa | grep java
rpm -e –nodeps java-1.6.0-openjdk-1.6.0.0-1.66.1.13.0.el6.x86_64
yum -y remove java-1.6.0-openjdk-1.6.0.0-1.45.1.11.1.el6.i686 或者
rpm -e –nodeps java-1.6.0-openjdk-1.6.0.0-1.45.1.11.1.el6.i686
修改环境变量:vim /etc/profile,增加如下内容:
export JAVA_HOME=/usr/java/jdk1.8.0_25
export CLASSPATH=.:JAVAHOME/jre/lib/rt.jar:JAVA_HOME/lib/dt.jar:
JAVAHOME/lib/tools.jarexportPATH=PATH:$JAVA_HOME/bin
使用java -version 查看java是否安装正确
安装java 输入指令:java -version 检查java是否被正确安装
[root@hadoop-02 ~]# java -version java version "1.7.0_80" Java(TM) SE Runtime Environment (build 1.7.0_80-b15) Java HotSpot(TM) 64-Bit Server VM (build 24.80-b11, mixed mode)
3.SSH配置实现免密码登录节点
(关键是把datanode的authorized_keys追加到namenode的authorized_keys中)
hadoop控制脚本依赖ssh来执行针对整个集群的操作,因此为了支持无缝工作,建议安装ssh。安装完毕以后,就能够使得hadoop集群节点之间无需键入密码即可登录集群内的机器,进行集群配置,主要有以下几步:
a) 在控制台运行ps –e | grep ssh,如果看到sshd则表示ssh-server已经启动了,跳过b),直接到c)进行操作;否则,进行b)操作;
b) 运行sudo apt-get install openssh-server(服务器)、
sudo apt-get install openssh-client(客户端),进行安装。命令执行结束后,可以使用a)方法进行验证; c)生成RSA公私钥,实现节点之间无密码访问(使得集群的安装环境尽可能一致,可以减少很多配置步骤,因此我们都在root权限下面进行配置): I) 在master上使用root权限登陆系统,并进入/root/.ssh
目录,运行命令ssh-keygen –t rsa,敲回车到底(为操作方便我们选择不要密码),生成id_rsa,id_rsa.pub; II) master使用scp命令将公钥远程复制到salve1和slave2:
复制到slave1:scp -r id_rsa.pub root@slave1:/root/.ssh
复制到slave2:scp -r id_rsa.pub root@slave2:/root/.ssh III) 在slave1和slave2下,将master
传过来的公钥添加到 authorized_keys:
cat id_rsa.pub >> authorized_keys IV) 至此,master到slave1和slave2即实现了无密码登陆
第二部分:安装CDH(Cloudera Distribution Hadoop)管理端
背景知识:
1.Cloudera的CDH和Apache的Hadoop的区别
Hadoop遵从Apache开源协议,用户可以免费地任意使用和修改Hadoop,也正因此,市面上出现了很多Hadoop版本,其中比较出名的一是Cloudera公司的发行版,我们将该版本称为CDH(Cloudera Distribution Hadoop)。
2.CDH支持Yum/Apt包,Tar包,RPM包,Cloudera Manager四种方式安装,Apache hadoop只支持Tar包安装
3.CDH使用推荐的Yum/Apt包安装时,有以下几个好处:
a、联网安装、升级,非常方便 2、自动下载依赖软件包
b、Hadoop生态系统包自动匹配,不需要你寻找与当前Hadoop匹配的Hbase,Flume,Hive等软件,Yum/Apt会根据当前安装Hadoop版本自动寻找匹配版本的软件包,并保证兼容性。
c、自动创建相关目录并软链到合适的地方(如conf和logs等目录);自动创建hdfs, mapred用户,hdfs用户是HDFS的最高权限用户,mapred用户则负责mapreduce执行过程中相关目录的权限
1.检查是否存在httpd服务:service httpd status
2.yum install httpd
1、通过yum源安装以httpd开头的命名的软件包
2、yum install 代表使用yum 源安装,前提需要配置好yum源;
是通配符,这里代表“所有”的意思,httpd就是以httpd开头的,例如httpd-devel、httpd-tools等都会被按装。如果想知道这条命令会按装哪些包,可以用yum search httpd*看下。
3.httpd常用命令如下,供参考:
启动命令:service httpd start
关闭命令:service httpd stop
重启命令:service httpd restart
查看状态:service httpd status
4.下载cm5.2.0-centos6.tar.gz的地址: http://archive-primary.cloudera.com/cm5/repo-as-tarball/5.2.0/
Cd /home/soft/cloudera (cm5.2.0-centos6.tar.gz存储的目录)
解压:tar -zxvf cm5.2.0-centos6.tar.gz
cd /var/www/html ,创建相关目录:mkdir -p cm5/redhat/6/x86_64
cd cm5/redhat/6/x86_64
mv /home/soft/cloudera/cm .
chmod -R ugo+rX cm
访问http:///cm5/redhat/6/x86_64/cm/,测试文件索引页面是否正常,如果页面空白或者为You don’t have permission to access,请检查准备工作中的防火墙和selinux是否关闭
5.
相关文章推荐
- Spark集群搭建——Hadoop2.4.1集群搭建
- 高可用,完全分布式Hadoop集群HDFS和MapReduce安装配置指南
- Hadoop集群在百度的应用
- 虚拟机下32位CentOs版本的linux下hadoop2.4.1集群搭建(3个节点版本)
- Hadoop集群搭建工作日志
- Hadoop安装教程_单机/伪分布式配置_Ubuntu 14.04/Hadoop 2.4.1
- Hadoop作业提交多种方案具体流程详解
- centos6.5平台下Hadoop集群部署
- hadoop集群HA模式的切换尝试初识
- Hadoop虚拟机固定Ip上网
- 分布式集群环境hadoop1.2.0、hbase0.94.4、zookeeper、elasticsearch搭建
- hadoop学习笔记1:实现ssh免密码登录
- hadoop学习笔记2:hadoop分布式环境搭建
- hadoop学习笔记3:shell下的hdfs操作
- hadoop学习笔记4:java实现hdfs -ls/-lsr
- Hadoop集群系列教程之我眼中的Hadoop(一)
- 传智播客hadoop7天视频教程(非吴超版本)
- 吴超大数据高薪就业班二期和三期(官方培训费11000)
- hadoop-1.0.4 hbase-0.94.10 zookeeper-3.4.5集群配置
- HadoopHbaseZookeeper集群