您的位置:首页 > Web前端 > HTML5

离线安装CDH5集群及相关软件

2016-02-07 11:56 597 查看
离线安装CDH5集群及相关软件

一、CDH的三种安装方法

官方共给出了3中安装方式:
第一种方法:必须要求所有机器都能连网。这种方法的最大弊端就是安装过程中,总是因为网络超时,导致安装失败。
第二种方法:需要下载很多包。
第三种方法:对系统侵入性最小,最大优点可实现全离线安装,而且重装什么的都非常方便。后期的集群统一包升级也非常好。所以,选择离线安装。
相关包的下载可以在Cloudera的官网上下载即可。需要下载的软件及包,如下:CDH5.0、Hbase0.96.1.1、Hive0.12.0、Pig0.12.0、zookeeper3.4.5、CDH-5.0.0-1.cdh5.0.0.p0.47-el6.parcel、CDH-5.0.0-1.cdh5.0.0.p0.47-el6.parcel.sha1、manifest.json、mysql和mysql-connector-java-5.1.33-bin.jar。

二、选择CDH原因

CDH (Cloudera's Distribution,including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。
Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的组件,对集群中主机、Hadoop、Hive、Spark等服务的安装配置管理做了极大简化。

三、系统环境

· 环境: VBox虚拟机
· 操作系统:凝思4.2 x64
内存4G。
注意:如果内存低于2G,安装过程中直接卡死了;因为,CDH的所有组件全部安装会占用很多内存。
· Cloudera Manager:5.0.0
· CDH: 5.0.0
注意 :安装CDH5与CDH4的是不同的,在安装CDH4的时候还需要下载IMPALA、Cloudera Search(SOLR);但是CDH5中将他们包含在一起了,所以只需要下载一个CDH5的包就可以了。
ip地址
hostname
描述信息
192.168.1.101
n1namenode
Namenode节点
192.168.1.102
n2mysql
CM,管理节点
192.168.1.103
n3
节点1
192.168.1.104
n4
节点2
192.168.1.105
n5
节点3
192.168.1.106
n6
节点4
注意:在上面的六个节点中安装CDH和CM之前,要先安装好凝思操作系统(国产OS),并配置好网络和硬件等。

四、安装

1、准备工作:系统环境搭建

注意:以下操作均用root用户操作。

1. 配置网络(所有节点)

修改hostname,即修改主机名:
vi/etc/sysconfig/network
NETWORKING=yes

HOSTNAME=n1namenode
重启网络服务:service network restart

修改IP与主机名的映射关系(所有节点):
vi/etc/hosts

192.168.1.101 n1namenode

192.168.1.102 n2mysql

192.168.1.103 n3
192.168.1.104 n4

192.168.1.105 n5

192.168.1.106 n6
注意: 这里需要将每台机器的ip及主机名对应关系都写进去,本机的也要写进去,否则启动Agent的时候会提示hostname解析错误。

2.配置信任关系(所有节点)

打通SSH,设置ssh无密码登陆:配置主节点到所有子节点的无密码登录
1)、在主节点上执行:
ssh-keygen-t rsa
注意:默认一路回车,生成无密码的密钥对。
2)、将公钥添加到认证文件中:
cat~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
3)、设置authorized_keys的访问权限:
chmod600 ~/.ssh/authorized_keys 。
4)、拷贝到所有的子节点:scp文件到所有datenode节点
scp~/.ssh/authorized_keys root@n2:~/.ssh/
测试:在主节点上登录子节点,例如ssh n2,正常情况下,不需要密码就能直接登陆进去了。

注意:需要在另外几台子节点上创建 .ssh 文件夹,否则在拷贝的过程中会报错scp: /root/.ssh/authorized_keys: No such file or directory

3.安装Java(所有节点)

注意:操作系统如果自带了JDK,最好是卸载了以后重新安装JDK7。
去Oracle的官网下载jdk的rpm安装包,并使用 rpm -ivh
包名 安装之。
由于是rpm包并不需要我们来配置环境变量,我们只需要配置一个全局的JAVA_HOME变量即可,执行命令:
echo"JAVA_HOME=/usr/java/latest/" >> /etc/profile

4.安装配置MySql(cm管理节点)

Hive需要使用一个关系数据库作为Metastore数据库,使用hive自带的嵌入式数据库debby存在性能问题;所以,需要在n2mysql节点上安装一个mysql数据库,创建数据库
hive数据库。有关mysql的安装具体过程以及配置参数,这里不过多介绍了:

1)、安装mysql: yum install mysql-server
2)、设置mysql开机启动: chkconfig mysqld on
3)、启动mysql服务: servicemysqld start
4)、设置root的初试密码: mysqladmin -u root password 'mysql' 。
5)、登录mysql并创建以下数据库:mysqlmysql -uroot -pmysql
#hive

create database hive DEFAULT CHARSET utf8
COLLATE
utf8_general_ci;

#activity monitor

create database amon DEFAULT CHARSET utf8
COLLATE
utf8_general_ci;
6)、给root用户授权:

#授权root用户在主节点拥有所有数据库的访问权限

grant all privileges on *.* to
'root'@'n2mysql'identified
by 'xxxx'
with grant option;

flush privileges;

5.关闭防火墙和SELinux(所有节点)

注意:需要在所有的节点上执行,因为涉及到的端口太多了,临时关闭防火墙是为了安装起来更方便,安装完毕后可以根据需要设置防火墙策略,保证集群安全。
1)、关闭防火墙:
serviceiptables stop
(临时关闭)

chkconfig iptables off (重启后生效)
2)、关闭SELINUX:
setenforce0
(临时生效)

vi /etc/selinux/config
SELINUX=disabled(重启后永久生效)

6.配置NTP服务(所有节点)

说明:集群中所有主机必须保持时间同步,如果时间相差较大会引起各种问题。 具体思路如下:master节点作为ntp服务器与外界对时中心同步时间,随后对所有datanode节点提供时间同步服务。所有datanode节点以master节点为基础同步时间。
1)、所有节点安装相关组件: yuminstall ntp 。
2)、配置开机启动: chkconfigntpd on
3)、检查是否设置成功: chkconfig--list ntpd
注意:其中2-5为on状态就代表成功。
4)、主节点配置
在配置之前,先使用ntpdate手动同步一下时间,免得本机与对时中心时间差距太大,使得ntpd不能正常同步。这里选用65.55.56.206作为对时中心, ntpdate-u 65.55.56.206 。
ntp服务只有一个配置文件,配置好了就OK。 这里只给出有用的配置,不需要的配置都用#注掉:
driftfile/var/lib/ntp/drift

restrict 127.0.0.1

restrict -6 ::1

restrict default nomodify notrap

server 65.55.56.206 prefer

includefile /etc/ntp/crypto/pw

keys /etc/ntp/keys
启动服务,执行如下命令: service ntpd start
检查是否成功:用ntpstat查看同步状态,出现以下状态代表启动成功
synchronisedto NTP server () at stratum
2

time correct to within 74 ms

polling server every 128
s
如果出现异常请等待几分钟,一般等待5-10分钟才能同步。
5)、配置ntp客户端(所有datanode节点)
driftfile/var/lib/ntp/drift

restrict 127.0.0.1

restrict -6 ::1

restrict default kod nomodify notrap nopeer noquery

restrict -6
default kod nomodify notrap nopeer noquery

#这里是主节点的主机名或者ip

server n1namenode

includefile /etc/ntp/crypto/pw

keys /etc/ntp/keys
手动同步一下时间: ntpdate -u n1namenode (主节点ntp服务器)
注意:这里可能出现同步失败的情况,请不要着急,一般是本地的ntp服务器还没有正常启动,一般需要等待5-10分钟才可以正常同步。
启动服务: service ntpd start
因为是连接内网,这次启动等待的时间会比master节点快一些,但是也需要耐心等待一会儿。

2、安装Cloudera ManagerServer 和Agent

1、主节点解压安装:cloudera manager的目录默认位置在/opt下

解压: tar xzvf cloudera-manager*.tar.gz –C /opt
注意:将解压后的cm和cloudera目录放到/opt目录下。

2、为Cloudera Manager 5建立数据库

1)、首先需要去MySql的官网下载JDBC驱动, http://dev.mysql.com/downloads/connector/j/
2)、解压后把mysql-connector-java-5.1.33-bin.jar
放到/opt/cm-5.0.0/share/cmf/lib/中。
3)、在主节点初始化CM5的数据库:
/opt/cm-5.0.0/share/cmf/schema/scm_prepare_database.shmysql cm -hlocalhost -uroot -pxxxx
--scm-hostlocalhost scm scm scm

3、Agent配置

1)、修改/opt/cm-5.0.0/etc/cloudera-scm-agent/config.ini中的server_host为主节点的主机名。
2)、同步Agent到其他节点
scp-r /opt/cm-5.0.0 root@n2mysql:/opt/

3)、在所有节点创建cloudera-scm用户
useradd--system --home=/opt/cm-5.0.0/run/cloudera-scm-server/ --no-create-home--shell=/bin/false
--comment "ClouderaSCM User" cloudera-scm

4、准备Parcels,用以安装CDH5和其他软件

将CHD5相关的Parcel包放到主节点的/opt/cloudera/parcel-repo/目录中(parcel-repo需要手动创建)。
相关的文件如下:
CDH-5.0.0-1.cdh5.0.0.p0.47-el6.parcel
CDH-5.0.0-1.cdh5.0.0.p0.47-el6.parcel.sha1
manifest.json
最后将CDH-5.0.0-1.cdh5.0.0.p0.47-el6.parcel.sha1
,重命名为CDH-5.0.0-1.cdh5.0.0.p0.47-el6.parcel.sha1
.sha
注意:否则,系统会重新下载CDH-5.1.3-1.cdh5.1.3.p0.12-el6.parcel文件。

5、相关启动脚本

启动服务端:/opt/cm-5.0.0/etc/init.d/cloudera-scm-server start
启动Agent服务:/opt/cm-5.0.0/etc/init.d/cloudera-scm-agent start
注意:start为启动参数,stop为停止参数,restart为重启参数。

3、CDH5和其他软件的安装配置

1、启动Cloudera Manager Server和Agent,并登陆

都启动以后,就可以进行CDH5的安装配置了;这时可以通过浏览器访问主节点的7180端口测试一下了(由于CM Server的启动需要花点时间,这里可能要等待一会才能访问),默认的用户名和密码均为admin。

2、登录后选择Cloudera Express

登录以后可以看到:有免费版的ClouderaExpress
和收费版的Cloudera Enterprise(可以试用60天);这时候根据自己的需要去选择,基本上免费版的就可以够用的了。
注意:免费版本的CM5已经没有原来50个节点数量的限制了。

3、列出了可供选择的安装包列表

4、启动Agent节点:为CDH集群指定主机

各个Agent节点正常启动后,输入 192.168.1.[103-106],根据自已网络情况进行调整,然后点击搜索。可以在当前管理的主机列表中看到对应的节点,选择要安装的节点,点继续。

5、进入添加主机向导:确定Parcel包的配置

使用parcel安装方式,parcel下载路径不用修改。选择CDH的安装包,并确定本地Parcel包配置无误,直接点继续就可以了。

6、CM的自动分配

注意:不需要java加密,保留默认值。输入root的密码,所有节点的root密码是一致的,同时安装的数据默认为10。

如果配置本地Parcel包无误,那么CDH包的下载,应该是瞬间就完成了,然后就是耐心等待分配过程就行了,大约10多分钟吧,取决于内网网速。
注意:如果在进行节点CM管理程序安装过程中出现问题,请检查主机名和IP的配置是否正确。

7、安装主机完成,服务器检查

会对主机进行检查,有个 swappness
需要调整,如果是真实服务器,请将 swappness修改为0,尽量不使用交换分区。

注意:可能会遇到以下问题
Cloudera建议将 /proc/sys/vm/swappiness
设置为 0。当前设置为 60。使用sysctl 命令在运行时更改该设置并编辑 /etc/sysctl.conf 以在重启后保存该设置。您可以继续进行安装,但可能会遇到问题,Cloudera Manager 报告您的主机由于交换运行状况不佳。以下主机受到影响:
通过 echo 0 > /proc/sys/vm/swappiness 即可解决。

8、选择安装服务:

一般是选择所有服务进行安装,但是,也可以自定义安装的服务;同时,也可以根据自己的需要选择服务,例如:核心Hadoop或含spark的内核等。

9、服务配置

一般情况下保持默认的节点角色配置就可以了(ClouderaManager会根据机器的配置自动进行配置,如果需要特殊调整,自行进行设置就可以了):

10、设置数据库

选择自定义数据库,填写连接信息,包括:数据库的主机名、数据库类型、用户和密码,并点击测试连接按钮进行测试。

11、设置集群的审查页面:

注意:这里最好都是保持默认配置。

12、添加服务:保留默认值

注意,这里安装Hive的时候可能会报错,因为我们使用了MySql作为hive的元数据存储,hive默认没有带mysql的驱动。
通过以下命令拷贝一个即可:最好是提前拷贝好
cp/opt/cm-5.0.0/share/cmf/lib/mysql-connector-java-5.1.33-bin.jar /opt/cloudera/parcels/CDH-5.1.3-1.cdh5.1.3.p0.12/lib/hive/lib/

注意:首次启动服务的时间比较长,服务的安装过程大约半小时可以完成。

13、查看集群的当前状况

安装完成后,就可以进入集群界面看一下集群的当前状况了。
注意:这里可能会出现
无法发出查询:对 ServiceMonitor 的请求超时 的错误提示,如果各个组件安装没有问题,一般是因为服务器比较卡导致的,过一会刷新一下页面就好了。

14、测试

在集群的一台机器上执行以下模拟Pi的示例程序:
sudo-u hdfs hadoop jar/opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi10100
执行过程需要花一定的时间,通过YARN的后台也可以看到MapReduce的执行状态:

MapReduce执行过程中终端的输出如下:
Numberof Maps =
10

Samples per Map = 100

Wrote input for Map #0

Wrote input for Map #1

Wrote input for Map #2

Wrote input for Map #3

Wrote input for Map #4

Wrote input for Map #5

Wrote input for Map #6

Wrote input for Map #7

Wrote input for Map #8

Wrote input for Map #9

Starting Job

14/03/1301:15:34
INFO client.RMProxy: Connecting to ResourceManager at n1namenode/192.168.1.101:8032

14/03/1301:15:36
INFO input.FileInputFormat: Total input paths to process: 10

14/03/1301:15:37
INFO mapreduce.JobSubmitter: number of splits:10

14/03/1301:15:39
INFO mapreduce.JobSubmitter: Submitting tokens forjob: job_1413132307582_0001

14/03/1301:15:40
INFO impl.YarnClientImpl: Submitted applicationapplication_1413132307582_0001

14/03/1301:15:40
INFO mapreduce.Job: The url to track the job: http://n1:8088/proxy/application_1413132307582_0001/

14/03/1301:15:40
INFO mapreduce.Job: Running job: job_1413132307582_0001

14/03/1301:17:13
INFO mapreduce.Job: Job job_1413132307582_0001 runningin uber mode : false

14/03/1301:17:13
INFO mapreduce.Job: map 0% reduce
0%

14/03/1301:18:02
INFO mapreduce.Job: map 10% reduce
0%

14/03/1301:18:25
INFO mapreduce.Job: map 20% reduce
0%

14/03/1301:18:35
INFO mapreduce.Job: map 30% reduce
0%

14/03/1301:18:45
INFO mapreduce.Job: map 40% reduce
0%

14/03/1301:18:53
INFO mapreduce.Job: map 50% reduce
0%

14/03/1301:19:01
INFO mapreduce.Job: map 60% reduce
0%

14/03/1301:19:09
INFO mapreduce.Job: map 70% reduce
0%

14/03/1301:19:17
INFO mapreduce.Job: map 80% reduce
0%

14/03/1301:19:25
INFO mapreduce.Job: map 90% reduce
0%

14/03/1301:19:33
INFO mapreduce.Job: map 100% reduce
0%

14/03/1301:19:51
INFO mapreduce.Job: map 100% reduce
100%

14/03/1301:19:53
INFO mapreduce.Job: Job job_1413132307582_0001 completedsuccessfully

14/03/1301:19:56
INFO mapreduce.Job: Counters: 49

File System Counters

FILE: Number of bytes read=91

FILE: Number of bytes written=1027765

FILE: Number of readoperations=0

FILE: Number of large readoperations=0

FILE: Number of writeoperations=0

HDFS: Number of bytes read=2560

HDFS: Number of bytes written=215

HDFS: Number of readoperations=43

HDFS: Number of large readoperations=0

HDFS: Number of writeoperations=3

Job Counters

Launched map tasks=10

Launched reduce tasks=1

Data-local map tasks=10

Total time spent by all mapsin occupied slots (ms)=118215

Total time spent by allreduces in occupied slots (ms)=11894

Total time spent by all maptasks (ms)=118215

Total time spent by all reducetasks (ms)=11894

Total vcore-seconds taken by all maptasks=118215

Total vcore-seconds taken by allreduce tasks=11894

Total megabyte-seconds taken by all maptasks=121052160

Total megabyte-seconds taken by allreduce tasks=12179456

Map-Reduce Framework

Map input records=10

Map output records=20

Map output bytes=180

Map output materialized bytes=340

Input split bytes=1380

Combine input records=0

Combine output records=0

Reduce input groups=2

Reduce shuffle bytes=340

Reduce input records=20

Reduce output records=0

Spilled Records=40

Shuffled Maps =10

Failed Shuffles=0

Merged Map outputs=10

GC time elapsed (ms)=1269

CPU time spent (ms)=9530

Physical memory (bytes) snapshot=3792773120

Virtual memory (bytes) snapshot=16157274112

Total committed heap usage (bytes)=2856624128

Shuffle Errors

BAD_ID=0

CONNECTION=0

IO_ERROR=0

WRONG_LENGTH=0

WRONG_MAP=0

WRONG_REDUCE=0

File Input Format Counters

Bytes Read=1180

File Output Format Counters

Bytes Written=97

Job Finished in 262.659 seconds

Estimated value of Pi is 3.14800000000000000000
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: