您的位置：首页 > Web前端 > HTML5

离线安装CDH5集群及相关软件

2016-02-07 11:56 597 查看

离线安装CDH5集群及相关软件

一、CDH的三种安装方法

官方共给出了3中安装方式：
第一种方法：必须要求所有机器都能连网。这种方法的最大弊端就是安装过程中，总是因为网络超时，导致安装失败。
第二种方法：需要下载很多包。
第三种方法：对系统侵入性最小,最大优点可实现全离线安装，而且重装什么的都非常方便。后期的集群统一包升级也非常好。所以，选择离线安装。
相关包的下载可以在Cloudera的官网上下载即可。需要下载的软件及包，如下：CDH5.0、Hbase0.96.1.1、Hive0.12.0、Pig0.12.0、zookeeper3.4.5、CDH-5.0.0-1.cdh5.0.0.p0.47-el6.parcel、CDH-5.0.0-1.cdh5.0.0.p0.47-el6.parcel.sha1、manifest.json、mysql和mysql-connector-java-5.1.33-bin.jar。

二、选择CDH原因

CDH (Cloudera's Distribution,including Apache Hadoop)，是Hadoop众多分支中的一种，由Cloudera维护，基于稳定版本的Apache Hadoop构建，并集成了很多补丁，可直接用于生产环境。
Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的组件，对集群中主机、Hadoop、Hive、Spark等服务的安装配置管理做了极大简化。

三、系统环境

· 环境： VBox虚拟机
· 操作系统：凝思4.2 x64
内存4G。
注意：如果内存低于2G，安装过程中直接卡死了；因为，CDH的所有组件全部安装会占用很多内存。
· Cloudera Manager：5.0.0
· CDH: 5.0.0
注意：安装CDH5与CDH4的是不同的，在安装CDH4的时候还需要下载IMPALA、Cloudera Search(SOLR)；但是CDH5中将他们包含在一起了，所以只需要下载一个CDH5的包就可以了。

ip地址	hostname	描述信息
192.168.1.101	n1namenode	Namenode节点
192.168.1.102	n2mysql	CM，管理节点
192.168.1.103	n3	节点1
192.168.1.104	n4	节点2
192.168.1.105	n5	节点3
192.168.1.106	n6	节点4

注意：在上面的六个节点中安装CDH和CM之前，要先安装好凝思操作系统（国产OS），并配置好网络和硬件等。

四、安装

1、准备工作：系统环境搭建

注意：以下操作均用root用户操作。

1. 配置网络(所有节点)

修改hostname，即修改主机名：
vi/etc/sysconfig/network
NETWORKING=yes

HOSTNAME=n1namenode
重启网络服务：service network restart

修改IP与主机名的映射关系（所有节点）：
vi/etc/hosts

192.168.1.101 n1namenode

192.168.1.102 n2mysql

192.168.1.103 n3
192.168.1.104 n4

192.168.1.105 n5

192.168.1.106 n6
注意： 这里需要将每台机器的ip及主机名对应关系都写进去，本机的也要写进去，否则启动Agent的时候会提示hostname解析错误。

2.配置信任关系（所有节点）

打通SSH，设置ssh无密码登陆：配置主节点到所有子节点的无密码登录
1）、在主节点上执行：
ssh-keygen-t rsa
注意：默认一路回车，生成无密码的密钥对。
2）、将公钥添加到认证文件中：
cat~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
3）、设置authorized_keys的访问权限：
chmod600 ~/.ssh/authorized_keys 。
4）、拷贝到所有的子节点：scp文件到所有datenode节点
scp~/.ssh/authorized_keys root@n2:~/.ssh/
测试：在主节点上登录子节点，例如ssh n2，正常情况下，不需要密码就能直接登陆进去了。

注意：需要在另外几台子节点上创建 .ssh 文件夹，否则在拷贝的过程中会报错scp: /root/.ssh/authorized_keys: No such file or directory

3.安装Java（所有节点）

注意：操作系统如果自带了JDK，最好是卸载了以后重新安装JDK7。
去Oracle的官网下载jdk的rpm安装包，并使用 rpm -ivh
包名安装之。
由于是rpm包并不需要我们来配置环境变量，我们只需要配置一个全局的JAVA_HOME变量即可，执行命令：
echo"JAVA_HOME=/usr/java/latest/" >> /etc/profile

4.安装配置MySql（cm管理节点）

Hive需要使用一个关系数据库作为Metastore数据库，使用hive自带的嵌入式数据库debby存在性能问题；所以，需要在n2mysql节点上安装一个mysql数据库，创建数据库
hive数据库。有关mysql的安装具体过程以及配置参数，这里不过多介绍了：

1）、安装mysql： yum install mysql-server
2）、设置mysql开机启动： chkconfig mysqld on
3）、启动mysql服务： servicemysqld start
4）、设置root的初试密码： mysqladmin -u root password 'mysql' 。
5）、登录mysql并创建以下数据库：mysqlmysql -uroot -pmysql
#hive

create database hive DEFAULT CHARSET utf8
COLLATEutf8_general_ci;

#activity monitor

create database amon DEFAULT CHARSET utf8
COLLATEutf8_general_ci;
6）、给root用户授权：

#授权root用户在主节点拥有所有数据库的访问权限

grant all privileges on *.* to
'root'@'n2mysql'identified
by 'xxxx'
with grant option;

flush privileges;

5.关闭防火墙和SELinux（所有节点）

注意：需要在所有的节点上执行，因为涉及到的端口太多了，临时关闭防火墙是为了安装起来更方便，安装完毕后可以根据需要设置防火墙策略，保证集群安全。
1）、关闭防火墙：
serviceiptables stop
（临时关闭）

chkconfig iptables off （重启后生效）
2）、关闭SELINUX:
setenforce0
（临时生效）

vi /etc/selinux/config
SELINUX=disabled（重启后永久生效）

6.配置NTP服务(所有节点)

说明：集群中所有主机必须保持时间同步，如果时间相差较大会引起各种问题。具体思路如下：master节点作为ntp服务器与外界对时中心同步时间，随后对所有datanode节点提供时间同步服务。所有datanode节点以master节点为基础同步时间。
1）、所有节点安装相关组件： yuminstall ntp 。
2）、配置开机启动： chkconfigntpd on
3）、检查是否设置成功： chkconfig--list ntpd
注意：其中2-5为on状态就代表成功。
4）、主节点配置
在配置之前，先使用ntpdate手动同步一下时间，免得本机与对时中心时间差距太大，使得ntpd不能正常同步。这里选用65.55.56.206作为对时中心, ntpdate-u 65.55.56.206 。
ntp服务只有一个配置文件，配置好了就OK。这里只给出有用的配置，不需要的配置都用#注掉：
driftfile/var/lib/ntp/drift

restrict 127.0.0.1

restrict -6 ::1

restrict default nomodify notrap

server 65.55.56.206 prefer

includefile /etc/ntp/crypto/pw

keys /etc/ntp/keys
启动服务，执行如下命令： service ntpd start
检查是否成功：用ntpstat查看同步状态，出现以下状态代表启动成功
synchronisedto NTP server () at stratum
2

time correct to within 74 ms

polling server every 128
s
如果出现异常请等待几分钟，一般等待5-10分钟才能同步。
5）、配置ntp客户端（所有datanode节点）
driftfile/var/lib/ntp/drift

restrict 127.0.0.1

restrict -6 ::1

restrict default kod nomodify notrap nopeer noquery

restrict -6
default kod nomodify notrap nopeer noquery

#这里是主节点的主机名或者ip

server n1namenode

includefile /etc/ntp/crypto/pw

keys /etc/ntp/keys
手动同步一下时间： ntpdate -u n1namenode (主节点ntp服务器)
注意：这里可能出现同步失败的情况，请不要着急，一般是本地的ntp服务器还没有正常启动，一般需要等待5-10分钟才可以正常同步。
启动服务： service ntpd start
因为是连接内网，这次启动等待的时间会比master节点快一些，但是也需要耐心等待一会儿。

2、安装Cloudera ManagerServer 和Agent

1、主节点解压安装：cloudera manager的目录默认位置在/opt下

解压： tar xzvf cloudera-manager*.tar.gz –C /opt
注意：将解压后的cm和cloudera目录放到/opt目录下。

2、为Cloudera Manager 5建立数据库

1）、首先需要去MySql的官网下载JDBC驱动， http://dev.mysql.com/downloads/connector/j/
2）、解压后把mysql-connector-java-5.1.33-bin.jar
放到/opt/cm-5.0.0/share/cmf/lib/中。
3）、在主节点初始化CM5的数据库：
/opt/cm-5.0.0/share/cmf/schema/scm_prepare_database.shmysql cm -hlocalhost -uroot -pxxxx
--scm-hostlocalhost scm scm scm

3、Agent配置

1）、修改/opt/cm-5.0.0/etc/cloudera-scm-agent/config.ini中的server_host为主节点的主机名。
2）、同步Agent到其他节点
scp-r /opt/cm-5.0.0 root@n2mysql:/opt/
…
3）、在所有节点创建cloudera-scm用户
useradd--system --home=/opt/cm-5.0.0/run/cloudera-scm-server/ --no-create-home--shell=/bin/false
--comment "ClouderaSCM User" cloudera-scm

4、准备Parcels，用以安装CDH5和其他软件

将CHD5相关的Parcel包放到主节点的/opt/cloudera/parcel-repo/目录中（parcel-repo需要手动创建）。
相关的文件如下：
CDH-5.0.0-1.cdh5.0.0.p0.47-el6.parcel
CDH-5.0.0-1.cdh5.0.0.p0.47-el6.parcel.sha1
manifest.json
最后将CDH-5.0.0-1.cdh5.0.0.p0.47-el6.parcel.sha1
，重命名为CDH-5.0.0-1.cdh5.0.0.p0.47-el6.parcel.sha1
.sha
注意：否则，系统会重新下载CDH-5.1.3-1.cdh5.1.3.p0.12-el6.parcel文件。

5、相关启动脚本

启动服务端：/opt/cm-5.0.0/etc/init.d/cloudera-scm-server start
启动Agent服务：/opt/cm-5.0.0/etc/init.d/cloudera-scm-agent start
注意：start为启动参数，stop为停止参数，restart为重启参数。

3、CDH5和其他软件的安装配置

1、启动Cloudera Manager Server和Agent，并登陆

都启动以后，就可以进行CDH5的安装配置了；这时可以通过浏览器访问主节点的7180端口测试一下了（由于CM Server的启动需要花点时间，这里可能要等待一会才能访问），默认的用户名和密码均为admin。

2、登录后选择Cloudera Express

登录以后可以看到：有免费版的ClouderaExpress
和收费版的Cloudera Enterprise（可以试用60天）；这时候根据自己的需要去选择，基本上免费版的就可以够用的了。
注意：免费版本的CM5已经没有原来50个节点数量的限制了。

3、列出了可供选择的安装包列表

4、启动Agent节点：为CDH集群指定主机

各个Agent节点正常启动后，输入 192.168.1.[103-106]，根据自已网络情况进行调整，然后点击搜索。可以在当前管理的主机列表中看到对应的节点，选择要安装的节点，点继续。

5、进入添加主机向导：确定Parcel包的配置

使用parcel安装方式，parcel下载路径不用修改。选择CDH的安装包，并确定本地Parcel包配置无误，直接点继续就可以了。

6、CM的自动分配

注意：不需要java加密，保留默认值。输入root的密码，所有节点的root密码是一致的，同时安装的数据默认为10。

如果配置本地Parcel包无误，那么CDH包的下载，应该是瞬间就完成了，然后就是耐心等待分配过程就行了，大约10多分钟吧，取决于内网网速。
注意：如果在进行节点CM管理程序安装过程中出现问题，请检查主机名和IP的配置是否正确。

7、安装主机完成，服务器检查

会对主机进行检查，有个 swappness
需要调整，如果是真实服务器，请将 swappness修改为0，尽量不使用交换分区。

注意：可能会遇到以下问题
Cloudera建议将 /proc/sys/vm/swappiness
设置为 0。当前设置为 60。使用sysctl 命令在运行时更改该设置并编辑 /etc/sysctl.conf 以在重启后保存该设置。您可以继续进行安装，但可能会遇到问题，Cloudera Manager 报告您的主机由于交换运行状况不佳。以下主机受到影响：
通过 echo 0 > /proc/sys/vm/swappiness 即可解决。

8、选择安装服务：

一般是选择所有服务进行安装，但是，也可以自定义安装的服务；同时，也可以根据自己的需要选择服务，例如：核心Hadoop或含spark的内核等。

9、服务配置

一般情况下保持默认的节点角色配置就可以了（ClouderaManager会根据机器的配置自动进行配置，如果需要特殊调整，自行进行设置就可以了）：

10、设置数据库

选择自定义数据库，填写连接信息，包括：数据库的主机名、数据库类型、用户和密码，并点击测试连接按钮进行测试。

11、设置集群的审查页面：

注意：这里最好都是保持默认配置。

12、添加服务：保留默认值

注意，这里安装Hive的时候可能会报错，因为我们使用了MySql作为hive的元数据存储，hive默认没有带mysql的驱动。
通过以下命令拷贝一个即可：最好是提前拷贝好
cp/opt/cm-5.0.0/share/cmf/lib/mysql-connector-java-5.1.33-bin.jar /opt/cloudera/parcels/CDH-5.1.3-1.cdh5.1.3.p0.12/lib/hive/lib/

注意：首次启动服务的时间比较长，服务的安装过程大约半小时可以完成。

13、查看集群的当前状况

安装完成后，就可以进入集群界面看一下集群的当前状况了。
注意：这里可能会出现
无法发出查询：对 ServiceMonitor 的请求超时的错误提示，如果各个组件安装没有问题，一般是因为服务器比较卡导致的，过一会刷新一下页面就好了。

14、测试

在集群的一台机器上执行以下模拟Pi的示例程序：
sudo-u hdfs hadoop jar/opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi10100
执行过程需要花一定的时间，通过YARN的后台也可以看到MapReduce的执行状态：

MapReduce执行过程中终端的输出如下：
Numberof Maps =
10

Samples per Map = 100

Wrote input for Map #0

Wrote input for Map #1

Wrote input for Map #2

Wrote input for Map #3

Wrote input for Map #4

Wrote input for Map #5

Wrote input for Map #6

Wrote input for Map #7

Wrote input for Map #8

Wrote input for Map #9

Starting Job

14/03/1301:15:34
INFO client.RMProxy: Connecting to ResourceManager at n1namenode/192.168.1.101:8032

14/03/1301:15:36
INFO input.FileInputFormat: Total input paths to process: 10

14/03/1301:15:37
INFO mapreduce.JobSubmitter: number of splits:10

14/03/1301:15:39
INFO mapreduce.JobSubmitter: Submitting tokens forjob: job_1413132307582_0001

14/03/1301:15:40
INFO impl.YarnClientImpl: Submitted applicationapplication_1413132307582_0001

14/03/1301:15:40
INFO mapreduce.Job: The url to track the job: http://n1:8088/proxy/application_1413132307582_0001/

14/03/1301:15:40
INFO mapreduce.Job: Running job: job_1413132307582_0001

14/03/1301:17:13
INFO mapreduce.Job: Job job_1413132307582_0001 runningin uber mode : false

14/03/1301:17:13
INFO mapreduce.Job: map 0% reduce
0%

14/03/1301:18:02
INFO mapreduce.Job: map 10% reduce
0%

14/03/1301:18:25
INFO mapreduce.Job: map 20% reduce
0%

14/03/1301:18:35
INFO mapreduce.Job: map 30% reduce
0%

14/03/1301:18:45
INFO mapreduce.Job: map 40% reduce
0%

14/03/1301:18:53
INFO mapreduce.Job: map 50% reduce
0%

14/03/1301:19:01
INFO mapreduce.Job: map 60% reduce
0%

14/03/1301:19:09
INFO mapreduce.Job: map 70% reduce
0%

14/03/1301:19:17
INFO mapreduce.Job: map 80% reduce
0%

14/03/1301:19:25
INFO mapreduce.Job: map 90% reduce
0%

14/03/1301:19:33
INFO mapreduce.Job: map 100% reduce
0%

14/03/1301:19:51
INFO mapreduce.Job: map 100% reduce
100%

14/03/1301:19:53
INFO mapreduce.Job: Job job_1413132307582_0001 completedsuccessfully

14/03/1301:19:56
INFO mapreduce.Job: Counters: 49

File System Counters

FILE: Number of bytes read=91

FILE: Number of bytes written=1027765

FILE: Number of readoperations=0

FILE: Number of large readoperations=0

FILE: Number of writeoperations=0

HDFS: Number of bytes read=2560

HDFS: Number of bytes written=215

HDFS: Number of readoperations=43

HDFS: Number of large readoperations=0

HDFS: Number of writeoperations=3

Job Counters

Launched map tasks=10

Launched reduce tasks=1

Data-local map tasks=10

Total time spent by all mapsin occupied slots (ms)=118215

Total time spent by allreduces in occupied slots (ms)=11894

Total time spent by all maptasks (ms)=118215

Total time spent by all reducetasks (ms)=11894

Total vcore-seconds taken by all maptasks=118215

Total vcore-seconds taken by allreduce tasks=11894

Total megabyte-seconds taken by all maptasks=121052160

Total megabyte-seconds taken by allreduce tasks=12179456

Map-Reduce Framework

Map input records=10

Map output records=20

Map output bytes=180

Map output materialized bytes=340

Input split bytes=1380

Combine input records=0

Combine output records=0

Reduce input groups=2

Reduce shuffle bytes=340

Reduce input records=20

Reduce output records=0

Spilled Records=40

Shuffled Maps =10

Failed Shuffles=0

Merged Map outputs=10

GC time elapsed (ms)=1269

CPU time spent (ms)=9530

Physical memory (bytes) snapshot=3792773120

Virtual memory (bytes) snapshot=16157274112

Total committed heap usage (bytes)=2856624128

Shuffle Errors

BAD_ID=0

CONNECTION=0

IO_ERROR=0

WRONG_LENGTH=0

WRONG_MAP=0

WRONG_REDUCE=0

File Input Format Counters

Bytes Read=1180

File Output Format Counters

Bytes Written=97

Job Finished in 262.659 seconds

Estimated value of Pi is 3.14800000000000000000

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航