您的位置:首页 > 其它

用cloudera manager安装impala全过程以impala、hive、Spark性能比较--------(二)手动安装CDH4,hive,impala。

2012-12-10 20:24 549 查看
由于用cloudera manager安装遇到了“无解”的难题,于是无奈的采用手动安装。按照官网一步步安装。首先下载CDH一键安装‘1-click-install’,然后安装cloudera-cdh-4-0.noarch.rpm,在然后sudo
rpm --import http://archive.cloudera.com/cdh4/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera 。增加CDH repository后可以是用yum安装自己的组件了。在你的namenode节点安装hadoop
、hadoop-hdfs-namenode 、hadoop-maperreduce-jobtracker
在datanode节点安装hadoop
、hadoop-hdfs-datanode 、hadoop-maperreduce-tasktracker。安装后分别配置core-site.xml、hdfs-site.xml、mapred-site.xml、slaves文件。我的配置文件如下:

core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://big1:8020</value> ------big1:namenode的主机名
</property>
</configuration>
hdfs-site.xml

<configuration>
<property>
<name>dfs.permissions.superusergroup</name>
<value>hadoop</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/data/1/dfs/nn,/nfsmount/dfs/nnsudo</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>big1:8021</value>
</property>
<!-- Enable Hue plugins -->
<property>
<name>mapred.jobtracker.plugins</name>
<value>org.apache.hadoop.thriftfs.ThriftJobTrackerPlugin</value>
<description>Comma-separated list of jobtracker plug-ins to be activated.
</description>
</property>
<property>
<name>jobtracker.thrift.address</name>
<value>0.0.0.0:9290</value>
</property>
</configuration>
Slaves

big2 -------datanode的主机名
big3 ------- datanode的主机名
并在所有主机的hosts文件中增加所有集群主机的ip地址和主机名对应关系。

配置ssh无密码登陆。在namenode执行ssh-keygen –t rsa在~/.ssh文件夹中生成id_rsa.pub文件复制rsa.pub文件到authorized_keys文件cp
id_rsa.pub authorized_keys。然后把authoried_keys拷贝到所有datanode的~/.ssh文件夹中。实现无密码ssh登陆。

最后就可以启动hadoop了。

CDH的hadoop启动和原始hadoop的启动不同,CDH没有start-all命令。所以要先进入/etc/init.d文件夹这里有你安装组件的启动命令。执行./hadoop-hdfs-namenode
start 就可以启动namenode。CDH的所有组件都是分别启动,你需要分别启动namenode、datanode、tasktracker、jobtracker。启动后jps查看,发现服务都已启动。在namenode浏览器输入localhost:50070
查看hdfs状态,发现了问题:活跃的datanode数0。datanode没有连接到namenode。查看datanode的日志文件,发现datanode始终在试图连接namenode,但没有成功。说明datanode启动没问题,出错在相互连接上。查看netstat
命令查看namenode的服务端口,发现hdfs配置的端口8020的ip地址为127.0.0.1。问题应该是这里了。上网查看资料说需要关闭IPv6才能解决。在/etc/modprobe.d/dist.conf中添加alias
net-pf-10 off ,alias ipv6 off关闭IPv6。重启机器,重启服务。一切OK了。哈哈哈

Hadoop安装好后,在每台机器上安装hive,hive安装很简单,按cloudera官网的介绍安装,更改hive-site.xml文件,元数据库使用mySQL。启动hive。一切很顺利。

最后按官网要求安装impala。安装impala后运行impala-shell可以启动,但是启动implald不能启动,找不到log4j文件,查看/etc/usr/impala所有文件夹始终找不到impala-log4j文件。没办法又遇到了“无解”问题。但是这次没白费劲,hadoop、hive装起来了。同时发现了IPv6的问题。于是我就想之前的cloudera
manager是不是也因为IPv6的问题?于是我又去实验原来的cloudera manager集群。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: