您的位置：首页 > 运维架构

hadoop，hbase，hive安装全记录

2013-05-02 20:43 381 查看

操作系统：CentOS 5.5

Hadoop：hadoop-0.20.203.0

jdk1.7.0_01

namenode主机名:master，namenode的IP:10.10.102.15

datanode主机名:slave1，datanode的IP:10.10.106.8

datanode主机名:slave2，datanode的IP:10.10.106.9

一、hadoop 安装

1、建立用户

useradd hadoop

passwd hadoop

2. 安装 JDK *

先查看是否安装了java，并确定其版本，如果没有安装

rpm -i jdk-7u1-linux-x64.rpm

默认安装在/usr/java/下

3.设置环境变量 *

编辑 /etc/profile 文件，设置 JAVA_HOME 环境变量以及类路径：

export JAVA_HOME=/usr/java/jdk1.7.0_01（在8中用的是jdk1.6.0_25）

export JRE_HOME=/usr/java/jdk1.7.0_01/jre

export CLASSPASH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

4. 添加 hosts 的映射 *

编辑 /etc/hosts 文件：

10.10.102.15 master

10.10.106.8 slave1

10.10.106.8 slave2

5、配置SSH

这里暂时只是设置了master连接slave不需密码。slave连接master没设置。

[hadoop@master:~]$ssh-keygen -t rsa #在hadoop的根目录下，创建密钥对，放在.ssh文件夹中

[hadoop@master:.ssh]$cp id_rsa.pub authorized_keys #进入.ssh，将公钥加入到authorized_keys

[hadoop@slave1:~]$mkdir .ssh #在slave1、slave2中建立目录

[hadoop@slave2:~]$mkdir .ssh

[hadoop@master:.ssh]$scp authorized_keys slave1:/home/hadoop/.ssh/ #将master的公钥给另外两者

[hadoop@master:.ssh]$scp authorized_keys slave2:/home/hadoop/.ssh/

Ssh 权限配置问题：（任何一点权限的配置错误有血的教训~~）

用户目录权限为 755 或者 700就是不能是77x

.ssh目录权限必须为755

rsa_id.pub 及authorized_keys权限必须为644

rsa_id权限必须为600

最后，在master中测试：ssh localhost date、ssh slave1 date、ssh slave2 date。不需要密码，则成功。

6、安装hadoop。

以master为例，slave完全相同

（1）[hadoop@master:~]$tar xzvf hadoop-0.20.203.0rc1.tar.gz #解压

（2）添加环境变量

export HADOOP_HOME=/home/hadoop/hadoop-0.20.203.0

export PATH=$PATH:$HADOOP_HOME/bin

（3）创建hadoop本地临时文件夹

（如果设置临时文件夹，而是用默认/tmp/下，那因为其空间小，hdfs放几个大文件就报错）

[hadoop@master:~]mkdir tmp

注意：tmp一定要有hadoop的读写权限，否则datanode 会 format失败。依然是血的教训啊~

（4）

修改masters:

master

修改slaves:

slave1

slave2

（5）配置hadoop

hadoop/conf/core-site.xml

<configuration>

<property>

<name>hadoop.tmp.dir</name>

<value>/home/hadoop/tmp/</value>

</property>



<property>

<name>fs.default.name</name>

<value>hdfs://master:54310</value>

</property>

<property>

<name>io.sort.mb</name> #指定了排序使用的内存，大的内存可以加快 job 的处理速度。

<value>1024</value>

</property>

</configuration>

hadoop/conf/mapred-site.xml

<configuration>

<property>

<name>mapred.job.tracker</name>

<value>master:54311</value>

</property>

<property>

<name>mapred.map.child.java.opts</name> #指定 map/reduce 任务使用的最大堆内存。较小的内存可能导致程序抛出

OutOfMemoryException 。

<value>-Xmx4096m</value>

</property>

<property>

<name>mapred.reduce.child.java.opts</name>

<value>-Xmx4096m</value>

</property>

</configuration>

hadoop/conf/hdfs-site.xml

<configuration>

<property>

<name>dfs.replication</name>

<value>3</value>

</property>

</configuration>

（6）将master配置好的hadoop直接复制到slave1、slave2中即可。

7、启动hadoop

[hadoop@master:hadoop-0.20.203.0]$cd bin

[hadoop@master:bin]$hadoop namenode format #格式化namenode的时候最好将节点的tmp目录清空、删除logs目录中的文件。尤其是tmp一定要情况。

否侧上传的错误会导致这次的datanode启动失败。详见错误目录：

[hadoop@master:bin]$start-all.sh

[hadoop@master:bin]$jps

浏览器中输入http://master:54310 查看

http://master:50070 --web UI for HDFS name node(s)

http://master:50030 --web UI for MapReduce job tracker(s)

http://slave1:50060 --web UI for task tracker(s)

错误目录：

1、could only be replicated to 0 nodes, instead of 1

format之后之前的datanode会有一个ID，这个ID没有删除，所以会拒绝当前Namenode链接和分配。所以需要删除原来的datanode中的hdfs目录。

二、hive安装 ,并使用mysql数据库为元数据库

使用hive-0.8.0

安装hive前，事先安装mysql用于保存元数据，安装ant用于启用HWI

1、在namenode安装hive。下载并解压hive文件后，进入hive/bin/下，配置hive-config.sh文件：

export HADOOP_HOME=/home/hadoop/hadoop-0.20.203.0

export PATH=.:$HADOOP_HOME/bin:$PATH

export HIVE_HOME=/home/hadoop/hive-0.8.0

export PATH=$HIVE_HOME/bin:$PATH

export JAVA_HOME=/usr/java/jdk1.7.0_01

export JRE_HOME=/usr/java/jdk1.7.0_01/jre

export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

export PATH=.:$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

2、将hive加入到环境变量中：

export HIVE_HOME=/home/hadoop/hive-0.8.0

3、在mysql中创建hadoop的用户，密码也为hadoop，并创建元数据库：

mysql

mysql> CREATE USER 'hadoop'@'master' IDENTIFIED BY 'hadoop';

GRANT ALL ON *.* TO admin@'%' IDENTIFIED BY 'admin' WITH GRANT OPTION;

mysql> GRANT ALL PRIVILEGES ON *.* TO 'hadoop'@'master' WITH GRANT OPTION;

mysql> exit

4、下载文件mysql-connector-java-5.1.15-bin.jar，保存到bin文件目录下。

否则出现错误：

hive> show tables;

FAILED: Error in metadata: javax.jdo.JDOFatalInternalException: Error creating transactional connection factory

NestedThrowables:

java.lang.reflect.InvocationTargetException

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask

5、在hive/conf/文件夹中，新建hive-site.xml文件，并复制进hive-default.xml.template的全部内容，作以下修改：

（使用mysql为元数据库）

<property>

<name>hive.metastore.local</name>

<value>true</value>

</property>

<property>

<name>javax.jdo.option.ConnectionURL</name>



<value>jdbc:mysql://master:3306/metastore</value>

<description>JDBC connect string for a JDBC metastore</description>

</property>

<property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

<description>Driver class name for a JDBC metastore</description>

</property>

<property>

<name>javax.jdo.option.ConnectionUserName</name>

<value>hadoop</value>

<description>username to use against metastore database</description>

</property>

<property>

<name>javax.jdo.option.ConnectionPassword</name>

<value>hadoop</value>

<description>password to use against metastore database</description>

</property>

6、在hdfs中创建几个目录

$HADOOP_HOME/bin/hadoop fs -mkdir /tmp

$HADOOP_HOME/bin/hadoop fs -mkdir /user/hive/warehouse

$HADOOP_HOME/bin/hadoop fs -chmod g+w /tmp

$HADOOP_HOME/bin/hadoop fs -chmod g+w /user/hive/warehouse

7、启动hive

启动hive：$HIVE_HOME/bin/hive

8、启动hwi界面：

export ANT_LIB=/opt/ant/lib

bin/hive --service hwi

bin/hive --service hwi --help

9、在hive命令行模式下，使用show tables；测试mysql连接是否正确。

三、hbase安装

使用hbase-0.90.5

1、在现在master中安装hbase。

下载并解压hbase文件后，进入hbase/conf下，配置hbse-env.sh文件：

export JAVA_HOME=/usr/java/jdk1.7.0_01

export HBASE_MANAGES_ZK=true $使用hbase自带的zookeeper

2、在regionservers中加入region名称：

slave1

slave2

3、修改hbase-site.xml文件：

<configuration>

<property>

<name>hbase.rootdir</name>

<value>hdfs://master:54310/hbase</value> #注意主机名和端口号要与hadoop的dfs name的对应

</property>

<property>

<name>hbase.cluster.distributed</name>

<value>true</value>

</property>

<property>

<name>zookeeper.session.timeout</name>

<value>60000</value>

</property>

<property>

<name>hbase.zookeeper.quorum</name>

<value>master,slave1,slave2</value>

</property>

</configuration>

4、将hbase文件夹完全复制到slave1和slave2相同目录下。

5、启动hbase：

#start-hbase.sh

#jps

后出现两项：Hmaster和HQuorumPeer 表明成功

#./hbase shell 进入shell

http://master:60010进入页面

错误目录：

1、zookeeper问题：

ZooKeeper Client Connection Errors

11/07/05 11:26:41 WARN zookeeper.ClientCnxn: Session 0x0 for server null,

unexpected error, closing socket connection and attempting reconnect

java.net.ConnectException: Connection refused: no further information

at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)

at sun.nio.ch.SocketChannelImpl.finishConnect(Unknown Source)

at org.apache.zookeeper.ClientCnxn$SendThread.run(ClientCnxn.java:1078)

11/07/05 11:26:43 INFO zookeeper.ClientCnxn: Opening socket connection to

server localhost/127.0.0.1:2181

11/07/05 11:26:44 WARN zookeeper.ClientCnxn: Session 0x0 for server null,

unexpected error, closing socket connection and attempting reconnect

java.net.ConnectException: Connection refused: no further information

at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)

at sun.nio.ch.SocketChannelImpl.finishConnect(Unknown Source)

at org.apache.zookeeper.ClientCnxn$SendThread.run(ClientCnxn.java:1078)

11/07/05 11:26:45 INFO zookeeper.ClientCnxn: Opening socket connection to

server localhost/127.0.0.1:2181

原因：zppkeeper未启动，或无法连接，从查看各节点zookeeper启动状态、端口占用、防火墙等方面查看原因。

2、hmaster无法启动问题：

原因：java.io.IOException: Call to <host:port> failed on local exception

网上大部分说事使用hadoop 的21版本问题，但我用的是20的。

后来把hbase_home/lib(启动的时候会加载里面所有jar) 下的hadoop-core-0.20-append-r1056497.jar rm 掉，再cp hadoop_home下的hadoop-core-

0.20.203.0.jar到lib中，

还出现：

FATAL org.apache.hadoop.hbase.master.HMaster: Unhandled exception. Starting shutdown.

java.lang.NoClassDefFoundError: org/apache/commons/configuration/Configuration

现在NoClassDefFoundError,缺少 org/apache/commons/configuration/Configuration 果断给他加一个commons-configuration包试试，从

hadoop_home/lib下面cp一个commons-configuration-1.6.jar到hbase_home/lib下，

成功，但界面上出现不支持append的提示（因为用hadoop-core-0.20.203.0.jar替换了hadoop-core-0.20-append-r1056497.jar）。不知道以后有没有什么影响。

四、使用hive访问hbase中数据

1、解决版本问题

先将hbase中的hbase-0.90.5.jar文件替换掉hive-0.8.0/bin/文件目录下的rhbase-0.89.0-SNAPSHOT.jar，把hbase-0.90.5/conf/hbase-site.xml复

制到hive-0.8.0/conf/文件目录下。同时注意hive/bin目录下的zookeeper.jar与hbase/bin中的zookeeper.jar版本是否一致，如果不一致，要使用hbase/bin中的zookeeper.jar替换掉hive/bin目录下的zookeeper.jar

否则出现错误：

FAILED: Error in metadata: MetaException(message:org.apache.hadoop.hbase.MasterNotRunningException: master:60000

2、在hive-site中添加内容：

<property>

<name>hbase.zookeeper.quorum</name>

<value>master,slave1,slave2</value> #2个datanode ,使用HBASE自己维护的ZOOKEEPER

</property>

<property>

<name>hive.aux.jars.path</name>

<value>file:///home/hadoop/hive-0.8.0/lib/hive-hbase-handler-0.8.0.jar,file:///home/hadoop/hive-0.8.0/lib/zookeeper-

3.3.1.jar,file:///home/hadoop/hive-0.8.0/lib/hbase-0.90.5.jar </value>

</property>

/etc/rc.d/init.d/iptables stop 关闭namenode结点的防火墙

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航