您的位置:首页 > 运维架构

Hadoop2.7.2的部署

2016-03-21 13:58 369 查看
Hadoop是一个apache的开源框架,在目前大数据流行的时代,Hadoop作为分析海量数据的工具已经越来越得到各个行业的应用,现在就是简要介绍一下Hadoop2.x的自己的认识,Hadoop在1.0的时代已经得到了广泛的应用,目前Hadoop在2.0也增加了新的特性,比如在Hadoop在2.x版本增加了yarn框架,yarn框架其实是对1.x的Hadoop的jobtracker与tasktracker的封装。对其更加优化。下面就来介绍Hadoop2.x的安装与部署,主要是针对与学习的伪分布的方式。

部署环境,在Ubuntu14.04的环境中,其实只要是Linux系统都可以,只是官网上推荐使用Ubuntu。

一 JDK安装

Hadoop是基于JAVA语言开发的,所以,你的Linux机子上必须安装有JDK环境,这里选择JDK1.8:http://www.oracle.com/technetwork/java/javase/downloads/index.html

这里注意选择Linux版本的至于是64位还是32位根据自己的电脑的配置选择。

下载的JDK放到Ubuntu的/usr/soft文件下(其中soft文件是自己建立的),

(1)解压jdk :切换到JDK所在目录,在终端中输入tar -xzvf JDK的版本

(2)环境变量的配置;在linux的环境变量的配置主要可以分为两种,

 主要分为系统级与用户级的设置,对应于两个配置文件/etc/profile与~/.bashrc,这里选择系统级别的变量修改,因为每个用户登陆时都可以识别JAVA环境,不需要每个用户重新设置。

系统级环境变量设置:修改 /etc/profile文件,主要设置JAVA_HOME、JRE_HOME、CLASSPATH,如下:

export JAVA_HOME=/usr/soft/jdk1.8.0_73
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib
修改之后再 source  /etc/profile让修改马上生效。

验证:验证JDK环境是否配置好,通过java  -version命令,如果出现类似下面的信息,就成功的得到了验证:

yrlroot@ubuntu:~/Desktop$ java -version
java version "1.8.0_73"
Java(TM) SE Runtime Environment (build 1.8.0_73-b02)
Java HotSpot(TM) 64-Bit Server VM (build 25.73-b02, mixed mode)


二 Hadoop安装

(1)下载Hadoop

Hadoop目前是apache下的开源项目, 并且只有Linux版本,这就是为什么我们需要Linux了,下载地址:http://apache.fayea.com/hadoop/common/ 选择版本下载,最好选择稳定的版本,这里选择hadoop 2.7.2

(2)解压文件

将下载Hadoop解压之后放到/opt/目录下,通过命令:

tar -zxvf hadoop-2.7.2.tar.gz

(3)配置文件

在hadoop2.x中配置文件主要下面4个,这些配置文件都是在/opt/hadoop-2.7.2/etc/hadoop/,其中mapred-site.xml是没有的只有一个mapred-site.xml.template,这就需要将mapred-site.xml.template重新命名为mapred-site.xml

core-site.xml
hadoop-env.sh
hdfs-site.xml
mapred-site.xml
yarn-site.xml

具体配置如下:
etc/hadoop/core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

etc/hadoop/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
etc/hadoop/mapred-site.xml:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
etc/hadoop/yarn-site.xml:

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

(4)格式化namenode与免密码登陆

配置完文件之后,需要格式化节点:通过

yrlroot@ubuntu:~/Documents$ hadoop namenode -format
之后就可以通过start-all.sh来启动守护进程了,但是这是启动时,需要多次输入密码,这是因为hadoop中的进程见的通信是通过ssh来完成的,所以,就需要设置ssh让其免密码登陆,可以通过如下命令:
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys

(5)验证

配置是否成功可以通过两种方式来进行验证,一种是通过命令的方式查看守护进程是否都启动了
在终端中输入jps出现下面标记的5个进程时,说明配置成功:yrlroot@ubuntu:~/Documents$ jps
7857 <span style="color:#FF0000;">NodeManager</span>
7220<span style="color:#FF0000;"> NameNode</span>
8426 Jps
7723 <span style="color:#FF0000;">ResourceManager</span>
7566 <span style="color:#FF0000;">SecondaryNameNode</span>
yrlroot@ubuntu:~/Documents$


第二种方式就是通过输入网址来查看进程维护的网页:两个网址一个是
http://localhost:8088http://localhost:50070  出现下面两个页面说明已经启动成功。

 
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息