您的位置：首页 > 运维架构

hadoop（2.x）以hadoop2.2为例完全分布式最新高可靠安装文档

2016-07-18 14:05 381 查看

[align=left]问题导读：
1.如何配置各个节点之间无密码互通？
2.启动hadoop，看不到进程的原因是什么？
3.配置hadoop的步骤是什么？

4.有哪些配置文件需要修改？
5.如果没有配置文件，该如何找到该配置文件？
6.环境变量配置了，但是不生效的原因是什么？
7.如何查看hadoop2监控页面[/align]
[align=left] [/align]
[align=left]首先说一下这个安装过程需要注意的地方[/align]

[align=left]一、使用新建用户可能会遇到的问题[/align]
[align=left]（1）权限问题：对于新手经常使用root，刚开始可以使用，但是如果想真正的学习，必须学会使用其他用户。也就是你需要学会新建用户，但是新建用户，并不是所有人都会的。具体可以参考ubuntu创建新用户并增加管理员权限，这里面使用adduser是最方便的。也就是说你需要通过这里，学会给Linux添加用户，并且赋权，上面那篇文章会对你有所帮助。[/align]
[align=left] [/align]
[align=left]（2）使用新建用户，你遇到另外一个问题，就是文件所属权限，因为新建的文件，有的属于root用户，有的属于新建用户，例如下面情况，我们看到mv.sh是属于root用户，大部分属于aboutyun用户。所以当我们两个不同文件不能访问的时候，这个可能是原因之一。也是在这里，当你新建用户的时候，可能会遇到的新问题。[/align]
[align=left] [/align]
<ignore_js_op>

[align=left] [/align]
[align=left]（3）上面我们只是提出了问题，但是根本没有解决方案，这里在提出解决方案，我们如何改变文件所属用户。[/align]
[align=left]比如上图中，mv.sh属于root用户，那么我们怎么让他所属about云用户。可以是下面命令：[/align]

sudo chown -R aboutyun:aboutyun mv.sh

复制代码

解释一下上面命令的含义：
[align=left]------------------------------------------------------------------------------------------------------------------------------------------------------[/align]
1.sudo：如果不是root用户，不带上这个命令会经常遇到麻烦，所以需要养成习惯。至于sudo详细解释可以看下面。

sudo是linux系统管理指令，是允许系统管理员让普通用户执行一些或者全部的root命令的一个工具，如halt，reboot，su等等。这样不仅减少了root用户的登录和管理时间，同样也提高了安全性。sudo不是对shell的一个代替，它是面向每个命令的。

2.chown-》change own的意思。即改变所属文件。对于他不了解的同学，可以查看：让你真正了解chmod和chown命令的用法
[align=left]3.aboutyun:aboutyun代表aboutyun用户及aboutyun用户组[/align]
[align=left]4.即是被授权的文件[/align]
[align=left]------------------------------------------------------------------------------------------------------------------------------------------------------[/align]
[align=left]上面是针对新手的一个解说，不是必须的，如果对Linux已经很熟悉，可以跳过上面步骤。下面我们开始首先要下载[/align]

[align=left]360网盘：编译包访问密码 4e48[/align]
[align=left]百度网盘：链接: 密码: r9kh[/align]

[align=left](下载包为hadoop2.2)[/align]
[align=left]下载完毕，我们就需要解压[/align]

tar zxvf hadoop-2.2.0_x64.tar.gz

复制代码

这里是解压到当前路径。
[align=left]这里就开始动手了，下面也介绍一下整体的情况：[/align]

[align=left]1、这里我们搭建一个由三台机器组成的集群：[/align]
[align=left]172.16.77.15 aboutyun/123456 master[/align]
[align=left]172.16.77.16 aboutyun/123456 slave1[/align]
[align=left]172.16.77.17 aboutyun/123456 slave1[/align]
[align=left]1.1 上面各列分别为IP、user/passwd、hostname[/align]

[align=left]1.2 Hostname可以在/etc/hostname中修改，hostname，hosts的修改详细可以看ubuntu修改hostname[/align]
[align=left]对于三台机器都需要修改：[/align]
[align=left]下面是master的修改：通过命令[/align]

vi /etc/hosts

复制代码

然后对你里面的内容修改：
<ignore_js_op>

[align=left]下面修改hostname[/align]

vi /etc/hostname

复制代码

修改为master即可
<ignore_js_op>

[align=left]上面hosts基本都一样，只不过hostname有所差别。[/align]

[align=left]2、打通master到slave节点的SSH无密码登陆[/align]
[align=left]这里面打通无密码登录，很多新手遇到了问题，这里安装的时候，具体的操作，可以查阅其他资料：[/align]
[align=left]Hadoop伪分布安装过程：Hadoop单机环境搭建指南（ubuntu）[/align]
[align=left]CentOS6.4之图解SSH无验证双向登陆配置[/align]
[align=left]这是个人总结的哦命令，相信对你有所帮助[/align]
[align=left]个人常用知识总结[/align]
[align=left]然后这里在展示一下，authorized_keys是什么样子的：[/align]
<ignore_js_op>

[align=left]上面的原理，就是我把工钥放到里面，然后本台机器就可以ssh无密码登录了。如果想彼此无密码登录，那么就需要把彼此的工钥（*.pub）放到authorized_keys里面[/align]
[align=left]然后我们进行下面步骤：[/align]
[align=left]3.1 安装ssh[/align]
[align=left]一般系统是默认安装了ssh命令的。如果没有，或者版本比较老，则可以重新安装：[/align]
[align=left]sudo apt-get install ssh[/align]
[align=left]3.2设置local无密码登陆[/align]

[align=left]具体步骤如下：[/align]
[align=left]第一步：产生密钥[/align]

[align=left]$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa[/align]
[align=left]第二部：导入authorized_keys[/align]
[align=left]$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys[/align]
[align=left]第二部导入的目的是为了无密码等，这样输入如下命令：[/align]

ssh localhost

复制代码

就可以无密码登录了。
[align=left]下面展示一下hosts的配置，及无密码登录的效果[/align]
[align=left]locahost的配置[/align]
<ignore_js_op>

[align=left]无密码登录效果：[/align]

<ignore_js_op>

[align=left]3.3设置远程无密码登陆[/align]

[align=left]进入master的.ssh目录[/align]
[align=left]scp authorized_keys aboutyun@slave1:~/.ssh/authorized_keys_from_master[/align]

[align=left]进入slave1的.ssh目录[/align]
[align=left]cat authorized_keys_from_master >> authorized_keys[/align]

[align=left]至此，可以在master上面ssh slave1进行无密码登陆了。[/align]
[align=left]【注意】：以上操作在每台机器上面都要进行。[/align]
[align=left]这里在强调一下原理：[/align]

就是把工钥放到里面，然后本台机器就可以ssh无密码登录了。如果想彼此无密码登录，那么就需要把彼此的工钥（*.pub）放到authorized_keys里面

[align=left]------------------------------------------------------------------------[/align]
[align=left]根据上面的资料相信你能得到互通，这里展现一下效果：[/align]
<ignore_js_op>

[align=left]上面是slave1无密码登录master[/align]

<ignore_js_op>

[align=left]这里是master无密码登录slave1[/align]
[align=left]------------------------------------------------------------------------[/align]

[align=left]4、安装jdk[/align]
[align=left]安装JDK还是比较简单的，这里[/align]

[align=left]4.1、下载jdk[/align]
[align=left]http://yunpan.cn/QiujtEVgRTJ4S 访问密码 b488[/align]

[align=left]4.2、安装jdk（这里以.tar.gz版本，64位系统为例）[/align]
[align=left]jdk的安装可以参考Hadoop伪分布安装过程：Hadoop单机环境搭建指南（ubuntu）[/align]
[align=left]这里直接解压到了/usr/jdk1.7下面：[/align]

<ignore_js_op>

[align=left]上面首先第一步：[/align]

[align=left]至此，jkd安装完毕，下面配置环境变量[/align]
[align=left]一、PATH配置[/align]

这里提供一个简单的方法：

通过下面命令
1.export PATH=$PATH:/usr/java/jdk1.7.0_51/bin

通过cat命令，可以查看

2.为了保证生效执行下面命令

source /etc/environment

复制代码

二、CLASSTH配置
上面只是配置了PATH,还需在配置CLASSTH
export CLASSPATH=.:/usr/java/jdk1.7.0_51/jre/lib
执行配置完毕
如果不起作用，采用通过下面配置：
java.sh配置
因为重启之后，很有会被还原，下面还需要配置java.sh
这里可以通过
cd /etc/profile.d
vi java.sh
把下面两行放到java.sh
export PATH=$PATH:/usr/java/jdk1.7.0_51/bin
export CLASSPATH=.:/usr/java/jdk1.7.0_51/jre/lib
保存。这样就配置完毕了。

执行下面命令：

source java.sh

复制代码

[align=left]现在在执行 java -version就ok了[/align]

[align=left]【注意】每台机器执行相同操作，最后将java安装在相同路径下[/align]

[align=left]三、关闭每台机器的防火墙[/align]
[align=left]ufw disable (重启生效)[/align]

[align=center]第三部分 Hadoop 2.2安装过程[/align]

一、需要注意的问题

[align=left]hadoop2.2的配置还是比较简单的，但是可能会遇到各种各样的问题。最常讲的就是看不到进程。[/align]
[align=left]看不到进程大致有两个原因：[/align]
[align=left]1.你的配置文件有问题。[/align]
[align=left]对于配置文件，主机名，空格之类的这些都不要带上。仔细检查[/align]
[align=left]2.Linux的权限不正确。[/align]
[align=left]最常出问题的是core-site.xml，与hdfs-site.xml。[/align]

[align=left]core-site.xml[/align]

<property>

<name>hadoop.tmp.dir</name>

<value>file:/home/aboutyun/tmp</value>

<description>Abase forother temporary directories.</description>

</property>

复制代码

说一下上面参数的含义，这里是hadoop的临时文件目录，file的含义是使用本地目录。也就是使用的是Linux的目录，一定确保下面目录

/home/aboutyun/tmp

复制代码

的权限所属为你创建的用户。并且这里面我也要会变通，aboutyun，为我创建的用户名，如果你创建了zhangsan或则lisi，那么这个目录就会变为

/home/zhangsan/tmp

复制代码

这里不熟悉，是因为对Linux的不熟悉的原因。这里在来张图：
注意：1和2对比。如果你所创建的tmp属于root，那么你会看不到进程。
<ignore_js_op>

hdfs-site.xml

[align=left]同样也是:要注意下面，你是需要改成自己的用户名的[/align]

[align=left] <property>[/align]
[align=left] <name>dfs.namenode.name.dir</name>[/align]
[align=left] <value>file:/home/aboutyun/dfs/name</value>[/align]
[align=left] </property>[/align]
[align=left] <property>[/align]
[align=left] <name>dfs.datanode.data.dir</name>[/align]
[align=left] <value>file:/home/aboutyun/dfs/data</value>[/align]
[align=left] </property>[/align]

上面讲完，我们开始配置

[align=left]hadoop集群中每个机器上面的配置基本相同，所以我们先在master上面进行配置部署，然后再复制到其他节点。所以这里的安装过程相当于在每台机器上面都要执行。[/align]

[align=left]【注意】：master和slaves安装的hadoop路径要完全一样，用户和组也要完全一致[/align]

[align=left]1、解压文件[/align]
将第一部分中下载的

tar zxvf hadoop-2.2.0_x64.tar.gz

复制代码

mv hadoop-2.2.0 hadoop

复制代码

解压到/usr路径下
[align=left]并且重命名，效果如下[/align]

<ignore_js_op>

[align=left]2、 hadoop配置过程[/align]

[align=left]配置之前，需要在master本地文件系统创建以下文件夹：[/align]
[align=left]~/dfs/name[/align]
[align=left]~/dfs/data[/align]
[align=left]~/tmp[/align]

这里文件权限：创建完毕，你会看到红线部分，注意所属用户及用户组。如果不再新建的用户组下面，可以使用下面命令来修改：让你真正了解chmod和chown命令的用法
<ignore_js_op>

[align=left]这里要涉及到的配置文件有7个：[/align]
[align=left]~/hadoop-2.2.0/etc/hadoop/hadoop-env.sh[/align]
[align=left]~/hadoop-2.2.0/etc/hadoop/yarn-env.sh[/align]
[align=left]~/hadoop-2.2.0/etc/hadoop/slaves[/align]
[align=left]~/hadoop-2.2.0/etc/hadoop/core-site.xml[/align]
[align=left]~/hadoop-2.2.0/etc/hadoop/hdfs-site.xml[/align]
[align=left]~/hadoop-2.2.0/etc/hadoop/mapred-site.xml[/align]
[align=left]~/hadoop-2.2.0/etc/hadoop/yarn-site.xml[/align]
[align=left]以上文件默认不存在的，可以复制相应的template文件获得。下面举例：[/align]
<ignore_js_op>

[align=left]配置文件1：hadoop-env.sh[/align]
[align=left]修改JAVA_HOME值（export JAVA_HOME=/usr/jdk1.7）[/align]
[align=left]配置文件2：yarn-env.sh[/align]

[align=left]修改JAVA_HOME值（export JAVA_HOME=/usr/jdk1.7）[/align]

[align=left]配置文件3：slaves （这个文件里面保存所有slave节点）[/align]

[align=left]写入以下内容：[/align]
<ignore_js_op>

[align=left]配置文件4：core-site.xml[/align]

<configuration>

<property>

<name>fs.defaultFS</name>

<value>hdfs://master:8020</value>

</property>

<property>

<name>io.file.buffer.size</name>

<value>131072</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>file:/home/aboutyun/tmp</value>

<description>Abase for other temporary directories.</description>

</property>

<property>

<name>hadoop.proxyuser.aboutyun.hosts</name>

<value>*</value>

</property>

<property>

<name>hadoop.proxyuser.aboutyun.groups</name>

<value>*</value>

</property>

</configuration>

复制代码

[align=left]配置文件5：hdfs-site.xml[/align]

<configuration>

<property>

<name>dfs.namenode.secondary.http-address</name>

<value>master:9001</value>

</property>

<property>

<name>dfs.namenode.name.dir</name>

<value>file:/home/aboutyun/dfs/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:/home/aboutyun/dfs/data</value>

</property>

<property>

<name>dfs.replication</name>

<value>3</value>

</property>

<property>

<name>dfs.webhdfs.enabled</name>

<value>true</value>

</property>

</configuration>

复制代码

[align=left]配置文件6：mapred-site.xml[/align]

<configuration>

<property> <name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

<property>

<name>mapreduce.jobhistory.address</name>

<value>master:10020</value>

</property>

<property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>master:19888</value>

</property>

</configuration>

复制代码

[align=left]配置文件7：yarn-site.xml[/align]

<configuration>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<property>

<name>yarn.resourcemanager.address</name>

<value>master:8032</value>

</property>

<property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>master:8030</value>

</property>

<property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>master:8031</value>

</property>

<property>

<name>yarn.resourcemanager.admin.address</name>

<value>master:8033</value>

</property>

<property>

<name>yarn.resourcemanager.webapp.address</name>

<value>master:8088</value>

</property>

</configuration>

复制代码

[align=left]3、复制到其他节点[/align]
[align=left]上面配置完毕，我们基本上完成了90%了剩下就是复制。我们可以把整个hadoop复制过去：使用如下命令：[/align]

sudo scp -r /usr/hadoop aboutyun@slave1:~/

复制代码

这里记得先复制到home/aboutyun下面，然后在转移到/usr下面。
[align=left]后面我们会经常遇到问题，经常修改配置文件，所以修改完一个配置文件后，其他节点都需要修改，这里附上脚本操作方便：[/align]

一、节点之间传递数据：
第一步：vi scp.sh

第二步：把下面内容放到里面（记得修改下面红字部分，改成自己的）

#!/bin/bash

#slave1

scp /usr/hadoop/etc/hadoop/core-site.xml aboutyun@slave1:~/

scp /usr/hadoop/etc/hadoop/hdfs-site.xml aboutyun@slave1:~/

#slave2

scp /usr/hadoop/etc/hadoop/core-site.xml aboutyun@slave2:~/

scp /usr/hadoop/etc/hadoop/hdfs-site.xml aboutyun@slave2:~/

第三步：保存scp.sh

第四步：bash scp.sh执行

二、移动文件夹：

可以自己写了。

[align=left]4.配置环境变量[/align]
[align=left]第一步：[/align]

vi /etc/environment

复制代码

第二步：添加如下内容：记得如果你的路径改变了，你也许需要做相应的改变。

<ignore_js_op>

[align=left] [/align]
[align=left]4、启动验证[/align]
[align=left] [/align]
[align=left]4.1 启动hadoop[/align]
[align=left]格式化namenode：[/align]

hdfs namenode –format

复制代码

或则使用下面命令：

hadoop namenode format

复制代码

[align=left]启动hdfs:[/align]

start-dfs.sh

复制代码

[align=left]此时在master上面运行的进程有：[/align]

namenode

secondarynamenode

[align=left]slave节点上面运行的进程有：datanode[/align]

[align=left]启动yarn:[/align]

start-yarn.sh

复制代码

我们看到如下效果：
[align=left]master有如下进程：[/align]
<ignore_js_op>

slave1有如下进程
<ignore_js_op>

[align=left]此时hadoop集群已全部配置完成！！！[/align]
[align=left]【注意】：而且所有的配置文件<name>和<value>节点处不要有空格，否则会报错！[/align]

然后我们输入：（这里有的同学没有配置hosts，所以输出master访问不到，如果访问不到输入ip地址即可）
http://master:8088/
复制代码

如何修改hosts:
win7 进入下面路径：

C:\Windows\System32\drivers\etc

复制代码

找打hosts
<ignore_js_op>

然后打开，进行如下配置即可看到
<ignore_js_op>

看到下图：
<ignore_js_op>

到此全部完毕。
使用hadoop集群，更详细内容，可以查看
hadoop2.X使用手册1：通过web端口查看主节点、slave1节点及集群运行状态
hadoop2.X使用手册2：如何运行自带wordcount
hadoop2.2运行mapreduce（wordcount）问题总结

本文链接
http://www.aboutyun.com/thread-7684-1-1.html

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航