您的位置：首页 > 运维架构

Hadoop2.4编译伪分布安装集群安装笔记

2015-07-18 00:00 459 查看

安装hadoop的时候每次重新安装都有些配置会记不太清楚，要去查询很麻烦这次做了个笔记，在这里和大家分享下，如果内容有错误，请指正。因为是从word中复制出来的截的图片都没了，可以从下面链接中下载到word原版！之前没有写博客的习惯，以后会陆续分享一些之前的笔记!

http://pan.baidu.com/s/1gdKdEcb
吃水不忘挖井人，hadoop集群配置相关内容很多都参考了吴超的博客，这里把他的博客的地址也贴出来，里面有很多文章写得很好，建议有兴趣的朋友去看看。
http://www.superwu.cn/author/admin/

1.1 安装虚拟机

1.1.1 安装虚拟机网上教程很多就不写了

1.2 配置虚拟机

1.2.1 修改主机名

1.2.1.1. 查看主机名

[root@hadoop1 ~]# hostname
hadoop1

1.2.1.2. 修改主机名

[root@hadoop1 ~]# vi /etc/sysconfig/network

NETWORKING=yes
HOSTNAME=hadoop1

1.3 配置IP地址

使用ifconfig命令查看当前网络配置
Ping ip 查看当前主机和目标ip机器是否可以互相访问
telnet ip port 查看当前主机是否可以访问目标机器的port端口
wget http://www.baidu.com wget命令用于下载文件，直接wget 百度的地址可以用于测试当前主机是否可以访问外网，因为在编译hadoop源码的时候当前机器必须可以访问外网

1.3.1 如果网络有问题则需要重新设置网络

1.3.1.1. 设置虚拟机的网络

选则桥接模式，并且把桥接到这个选项选择为当前物理机上网用的那个网卡，我使用无线上网的，并且我的有线网络配置都是关闭的，所以这里只有一个选项。

1.3.2 编辑虚拟机ip配置文件

vi /etc/sysconfig/network-scripts/ifcfg-eth0
配置内容如下，建议注释掉所有IPV6相关的配置（在启动resourcemanage的时候可能会报错，我在启动的时候报了一个错吧IPV6相关的配置关掉就好了）
DEVICE="eth0"
BOOTPROTO=static #静态IP
#IPV6INIT="yes"
NM_CONTROLLED="yes"
ONBOOT="yes" #启动的时候自动配置网络
TYPE="Ethernet"
#UUID="2d678a8b-6c40-4ebc-8f4e-245ef6b7a969"
NETMASK=255.255.255.0 #子网掩码和物理机一样
GATEWAY=192.168.1.1 #网关ip和物理机一样
IPADDR=192.168.1.201 #ip地址和物理机在同一个网段
PREFIX=24
DNS1=101.226.4.6 #NDS服务地址和物理机一样
DEFROUTE=yes
IPV4_FAILURE_FATAL=yes
#IPV6_AUTOCONF=yes
#IPV6_DEFROUTE=yes
#IPV6_FAILURE_FATAL=no
NAME="System eth0"
HWADDR=00:0C:29:92:E5:B7 #MAC地址需要和/etc/udev/rules.d/70-persistent-net.rules 文件中一致
#IPV6_PEERDNS=yes
#IPV6_PEERROUTES=yes
LAST_CONNECT=1397965330

1.3.3 配置完重启网卡

sudo service network restart （如果sudo命令无法使用设置方法详见附录1）

1.3.4 如果虚拟机是复制过来的重启网卡可能会报错，

1.3.4.1. 解决方法1

删除rm /etc/udev/rules.d/70-persistent-net.rules
然后重启虚拟机，再重启网卡

1.3.4.2. 解决方法2

查看/etc/udev/rules.d/70-persistent-net.rules文件的内容，有时候这个文件中会有两个SUBSYSTEM配置，删除NAME = "eth*" 只保留NAME = "eth0" 的配置，然后在重启网卡

1.3.4.3. 解决方法3

查看/etc/udev/rules.d/70-persistent-net.rules文件的内容，如果只有一个配置 NAME=“ETH1”，并且/etc/sysconfig/network-scripts/ifcfg-eth0中的配置都没问题，使用下面命令
mv /etc/sysconfig/network-scripts/ifcfg-eth0 /etc/sysconfig/network-scripts/ifcfg-eth1
然后重启网卡
Ps：我遇到过的问题就么多，如果遇到其他问题以上方法都不能搞定就找度娘吧，我也没辙了。

1.4 配置hosts文件（主机名和IP地址映射）

这个文件中配置ip地址和主机名的映射关系，需要把集群中的所有机器的ip和主机名映射都加进来

1.5 配置SSH免密码登陆

生成公钥和私钥
ssh-keygen -t rsa
进入～/.ssh 目录
cat id_rsa.pub >> authorized_keys
然后使用ssh localhost命令测试ssh是否配置正确
有时候会出现ssh免密码登陆失败的情况，可以按照下面方法处理
sudo chmod 644 ~/.ssh/authorized_keys
sudo chmod 700 ~/.ssh
Ubuntu下测试ssh时使用ssh localhost 命令，出现错误提示connect to host localhost port 22:Connection refused
造成这个错误的原因可能是ssh-server未安装或者未启动。ubuntu 11.10 默认安装openssh-client，但是木有安装server
运行 ps -e | grep ssh，查看是否有sshd进程
如果没有，说明server没启动，通过 /etc/init.d/ssh -start 启动server进程，如果提示ssh不存在那么就是没安装server
通过 sudo apt-get install openssh-server命令安装即可

1.6 安装JDK

1.6.1 下载jdk

从oracle的官网下载最新版的JDK，需要选择linux版的（注意选择是64位和32位版本，视服务器而定）
Jdk下载地址
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

个人习惯用tar.gz包安装
下载好后把jdk文件上传到服务器，也可以直接在服务器上执行下载
Wget http://download.oracle.com/otn-pub/java/jdk/8u5-b13/jdk-8u5-linux-x64.tar.gz

1.6.2 解压安装

1.6.2.1. 解压

tar –zxvf jdk-8u5-linux-x64.tar.gz

1.6.2.2. 配置环境变量

(因为真实的现网环境会有很多个用户，每个用户可能需要使用不同的jdk版本所以jdk配置只需要当前用户生效即可)
vi ~/.bashrc
export JAVA_HOME=/home/hadoop/software/jdk1.7.0_51
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin: $PATH

1.6.2.3. 验证是否安装成功

Java –version
如果如下图所示能正确显示版本号即为安装成功

1.7 安装Maven

1.7.1 下载安装Maven

官方提示Maven版本要在3.0以上，尽量安装最新版的（下面是编译hadoop的软件配置）
JDK 1.6+
* Maven 3.0 or later
* Findbugs 1.3.9 (if running findbugs)
* ProtocolBuffer 2.5.0
* CMake 2.6 or newer
下载maven
Wget http://mirrors.hust.edu.cn/apache/maven/maven-3/3.2.1/binaries/apache-maven-3.2.1-bin.tar.gz

1.7.2 配置Maven

1.7.2.1. 修改仓库地址

在${ MAVEN_HOME }/conf/settings.xml文件中找到mirrors节点在中间加入下面红色部分配置（默认如果不修改的话是使用国外的中央仓库，hadoop在编译的时候maven会下载很多jar文件，国外的中央仓库下载比较慢，这里使用开源中国提供的maven仓库，下载速度比较快一点）
<mirrors>
<mirror>
<id>nexus-osc</id>
<mirrorOf>*</mirrorOf>
<name>Nexus osc</name>
<url>http://maven.oschina.net/content/groups/public/</url>
</mirror>
</mirrors>

1.7.2.2. 修改settings.xml中本地仓库目录地址

找到localRepository节点中间的地址改为存放mavne下载文件的目录地址(目录需提前建立，如果不配置此项，默认现在的文件存放在当前用户home目录下的 .me文件夹中)
<localRepository>/home/Hadoop/repo</localRepository>

1.7.2.3. 配置环境变量

在 .bashrc 文件中加入以下配置
export MAVEN_HOME=/home/hadoop/software/apache-maven-3.1.1
export PATH=$MAVEN_HOME/bin:$PATH

1.7.2.4. 验证是否安装成功

mvn –version
如果如下图所示能正确显示版本号即为安装成功

1.8 安装ProtoclBuffer

1.8.1.1. 下载解压

下载地址https://code.google.com/p/protobuf/downloads/list
Wget https://protobuf.googlecode.com/files/protobuf-2.5.0.tar.gz
Tar –zxvf protobuf-2.5.0.tar.gz

1.8.1.2. 安装

./configure --prefix=/home/hadoop/software/protobuf
Prefix 参数用于指定安装路径
make
ake install

1.8.1.3. 配置环境变量

export PROTOC_HOME=/home/hadoop/software/protobuf
PATH=$PROTOC_HOME/bin:$PATH

1.8.1.4. 验证是否安装成功

protoc –version
如果如下图能正确显示版本号即为安装成功

1.9 安装CMake

1.9.1 下载解压

下载地址：http://www.cmake.org/cmake/resources/software.html
wget http://221.178.162.232/data4/06/f1/4c/96/df/b6/c5/4e/70/41/4c/48/c4/05/aa/88/cmake-2.8.12.2.tar.gz 解压 tar –zxvf cmake-2.8.12.2.tar.gz

1.9.2 安装

./bootstrap –prefix=/home/hadoop/software/cmake
make
make install

1.9.2.1. 配置环境变量

export CMAKE_HOME=/home/hadoop/software/cmake
PATH=$ CMAKE_HOME/bin:$PATH

1.9.2.2. 验证是否安装成功

cmake –version
如果如下图能正确显示版本号即为安装成功

1.10 安装其他依赖软件

yum install openssl-devel
yum install ncurses-devel

1.11 下载hadoop源码

下载地址：http://apache.fayea.com/apache-mirror/hadoop/common/hadoop-2.4.0/
Wget http://apache.fayea.com/apache-mirror/hadoop/common/hadoop-2.4.0/hadoop-2.4.0-src.tar.gz 解压
Tar –zxvf hadoop-2.4.0-src.tar.gz

1.12 编译Hadoop

目录/usr/local/hadoop-2.4.0-src中，执行命令
mvn package -DskipTests -Pdist,native
漫长的等待之后就是见证奇迹的时刻了（maven编译结束提示编译成功的时候），编译后的代码在/usr/local/hadoop-2.2.0-src/hadoop-dist/target下面
验证编译完是不是64位的，我的虚拟机是32位的所以执行后显示32位，
file lib/native/libh

1.13 伪分布式配置

进入cd hadoop-2.4.0/etc/hadoop/
给所有的.sh 文件增加可执行权限
Chmod +x *.sh

1.13.1 修改hadoop-env.sh

vi hadoop-env.sh
找到
export JAVA_HOME=${JAVA_HOME}
修改为
export JAVA_HOME=/home/hadoop/software/jdk1.7.0_51

1.13.3 修改mapred-site.xml

mv mapred-site.xml.template mapred-site.xml
vi mapred-site.xml
在configuration节点中增加
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

1.13.4 修改hdfs-site.xml

在configuration节点中增加
<property>
<name>dfs.replication</name>
<value>1</value>
</property>

1.13.5 修改yarn-site.xml

在configuration节点中增加
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

<property>
<name>yarn.resourcemanager.address</name>
<value>hadoop1:8032</value>
</property>

<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>hadoop1:8031</value>
</property>

<property>
<name>yarn.resourcemanager.admin.address</name>
<value>hadoop1:8033</value>
</property>

<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>hadoop1:8030</value>
</property>

<property>
<name>yarn.web-proxy.address</name>
<value>hadoop1:8888</value>
</property>

<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>

1.13.6 配置文件附件

1.13.7 启动hadoop

1.13.7.1. 格式化namenode

bin/hadoop namenode –format

1.13.7.2. 启动伪分布式集群

sbin/start-all.sh
查看是否启动成功
jps

1.13.7.3. 执行常用Shell命令测试集群

bin/hadoop fs –ls /
…

1.13.7.4. 使用浏览器访问查看集群状态

http://hadoop1:50070
其中hadoop1为namenode的hostname 或者直接使用ip也可以

查看resourcemanager上cluster运行状态
http://hadoop1:8088/cluster
其中hadoop1为resourcemanager的hostname 或者直接使用ip也可以（这里是伪分布模式namenode和resourcemanager都在同一台机器上运行，所以都直接用当前这个虚拟机的主机名就可以访问）

1.14 配置集群模式

1.14.1 简介

hadoop中的NameNode好比是人的心脏，非常重要，绝对不可以停止工作。在hadoop1时代，只有一个NameNode。如果该NameNode数据丢失或者不能工作，那么整个集群就不能恢复了。这是hadoop1中的单点问题，也是hadoop1不可靠的表现，如图1所示。

图1

hadoop2就解决了这个问题。hadoop2.2.0中HDFS的高可靠指的是可以同时启动2个NameNode。其中一个处于工作状态，另一个处于随时待命状态。这样，当一个NameNode所在的服务器宕机时，可以在数据不丢失的情况下，手工或者自动切换到另一个NameNode提供服务。

这些NameNode之间通过共享数据，保证数据的状态一致。多个NameNode之间共享数据，可以通过Network File System或者Quorum Journal Node。前者是通过linux共享的文件系统，属于操作系统的配置；后者是hadoop自身的东西，属于软件的配置。

我们这里讲述使用Quorum Journal Node的配置方式，方式是手工切换。

集群启动时，可以同时启动2个NameNode。这些NameNode只有一个是active的，另一个属于standby状态。active状态意味着提供服务，standby状态意味着处于休眠状态，只进行数据同步，时刻准备着提供服务，如图2所示。

图2

1.14.2 架构

在一个典型的HA集群中，每个NameNode是一台独立的服务器。在任一时刻，只有一个NameNode处于active状态，另一个处于standby状态。其中，active状态的NameNode负责所有的客户端操作，standby状态的NameNode处于从属地位，维护着数据状态，随时准备切换。

两个NameNode为了数据同步，会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时，会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息，并且一直监控edit log的变化，把变化应用于自己的命名空间。standby可以确保在集群出错时，命名空间状态已经完全同步了，如图3所示。

图3

为了确保快速切换，standby状态的NameNode有必要知道集群中所有数据块的位置。为了做到这点，所有的datanodes必须配置两个NameNode的地址，发送数据块位置信息和心跳给他们两个。

对于HA集群而言，确保同一时刻只有一个NameNode处于active状态是至关重要的。否则，两个NameNode的数据状态就会产生分歧，可能丢失数据，或者产生错误的结果。为了保证这点，JNs必须确保同一时刻只有一个NameNode可以向自己写数据。

1.14.3 集群机器职责规划

主机名	Ip	NameNode	ResourceManager	JournalNode	DataNode	NodeManager
Hadoop1	192.168.1.201	是	否	是	是	是
Hadoop2	192.168.1.202	是	否	是	是	是
Hadoop3	192.168.1.203	否	是	是	是	是

1.14.4 配置集群每个机器IP、主机名、host映射、SSH免密码登陆

1.14.5 配置hadoop配置文件

vi hadoop-env.sh
找到
export JAVA_HOME=${JAVA_HOME}
修改为
export JAVA_HOME=/home/hadoop/software/jdk1.7.0_51

1.14.1 修改core-site.xml

在configuration节点中增加
这种方法配置简单，推荐使用。
fs.defaultFS 客户端连接HDFS时，默认的路径前缀。如果前面配置了nameservice ID的值是mycluster，那么这里可以配置为授权信息的一部分。
可以在core-site.xml中配置如下
<property>
<name>fs.defaultFS</name>
<value>hdfs://mycluster</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hadoop/hadoop-2.4.0/data/tmp</value>
</property>
dfs.journalnode.edits.dir 这是JournalNode进程保持逻辑状态的路径。这是在linux服务器文件的绝对路径。配置如下
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/home/hadoop/hadoop/hadoop-2.4.0/data/journal</value>
</property>

1.14.2 修改mapred-site.xml

mv mapred-site.xml.template mapred-site.xml
vi mapred-site.xml
在configuration节点中增加
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

1.14.3 修改hdfs-site.xml

在configuration节点中增加
配置集群中的副本数
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
dfs.nameservices 命名空间的逻辑名称。如果使用HDFS Federation，可以配置多个命名空间的名称，使用逗号分开即可。
<property>
<name>dfs.nameservices</name>
<value>mycluster</value>
</property>
dfs.ha.namenodes.[nameservice ID] 命名空间中所有NameNode的唯一标示名称。可以配置多个，使用逗号分隔。该名称是可以让DataNode知道每个集群的所有NameNode。当前，每个集群最多只能配置两个NameNode
<property>
<name>dfs.ha.namenodes.mycluster</name>
<value>hadoop1,hadoop2</value>
</property>
dfs.namenode.rpc-address.[nameservice ID].[name node ID] 每个namenode监听的RPC地址。如下所示
<property>
<name>dfs.namenode.rpc-address.mycluster.hadoop1</name>
<value>hadoop1:8020</value>
</property>
<property>
<name>dfs.namenode.rpc-address.mycluster.hadoop2</name>
<value>hadoop2:8020</value>
</property>
dfs.namenode.http-address.[nameservice ID].[name node ID] 每个namenode监听的http地址。如下所示
<property>
<name>dfs.namenode.http-address.mycluster.hadoop1</name>
<value>hadoop1:50070</value>
</property>
<property>
<name>dfs.namenode.http-address.mycluster.hadoop2</name>
<value>hadoop2:50070</value>
</property>
dfs.namenode.shared.edits.dir 这是NameNode读写JNs组的uri。通过这个uri，NameNodes可以读写edit log内容。URI的格式"qjournal://host1:port1;host2:port2;host3:port3/journalId"。这里的host1、host2、host3指的是Journal Node的地址，这里必须是奇数个，至少3个；其中journalId是集群的唯一标识符，对于多个联邦命名空间，也使用同一个journalId。配置如下
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://hadoop1:8485;hadoop2:8485;hadoop3:8485/mycluster</value>
</property>
dfs.client.failover.proxy.provider.[nameservice ID] 这里配置HDFS客户端连接到Active NameNode的一个java类
<property>
<name>dfs.client.failover.proxy.provider.mycluster</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<property>
<name>dfs.ha.automatic-failover.enabled.mycluster</name>
<value>false</value>
</property>
dfs.ha.fencing.methods 配置active namenode出错时的处理类。当active namenode出错时，一般需要关闭该进程。处理方式可以是ssh也可以是shell。
如果使用ssh，配置如下
<property>
<name>dfs.ha.fencing.methods</name>
<value>sshfence</value>
</property>
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/home/hadoop/.ssh/id_dsa</value>
</property>

1.14.4 修改yarn-site.xml

1.14.5 启动集群

以下是我写的一些脚本可以方便快速启动集群，还不是很智能化，增加节点或者主机名不一样都要重新修改脚本
initmycluster.sh 主要实现了初始化集群的功能（把hadoop1节点的配置文件都同步到hadoop2和hadoop3上、删除日志文件、namenode元数据、删除datanote块数据，格式话两个namenode，然后启动集群，比较危险慎用）
startmycluster.sh 主要是按顺序启动集群中的服务
stopmycluster.sh 主要是停止集群中的所有服务

initmycluster文件配置详解
#把hadoop1上的配置文件都同步到hadoop2和hadoop3中
ssh hadoop1 'scp /home/hadoop/hadoop/hadoop-2.4.0/etc/hadoop/* hadoop2:/home/hadoop/hadoop/hadoop-2.4.0/etc/hadoop/'
ssh hadoop1 'scp /home/hadoop/hadoop/hadoop-2.4.0/etc/hadoop/* hadoop3:/home/hadoop/hadoop/hadoop-2.4.0/etc/hadoop/'

#清空初始化文件和日志文件
ssh hadoop1 'rm -rf /home/hadoop/hadoop/hadoop-2.4.0/data/tmp/*'
ssh hadoop2 'rm -rf /home/hadoop/hadoop/hadoop-2.4.0/data/tmp/*'
ssh hadoop3 'rm -rf /home/hadoop/hadoop/hadoop-2.4.0/data/tmp/*'
ssh hadoop1 'rm -rf /home/hadoop/hadoop/hadoop-2.4.0/logs/*'
ssh hadoop2 'rm -rf /home/hadoop/hadoop/hadoop-2.4.0/logs/*'
ssh hadoop3 'rm -rf /home/hadoop/hadoop/hadoop-2.4.0/logs/*'

#启动集群中的 journalnode
ssh hadoop1 '/home/hadoop/hadoop/hadoop-2.4.0/sbin/hadoop-daemon.sh start journalnode'
ssh hadoop2 '/home/hadoop/hadoop/hadoop-2.4.0/sbin/hadoop-daemon.sh start journalnode'
ssh hadoop3 '/home/hadoop/hadoop/hadoop-2.4.0/sbin/hadoop-daemon.sh start journalnode'
#启动hadoo1上的 namenode1
ssh hadoop1 '/home/hadoop/hadoop/hadoop-2.4.0/bin/hdfs namenode -format -clusterId mycluster'
ssh hadoop1 '/home/hadoop/hadoop/hadoop-2.4.0/sbin/hadoop-daemon.sh start namenode'
#s启动hadoop2上的 namenode2
ssh hadoop2 '/home/hadoop/hadoop/hadoop-2.4.0/bin/hdfs namenode -bootstrapStandby'
sleep 10
ssh hadoop2 '/home/hadoop/hadoop/hadoop-2.4.0/sbin/hadoop-daemon.sh start namenode'
sleep 10
#把hadoop1上的namenode置为active状态
ssh hadoop1 '/home/hadoop/hadoop/hadoop-2.4.0/bin/hdfs haadmin -failover --forceactive hadoop2 hadoop1'
#启动 datanode
ssh hadoop1 '/home/hadoop/hadoop/hadoop-2.4.0/sbin/hadoop-daemons.sh start datanode'
#启动 yarn（包括hadoop3上的ResourceManager和nodemanager、hadoop1和hadoop2上的nodemanager）
ssh hadoop3 '/home/hadoop/hadoop/hadoop-2.4.0/sbin/start-yarn.sh'

1.14.6 动态增加datanode

1.14.7 切换namenode

ssh hadoop1 '/home/hadoop/hadoop/hadoop-2.4.0/bin/hdfs haadmin -failover --forceactive hadoop2 hadoop1'
可以吧hadoop1 上的namenode切换为active状态，

1.14.8 破坏式实验

结束hadoop1上的namenode 进程然后执行
ssh hadoop1 '/home/hadoop/hadoop/hadoop-2.4.0/bin/hdfs haadmin -failover --forceactive hadoop1 hadoop2'
可以吧hadoop2 上的namenode切换为active状态，
然后在重新启动hadoop1上的namenode 还是可以自动加入到集群中

1.15 附录1

1.15.1 普通用户使用sudo命令

visudo -f /etc/sudoers
在root ALL=(ALL) ALL 之后增加
Hadoop ALL=(ALL) ALL
#hadoop为需要使用sudo命令的用户名
Defaults:hadoop timestamp_timeout=-1,runaspw
//增加普通账户tom的sudo权限
//timestamp_timeout=-1 只需验证一次密码，以后系统自动记忆
//runaspw 需要root密码，如果不加默认是要输入普通账户的密码
Ubuntu用户可以把需要用使用sudo命令的用户加入sudo组
sudo adduser hadoop sudo

1.16 附录2-常用命令

1.16.1 添加用户

useradd -d /home/hadoop -s /bin/bash -m hadoop

1.16.2 修改密码

passwd hadoop

1.16.3 给脚本添加可执行权限

Chmod +x *.sh

1.16.4 vi编辑器替换命令

:%s/vivian/sky/（等同于 :g/vivian/s//sky/）替换每一行的第一个 vivian 为 sky
:%s/vivian/sky/g（等同于 :g/vivian/s//sky/g）替换每一行中所有 vivian 为 sky

1.16.5 ubuntu vi不能正常使用决绝方法重装

一.执行命令 sudo apt-get remove vim-common
二.执行命令 sudo apt-get install vim

1.17 用命令行方式关闭CentOS防火墙

#/sbin/iptables -I INPUT -p tcp --dport 80 -j ACCEPT
#/sbin/iptables -I INPUT -p tcp --dport 22 -j ACCEPT
#/etc/rc.d/init.d/iptables save
重启计算机后，防火墙默认已经开放了80和22两个端口。

临时性的完全关闭防火墙，可以不重启机器：
#/etc/init.d/iptables status ##查看防火墙状态
#/etc/init.d/iptable stop ##本次关闭防火墙
#/etc/init.d/iptable restart ##重启防火墙
永久性关闭防火墙：
#chkconfig --level 35 iptables off (注意中间的是两个英式小短线；重启)

附：
设置防火墙开放端口的方法如下：
vi /etc/sysconfig/iptables
修改防火墙时注意最好留下VNC和SSH的管理端口。
下面是一个iptables的示例：
# Firewall configuration written by system-config-securitylevel
# Manual customization of this file is not recommended.*filter
:INPUT ACCEPT [0:0]
:FORWARD ACCEPT [0:0]
:OUTPUT ACCEPT [0:0]
:RH-Firewall-1-INPUT - [0:0]
-A INPUT -j RH-Firewall-1-INPUT
-A FORWARD -j RH-Firewall-1-INPUT
-A RH-Firewall-1-INPUT -i lo -j ACCEPT
-A RH-Firewall-1-INPUT -p icmp –icmp-type any -j ACCEPT
-A RH-Firewall-1-INPUT -p 50 -j ACCEPT
-A RH-Firewall-1-INPUT -p 51 -j ACCEPT
-A RH-Firewall-1-INPUT -m state –state ESTABLISHED,RELATED -j ACCEPT
-A RH-Firewall-1-INPUT -m state –state NEW -m tcp -p tcp –dport 53 -j ACCEPT
-A RH-Firewall-1-INPUT -m state –state NEW -m udp -p udp –dport 53 -j ACCEPT
-A RH-Firewall-1-INPUT -m state –state NEW -m tcp -p tcp –dport 22 -j ACCEPT
-A RH-Firewall-1-INPUT -m state –state NEW -m tcp -p tcp –dport 25 -j ACCEPT
-A RH-Firewall-1-INPUT -m state –state NEW -m tcp -p tcp –dport 80 -j ACCEPT
-A RH-Firewall-1-INPUT -m state –state NEW -m tcp -p tcp –dport 443 -j ACCEPT
-A RH-Firewall-1-INPUT -j REJECT –reject-with icmp-host-prohibited
COMMIT
要根据自己需求情况来修改这个文件，举例来说，如果你不希望开放80端口提供web服务，那么应该相应的删除这一行：
-A RH-Firewall-1-INPUT -m state –state NEW -m tcp -p tcp –dport 80 -j ACCEPT
全部修改完之后重启iptables:
service iptables restart
你可以验证一下是否规则都已经生效：iptables -L
这样，我们就完成了CentOS防火墙的设置修改。

版权声明：本文为博主原创文章，未经博主允许不得转载。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： hadoop2.4 hadoop2.4编译 hadoop2.4部署 hadoop2.4部署安装

相关文章推荐

新的分享

章节导航

Hadoop2.4编译 伪分布安装 集群安装笔记

1.1 安装虚拟机

1.1.1 安装虚拟机网上教程很多就不写了

1.2 配置虚拟机

1.2.1 修改主机名

1.2.1.1. 查看主机名

1.2.1.2. 修改主机名

1.3 配置IP地址

1.3.1 如果网络有问题则需要重新设置网络

1.3.1.1. 设置虚拟机的网络

1.3.2 编辑虚拟机ip配置文件

1.3.3 配置完重启网卡

1.3.4 如果虚拟机是复制过来的重启网卡可能会报错，

1.3.4.1. 解决方法1

1.3.4.2. 解决方法2

1.3.4.3. 解决方法3

1.4 配置hosts文件（主机名和IP地址映射）

1.5 配置SSH免密码登陆

1.6 安装JDK

1.6.1 下载jdk

1.6.2 解压安装

1.6.2.1. 解压

1.6.2.2. 配置环境变量

1.6.2.3. 验证是否安装成功

1.7 安装Maven

1.7.1 下载安装Maven

1.7.2 配置Maven

1.7.2.1. 修改仓库地址

1.7.2.2. 修改settings.xml中本地仓库目录地址

1.7.2.3. 配置环境变量

1.7.2.4. 验证是否安装成功

1.8 安装ProtoclBuffer

1.8.1.1. 下载解压

1.8.1.2. 安装

1.8.1.3. 配置环境变量

1.8.1.4. 验证是否安装成功

1.9 安装CMake

1.9.1 下载解压

1.9.2 安装

1.9.2.1. 配置环境变量

1.9.2.2. 验证是否安装成功

1.10 安装其他依赖软件

1.11 下载hadoop源码

1.12 编译Hadoop

1.13 伪分布式配置

1.13.1 修改hadoop-env.sh

1.13.2 修改core-site.xml

1.13.3 修改mapred-site.xml

1.13.4 修改hdfs-site.xml

1.13.5 修改yarn-site.xml

1.13.6 配置文件附件

1.13.7 启动hadoop

1.13.7.1. 格式化namenode

1.13.7.2. 启动伪分布式集群

1.13.7.3. 执行常用Shell命令测试集群

1.13.7.4. 使用浏览器访问查看集群状态

1.14 配置集群模式

1.14.1 简介

1.14.2 架构

1.14.3 集群机器职责规划

1.14.4 配置集群每个机器IP、主机名、host映射、SSH免密码登陆

1.14.5 配置hadoop配置文件

1.14.1 修改core-site.xml

1.14.2 修改mapred-site.xml

1.14.3 修改hdfs-site.xml

1.14.4 修改yarn-site.xml

1.14.5 启动集群

1.14.6 动态增加datanode

1.14.7 切换namenode

1.14.8 破坏式实验

1.15 附录1

1.15.1 普通用户使用sudo命令

1.16 附录2-常用命令

1.16.1 添加用户

1.16.2 修改密码

1.16.3 给脚本添加可执行权限

1.16.4 vi编辑器替换命令

1.16.5 ubuntu vi不能正常使用决绝方法 重装

1.17 用命令行方式关闭CentOS防火墙

Hadoop2.4编译伪分布安装集群安装笔记

1.16.5 ubuntu vi不能正常使用决绝方法重装