您的位置：首页 > 大数据 > Hadoop

Hadoop集群环境搭建

2020-01-15 11:12 736 查看

Hadoop集群环境搭建

1、配置hosts文件

1）配置主从节点主机hosts，编辑hosts文件

# vim /etc/hosts

2) 添加hosts配置，并保存hosts文件

192.168.1.129 master

192.168.1.130 slave

2、配置ssh免密码连入

1）生成ssh免密码连入密钥

# ssh-keygen -t rsa

2) 将生成的密钥公钥id_rsa.pub复制到从节点主机上

# scp ~/.ssh/id_rsa.pubghost@slave:~/.ssh/

3) 通过ssh输入密码，登陆从节点主机

# ssh ghost@slave

4) 生成authorized_keys，配置完成即可登陆

# cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

注意：

在第一步的时候要一直按回车键，直到生成密钥完成，在第四步完成之后如果登陆还需要密码，即可能是权限问题执行下面命令即可：

# chmod 700 ~/.ssh

# chmod 600 ~/.ssh/authorized_keys

3、下载以及安装jdk和Hadoop包

1）下载及安装jdk软件包

①下载地址：......

②解压jdk包，并移动目录到/opt/java

# tar -zxvf jdk-8u131-linux-x64.tar.gz

# mv jdk1.8.0_131 /opt/java

③配置java环境变量，编辑profile文件

# vim /etc/profile

④添加如下jdk环境变量配置

⑤使jdk环境变量生效，执行下面的命令

# source /etc/profile

注意：

若是多个版本jdk共存，可能要设置jdk版本，执行以下命令即可：

# alternatives --config java

若是没有你自定义的jdk版本，那么就新建配置，再执行上面的命令选择版本：

# alternatives --install /usr/bin/java java /opt/java/jdk1.8.0_131/bin/java 3

2）下载及安装hadoop-2.7.3包

①下载Hadoop-2.7.3包：......

②解压Hadoop-2.7.3包，并移动到目录ghost下

# tar -zxvf hadoop-2.7.3.tar.gz -C /home/ghost

③设置环境变量

# vim .bash_profile

④添加Hadoop环境变量配置

⑤使Hadoop环境变量生效，执行下面的命令

# source .bash_profile

注意：

Hadoop都是在用户ghost的权限下操作，因此环境变量的配置也是在.bash_profile中，只在ghost下起作用。

4、配置core-site.xml文件

添加如下配置：

<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/ghost/hadoopdata/tmp</value>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>4096</value>
</property>
</configuration>

5、配置hdfs-site.xml文件

添加如下配置：

<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/ghost/hadoopdata/hdfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/ghost/hadoopdata/hdfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:9001</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>

6、配置mapred-site.xml文件

添加如下配置：

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
<final>true</final>
</property>
<property>
<name>mapreduce.jobtracker.http.address</name>
<value>master:50030</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>http://master:9001</value>
</property>
</configuration>

注意：

若mapred-site.xml文件不存在则执行以下命令生成文件：

# cp mapred-site.xml.template mapred-site.xml

7、配置yarn-site.xml文件

添加如下配置：

<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:8088</value>
</property>
</configuration>