您的位置：首页 > 其它

Spark On YARN 分布式集群安装

2019-06-27 19:58 99 查看

1.安装jdk
2.安装scala
3.hadoop完全分布式运行模式
4.安装spark
1.2.4参考： Spark On YARN 伪分布式集群安装

3.hadoop完全分布式运行模式
3.1 集群环境：(3台主机)

master     #主节点
slave1     #从节点1
salve2     #从节点2

3.2 SSH无密登录配置
简单来说，就是每台主机可以相互切换。方便启动集群。
1）生成公钥和私钥：(一直敲回车就行)

[root@master .ssh]$ ssh-keygen -t rsa

2）将公钥拷贝到要免密登录的目标机器上

#master 可以访问 master/slave1/slave2
[root@master .ssh]$ ssh-copy-id master
[root@master .ssh]$ ssh-copy-id slave1
[root@master .ssh]$ ssh-copy-id slave2

3.3 集群部署规划
Hadoop简介

3.4 根据部署，配置集群
1）配置全局文件：core-site.xml

[root@master hadoop]$ vim core-site.xml

<configuration>
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>

<!-- 指定hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.2/data</value>
</property>

<!-- 下面的可以不配 ，我没有配过-->
<!-- web端查看HDFS文件系统的地址 -->
<property>
<name>dfs.http.address</name>
<value>50070</value>
</property>
</configuration>

2）hdfs 配置文件
2.1 配置hadoop-env.sh

[root@master hadoop]$ vim hadoop-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_211

2.2 配置 hdfs-site.xml

[root@master hadoop]$ vim hdfs-site.xml

<configuration>
<!--  副本的个数为3  -->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>

<!--  SecondaryNameNode ： slave2 -->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>slave2:50090</value>
</property>
</configuration>

3）yarn 配置文件
3.1 配置 yarn-env.sh

[root@master hadoop]$ vim yarn-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_211

3.2 配置 yarn-site.xml

[root@master hadoop]$ vim yarn-site.xml

<configuration>
<!-- reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

<!-- ResourceManager : slave1-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>slave1</value>
</property>
</configuration>

4）mapreduce 配置文件
4.1 配置 mapred-env.sh

[root@master hadoop]$ vim mapred-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_211

4.2 配置 mapred-site.xml

# 拷贝 mapred-site.xml.template 为 mapred-site.xml
[root@master hadoop]$ cp mapred-site.xml.template mapred-site.xml

[root@master hadoop]$ vi mapred-site.xml

<configuration>
<!-- 指定mr运行在yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

注意：对master ，slave1 ，slave2 都进行3.3 同样的配置；
注意：对master ，slave1 ，slave2 都进行3.3 同样的配置；
注意：对master ，slave1 ，slave2 都进行3.3 同样的配置；
3.5 启动集群
注意：在 ResouceManager 的节点上启动yarn。

[root@master sbin]$ start-all.sh

3.6 关闭集群

[root@master sbin]$ stop-all.sh

补充：关于hadoop的启动/关闭命令

补充：关于spark的启动/关闭命令

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航