您的位置:首页 > 其它

Spark On YARN 分布式集群安装

2019-06-27 19:58 99 查看

1.安装jdk
2.安装scala
3.hadoop完全分布式运行模式
4.安装spark
1.2.4参考: Spark On YARN 伪分布式集群安装

3.hadoop完全分布式运行模式
3.1 集群环境:(3台主机)

master     #主节点
slave1     #从节点1
salve2     #从节点2

3.2 SSH无密登录配置
简单来说,就是每台主机可以相互切换。方便启动集群。
1)生成公钥和私钥:(一直敲回车就行)

[root@master .ssh]$ ssh-keygen -t rsa

2)将公钥拷贝到要免密登录的目标机器上

#master 可以访问 master/slave1/slave2
[root@master .ssh]$ ssh-copy-id master
[root@master .ssh]$ ssh-copy-id slave1
[root@master .ssh]$ ssh-copy-id slave2

3.3 集群部署规划
Hadoop简介

3.4 根据部署,配置集群
1)配置全局文件:core-site.xml

[root@master hadoop]$ vim core-site.xml
<configuration>
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>

<!-- 指定hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.2/data</value>
</property>

<!-- 下面的可以不配 ,我没有配过-->
<!-- web端查看HDFS文件系统的地址 -->
<property>
<name>dfs.http.address</name>
<value>50070</value>
</property>
</configuration>

2)hdfs 配置文件
2.1 配置hadoop-env.sh

[root@master hadoop]$ vim hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_211

2.2 配置 hdfs-site.xml

[root@master hadoop]$ vim hdfs-site.xml
<configuration>
<!--  副本的个数为3  -->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>

<!--  SecondaryNameNode : slave2 -->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>slave2:50090</value>
</property>
</configuration>

3)yarn 配置文件
3.1 配置 yarn-env.sh

[root@master hadoop]$ vim yarn-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_211

3.2 配置 yarn-site.xml

[root@master hadoop]$ vim yarn-site.xml
<configuration>
<!-- reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

<!-- ResourceManager : slave1-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>slave1</value>
</property>
</configuration>

4)mapreduce 配置文件
4.1 配置 mapred-env.sh

[root@master hadoop]$ vim mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_211

4.2 配置 mapred-site.xml

# 拷贝 mapred-site.xml.template 为 mapred-site.xml
[root@master hadoop]$ cp mapred-site.xml.template mapred-site.xml

[root@master hadoop]$ vi mapred-site.xml
<configuration>
<!-- 指定mr运行在yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

注意:对master ,slave1 ,slave2 都进行3.3 同样的配置;
注意:对master ,slave1 ,slave2 都进行3.3 同样的配置;
注意:对master ,slave1 ,slave2 都进行3.3 同样的配置;
3.5 启动集群
注意:在 ResouceManager 的节点上启动yarn。

[root@master sbin]$ start-all.sh

3.6 关闭集群

[root@master sbin]$ stop-all.sh

补充:关于hadoop的启动/关闭命令

补充:关于spark的启动/关闭命令

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: