您的位置：首页 > 运维架构

Spark On YARN 集群安装部署

2016-11-13 19:52 447 查看

Spark On YARN 集群安装部署

软件环境：

Ubuntu 14.04.1 LTS (GNU/Linux 3.13.0-32-generic x86_64)

Hadoop: 2.6.0

Spark: 1.3.0

0 写在前面

本例中的演示均为非 root 权限，所以有些命令行需要加 sudo，如果你是 root 身份运行，请忽略 sudo。下载安装的软件建议都放在 home 目录之上，比如

~/workspace

中，这样比较方便，以免权限问题带来不必要的麻烦。
虚拟机采用桥接模式，集群主机连入同一局域网（比如同一路由器）

1.
环境准备

配置hosts

在每台主机上修改host文件

vi /etc/hosts

10.1.1.107      master
10.1.1.108      slave1
10.1.1.109      slave2

配置之后ping一下用户名看是否生效

ping slave1
ping slave2

SSH
免密码登录

安装Openssh server

sudo apt-get install openssh-server

在所有机器上都生成私钥和公钥

ssh-keygen -t rsa   #一路回车

需要让机器间都能相互访问，就把每个机子上的

id_rsa.pub

发给master节点，传输公钥可以用scp来传输。

sup -r ~/.ssh/id_rsa.pub spark@master:~/.ssh/id_rsa.pub.slave1

在master上，将所有公钥加到用于认证的公钥文件

authorized_keys

中

cat ~/.ssh/id_rsa.pub* >> ~/.ssh/authorized_keys

将公钥文件

authorized_keys

分发给每台slave

scp ~/.ssh/authorized_keys spark@slave1:~/.ssh/

在每台机子上验证SSH无密码通信

ssh master
ssh slave1
ssh slave2

如果登陆测试不成功，则可能需要修改文件authorized_keys的权限（权限的设置非常重要，因为不安全的设置安全设置,会让你不能使用RSA功能）

chmod 600 ~/.ssh/authorized_keys

以上SSH免密登录不成功参照笔记本中1.1---Spark集群搭建——SSH免密码验证登陆可能会有帮助
安装 Java

从官网下载最新版
Java 就可以，Spark官方说明 Java 只要是6以上的版本都可以，我下的是 jdk-7u75-linux-x64.gz

在

~/workspace

目录下直接解压

tar -zxvf jdk-7u75-linux-x64.gz

修改环境变量

sudo vi /etc/profile

，添加下列内容，注意将home路径替换成你的：

export WORK_SPACE=/home/spark/workspace/
export JAVA_HOME=$WORK_SPACE/jdk1.7.0_75
export JRE_HOME=/home/spark/workspace/jdk1.7.0_75/jre
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

然后使环境变量生效，并验证 Java 是否安装成功

$ source /etc/profile #生效环境变量
$ java -version #如果打印出如下版本信息，则说明安装成功
java version "1.7.0_75"
Java(TM) SE Runtime Environment (build 1.7.0_75-b13)

Java HotSpot(TM) 64-Bit Server VM (build 24.75-b04, mixed mode)

—不确定point:如果之后的测试未弹出 JAVA_HOME is not set 这样的错误，则忽略此point
如果有：
/home/spark/workspace/spark-1.7.0_75/sbin/spark-conf.sh 中增加环境变量 export /home/……….(此为jdk路径)

安装 Scala

Spark官方要求 Scala 版本为 2.10.x，注意不要下错版本，我这里下了 2.10.4，官方下载地址（可恶的天朝大局域网下载
Scala 龟速一般）。
同样我们在

~/workspace

中解压

tar -zxvf scala-2.10.4.tgz

再次修改环境变量

sudo vi /etc/profile

，添加以下内容：

export SCALA_HOME=$WORK_SPACE/scala-2.10.4
export PATH=$PATH:$SCALA_HOME/bin

同样的方法使环境变量生效，并验证 scala 是否安装成功

$ source /etc/profile #生效环境变量
$ scala -version
#如果打印出如下版本信息，则说明安装成功
Scala code runner version 2.10.4 -- Copyright 2002-2013, LAMP/EPFL

安装配置 Hadoop YARN

下载解压

从官网下载
hadoop2.6.0 版本，这里给个我们学校的镜像下载地址。
同样我们在

~/workspace

中解压

tar -zxvf hadoop-2.6.0.tar.gz

配置 Hadoop

cd ~/workspace/hadoop-2.6.0/etc/hadoop

进入hadoop配置目录，需要配置有以下7个文件：

hadoop-env.sh

，

yarn-env.sh

，

slaves

，

core-site.xml

，

hdfs-site.xml

，

maprd-site.xml

，

yarn-site.xml

在

hadoop-env.sh

中配置JAVA_HOME

# The java implementation to use.
export JAVA_HOME=/home/spark/workspace/jdk1.7.0_75

在

yarn-env.sh

中配置JAVA_HOME

# some Java parameters
export JAVA_HOME=/home/spark/workspace/jdk1.7.0_75

在

slaves

中配置slave节点的ip或者host，

slave1
slave2

修改

core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000n/</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/home/spark/workspace/hadoop-2.6.0/tmp</value>
</property>
</configuration>

修改

hdfs-site.xml

<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:9001</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/spark/workspace/hadoop-2.6.0/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/spark/workspace/hadoop-2.6.0/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>

修改

mapred-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

修改

yarn-site.xml

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8035</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:8088</value>
</property>
</configuration>

将配置好的

hadoop-2.6.0

文件夹分发给所有slaves吧

scp -r ~/workspace/hadoop-2.6.0 spark@slave1:~/workspace/

启动
Hadoop

在 master 上执行以下操作，就可以启动 hadoop 了。

cd ~/workspace/hadoop-2.6.0     #进入hadoop目录
bin/hadoop namenode -format     #格式化namenode
sbin/start-dfs.sh               #启动dfs
sbin/start-yarn.sh s             #启动yarn

验证
Hadoop 是否安装成功

可以通过

jps

命令查看各个节点启动的进程是否正常。在 master 上应该有以下几个进程：

$ jps  #run on master
3407 SecondaryNameNode
3218 NameNode
3552 ResourceManager
3910 Jps

在每个slave上应该有以下几个进程：

$ jps   #run on slaves
2072 NodeManager
2213 Jps
1962 DataNode

或者在浏览器中输入
http://master:8088 ，应该有 hadoop 的管理界面出来了，并能看到 slave1 和 slave2 节点。

Spark安装

下载解压

进入官方下载地址下载最新版
Spark。我下载的是
spark-1.3.0-bin-hadoop2.4.tgz。
在

~/workspace

目录下解压

tar -zxvf spark-1.3.0-bin-hadoop2.4.tgz
mv spark-1.3.0-bin-hadoop2.4 spark-1.3.0    #原来的文件名太长了，修改下

配置 Spark

cd ~/workspace/spark-1.3.0/conf    #进入spark配置目录
cp spark-env.sh.template spark-env.sh   #从配置模板复制
vi spark-env.sh     #添加配置内容

在

spark-env.sh

末尾添加以下内容（这是我的配置，你可以自行修改）：

export SCALA_HOME=/home/spark/workspace/scala-2.10.4
export JAVA_HOME=/home/spark/workspace/jdk1.7.0_75
export HADOOP_HOME=/home/spark/workspace/hadoop-2.6.0
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
SPARK_MASTER_IP=master
SPARK_LOCAL_DIRS=/home/spark/workspace/spark-1.3.0
SPARK_DRIVER_MEMORY=1G

注：在设置Worker进程的CPU个数和内存大小，要注意机器的实际硬件条件，如果配置的超过当前Worker节点的硬件条件，Worker进程会启动失败。

vi slaves

在slaves文件下填上slave主机名：

slave1
slave2

将配置好的

spark-1.3.0

文件夹分发给所有slaves吧

scp -r ~/workspace/spark-1.3.0 spark@slave1:~/workspace/

启动Spark

sbin/start-all.sh

验证
Spark 是否安装成功

用

jps

检查，在 master 上应该有以下几个进程：

$ jps
7949 Jps
7328 SecondaryNameNode
7805 Master
7137 NameNode
7475 ResourceManager

在 slave 上应该有以下几个进程：

$jps
3132 DataNode
3759 Worker
3858 Jps
3231 NodeManager

进入Spark的Web管理页面：
http://master:8080

运行示例

#本地模式两线程运行
./bin/run-example SparkPi 10 --master local[2]

#Spark Standalone 集群模式运行
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://master:7077 \
lib/spark-examples-1.3.0-hadoop2.4.0.jar \
100

#Spark on YARN 集群上 yarn-cluster 模式运行
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn-cluster \  # can also be `yarn-client`
lib/spark-examples*.jar \
10

注意 Spark on YARN 支持两种运行模式，分别为

yarn-cluster

和

yarn-client

，具体的区别可以看这篇博文，从广义上讲，yarn-cluster适用于生产环境；而yarn-client适用于交互和调试，也就是希望快速地看到application的输出。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： hadoop openssh Spark平台搭建

相关文章推荐

新的分享

章节导航

Spark On YARN 集群安装部署

1.环境准备

SSH免密码登录

启动Hadoop

验证Hadoop 是否安装成功

验证Spark 是否安装成功

1.
环境准备

SSH
免密码登录

启动
Hadoop

验证
Hadoop 是否安装成功

验证
Spark 是否安装成功