您的位置：首页 > 其它

Spark实践 | spark2.2.0安装与部署

2018-04-02 16:29 337 查看

主要参考https://blog.csdn.net/weixin_36394852/article/details/76030317

在安装后hadoop之后，接下来需要安装的就是Spark。

安装之前的准备

下载并解压spark

tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz -C ~/

mv spark-2.2.0-bin-hadoop2.7/ spark-2.2.0

安装scala

sudo tar -zxvf /mnt/hgfs/share/scala-2.12.2.tgz -C /usr/lib

vim /etc/profile

export SCALA_HOME=/usr/lib/scala-2.12.2
export PATH=$PATH:${SCALA_HOME}/bin

source /etc/profile

配置环境变量

Ubuntu并没有自带vim，我们需要先安装，

vim更好用

sudo apt-get install vim

然后开始配置

vim /etc/profile

末尾插入

export SPARK_HOME=/home/jackherrick/spark-2.2.0

export PATH=$PATH:$SPARK_HOME/bin

配置Spark环境

打开

spark-2.2.0

文件夹

cd spark-2.2.0

此处需要配置的文件为两个

spark-env.sh

和

slaves

首先我们把缓存的文件

spark-env.sh.template

和·

slaves.template

改为spark识别的文件

spark-env.sh

和

slaves

修改spark-env.sh文件

vim spark-env.sh

在结尾引入

export JAVA_HOME=/usr/lib/jdk1.8.0_131

export SCALA_HOME=/usr/lib/scala-2.11.7

export HADOOP_HOME=/home/jackherrick/hadoop-2.7.3

export HADOOP_CONF_DIR=/home/jackherrick/hadoop-2.7.3/etc/hadoop

export SPARK_MASTER_IP=SparkMaster

export SPARK_WORKER_MEMORY=1g

export SPARK_WORKER_CORES=1

export SPARK_WORKER_INSTANCES=1

变量说明

- JAVA_HOME：Java安装目录

- SCALA_HOME：Scala安装目录

- HADOOP_HOME：hadoop安装目录

- HADOOP_CONF_DIR：hadoop集群的配置文件的目录

- SPARK_MASTER_IP：spark集群的Master节点的ip地址

- SPARK_WORKER_MEMORY：每个worker节点能够最大分配给exectors的内存大小

- SPARK_WORKER_CORES：每个worker节点所占有的CPU核数目

- SPARK_WORKER_INSTANCES：每台机器上开启的worker节点的数目

vim slaves

slave1
slave2

同步SparkWorker1和SparkWorker2的配置

在此我们使用

rsync

命令

rsync -av /home/jackherrick/spark-2.2.0/ slave1:/home/jackherrick/spark-2.2.0/

rsync -av /home/jackherrick/spark-2.2.0 slave2:/home/jackherrick/spark-2.2.0/