您的位置:首页 > 其它

Spark实践 | spark2.2.0安装与部署

2018-04-02 16:29 337 查看
主要参考https://blog.csdn.net/weixin_36394852/article/details/76030317

在安装后hadoop之后,接下来需要安装的就是Spark。

安装之前的准备

下载并解压spark

tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz -C ~/


mv spark-2.2.0-bin-hadoop2.7/ spark-2.2.0


安装scala

sudo tar -zxvf /mnt/hgfs/share/scala-2.12.2.tgz -C /usr/lib


vim /etc/profile


export SCALA_HOME=/usr/lib/scala-2.12.2
export PATH=$PATH:${SCALA_HOME}/bin


source /etc/profile




配置环境变量

Ubuntu并没有自带vim,我们需要先安装,

vim更好用

sudo apt-get install vim


然后开始配置

vim /etc/profile


末尾插入

export SPARK_HOME=/home/jackherrick/spark-2.2.0

export PATH=$PATH:$SPARK_HOME/bin


配置Spark环境

打开
spark-2.2.0
文件夹

cd spark-2.2.0


此处需要配置的文件为两个

spark-env.sh
slaves




首先我们把缓存的文件
spark-env.sh.template
和·
slaves.template
改为spark识别的文件
spark-env.sh
slaves


修改spark-env.sh文件

vim spark-env.sh


在结尾引入

export JAVA_HOME=/usr/lib/jdk1.8.0_131

export SCALA_HOME=/usr/lib/scala-2.11.7

export HADOOP_HOME=/home/jackherrick/hadoop-2.7.3

export HADOOP_CONF_DIR=/home/jackherrick/hadoop-2.7.3/etc/hadoop

export SPARK_MASTER_IP=SparkMaster

export SPARK_WORKER_MEMORY=1g

export SPARK_WORKER_CORES=1

export SPARK_WORKER_INSTANCES=1


变量说明

- JAVA_HOME:Java安装目录

- SCALA_HOME:Scala安装目录

- HADOOP_HOME:hadoop安装目录

- HADOOP_CONF_DIR:hadoop集群的配置文件的目录

- SPARK_MASTER_IP:spark集群的Master节点的ip地址

- SPARK_WORKER_MEMORY:每个worker节点能够最大分配给exectors的内存大小

- SPARK_WORKER_CORES:每个worker节点所占有的CPU核数目

- SPARK_WORKER_INSTANCES:每台机器上开启的worker节点的数目

vim slaves


slave1
slave2


同步SparkWorker1和SparkWorker2的配置

在此我们使用
rsync
命令

rsync -av /home/jackherrick/spark-2.2.0/ slave1:/home/jackherrick/spark-2.2.0/

rsync -av /home/jackherrick/spark-2.2.0 slave2:/home/jackherrick/spark-2.2.0/


启动Spark集群

因为我们只需要使用hadoop的HDFS文件系统,所以我们并不用把hadoop全部功能都启动。

启动hadoop的HDFS文件系统

start-dfs.sh


查看集群中结点对应的datanode namenode

启动Spark

因为hadoop/sbin以及spark/sbin均配置到了系统的环境中,它们同一个文件夹下存在同样的start-all.sh文件。最好是打开spark-2.2.0,在文件夹下面打开该文件。

./sbin/start-all.sh


Master结点多了Master slave结点多了Worker





成功打开Spark集群之后可以进入Spark的WebUI界面,可以通过

SparkMaster_IP:8080,即

http://192.168.201.128:8080/


访问,可见有两个正在运行的Worker节点。



打开Spark-shell

spark-shell


便可打开
Spark
shell




同时,因为
shell
在运行,我们也可以通过

SparkMaster_IP:4040,即

http://192.168.201.128:4040/


访问
WebUI
查看当前执行的任务。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: