Spark2.2.0 + Scala2.13.0集群搭建
2017-08-21 22:13
363 查看
Spark使用了Hadoop的HDFS作为持久化存储层,因此安装Spark时,应先安装与Spark版本相对应的Hadoop。Spark计算框架以Scala语言开发,因此部署Spark首先需要安装Scala及JDK。
Hadoop集群参考: ubuntu16+Hadoop2.7.3环境搭建(伪分布式),改为分布式集群
JDK版本:1.8.0
Scala版本:scala-2.13.0-M1
spark版本:2.2.0(目前最新版本)
由于本机Hadoop集群搭建完成,所以这里不再赘述Hadoop集群。本机hadoop集群 (一主两被) :
master:hadoopm
slave:hadoop_s1
slave:hadoop_s2
tar zxvf scala-2.13.0-M1.tgz -C /urs/local
末尾加入:
1)末尾加入:
关闭并保持,执行命令
使更改后的配置生效。
2)打开 /etc/hosts,加入集群中Master及各个Worker节点的ip与hostname配对(这一步配置Hadoop集群时也会配置,如果已经配置好,则跳过)
3)进入 /usr/local/spark-2.2.0/spark-2.2.0-bin-hadoop2.7/conf,执行如下命令:
cp spark-env.sh.template spark-env.sh
vim spark-env.sh
末尾加入:
ip地址为master主机所在地址,使用ipconfig可查看。本文为Hadoopm机器ip地址。
保存并退出,执行:
cp slaves.template slaves
vim slaves
在其中加入worker节点的hostname(这里总共三台机器hadoopm、hadoop_s1、hadoop_s2):
2)查看各个节点的启动情况,jps命令查看
Master主节点:
从节点:
3)通过Spark Web UI 查看集群状态
在浏览器输入Master的IP与端口号:
至此,spark集群配置完成。
Hadoop集群参考: ubuntu16+Hadoop2.7.3环境搭建(伪分布式),改为分布式集群
JDK版本:1.8.0
Scala版本:scala-2.13.0-M1
spark版本:2.2.0(目前最新版本)
由于本机Hadoop集群搭建完成,所以这里不再赘述Hadoop集群。本机hadoop集群 (一主两被) :
master:hadoopm
slave:hadoop_s1
slave:hadoop_s2
安装Scala
由上面给出的链接下载最新版scala。先在主机master(hadoopm)中安装。安装
在下载目录下执行:tar zxvf scala-2.13.0-M1.tgz -C /urs/local
配置
cd /etc/profile末尾加入:
export SCALA_HOME=/usr/local/scala-2.13.0-M1 export PATH=${SCALA_HOMA}/bin:$PATH
安装spark
在上面的链接中下载最新版的spark。先在主机master(hadoopm)中安装。安装
tar zxvf spark-2.2.0 -C /urs/local配置
打开 /etc/profile1)末尾加入:
export SPARK_HOME=/usr/local/spark-2.2.0/spark-2.2.0-bin-hadoop2.7/ export PATH=$PATH:${SPARK_HOME}/bin
关闭并保持,执行命令
source /etc/profile
使更改后的配置生效。
2)打开 /etc/hosts,加入集群中Master及各个Worker节点的ip与hostname配对(这一步配置Hadoop集群时也会配置,如果已经配置好,则跳过)
3)进入 /usr/local/spark-2.2.0/spark-2.2.0-bin-hadoop2.7/conf,执行如下命令:
cp spark-env.sh.template spark-env.sh
vim spark-env.sh
末尾加入:
export SPARK_MASTER_IP="192.168.42.130" export SCALA_HOME=/usr/local/scala-2.13.0-M1 export SPARK_WORKER_MEMORY=1g export JAVA_HOME=/usr/local/jdk
ip地址为master主机所在地址,使用ipconfig可查看。本文为Hadoopm机器ip地址。
保存并退出,执行:
cp slaves.template slaves
vim slaves
在其中加入worker节点的hostname(这里总共三台机器hadoopm、hadoop_s1、hadoop_s2):
hadoop_s1 hadoop_s2
集群复制
这里Hadoop集群已布置好,不再进行复制。执行如下命令:// 复制scala到集群其他集群 scp -r /usr/local/scala-2.13.0-M1/ root@hadoop_s1:/usr/local/ scp -r /usr/local/scala-2.13.0-M1/ root@hadoop_s2:/usr/local/ // 复制spark到集群其他集群 scp -r /usr/local/spark-2.2.0/ root@hadoop_s2:/usr/local/ scp -r /usr/local/spark-2.2.0/ root@hadoop_s1:/usr/local/ // 复制/etc/profile配置到集群其他集群 scp -r /etc/profile root@hadoop_s1:/etc/profile scp -r /etc/profile root@hadoop_s2:/etc/profile // 在被复制的集群集群上执行如下语句,使配置文件生效 source /etc/profile
Spark 集群试运行
1)在Master主机(本文为hadoopm)上,分别运行Hadoop、spark。cd /usr/local/hadoop/sbin ./start-all.sh cd /usr/local/spark-2.2.0/spark-2.2.0-bin-hadoop2.7/sbin ./start-all.sh
2)查看各个节点的启动情况,jps命令查看
Master主节点:
从节点:
3)通过Spark Web UI 查看集群状态
在浏览器输入Master的IP与端口号:
至此,spark集群配置完成。
参考
《循序渐进学spark》相关文章推荐
- spark1.6.0+Hadoop2.6.0+Scala-2.11.7 搭建分布式集群
- spark2.2.0搭建standalone集群环境
- Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上
- spark2.2.0集群环境搭建
- Hadoop2.2.0 HA高可用分布式集群搭建(hbase,hive,sqoop,spark)
- 如何在虚拟机上搭建并配置一个分布式的 Spark2.2.0 集群
- Spark 集群搭建从零开始之1 Scala的安装与配置
- Spark【基础篇】Spark2.2.0集群搭建
- spark集群搭建(Hadoop、Scala)
- Spark集群 + Akka + Kafka + Scala 开发(3) : 开发一个Akka + Spark的应用
- 6,数据挖掘环境搭建-Spark集群搭建
- Intellij IDEA使用Maven搭建spark开发环境(scala)
- hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建(1)安装jdk
- 第五章:基于第四章spark集群搭建实验
- 图文+代码讲解spark-2.1.0集群搭建
- 第95讲:使用Scala开发集群运行的Spark来实现在线热搜索词获取
- Eclipse+maven+scala+spark环境搭建
- Spark项目之电商用户行为分析大数据平台之(三)大数据集群的搭建
- Hadoop2.2.0安装配置手册!完全分布式Hadoop集群搭建过程
- spark-2.2.0-bin-hadoop2.6和spark-1.6.1-bin-hadoop2.6发行包自带案例全面详解(java、python、r和scala)之Basic包下的JavaPageRank.java(图文详解)