spark standalone 集群环境搭建
2017-03-06 10:58
369 查看
spark standalone 集群环境搭建(使用虚拟机模拟集群)
主机操作系统:win10
主机准备软件和资源:
winscp
putty
CentOS-7-x86_64-Everything-1511.iso
vmware12
jdk-8u121-linux-x64.rpm
scala-2.12.1.tgz
spark-2.1.0-bin-hadoop2.7.tgz
虚拟操作系统:
centos 7
集群网络架构:
sparkmaster | 192.168.2.200 |
sparkslave01 | 192.168.2.201 |
sparkslave01 | 192.168.2.202 |
sparkslave01 | 192.168.2.203 |
一、创建一个干净的虚拟机
a.点击创建新的虚拟机b.选择自定义并点击下一步
c.选择操作系统镜像,下一步
d.修改虚拟机名称为cleanbase、修改虚拟机存放位置 。下一步
e.选择桥接模式。下一步
f.选择创建虚拟磁盘。下一步
.
g.选择将虚拟磁盘拆分成多个文件。下一步
h.修改虚拟磁盘路径。点击下一步,直至完成。
i.开始安装
j.回车开始安装
k.选择语言。continue
l.点击containue 修改时区
m.选择Shanghai。Done
n.修改安装盘
o.选择安装位置。Done
p.修改网络配置
点击 右下角 Save ,点击 左上角 Done
q.开始安装
直到安装完成,中途需要设置root用户名密码,随便设置一个
二、使用winscp 连接 cleanbase 虚拟机
putty连接测试
如果提示找不到putty,请在选项->选项里设置putty.exe 的绝对路径
连接测试:
输入密码。完成。
三、安装相关软件
1.创建 bigdata 用户组groupadd -g 1000 bigdata
创建 spark 用户
useradd -g bigdata spark
修改spark用户密码
passwd spark
输入两次
授权用户
chown -R spark:bigdata /home/spark
2.创建资源文件夹
切换到 spark 用户
su - spark cd /home/spark mkdir app mkdir upload mkdir data
切换回 root
su - root
ps:app目录用于安装 spark 、scala等。upload 目录用户保存上传文件,data 目录方便后期存放spark 相关数据
3.安装 jdk spark scala
#使用winscp上传jdk-8u121-linux-x64.rpm
scala-2.12.1.tgz
spark-2.1.0-bin-hadoop2.7.tgz
到 upload 目录
3.1 安装jdk
cd /home/spark/upload rpm -ivh jdk-8u121-linux-x64.rpm
3.2 安装 scala-2.12.1.tgz
cd /home/spark/upload tar -zxf scala-2.12.1.tgz mv scala-2.12.1 ../app
3.3 安装 spark
cd /home/spark/upload tar -zxf spark-2.1.0-bin-hadoop2.7.tgz mv spark-2.1.0-bin-hadoop2.7 ../app
3.4配置环境变量
cd / vi etc/profile
末尾增加内容
#java_home spark_home scala_home confif SCALA_HOME=/home/spark/app/scala-2.12.1 SPARK_HOME=/home/spark/app/spark-2.1.0-bin-hadoop2.7 #具体JDK位置,此处不一定相同 JAVA_HOME=/usr/java/jdk1.8.0_121 #具体JRE位置,此处不一定相同 JRE_HOME=/usr/java/jdk1.8.0_121/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin:$SCALA_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME JRE_HOME PATH CLASSPATH
刷新环境变量
source etc/profile
3.5 测试 JDK、scala环境
cd / java -version scala -version
3.6 测试spark 是否安装成功
运行spark测试
cd $SPARK_HOME$ ./bin/run-example SparkPi
四、集群配置
4.1 修改当前主机名hostname sparkmaster
4.2 修改 spark 配置
cd /home/spark/app/spark-2.1.0-bin-hadoop2.7/conf mv slaves.template slaves vi slaves
末尾加入如下内容
sparkmaster sparkslave01 sparkslave02 sparkslave03
4.3 修改spart-env
cd /home/spark/app/spark-2.1.0-bin-hadoop2.7/conf mv spark-env.sh.template spark-env.sh vi spark-env.sh
末尾加入如下内容:
export SCALA_HOME=/home/spark/app/scala-2.12.1 export JAVA_HOME=/usr/java/jdk1.8.0_121 export SPARK_MASTER_IP=192.168.2.200 export SPARK_WORKER_MEMORY=512m
4.4 修改hosts文件
cd / vi etc/hosts
末尾加入
192.168.2.200 sparkmaster 192.168.2.201 sparkslave01 192.168.2.202 sparkslave02 192.168.2.203 sparkslave03
五、其他配置
5.1关闭防火墙停止firewall
禁止firewall开机启动
systemctl stop firewalld.service systemctl disable firewalld.service
六、克隆cleanbase 虚拟机
6.1 克隆三个 cleanbase 的副本分别将克隆的三个虚拟机命名为 sparkslave01 sparkslave02 sparkslave03。
将cleanbase名称修改为sparkmaster。(ps 虚拟机名字可以任意,这样做只是为了更加直观)
七、配置克隆的虚机
7.1配置三个克隆的虚拟机修改虚拟机的ip地址
192.168.2.201 sparkslave01
192.168.2.202 sparkslave02
192.168.2.203 sparkslave03 一一对应
以sparkslave01为例
#修改hostname
hostname sparkslave01#修改ip
cd / cd /etc/sysconfig/network-scripts
#找到自己的网卡
vi ifcfg-eno16777736
修改红色标记部分为 192.168.2.201
使用如上方法配置另外两个虚拟机
八、配置虚拟机间无密钥访问
登陆sparkmaster#切换账号
su - spark
#生成 authorized_keys 一路 yes
ssh-keygen -t rsa
#重命名文件
cd /home/spark/.ssh cat id_rsa.pub >> authorized_keys
#复制授权文件到其他三个节点,一路 yes
scp authorized_keys spark@sparkslave01:/home/spark/.ssh/authorized_keys scp authorized_keys spark@sparkslave02:/home/spark/.ssh/authorized_keys scp authorized_keys spark@sparkslave03:/home/spark/.ssh/authorized_keys
#测试无密钥访问
ssh spark@sparkslave01 logout ssh spark@sparkslave02 logout ssh spark@sparkslave03 logout
九、测试集群
登陆 sparkmastercd /home/spark/app/spark-2.1.0-bin-hadoop2.7/sbin ./start-all.sh
运行成功。
后台验证管理界面,浏览器访问 http://192.168.2.200:8080/,结果如下
至此 spark standalone 简单集群搭建成功。后期会集成 hbase hdfs Yarn。
相关文章推荐
- Spark1.2集群环境搭建(Standalone+HA) 4G内存5个节点也是蛮拼的
- Spark1.2集群环境搭建(Standalone+HA) 4G内存5个节点
- Spark1.2集群环境搭建(Standalone+HA) 4G内存5个节点也是蛮拼的
- Spark1.2集群环境搭建(Standalone+HA) 4G内存5个节点也是蛮拼的
- linux环境部署Spark集群(Standalone Mode)
- Spark Standalone 以及 HDFS系统环境搭建
- Spark Standalone Mode 在 Win10 下搭建开发调试环境
- spark standalone模式 环境搭建
- Spark Standalone模式HA环境搭建
- Spark Standalone模式伪分布式环境搭建
- spark standalone集群模式搭建
- Spark学习笔记之-Spark Standalone(环境搭建)
- Spark-1.3.1集群环境搭建
- Dream------spark--spark集群的环境搭建
- CDH5.2+CM5.2+impala2+Spark1.1 集群搭建基础环境准备
- spark stand alone 集群部署
- Hadoop2.6.0 + Spark1.4.0 在Ubuntu14.10环境下的伪分布式集群的搭建(实践可用)
- hadoop spark 大数据集群环境搭建(一)
- Spark集群环境的搭建
- spark-1.2.0 集群环境搭建