您的位置:首页 > 其它

spark standalone 集群环境搭建

2017-03-06 10:58 369 查看

spark standalone 集群环境搭建(使用虚拟机模拟集群)

主机操作系统:
win10
主机准备软件和资源:
winscp
putty
CentOS-7-x86_64-Everything-1511.iso 
vmware12 
jdk-8u121-linux-x64.rpm

scala-2.12.1.tgz

spark-2.1.0-bin-hadoop2.7.tgz
虚拟操作系统:
centos 7

集群网络架构:
ip 划分
sparkmaster192.168.2.200
sparkslave01192.168.2.201
sparkslave01192.168.2.202
sparkslave01192.168.2.203
注:sparkmaster为集群master节点。sparkslave*为子节点

一、创建一个干净的虚拟机

a.点击创建新的虚拟机



b.选择自定义并点击下一步



c.选择操作系统镜像,下一步



d.修改虚拟机名称为cleanbase、修改虚拟机存放位置 。下一步



e.选择桥接模式。下一步



f.选择创建虚拟磁盘。下一步

.


g.选择将虚拟磁盘拆分成多个文件。下一步



h.修改虚拟磁盘路径。点击下一步,直至完成。



i.开始安装



j.回车开始安装



k.选择语言。continue



l.点击containue 修改时区



m.选择Shanghai。Done



n.修改安装盘



o.选择安装位置。Done



p.修改网络配置







点击 右下角 Save ,点击 左上角 Done

q.开始安装



直到安装完成,中途需要设置root用户名密码,随便设置一个

二、使用winscp 连接 cleanbase 虚拟机



putty连接测试



如果提示找不到putty,请在选项->选项里设置putty.exe 的绝对路径



连接测试:



输入密码。完成。


三、安装相关软件

1.创建 bigdata 用户组
groupadd -g 1000 bigdata

创建 spark 用户
useradd -g bigdata spark

修改spark用户密码
passwd spark

输入两次
授权用户
chown -R spark:bigdata /home/spark

2.创建资源文件夹
切换到 spark 用户
su  -    spark
cd /home/spark
mkdir app
mkdir upload
mkdir data


切换回 root
su - root

ps:app目录用于安装 spark 、scala等。upload 目录用户保存上传文件,data 目录方便后期存放spark 相关数据

3.安装 jdk spark scala

#使用winscp上传 

jdk-8u121-linux-x64.rpm

scala-2.12.1.tgz

spark-2.1.0-bin-hadoop2.7.tgz
到 upload 目录
3.1 安装jdk
cd  /home/spark/upload
rpm  -ivh jdk-8u121-linux-x64.rpm


3.2 安装 scala-2.12.1.tgz
cd /home/spark/upload
tar  -zxf scala-2.12.1.tgz
mv  scala-2.12.1 ../app

3.3 安装 spark
cd /home/spark/upload
tar  -zxf  spark-2.1.0-bin-hadoop2.7.tgz
mv spark-2.1.0-bin-hadoop2.7 ../app

3.4配置环境变量
cd /
vi etc/profile

  末尾增加内容
#java_home spark_home scala_home confif
SCALA_HOME=/home/spark/app/scala-2.12.1
SPARK_HOME=/home/spark/app/spark-2.1.0-bin-hadoop2.7
#具体JDK位置,此处不一定相同
JAVA_HOME=/usr/java/jdk1.8.0_121
#具体JRE位置,此处不一定相同
JRE_HOME=/usr/java/jdk1.8.0_121/jre
PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin:$SCALA_HOME/bin
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
export JAVA_HOME JRE_HOME PATH CLASSPATH

刷新环境变量
source etc/profile

3.5 测试 JDK、scala环境
cd /
java -version
scala -version


3.6 测试spark 是否安装成功

运行spark测试  

cd  $SPARK_HOME$
./bin/run-example SparkPi

四、集群配置

    4.1 修改当前主机名 
hostname sparkmaster

   4.2 修改 spark 配置
cd /home/spark/app/spark-2.1.0-bin-hadoop2.7/conf
mv slaves.template slaves
vi slaves

   末尾加入如下内容
 
sparkmaster
sparkslave01
sparkslave02
sparkslave03

4.3 修改spart-env
cd  /home/spark/app/spark-2.1.0-bin-hadoop2.7/conf
mv spark-env.sh.template spark-env.sh
vi spark-env.sh

 末尾加入如下内容:
export SCALA_HOME=/home/spark/app/scala-2.12.1
export JAVA_HOME=/usr/java/jdk1.8.0_121
export SPARK_MASTER_IP=192.168.2.200
export SPARK_WORKER_MEMORY=512m


4.4 修改hosts文件
cd /
vi etc/hosts

末尾加入
192.168.2.200 sparkmaster
192.168.2.201 sparkslave01
192.168.2.202 sparkslave02
192.168.2.203 sparkslave03


五、其他配置

5.1关闭防火墙
停止firewall
禁止firewall开机启动

systemctl stop firewalld.service
systemctl disable firewalld.service

六、克隆cleanbase 虚拟机

        6.1 克隆三个 cleanbase 的副本
           分别将克隆的三个虚拟机命名为 sparkslave01  sparkslave02  sparkslave03。
          将cleanbase名称修改为sparkmaster。(ps 虚拟机名字可以任意,这样做只是为了更加直观)

七、配置克隆的虚机

7.1配置三个克隆的虚拟机
      修改虚拟机的ip地址
192.168.2.201 sparkslave01
  192.168.2.202 sparkslave02 

  192.168.2.203 sparkslave03  一一对应
 

   以sparkslave01为例
    #修改hostname 
hostname sparkslave01
   #修改ip
cd /
cd /etc/sysconfig/network-scripts

  #找到自己的网卡
   


vi ifcfg-eno16777736




  修改红色标记部分为 192.168.2.201

使用如上方法配置另外两个虚拟机

八、配置虚拟机间无密钥访问

   登陆sparkmaster 
 #切换账号
su - spark

#生成 authorized_keys 一路 yes
ssh-keygen -t rsa

#重命名文件
cd /home/spark/.ssh
cat id_rsa.pub >> authorized_keys

#复制授权文件到其他三个节点,一路 yes
scp authorized_keys spark@sparkslave01:/home/spark/.ssh/authorized_keys
scp authorized_keys spark@sparkslave02:/home/spark/.ssh/authorized_keys
scp authorized_keys spark@sparkslave03:/home/spark/.ssh/authorized_keys


#测试无密钥访问
ssh spark@sparkslave01
logout

ssh spark@sparkslave02
logout

ssh spark@sparkslave03
logout


九、测试集群

   登陆 sparkmaster 
cd  /home/spark/app/spark-2.1.0-bin-hadoop2.7/sbin
./start-all.sh




运行成功。

后台验证管理界面,浏览器访问 http://192.168.2.200:8080/,结果如下



至此 spark standalone 简单集群搭建成功。后期会集成 hbase hdfs Yarn。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: