您的位置:首页 > 其它

spark测试集群搭建

2015-11-04 06:45 399 查看
集群环境:centos6.5+hadoop2.7.1+spark1.5.1

集群规模:3个节点(Master,Slave1,Slave2)

软件下载:centos6.5
下载地址

    scala-2.10.4.rpm

    jdk-7u79-linux-x64.rpm

    spark-1.5.1-bin-hadoop2.6.tgz

    hadoop-2.7.1.tar.gz  

    下载地址

集群安装思路:

1.在VmWare上安装一个centos

2.在该节点上禁用iptables和selinux

3.安装java和scala环境

4.安装配置hadoop和spark(根据预先订好的名称Master,Slave1,Slave2)配置

5.关闭系统,将该节点拷贝两份

6.分别设置3个节点的主机名和SSH免登陆

7.启动测试hadoop,spark

第一步:在VmWare上安装centos

在本机安装Vmware,然后通过Vmware安装centos6.5,默认配置,2个CPU,2G内存

第二步:在该节点上禁用iptables和selinux

#chkconfig iptables stop

#vi /etc/selinux/config

修改内容SELINUX=disabled

第三步:安装java和scala环境

将scala-2.10.4.rpm和jdk-7u79-linux-x64.rpm拷贝到桌面上,进入root

#su

#rpm -ivh scala-2.10.4.rpm

#rpm -ivh jdk-7u79-linux-x64.rpm

#vi /etc/profile

在文件最后增加内容:

export JAVA_HOME=/usr/java/jdk1.7.0_79

export SCALA_HOME=/usr/share/scala

export PATH=$PATH:${JAVA_HOME}/bin:${SCALA_HOME}/bin:/usr/local/hadoop/hadoop-2.7.1/bin

第四步:安装配置hadoop和spark

#cd /usr/local

#mkdir hadoop

#mkdir spark

将spark-1.5.1-bin-hadoop2.6.tgz拷贝到/usr/local/spark中,将hadoop-2.7.1.tar.gz 拷贝到/usr/local/hadoop中

#cd /usr/local/spark

#tar -zxvf  spark-1.5.1-bin-hadoop2.6.tgz

#cd ../hadoop

#tar -zxvf  hadoop-2.7.1.tar.gz

配置hadoop

#cd /usr/local/hadoop/hadoop2.7.1/etc/hadoop

#vi core-site.xml

修改内容如下:

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://Master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/hadoop-2.7.1/tmp</value>
</property>
</configuration>
#vi hdfs-site.xml

修改内容如下:

<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/usr/local/hadoop/hadoop-2.7.1/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/hadoop/hadoop-2.7.1/hdfs/data</value>
</property>
</configuration>
#vi slaves

替换内容为:

Master

Slave1

Slave2

#cd ../..

#mkdir hdfs

#mkdir tmp

#cd hdfs

#mkdir name

#mkdir data

配置spark

# cd /usr/local/spark/spark-1.5.1-bin-hadoop2.6/conf

#cp spark-env.sh.template spark-env.sh

#vi spark-env.sh

在文件最后添加:

export SPARK_MASTER_IP=Master

export SPARK_WORKER_MEMORY=1g

export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-2.7.1/etc/hadoop

#vi slaves

替换一下内容:

Master

Slave1

Slave2

第五步:关闭系统,将该节点拷贝两份

第六步:分别设置3个节点的主机名和SSH免登陆

启动3个节点

进入一个节点

#su

#vi /etc/sysconfig/network

将内容替换为

NETWORKING=yes

HOSTNAME=Master

HOSTNAME=Master

#vi /etc/hosts

增加内容:ip中的xxx根据3个节点的实际情况设定

192.168.xxx.xxx Master

192.168.xxx.xxx Slave1

192.168.xxx.xxx Slave2

#ssh-genkey -t rsa

一直按enter键

#reboot

进入另一个节点

#su

#vi /etc/sysconfig/network

将内容替换为

NETWORKING=yes

HOSTNAME=Slave1

#vi /etc/hosts

增加内容:ip中的xxx根据3个节点的实际情况设定

192.168.xxx.xxx Master

192.168.xxx.xxx Slave1

192.168.xxx.xxx Slave2

#ssh-genkey -t rsa

一直按enter键

#cd /root/.ssh

#mv  id_rsa.pub id_rsa.pub.Slave1

#reboot

进入最后一个节点

#su

#vi /etc/sysconfig/network

将内容替换为

NETWORKING=yes

HOSTNAME=Slave2

#vi /etc/hosts

增加内容:ip中的xxx根据3个节点的实际情况设定

192.168.xxx.xxx Master

192.168.xxx.xxx Slave1

192.168.xxx.xxx Slave2

#ssh-genkey -t rsa

一直按enter键

#cd /root/.ssh

#mv  id_rsa.pub id_rsa.pub.Slave2

#reboot

进入Slave1节点

#cd /root/.ssh

#scp id_rsa.pub.Slave1 root@Master:/root/.ssh

进入Slave2节点

#cd /root/.ssh

#scp id_rsa.pub.Slave2 root@Master:/root/.ssh

进入Master节点

cd /root/.ssh
cat id_rsa.pub >> authorzied_keys
cat id_rsa.pub.Slave1 >> authorzied_keys
cat id_rsa.pub.Slave2 >> authorzied_keys
scp authorized_keys root@Slave1:/root/.ssh
scp authorized_keys root@Slave2:/root/.ssh

第七步:启动测试hadoop,spark

进入Master节点

hadoop namenode -format
cd /usr/local/hadoop/hadoop-2.7.1/sbin
./start-all.sh
jps
cd /usr/local/spark/spark-1.5.1-bin-hadoop2.6/sbin
./start-all.sh
jps
本地配置主机名和ip的映射,配置文件地址C:\Windows\System32\drivers\etc\HOSTS

访问YARN WebUI:http://Master:8088/cluster

访问Spark WebUI:http://Master:8080/

访问HDFS WebUI:http://Master:50070/
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: