【Spark】---- 在Linux集群上安装和配置Spark
2015-01-28 10:15
169 查看
1 安装JDK
1) 进入JDK官网
2) 下载JDK安装包
3)配置环境变量,在/etc/profile增加以下代码
4)使profile文件更新生效
2 安装Scala
Scala 官网提供各个版本的Scala,用户需要根据Spark官方规定的Scala版本进行下载和安装。Scala官网地址为http://www.scala-lang.org/
1) 下载Scala
2)在目录下解压
3)配置环境变量,在/etc/profile中添加下面的内容
4)使用profile文件更新生效
3 配置SSH免密码登录
在集群管理和配置中有很多工具可以使用。例如,可以采用pssh等Linux工具在集群中分发与复制文件,用户也可以自己书写Shell、Python的脚步分发包。
Spark的Master节点向Worker节点命令需要通过ssh进行发送,用户不希望Master每发送一次命令就输入一次密码,因此需要实现Master无密码登陆到所有Worker。
Master作为客户端,要实现无密码公钥认证,连接服务端Worker。需要在Master上生成一个秘钥对,包括一个公钥和一个私钥,然后将公钥复制到Worker上。当Master通过ssh连接Worker
1)在Master节点上,执行以下命令
2)打印日志执行以下命令
如果是root用户,则在/root/.ssh/目录下生成一个私钥id_rsa和一个公钥id_rsa.pub。
把Master上的id_rsa.pub文件追加到Worker的authorized_keys内。
3)复制Master的id_rsa.pub文件
4)登录worker节点,执行以下命令
注意:配置完毕,如果Master仍然不能访问Worker,可以修改Worker的authorized_keys文件的权限,命令为 chmod 600 authorized_keys
4安装Hadoop
(1)下载hadoop-2.2.0
1)选取一个Hadoop镜像网址,下载Hadoop
2)解压tar包
(2)配置Hadoop环境变量
1)编辑profile文件
2)在profile文件中增加以下内容
(3)编辑配置文件
1)进入Hadoop所在目录
2)配置hadoop-env.sh文件
3)配置core-site.xml文件
4) 配置yarn-site.xml文件
5)配置mapred-site.xml文件
(4)创建namenode和datanode目录,并配置其相应路径
1)创建namenode和datanode目录,
2)执行命令后,再次回到目录,配置hdfs-site.xml文件,在文件中添加如下内容
(5)配置Master和Slave文件
1)Master文件负责配置主节点的主机名
2)配置Slaves文件添加从节点主机名
(6)将Hadoop所有文件通过pssh发送到各个节点
(7)格式化Namenode(在Hadoop根目录下)
./bin/hadoop namenode -format
(8)启动Hadoop
(9)查看是否配置和启动成功
ps-aux|grep *DataNode* /*查看DataNode进程*/
5 安装Spark
1)下载spark
2)解压
3)配置
编辑conf/Spark-env.sh文件,加入下面的配置参数
4)配置slaves文件
编辑conf/slaves文件,以5个Worker节点为例,将节点的主机名加入slaves文件中
6 启动集群
(1)Spark启动与关闭
1)在Spark根目录启动Spark
./sbin/start-all.sh
2)关闭Spark
./sbin/stop-all.sh
(2)Hadoop的启动与关闭
1)在Hadoop根目录启动Hadoop
2)关闭Hadoop
(3)检测是否安装成功
1)正常状态下的Master节点如下。
2)利用ssh登录Worker节点
1) 进入JDK官网
2) 下载JDK安装包
3)配置环境变量,在/etc/profile增加以下代码
JAVA_HOME=/home/hadoop/jdk1.6.0_38 PATH=$JAVA_HOME/bin:$PATH CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/jre/lib/dt.jar:$JAVA_HOME/jre/lib/tools.jar export JAVA_HOME PATH CLASSPATH |
source /etc/profile |
Scala 官网提供各个版本的Scala,用户需要根据Spark官方规定的Scala版本进行下载和安装。Scala官网地址为http://www.scala-lang.org/
1) 下载Scala
2)在目录下解压
tar -zxvf scala-2.10.4.tgz |
export SCALA__HOME=/home/hadoop/scala-2.10.4/scala-2.10.4 export PATH=${SCALA_HOME}/bin:$PATH |
source /etc/profile |
在集群管理和配置中有很多工具可以使用。例如,可以采用pssh等Linux工具在集群中分发与复制文件,用户也可以自己书写Shell、Python的脚步分发包。
Spark的Master节点向Worker节点命令需要通过ssh进行发送,用户不希望Master每发送一次命令就输入一次密码,因此需要实现Master无密码登陆到所有Worker。
Master作为客户端,要实现无密码公钥认证,连接服务端Worker。需要在Master上生成一个秘钥对,包括一个公钥和一个私钥,然后将公钥复制到Worker上。当Master通过ssh连接Worker
1)在Master节点上,执行以下命令
ssh-keygen-trsa |
把Master上的id_rsa.pub文件追加到Worker的authorized_keys内。
3)复制Master的id_rsa.pub文件
scp id_rsa.pub root@172.20.14.144:/home /*可使用pssh对全部节点分发*/ |
cat /home/id_rsa.pub >> /root/.ssh/authorized_keys /*可使用pssh对全部节点分发*/ |
4安装Hadoop
(1)下载hadoop-2.2.0
1)选取一个Hadoop镜像网址,下载Hadoop
wget http://www.trieuvan.com/apache/hadoop/common/hadoop-2.2.0/hadoop-2.2.0.tar.gz |
tar -vxzf hadoop-2.2.0.tar.gz -C /usr/local cd /usr/local mv hadoop-2.2.0 hadoop chown -R hduser:hadoop hadoop |
1)编辑profile文件
vi /etc/profile |
export JAVA_HOME=/usr/lib/jvm/jdk/ export HADOOP_INSTALL=/usr/local/hadoop export PATH=$PATH:$HADOOP_INSTALL/bin export PATH=$PATH:$HADOOP_INSTALL/sbin export HADOOP_MAPRED_HOME=$HADOOP_INSTALL export HADOOP_COMMON_HOME=$HADOOP_INSTALL export HADOOP_HDFS_HOME=$HADOOP_INSTALL export YARN_HOME=$HADOOP_INSTALL |
1)进入Hadoop所在目录
2)配置hadoop-env.sh文件
export JAVA_HOME=/usr/lib/jvm/jdk/ |
<configuration> /*这里的值指的是默认的HDFS路径*/ <property> <name>fs.defaultFS</name> <value>hdfs://Master:9000</value> </property> /*缓冲区大小: io.file.buffer.size默认是4KB*/ <property> <name>io.file.buffer.size</name> <value>131072</value> </property> /*临时文件夹路径*/ <property> <name>hadoop.tmp.dir</name> <value>file:/home/tmp</value> <description> Abase for other temporary directories </description> </property> <property> <name>hadoop.proxyuser.hduser.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.hduser.groups</name> <value>*</value> </property> </configuration> |
<configuration> <property> <name>yarn.nodemanager.aux-services</value> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> /*resourceManager的地址*/ <property> <name>yarn.resourcemanager.address</name> <value>Master:8030</value> </property> /*调度器的端口*/ <property> <name>yarn.resourcemanager.scheduler.address</name> <value>Master1:8030</value> </property> /*resource-tracker端口*/ <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>Master:8031</value> /*resourcemanager管理器端口*/ <property> <name>yarn.resourcemanager.admin.address</name> <value>Master:8033</value> </property> /*ResourceManager 的Web端口、监控 job 的资源调度*/ <property> <name>yarn.resourcemanager.webapp.address</name> <value>Master:8088</value> </property> </configuration> |
<configuration> /*hadoop对map-reduce运行矿建一共提供了3种实现,在mapred-site.xml中通过“mapreduce.framework.name”这个属性来设置为"classic"."yarn"或者“local”*/ <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> /*MapReduce JobHistory Server地址*/ <property> <name>mapreduce.jobhistory.address</name> <value>Master:10020</value> </property> /*MapReduce JobHistory Server web UI 地址*/ <property> <name>mapreduce.jobhistory.webapp.address</name> <value>Master:19888</value> </property> </configuration> |
1)创建namenode和datanode目录,
mkdir /hdfs/namenode mkdir /hdfs/datanode |
<configuration> /*配置主节点名和端口*/ <property> <name>dfs.namenode.secondary.http-address</name> <value>Master:9001</value> </property> /*配置从节点和端口号*/ <property> <name>dfs.namenode.name.dir</name> <value>file:/hdfs/namenode</value> </property> /*配置datanode的数据存储目录*/ <property> <name>dfs.datanode.data.dir</name> <value>file:/hdfs/datanode</value> </property> /*配置副本数*/ <property> <name>dfs.replication</name> <value>3</value> </property> /*将dfs.webhdfs.enabled属性设置为true,否则就不能使用webhdfs的LISTSTATUS,LISTFILESTATUS等需要列出文件,文件夹状态的命令,因为这些信息都是由namenode保存的*/ <proeprty> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> </configuration> |
1)Master文件负责配置主节点的主机名
Master /*Master为主节点主机名*/ |
/*Slave为从节点主机名*/ Slave1 Slave2 Slave3 Slave4 Slave5 |
./pssh -h hosts.txt -r /hadoop / |
./bin/hadoop namenode -format
(8)启动Hadoop
./sbin/start-all.sh |
jps DataNode ResourceManager Jps NodeManager NameNode SecondaryNameNode |
5 安装Spark
1)下载spark
2)解压
3)配置
编辑conf/Spark-env.sh文件,加入下面的配置参数
export SCALA_HOME=/paht/to/scala-2.10.4 export SPARK_WORKER_MEMORY=7g export SPARK_MASTER_IP=172.16.0.140 export MASTER=spark://172.16.0.140:7077 |
编辑conf/slaves文件,以5个Worker节点为例,将节点的主机名加入slaves文件中
Slave1 Slave2 Slave3 Slave4 Slave5 |
(1)Spark启动与关闭
1)在Spark根目录启动Spark
./sbin/start-all.sh
2)关闭Spark
./sbin/stop-all.sh
(2)Hadoop的启动与关闭
1)在Hadoop根目录启动Hadoop
2)关闭Hadoop
(3)检测是否安装成功
1)正常状态下的Master节点如下。
2)利用ssh登录Worker节点
相关文章推荐
- 在Linux集群上安装和配置Spark
- Linux安装配置Spark集群
- 在Linux集群上安装与配置Spark
- 在Linux集群上安装和配置Spark
- Linux中安装配置spark集群
- Hadoop2.2集群安装配置-Spark集群安装部署
- 安装大型 Linux 集群,第 2 部分: 配置管理服务器和安装节点
- 安装大型 Linux 集群,第 4 部分: 节点安装和 GPFS 集群配置
- Linux下Hadoop集群环境的安装配置
- Linux平台下安装和配置Hadoop集群
- 安装大型Linux集群(1): 简介和硬件配置(转)
- Linux下Ganglia集群监控安装、配置笔记
- 最新版spark1.1.0集群安装配置
- Linux安装Hadoop--集群配置
- 39_03_Linux集群系列之十三——高可用集群之corosync基础概念及安装配置(笔记)
- linux集群安装配置排错的基本方法
- Torque在Linux集群上的安装配置
- Linux集群服务LVS概述与安装配置详解 推荐