Linux下hadoop2.6和Spark环境搭建
2015-12-29 17:09
681 查看
环境准备
集群有三台机器:
master:W118PC01VM01/192.168.0.112
slave1:W118PC02VM01/192.168.0.113
slave2:W118PC03VM01/192.168.0.114
首先配置/etc/hosts中ip和主机名的映射关系:
其次配置3台机器互相免密码ssh连接,参考《在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境》。
2. 基本安装步骤
(1) 安装Java(本例使用jdk1.7.0_55)和Scala(使用scala2.10.4)。
(2) 安装Hadoop2.6.0集群。
(3) 安装Spark1.1.0集群。
3. Jdk和Scala安装
在master和slave机器的安装路径和环境变量配置保持一致。安装过程参考《在Win7虚拟机下搭建Hadoop2.6.0+Spark1.4.0单机环境》。
4. Hadoop集群安装
4.1. 安装Hadoop并配置环境变量
安装Hadoop2.6.0版本,安装目录如下。在~/.bash_profile中配置环境变量,参考《在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境》。
4.2. 修改Hadoop配置文件
涉及到的hadoop配置文件主要有以下7个:
配置 hadoop-env.sh(修改JAVA_HOME)
配置 yarn-env.sh (修改JAVA_HOME)
配置slaves(增加slave节点)
W118PC02VM01
W118PC03VM01
配置 core-site.xml(增加hadoop核心配置)
fs.defaultFS
hdfs://192.168.0.112:9000
io.file.buffer.size
131072
hadoop.tmp.dir
file:/home/ap/cdahdp/app/tmp
Abasefor other temporary directories.
hadoop.proxyuser.spark.hosts
*
hadoop.proxyuser.spark.groups
*
配置hdfs-site.xml(增加hdfs配置信息,namenode、datanode端口和目录位置)
dfs.namenode.secondary.http-address
192.168.0.112:9001
dfs.namenode.name.dir
file:/home/ap/cdahdp/app/name
dfs.datanode.data.dir
file:/home/ap/cdahdp/app/data
dfs.replication
3
dfs.webhdfs.enabled
true
dfs.datanode.du.reserved【配置磁盘中保留不用作hdfs集群的空间大小,单位是Byte】
10240000000
配置mapred-site.xml(增加mapreduce配置,使用yarn框架、jobhistory地址以及web地址)
mapreduce.framework.name
yarn
mapreduce.jobhistory.address
192.168.0.112:10020
mapreduce.jobhistory.webapp.address
192.168.0.112:19888
配置 yarn-site.xml(增加yarn功能)
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.nodemanager.aux-services.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler
yarn.resourcemanager.address
192.168.0.112:8032
yarn.resourcemanager.scheduler.address
192.168.0.112:8030
yarn.resourcemanager.resource-tracker.address
192.168.0.112:8035
yarn.resourcemanager.admin.address
192.168.0.112:8033
yarn.resourcemanager.webapp.address
192.168.0.112:8088
将配置好的hadoop文件copy到两台slave机器上,配置和路径和master一模一样。
4.3. 格式化namenode
在master和slave机器上分别操作:
cd ~/tools/hadoop/bin
./hdfs namenode -format
4.4. 启停hdfs和yarn
cd ~/tools/hadoop/sbin
./start-hdfs.sh
./stop-hdfs.sh
./start-yarn.sh
./stop-yarn.sh
启动后可以用jps查看进程,通常有这几个:
NameNode、SecondaryNameNode、ResourceManager、DataNode
如果启动异常,可以查看日志,在master机器的/home/ap/cdahdp/tools/hadoop/logs目录。
4.5. 查看集群状态
查看hdfs:http://192.168.0.112:50070/
查看RM:http://192.168.0.112:8088/
4.6. 运行wordcount示例程序
上传几个文本文件到hdfs,路径为/tmp/input/
之后运行:
查看执行结果:
正常运行,表示hadoop集群安装成功。
5. Spark集群部署
5.1. 安装Spark并配置环境变量
安装Spark1.1.0版本,安装目录如下。在~/.bash_profile中配置环境变量。
5.2. 修改Hadoop配置文件
配置slaves(增加slave节点)
配置spark-env.sh(设置spark运行的环境变量)
把spark-env.sh.template复制为spark-env.sh
将配置好的spark文件copy到两台slave机器上,配置和路径和master一模一样。
5.3. Spark的启停
cd ~/tools/spark/sbin
./start-all.sh
./stop-all.sh
5.4. 查看集群状态
spark集群的web管理页面:http://192.168.0.112:8080/
spark WEBUI页面:http://192.168.0.112:4040/
启动spark-shell控制台:
5.5. 运行示例程序
往hdfs上上传一个文本文件README.txt:
在spark-shell控制台执行:
统计README.txt中有多少单词:
过滤README.txt包括The单词有多少行:
正常运行,表示Spark集群安装成功。
集群有三台机器:
master:W118PC01VM01/192.168.0.112
slave1:W118PC02VM01/192.168.0.113
slave2:W118PC03VM01/192.168.0.114
首先配置/etc/hosts中ip和主机名的映射关系:
* 192.168.0.112 W118PC01VM01 * 192.168.0.113 W118PC02VM01 * 192.168.0.114 W118PC03VM01
其次配置3台机器互相免密码ssh连接,参考《在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境》。
2. 基本安装步骤
(1) 安装Java(本例使用jdk1.7.0_55)和Scala(使用scala2.10.4)。
(2) 安装Hadoop2.6.0集群。
(3) 安装Spark1.1.0集群。
3. Jdk和Scala安装
在master和slave机器的安装路径和环境变量配置保持一致。安装过程参考《在Win7虚拟机下搭建Hadoop2.6.0+Spark1.4.0单机环境》。
4. Hadoop集群安装
4.1. 安装Hadoop并配置环境变量
安装Hadoop2.6.0版本,安装目录如下。在~/.bash_profile中配置环境变量,参考《在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境》。
4.2. 修改Hadoop配置文件
涉及到的hadoop配置文件主要有以下7个:
1. /home/ap/cdahdp/tools/hadoop/etc/hadoop/hadoop-env.sh 2. /home/ap/cdahdp/tools/hadoop/etc/hadoop/yarn-env.sh 3. /home/ap/cdahdp/tools/Hadoop/etc/hadoop/slaves 4. /home/ap/cdahdp/tools/hadoop/etc/hadoop/core-site.xml 5. /home/ap/cdahdp/tools/hadoop/etc/hadoop/hdfs-site.xml 6. /home/ap/cdahdp/tools/hadoop/etc/hadoop/mapred-site.xml 7. /home/ap/cdahdp/tools/hadoop/etc/hadoop/yarn-site.xml
配置 hadoop-env.sh(修改JAVA_HOME)
The java implementation to use.
export JAVA_HOME=/home/ap/cdahdp/tools/jdk1.7.0_55配置 yarn-env.sh (修改JAVA_HOME)
some Java parameters
export JAVA_HOME=/home/ap/cdahdp/tools/jdk1.7.0_55配置slaves(增加slave节点)
W118PC02VM01
W118PC03VM01
配置 core-site.xml(增加hadoop核心配置)
fs.defaultFS
hdfs://192.168.0.112:9000
io.file.buffer.size
131072
hadoop.tmp.dir
file:/home/ap/cdahdp/app/tmp
Abasefor other temporary directories.
hadoop.proxyuser.spark.hosts
*
hadoop.proxyuser.spark.groups
*
配置hdfs-site.xml(增加hdfs配置信息,namenode、datanode端口和目录位置)
dfs.namenode.secondary.http-address
192.168.0.112:9001
dfs.namenode.name.dir
file:/home/ap/cdahdp/app/name
dfs.datanode.data.dir
file:/home/ap/cdahdp/app/data
dfs.replication
3
dfs.webhdfs.enabled
true
dfs.datanode.du.reserved【配置磁盘中保留不用作hdfs集群的空间大小,单位是Byte】
10240000000
配置mapred-site.xml(增加mapreduce配置,使用yarn框架、jobhistory地址以及web地址)
mapreduce.framework.name
yarn
mapreduce.jobhistory.address
192.168.0.112:10020
mapreduce.jobhistory.webapp.address
192.168.0.112:19888
配置 yarn-site.xml(增加yarn功能)
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.nodemanager.aux-services.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler
yarn.resourcemanager.address
192.168.0.112:8032
yarn.resourcemanager.scheduler.address
192.168.0.112:8030
yarn.resourcemanager.resource-tracker.address
192.168.0.112:8035
yarn.resourcemanager.admin.address
192.168.0.112:8033
yarn.resourcemanager.webapp.address
192.168.0.112:8088
将配置好的hadoop文件copy到两台slave机器上,配置和路径和master一模一样。
4.3. 格式化namenode
在master和slave机器上分别操作:
cd ~/tools/hadoop/bin
./hdfs namenode -format
4.4. 启停hdfs和yarn
cd ~/tools/hadoop/sbin
./start-hdfs.sh
./stop-hdfs.sh
./start-yarn.sh
./stop-yarn.sh
启动后可以用jps查看进程,通常有这几个:
NameNode、SecondaryNameNode、ResourceManager、DataNode
如果启动异常,可以查看日志,在master机器的/home/ap/cdahdp/tools/hadoop/logs目录。
4.5. 查看集群状态
查看hdfs:http://192.168.0.112:50070/
查看RM:http://192.168.0.112:8088/
4.6. 运行wordcount示例程序
上传几个文本文件到hdfs,路径为/tmp/input/
之后运行:
查看执行结果:
正常运行,表示hadoop集群安装成功。
5. Spark集群部署
5.1. 安装Spark并配置环境变量
安装Spark1.1.0版本,安装目录如下。在~/.bash_profile中配置环境变量。
5.2. 修改Hadoop配置文件
配置slaves(增加slave节点)
配置spark-env.sh(设置spark运行的环境变量)
把spark-env.sh.template复制为spark-env.sh
将配置好的spark文件copy到两台slave机器上,配置和路径和master一模一样。
5.3. Spark的启停
cd ~/tools/spark/sbin
./start-all.sh
./stop-all.sh
5.4. 查看集群状态
spark集群的web管理页面:http://192.168.0.112:8080/
spark WEBUI页面:http://192.168.0.112:4040/
启动spark-shell控制台:
5.5. 运行示例程序
往hdfs上上传一个文本文件README.txt:
在spark-shell控制台执行:
统计README.txt中有多少单词:
过滤README.txt包括The单词有多少行:
正常运行,表示Spark集群安装成功。
相关文章推荐
- Linux上rpm方式安装JDK1.7
- 常见Linux目录名称
- freerdp linux下连接windows远程终端工具
- Centos系统下,基于osip2+eXosip2的SIP开发
- linux删除除了某个文件之外的文件
- 宿主机SSH登录VirtualBox中的Linux CentOS 7(主宿互访)
- Linux 相关设置
- linux 之sed命令详解
- Linux 下安装jdk
- CentOS下的rm命令改造成移动文件至回收站
- linux 内核升级
- linux下杀死进程(kill)的N种方法 【转】
- Centos 6.4 ossec批量安装部署客户端
- fuel 6.1自动推送3控高可用centos 6.5 juno环境排错(二)
- 在CentOS 6.3 64bit上安装libunwind库
- Linux 安装、卸载程序
- linux之LVM详解
- IS_ERR()、PTR_ERR() and ERR_PTR() in Linux Kernel
- CentOS升级python2.7
- 我眼中的Linux设备树(五 根节点)