hadoop2.7.3下spark2.1.0安装_yarn作业提交
2017-05-11 22:39
363 查看
已安装hadoop2.7.3,安装spark2.1.0
设f1为master,f2至f5位worker
软件安装目录设为/data
https://www.scala-lang.org/download/
tar -zxvf scala-2.11.8.tgz 至/data 下
配置环境变量
vi /etc/profile
export SCALA_HOME=/data/scala-2.11.8
export PATH=$PATH: ${SCALA_HOME}/bin
测试:scala -version
http://spark.apache.org/downloads.html
解压至/data 下
spark-2.1.0 文件夹及子文件的用户组和用户均设为hadoop的安装用户如haduser
chown -R haduser spark-2.1.0
chgrp -R haduser spark-2.1.0
修改conf文件夹spark-env.sh和slaves
cp spark-env.sh.template spark-env.sh
在spark-env.sh添加
export SCALA_HOME=/data/scala-2.11.8
export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.121-2.6.8.0.el7_3.x86_64
export SPARK_MASTER_IP=flow01
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/data/hadoop-2.7.3/etc/hadoop
cp slaves.template slaves
添加子节点
f2
f3
f4
f5
Hadoop启动
1-HDFS格式化
./bin/hdfs -namenode -format
2-启动HDFS
./sbin/start-dfs.sh
3-启动yarn
./sbin/start-yarn.sh
4-在hadoop的安装目录中创建文件目录并上传文件
./bin/hdfs dfs -ls /
./bin/hdfs dfs -mkdir /WordCount
可以通过Web查看,http://xxxx(namenode的节点ip):50070
5-上传本地文件
./bin/hdfs dfs -put input.txt /WordCount
在spark目录中sbin目录下执行./start-all.sh
基于集群启动spark-shell,在bin目录下执行
./spark-shell --master Spark://xxxx(MasterURL,要和http://f1:8080界面上的一致,xxxx必须为ip):7077
打开web UI http://xxxx(启动shell节点的IP):4040和8080 在spark-shell下执行
val file=sc.textFile("hdfs://f1:9000/WordCount/input")
val rdd = file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)
rdd.collect()
rdd.foreach(println)
退出spark-shell,输入 ":quit"
主节点:
(1)Hadoop的HDFS服务:NameNode
(2)Hadoop的Yarn服务:ResourceManger
(3)Spark的Master服务:Master
Slaves节点:
(1)Hadoop的HDFS服务:DataNode
(2)Hadoop的Yarn服务:NodeManger
(3)Spark的Slave服务:Work
多次运行spark-shell时会先报错(默认端口4040被占用,会自动重试知道找到合适的端口)
这里也可以在启动设置端口如 --conf “spark.ui.port”=4041,依次递增
引申:spark属性配置三种方式
在提交命令时用--conf配置配置文件(如conf/spark-defalut.conf)
在配置文件启动项中添加(conf/spark-env.sh中Spark_DAEMON_JAVA_OPTS)
指定配置文件进行设置
1-程序的jar存储于:/data/SparkLearnMvnPro.jar
2-提交
最后一个10为参数,实际上本次提交的WordCount不需要输入参数,貌似2.0有个bug,随便给一个就行(spark task中正修)
参考:http://spark.apache.org/docs/latest/running-on-yarn.html
./bin/spark-submit --class com.dt.spark.main.WordCount \
--master yarn \
--deploy-mode cluster \
--driver-memory 4g \
--executor-memory 2g \
--executor-cores 1 \
/data/SparkLearnMvnPro.jar \
10
3-查看执行
访问日志的tracking URL查看执行情况
访问:http://hadoop主机:8088 查看applications
设f1为master,f2至f5位worker
软件安装目录设为/data
1-下载安装scala-2.11.8
https://www.scala-lang.org/download/tar -zxvf scala-2.11.8.tgz 至/data 下
配置环境变量
vi /etc/profile
export SCALA_HOME=/data/scala-2.11.8
export PATH=$PATH: ${SCALA_HOME}/bin
测试:scala -version
2-下载安装spark-2.1.0-bin-hadoop2.7.tgz
http://spark.apache.org/downloads.html解压至/data 下
spark-2.1.0 文件夹及子文件的用户组和用户均设为hadoop的安装用户如haduser
chown -R haduser spark-2.1.0
chgrp -R haduser spark-2.1.0
修改conf文件夹spark-env.sh和slaves
cp spark-env.sh.template spark-env.sh
在spark-env.sh添加
export SCALA_HOME=/data/scala-2.11.8
export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.121-2.6.8.0.el7_3.x86_64
export SPARK_MASTER_IP=flow01
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/data/hadoop-2.7.3/etc/hadoop
cp slaves.template slaves
添加子节点
f2
f3
f4
f5
3-测试
Hadoop启动1-HDFS格式化
./bin/hdfs -namenode -format
2-启动HDFS
./sbin/start-dfs.sh
3-启动yarn
./sbin/start-yarn.sh
4-在hadoop的安装目录中创建文件目录并上传文件
./bin/hdfs dfs -ls /
./bin/hdfs dfs -mkdir /WordCount
可以通过Web查看,http://xxxx(namenode的节点ip):50070
5-上传本地文件
./bin/hdfs dfs -put input.txt /WordCount
在spark目录中sbin目录下执行./start-all.sh
基于集群启动spark-shell,在bin目录下执行
./spark-shell --master Spark://xxxx(MasterURL,要和http://f1:8080界面上的一致,xxxx必须为ip):7077
打开web UI http://xxxx(启动shell节点的IP):4040和8080 在spark-shell下执行
val file=sc.textFile("hdfs://f1:9000/WordCount/input")
val rdd = file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)
rdd.collect()
rdd.foreach(println)
退出spark-shell,输入 ":quit"
4-进程说明
主节点:(1)Hadoop的HDFS服务:NameNode
(2)Hadoop的Yarn服务:ResourceManger
(3)Spark的Master服务:Master
Slaves节点:
(1)Hadoop的HDFS服务:DataNode
(2)Hadoop的Yarn服务:NodeManger
(3)Spark的Slave服务:Work
备注
多次运行spark-shell时会先报错(默认端口4040被占用,会自动重试知道找到合适的端口)这里也可以在启动设置端口如 --conf “spark.ui.port”=4041,依次递增
引申:spark属性配置三种方式
在提交命令时用--conf配置配置文件(如conf/spark-defalut.conf)
在配置文件启动项中添加(conf/spark-env.sh中Spark_DAEMON_JAVA_OPTS)
指定配置文件进行设置
5-提交作业(例f4上)
1-程序的jar存储于:/data/SparkLearnMvnPro.jar2-提交
最后一个10为参数,实际上本次提交的WordCount不需要输入参数,貌似2.0有个bug,随便给一个就行(spark task中正修)
参考:http://spark.apache.org/docs/latest/running-on-yarn.html
./bin/spark-submit --class com.dt.spark.main.WordCount \
--master yarn \
--deploy-mode cluster \
--driver-memory 4g \
--executor-memory 2g \
--executor-cores 1 \
/data/SparkLearnMvnPro.jar \
10
3-查看执行
访问日志的tracking URL查看执行情况
访问:http://hadoop主机:8088 查看applications
相关文章推荐
- Spark on Yarn客户端作业提交过程分析
- Hadoop源码解析之YARN服务端作业提交流程
- Spark-2.1.2 Hadoop-2.7.5 spark-submit yarn client cluster两种模式提交
- CentOS下SparkR安装部署:hadoop2.7.3+spark2.0.0+scale2.11.8+hive2.1.0
- spark-on-yarn作业提交缓慢优化
- hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建(2)安装hadoop
- hadoop提交作业------>yarn提交job的源码跟踪
- hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建(4)SPARK 安装
- spark安装:在hadoop YARN上运行spark-shell
- 大数据平台安装测试(1)centos7.1 docker mesos tachyon hadoop (myriad? yarn?)spark hbase speaksql 选型分析
- Hadoop源码解析之YARN客户端作业提交流程
- hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建(1)安装jdk
- hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建(2)安装hadoop
- 一 spark on yarn cluster模式提交作业,一直处于ACCEPTED状态,改了Client模式后就正常了
- hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建(1)安装jdk
- spark安装:在hadoop YARN上运行spark-shell
- hadoop-yarn集群中,通过shell脚本自动化提交spark任务
- spark2.1.0 on yarn with CDH5.8.0 安装实战
- Spark2.0.1 on yarn with hue 集群搭建部署(五)hue安装支持hadoop
- 安装Spark Standalone模式/Hadoop yarn模式并运行Wordcount