Spark on yarn--几种提交集群运行spark程序的方式
2016-04-01 14:45
363 查看
今天看了spark的yarn配置,本来想着spark在hadoop集群上启动之后,还需要配置spark才能让yarn来管理和调度spark的资源,原来启动master和worker之后就会让yarn来原理spark的资源,因为我使用了spark和hadoop集群的高可用,可能是不是这个问题呢,还不太清楚,暂且记住,等我再研究研究
因为我使用zookeeper集群来进行管理,所以我提交任务的时候
./spark-submit --class com.spark.wordcount --master spark://spark01.elk.com:7077,spark02.elk.com:7077 /root/jars/WordCount.jar
可以正常执行,我很好奇,所以去掉其中一个,也可以正常运行
./spark-submit --class com.spark.wordcount --master spark://spark01.elk.com:7077 /root/jars/WordCount.jar
因为看网上很多都是用yarn-client和yarn-cluster来提交到集群上运行的,所以我也试了一下,发现
./spark-submit --class com.spark.wordcount --master yarn-cluster /root/jars/WordCount.jar
通过这种方式也可以正常运行,
可以看出来它确实是提交到resourcemanager让它管理资源去了,但是运行
./spark-submit --class com.spark.wordcount --master yarn-client /root/jars/WordCount.jar运行时却报错了
很好奇为啥会出现这个问题,暂且留下,咱继续,
还有一种提交方式
./spark-submit --class com.spark.wordcount--deploy-mode client /root/jars/WordCount.jar
./spark-submit --class com.spark.wordcount--deploy-mode cluster
/root/jars/WordCount.jar
这两种方式又提交成功了,这很是奇怪。我还得研究研究
刚看了一下
yarn-client和yarn-cluster的主要区别
主要是任务调度taskschedule的区别,yarn-client是将任务调度的功能放在客户端,而yarn-cluster将任务放在资源管理器中
因为我使用zookeeper集群来进行管理,所以我提交任务的时候
./spark-submit --class com.spark.wordcount --master spark://spark01.elk.com:7077,spark02.elk.com:7077 /root/jars/WordCount.jar
可以正常执行,我很好奇,所以去掉其中一个,也可以正常运行
./spark-submit --class com.spark.wordcount --master spark://spark01.elk.com:7077 /root/jars/WordCount.jar
因为看网上很多都是用yarn-client和yarn-cluster来提交到集群上运行的,所以我也试了一下,发现
./spark-submit --class com.spark.wordcount --master yarn-cluster /root/jars/WordCount.jar
通过这种方式也可以正常运行,
可以看出来它确实是提交到resourcemanager让它管理资源去了,但是运行
./spark-submit --class com.spark.wordcount --master yarn-client /root/jars/WordCount.jar运行时却报错了
很好奇为啥会出现这个问题,暂且留下,咱继续,
还有一种提交方式
./spark-submit --class com.spark.wordcount--deploy-mode client /root/jars/WordCount.jar
./spark-submit --class com.spark.wordcount--deploy-mode cluster
/root/jars/WordCount.jar
这两种方式又提交成功了,这很是奇怪。我还得研究研究
刚看了一下
yarn-client和yarn-cluster的主要区别
主要是任务调度taskschedule的区别,yarn-client是将任务调度的功能放在客户端,而yarn-cluster将任务放在资源管理器中
相关文章推荐
- Spark RDD API详解(一) Map和Reduce
- 使用spark和spark mllib进行股票预测
- Spark随谈——开发指南(译)
- Spark,一种快速数据分析替代方案
- Hadoop2.X/YARN环境搭建--CentOS7.0 JDK配置
- Hadoop2.X/YARN环境搭建--CentOS7.0系统配置
- eclipse 开发 spark Streaming wordCount
- Understanding Spark Caching
- ClassNotFoundException:scala.PreDef$
- Windows 下Spark 快速搭建Spark源码阅读环境
- Spark中将对象序列化存储到hdfs
- hadoop2.7.1环境搭建
- YARN或将成为Hadoop新发力点
- Spark初探
- Spark Streaming初探
- Spark本地开发环境搭建
- 搭建hadoop/spark集群环境
- Spark HA部署方案
- Spark HA原理架构图
- spark内存概述