spark on yarn作业执行流程
2016-02-01 23:30
253 查看
Spark是一个分布式数据快速分析项目。它的核心技术是弹性分布式数据集(Resilient Distributed Datasets),提供了比MapReduce丰富的模型,可以快速在内存中对数据集进行多次迭代,来支持复杂的数据挖掘算法和图形计算算法。
Spark 的计算调度方式,从Mesos到Standalone,即自建Spark计算集群。虽然Standalone方式性能与稳定性都得到了提升,但自建集群毕 竟资源较少,并需要从云梯集群复制数据,不能满足数据挖掘与计算团队业务需求。而Spark on YARN能让Spark计算模型在云梯YARN集群上运行,直接读取云梯上的数据,并充分享受云梯YARN集群丰富的计算资源。
Spark on YARN功能理论上从Spark 0.6.0版本开始支持,但实际上还远未成熟,经过数据挖掘与计算团队长时间的压力测试,修复了一些相对关键的Bug,保证Spark on YARN的稳定性和正确性。
图3展示了Spark on YARN的作业执行机制。
图3 Spark on YARN框架
基于YARN的Spark作业首先由客户端生成作业信息,提交给ResourceManager,ResourceManager在某一 NodeManager汇报时把AppMaster分配给NodeManager,NodeManager启动 SparkAppMaster,SparkAppMaster启动后初始化作业,然后向ResourceManager申请资源,申请到相应资源后 SparkAppMaster通过RPC让NodeManager启动相应的SparkExecutor,SparkExecutor向 SparkAppMaster汇报并完成相应的任务。此外,SparkClient会通过AppMaster获取作业运行状态。
目前,数据挖掘与计算团队通过Spark on YARN已实现MLR、PageRank和JMeans算法,其中MLR已作为生产作业运行。
Spark 的计算调度方式,从Mesos到Standalone,即自建Spark计算集群。虽然Standalone方式性能与稳定性都得到了提升,但自建集群毕 竟资源较少,并需要从云梯集群复制数据,不能满足数据挖掘与计算团队业务需求。而Spark on YARN能让Spark计算模型在云梯YARN集群上运行,直接读取云梯上的数据,并充分享受云梯YARN集群丰富的计算资源。
Spark on YARN功能理论上从Spark 0.6.0版本开始支持,但实际上还远未成熟,经过数据挖掘与计算团队长时间的压力测试,修复了一些相对关键的Bug,保证Spark on YARN的稳定性和正确性。
图3展示了Spark on YARN的作业执行机制。
图3 Spark on YARN框架
基于YARN的Spark作业首先由客户端生成作业信息,提交给ResourceManager,ResourceManager在某一 NodeManager汇报时把AppMaster分配给NodeManager,NodeManager启动 SparkAppMaster,SparkAppMaster启动后初始化作业,然后向ResourceManager申请资源,申请到相应资源后 SparkAppMaster通过RPC让NodeManager启动相应的SparkExecutor,SparkExecutor向 SparkAppMaster汇报并完成相应的任务。此外,SparkClient会通过AppMaster获取作业运行状态。
目前,数据挖掘与计算团队通过Spark on YARN已实现MLR、PageRank和JMeans算法,其中MLR已作为生产作业运行。
相关文章推荐
- OSMC简介
- 好用的软件
- go中的main函数和init函数
- java常用数据类型
- go lang中的import
- Linux configure 参数解释
- 015 关于matlab更改默认路径的方法
- codeforce341 D题 Rat Kwesh and Cheese(复数)
- DatePicker使用
- AR--未来技术提前探索<3>[在汉明码上叠加一个3D模型]
- 记录有关802.11 mixed模式,关于AP发送下行数据部分
- CF621D 给出几种指数式子,分别将xyz代入。问哪个式子的值最大
- 设计模式-观察者模式
- Nginx的平滑升级
- C# 控制台程序如何能不显示窗口
- 大四生找工作的感悟
- YARN
- Syntax error on token "int", VariableDeclaratorId expected after this token
- visio ppt axure AI svg powerdesign xmind
- 远程桌面--外网访问内网多台电脑