2.spark基本概念
2018-08-25 23:49
330 查看
Application
用户编写的Spark应用程序。Application的main方法为应用程序的入口,用户通过Spark的API,定义了RDD和对RDD的操作。
Job
提供给Spark运行的作业,一个Application中以Action为划分边界往往会产生多个Job。Spark采用惰性机制,对RDD的创建和转换并不会立即执行,只有在遇到Action时才会生成一个Job,然后统一调度执行。
Stage
每个Job以Shuffle为边界划分出的不同阶段, 其名称为Stage。Stage有非最终的Stage(Shuffle Map Stage)和最终的Stage(Result Stage)两种。
在对Job中的所有操作划分Stage时,一般会按照倒序进行:即从Action开始,遇到窄依赖操作,则划分到同一个执行阶段;遇到宽依赖操作,则划分一个新的执行阶段,且新的阶段为之前阶段的parent,然后依次类推递归执行。child Stage需要等待所有的parent Stage执行完之后才可以执行,这时Stage之间根据依赖关系构成了一个大粒度的DAG。在一个Stage内,所有的操作以串行的Pipeline的方式,由一组Task完成计算。
Task
真正执行的工作单元,对一个Stage之内的RDD进行串行操作的计算任务。多个Task组成一个Stage。
Task分为ShuffleMapTask和ResultTask两种,位于最后一个Stage的Task为ResultTask,其他阶段的属于ShuffleMapTask。
Cluster Manager
在集群上获取资源的外部服务。Cluster Manager可以为自带的Standalone、或第三方的Yarn和Mesos。
Cluster Manager一般采用Master-Slave结构。以Yarn为例,部署ResourceManager服务的节点为Master,负责集群中所有计算资源的统一管理和分配;部署NodeManager服务的节点为Slave,负责在当前节点创建一个或多个具备独立计算能力的JVM实例,在Spark中,这些节点也叫做Worker。
Executor
某个Application运行在worker节点上的一个进程, 该进程负责运行某些Task,并将结果返回给Driver,同时为需要缓存的RDD提供存储功能。
Driver
准备Spark应用程序的运行环境,负责执行用户Application中的main方法,提交Job,并将Job转化为Task,在各个Executor进程间协调Task的调度。
Spark有Client和Cluster两种部署模式。Application以Client模式部署时,Driver运行于Client节点;而以Cluster模式部署时,Driver运行于Worker节点,与Executor一样由Cluster Manager启动。
DAGScheduler
根据Job构建DAG图,将Job拆分成多个Stage并提交给TaskScheduler。
TaskScheduler
将Stage拆分成多个Task并提交给worker运行,Executor运行什么Task就是在此处分配的。
忠于技术,热爱分享。欢迎关注公众号:java大数据编程,了解更多技术内容。
相关文章推荐
- chipmunk物理引擎的基本概念和基本用法
- 学习面向对象 之 面向对象的基本概念:类和面向对象的特性
- 面向对象的基本概念
- C++程序员面试宝典——基本概念易错题
- 机器学习:基本概念、五大流派与九种常见算法
- WebLogic 的一些基本概念
- 机器学习基本概念
- 模式识别基本概念
- Java千百问_01基本概念(012)_Socket是什么
- java学习笔记(2)基本概念之面向对象大纲
- 【Objective-C】OC中对象归档(序列化)的基本概念和用法
- AllJoyn基本概念
- OOAD基本概念
- 二叉树的基本概念
- [置顶] 设计模式的艺术之道--设计模式的基本概念
- Spring aop基本概念与通知类型
- 深入理解Java:注解(Annotation)基本概念
- 【细嚼慢咽大数据】第一章——数据挖掘基本概念,邦弗朗尼原理,IF.IDF指标,哈希函数
- 概率分布基本概念,符号表示法 (概统2.符号)
- 有关MQ中的一些基本概念(一)