您的位置:首页 > 其它

Spark源码分析之-scheduler模块

2016-03-04 21:44 246 查看

RDD的依赖关系和Stage的分类

在Spark中,每一个
RDD
是对于数据集在某一状态下的表现形式,而这个状态有可能是从前一状态转换而来的,因此换句话说这一个
RDD
有可能与之前的
RDD(s)
有依赖关系。根据依赖关系的不同,可以将
RDD
分成两种不同的类型:
Narrow Dependency
Wide Dependency


Narrow Dependency
指的是
child RDD
只依赖于
parent RDD(s)
固定数量的partition。

Wide Dependency
指的是
child RDD
的每一个partition都依赖于
parent RDD(s)
所有partition。
http://jerryshao.me/architecture/2013/04/21/Spark%E6%BA%90%E7%A0%81%E5%88%86%E6%9E%90%E4%B9%8B-scheduler%E6%A8%A1%E5%9D%97/
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: