Spark源码分析之-scheduler模块
2016-03-04 21:44
246 查看
RDD的依赖关系和Stage的分类
在Spark中,每一个RDD是对于数据集在某一状态下的表现形式,而这个状态有可能是从前一状态转换而来的,因此换句话说这一个
RDD有可能与之前的
RDD(s)有依赖关系。根据依赖关系的不同,可以将
RDD分成两种不同的类型:
Narrow Dependency和
Wide Dependency。
Narrow Dependency指的是
child RDD只依赖于
parent RDD(s)固定数量的partition。
Wide Dependency指的是
child RDD的每一个partition都依赖于
parent RDD(s)所有partition。
http://jerryshao.me/architecture/2013/04/21/Spark%E6%BA%90%E7%A0%81%E5%88%86%E6%9E%90%E4%B9%8B-scheduler%E6%A8%A1%E5%9D%97/
相关文章推荐
- RAC 和 Oracle Clusterware 最佳实践和初学者指南(平台无关部分) (文档 ID 1526083.1)
- 第一周作业
- 应用实例:照片识别 机器学习基础(10)
- 在Eclipse中做SVN代码回退操作
- ACM_模板_中国剩余定理(互质与非互质)
- Mount Options for Oracle files when used with NFS on NAS devices (文档 ID 359515.1)
- 最大堆排序总结
- YARN
- 模板与泛型编程1
- C# 线程池中取消线程的三种方式
- Matlab读写TIFF格式文件
- 显式调用构造函数
- 2016春季训练——哈希
- 面试常客Handler详细解析(handler基础)(一)
- 非递归最大堆
- 第一周作业
- java.lang.NoClassDefFoundError 怎么解决
- Assignment to name ignored, since the identifier is never used
- 快速地搜索手机文件引擎(JavaIO的应用)
- uva10905连接n个数字,使得连成的数字最大