您的位置：首页 > 其它

Spark中的Lineage血统

2019-04-11 11:18 85 查看

RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（即血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。

RDD在计算过程中，如果有一个RDD的分区信息丢失，该RDD会首先判断是否做个缓存，如果做过缓存，则直接取出缓存的数据，如果没有缓存，就判断是否做过checkpoint，如果没有checkpoint，则从父的RDD的分区开始重新计算，其他分区都不用重新计算，这样既保证了容错性，又提高了运算效率。

在任务计算过程中，如果其中一个Executor宕掉了，会由worker重新启动一个新的executor继续完成剩余的任务，如果某一个Worker宕掉了，此时的master不会重新启动新的worker，会把宕掉的worker没有完成的任务重新分配给其他worker进行计算，这个过程和lineage是没有关系的，这是属于集群的容错机制。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航