s通过案例彻底详解spark中DAG的逻辑视图的产生机制和过程 -- (视频笔记)(重点)
2015-12-29 15:50
363 查看
hadoop RDD 把hdfs的block转换为split 的逻辑映射
mapPartitioned RDD 从split中转换,与hadoop RDD 一一映射
textFile
flatMap 也是mapPartitioned RDD
map
reduceByKey
会将前期的窄依赖部分合并作为一个stage
第一个stage 会将结果写入到local file system(shuffle write)中
groupbykey及其以后因为存在shuffle,因此会生成一个新的stage
从上一个stage的local file system中获取数据(shuffer read)
driver 中的map output tracker的master负责跟踪第一个stage的输出。
参看spark shell的任务图形。
mapPartitioned RDD 从split中转换,与hadoop RDD 一一映射
textFile
flatMap 也是mapPartitioned RDD
map
reduceByKey
会将前期的窄依赖部分合并作为一个stage
第一个stage 会将结果写入到local file system(shuffle write)中
groupbykey及其以后因为存在shuffle,因此会生成一个新的stage
从上一个stage的local file system中获取数据(shuffer read)
driver 中的map output tracker的master负责跟踪第一个stage的输出。
参看spark shell的任务图形。
相关文章推荐
- ubuntu出现乱码如何解决
- 缺少动态连接库.so--cannot open shared object file: No such file or directory
- iOS在app中打开word、execl、pdf等文档
- android 图片点击一下就放大到全屏,再点一下就回到原界面
- java解析c语言之Javolution的坑
- eclipse maven学习记录
- LINUX HOOK
- 基于XMPP的即时通信系统的建立(二)— XMPP详解
- leetcode - Unique Paths
- Codis 是一个分布式 Redis 解决方案
- 安卓向服务器(Spring)发送json
- Outlier Detection Techniques
- Android View之对现有控件进行拓展实例
- 巧用Squid的ACL和访问列表实现高效访问控制
- 解析 CC2541 的 BLE 数据包为什么是 20 字节
- 《老炮儿》的江湖道义就是互联网创业的规矩?
- [LeetCode]Construct Binary Tree from Inorder and Postorder Traversal
- 线程同步与异步的学习摘记
- iOS_Swift — UI控件代码大全
- jQuery源码分析9--静态与实例方法共享设计