136课: Spark面试经典系列之数据倾斜解决原理和方法总论.
2016-07-03 09:10
381 查看
136课: Spark面试经典系列之数据倾斜解决原理和方法总论.
1 spark数据倾斜解决的原理总论
2 spark数据倾斜解决方法总论
RDD-钨丝计划-DataFrame-Dataset
数据倾斜后果很严重:OOM、速度慢,不能控制时间
数据倾斜解决原理,讨论:
1、spark基于线程复用,均衡计算、均衡数据
2、key值加上随机前缀 两阶段聚合 局部聚合+全局聚合
3、别只考虑数据量,还要考虑具体数据在具体机器上的计算能力,进行平滑拆分
4、采样倾斜key并分拆join操作
5、去掉shuffle
6、适当提高shuffle操作的并行度
7、根据key值扩大数据规模 膨胀数据
8、reducebykey、join在shuffle之前解决掉,利用广播
9、不要小看spark的数据结构,使用好的数据结构和序列化,编码解码方式,减少数据总量,节省30%的磁盘、内存,要知道GC是spark的死穴
10、将数据放在Tachyon中带来更好的数据本地性,减少网络的Shuffle
11、复用RDD,最小化job的工作,极大的缓解数据倾斜。已有RDD复用可能 30% 80% 100%
1 spark数据倾斜解决的原理总论
2 spark数据倾斜解决方法总论
RDD-钨丝计划-DataFrame-Dataset
数据倾斜后果很严重:OOM、速度慢,不能控制时间
数据倾斜解决原理,讨论:
1、spark基于线程复用,均衡计算、均衡数据
2、key值加上随机前缀 两阶段聚合 局部聚合+全局聚合
3、别只考虑数据量,还要考虑具体数据在具体机器上的计算能力,进行平滑拆分
4、采样倾斜key并分拆join操作
5、去掉shuffle
6、适当提高shuffle操作的并行度
7、根据key值扩大数据规模 膨胀数据
8、reducebykey、join在shuffle之前解决掉,利用广播
9、不要小看spark的数据结构,使用好的数据结构和序列化,编码解码方式,减少数据总量,节省30%的磁盘、内存,要知道GC是spark的死穴
10、将数据放在Tachyon中带来更好的数据本地性,减少网络的Shuffle
11、复用RDD,最小化job的工作,极大的缓解数据倾斜。已有RDD复用可能 30% 80% 100%
相关文章推荐
- 前端工程师面试题汇总
- 一篇非常不错的前端面试文章
- IT软件开发常用英语词汇
- OSChina 周日乱弹 ——我们程序员,都有自己气场好么
- 进击的码农7
- 架构师与程序员的区别
- 李洪强经典面试题14
- 李洪强经典面试题15
- 李洪强经典面试总结16
- (转)笔试面试-转自一夜星辰的博客
- 高效程序员的45个习惯笔记 第一章
- "Android基础"-安卓基础面试必问部分
- "Activity"-安卓面试必问技能点大总结"
- 面试题7:用两个栈实现队列
- 黑马程序员——String
- 职业生涯2
- 读书笔记之《程序员必读的职业规划书》
- 一个程序员的进化史-第七章
- 老码农教你在 StackOverflow 上谈笑风生
- 应聘时最漂亮的回答】网友总结了26个面试问题解答