大数据系统优化总结整理(spark)
2014-02-22 22:50
190 查看
1时间角度:尽量合并到连续stage流水线优化
2空间:(1)利用cache (2)压缩 (1压缩2序列化)(3) 碎片整理合并(个数缩减整合)coalesce 和 repartition
3通信:减少通信开销 (1)个数减少 (1基于分区利用好的 join算法 减少shuffle ) (2) 空间缩减 (1序列化 kyro 2压缩)(3)(空间缩减不动还是过大) 序列化的task太大就用 broadcast变量 (4)collect输出大量结果慢 -----结果输出到hadoop
4 执行计划 :小量合并 (1)mappartitions (其他例如colesce , 网络通信中的包尽量传递大些) 矛盾的反面就是 -------------------5大量分治 reduce数量不合适问题
6 执行中: 倾斜问题(木桶效应--平衡问题) (1) 数据倾斜 partition key和聚集? (数据) (2)worker spark.speculation (执行器cpu)
2空间:(1)利用cache (2)压缩 (1压缩2序列化)(3) 碎片整理合并(个数缩减整合)coalesce 和 repartition
3通信:减少通信开销 (1)个数减少 (1基于分区利用好的 join算法 减少shuffle ) (2) 空间缩减 (1序列化 kyro 2压缩)(3)(空间缩减不动还是过大) 序列化的task太大就用 broadcast变量 (4)collect输出大量结果慢 -----结果输出到hadoop
4 执行计划 :小量合并 (1)mappartitions (其他例如colesce , 网络通信中的包尽量传递大些) 矛盾的反面就是 -------------------5大量分治 reduce数量不合适问题
6 执行中: 倾斜问题(木桶效应--平衡问题) (1) 数据倾斜 partition key和聚集? (数据) (2)worker spark.speculation (执行器cpu)
相关文章推荐
- 从数据整理到telnet服务器再到was命令部署总结
- python总结31 spark数据分析
- 大数据组件原理总结-Hadoop、Hbase、Kafka、Zookeeper、Spark
- 大数据干货系列(六)--Spark总结
- [待总结整理]C++中文件的读取和数据的处理
- 【总结】Spark Streaming和Kafka整合保证数据零丢失
- 机器学习总结(lecture 19)大数据:MapReduce、Hadoop、Spark
- 子线程如何获取和设置 或者控制窗口实时显示数据(网上的资料经个人整理拼凑总结)
- Struts2的知识整理总结(三)—— 数据封装和类型转换
- 使用Spark Streaming处理爬取的数据(问题总结)
- 【数据结构算法】——内部排序整理总结
- 为大数据处理点亮一盏明灯----Spark知识系统化整理分享
- Spark面试经典系列之数据倾斜解决方案的“银弹”是什么? 本节我们对Spark数据倾斜解决方案进行回顾和总结
- 总结C#中窗体间传递数据的几种方法 (由别人的方法整理)
- 大数据架构入门总结(Flume + Kafka + ZooKeeper + Spark Streaming + Drools + ELK)
- 导数据,整理数据思路总结
- pyrhon总结32 spark数据分析(2)
- 子线程如何获取和设置 或者控制窗口实时显示数据(网上的资料经个人整理拼凑总结)
- 大数据组件原理总结-Hadoop、Hbase、Kafka、Zookeeper、Spark