您的位置:首页 > 大数据

大数据系统优化总结整理(spark)

2014-02-22 22:50 190 查看
1时间角度:尽量合并到连续stage流水线优化

2空间:(1)利用cache  (2)压缩  (1压缩2序列化)(3) 碎片整理合并(个数缩减整合)coalesce 和 repartition

3通信:减少通信开销 (1)个数减少 (1基于分区利用好的 join算法 减少shuffle )  (2) 空间缩减  (1序列化 kyro 2压缩)(3)(空间缩减不动还是过大) 序列化的task太大就用 broadcast变量  (4)collect输出大量结果慢  -----结果输出到hadoop

4 执行计划 :小量合并      (1)mappartitions (其他例如colesce , 网络通信中的包尽量传递大些)  矛盾的反面就是 -------------------5大量分治 reduce数量不合适问题

6 执行中:  倾斜问题(木桶效应--平衡问题)  (1) 数据倾斜    partition key和聚集? (数据) (2)worker  spark.speculation  (执行器cpu)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: