您的位置：首页 > 大数据

大数据系统优化总结整理（spark）

2014-02-22 22:50 190 查看

1时间角度：尽量合并到连续stage流水线优化

2空间：(1)利用cache （2）压缩（1压缩2序列化）(3) 碎片整理合并（个数缩减整合）coalesce 和 repartition

3通信：减少通信开销（1）个数减少（1基于分区利用好的 join算法减少shuffle ) (2) 空间缩减（1序列化 kyro 2压缩）(3)（空间缩减不动还是过大）序列化的task太大就用 broadcast变量（4）collect输出大量结果慢 -----结果输出到hadoop

4 执行计划：小量合并 (1)mappartitions （其他例如colesce , 网络通信中的包尽量传递大些）矛盾的反面就是 -------------------5大量分治 reduce数量不合适问题

6 执行中：倾斜问题（木桶效应--平衡问题）（1）数据倾斜 partition key和聚集？ (数据) （2）worker spark.speculation （执行器cpu）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航