大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化 checkpoint wal driver高可用 并行度配置
2016-10-22 21:03
1081 查看
大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化
1, 对于window、updateStateByKey等DStream的状态操作,采用HDFS的checkpoint机制;
61课程:时间函数
62课程:
分层代码
63课程 高可用性
1、checkpoint 存放hdfs
2、 RDD高可用性,WAL 的高可用性 配置
writeAheadLog.enable true
3、driver的可用性
Driver的高可用性 val ssc = StreamingContext.getOrCreate(checkpointDirectory,
() => {
createContext(ip, port, outputPath, checkpointDirectory)
})
4、配置spark streaming的副本 副本用多一点,使用数据本地性 空间换时间
性能优化
1,提升并行度:减少spark.streaming.blockInterval的时间,例如说变成100ms,使用多个DStream并行化接受数据,
spark.default.parallelism
2,如果进行多次filter操作之后需要coalesce
1, 对于window、updateStateByKey等DStream的状态操作,采用HDFS的checkpoint机制;
61课程:时间函数
62课程:
分层代码
63课程 高可用性
1、checkpoint 存放hdfs
2、 RDD高可用性,WAL 的高可用性 配置
writeAheadLog.enable true
3、driver的可用性
Driver的高可用性 val ssc = StreamingContext.getOrCreate(checkpointDirectory,
() => {
createContext(ip, port, outputPath, checkpointDirectory)
})
4、配置spark streaming的副本 副本用多一点,使用数据本地性 空间换时间
性能优化
1,提升并行度:减少spark.streaming.blockInterval的时间,例如说变成100ms,使用多个DStream并行化接受数据,
spark.default.parallelism
2,如果进行多次filter操作之后需要coalesce
相关文章推荐
- 大数据Spark “蘑菇云”行动第90课:Hive中Join电影店铺系统案例和性能优化、Index和Bucket案例实战
- 大数据Spark “蘑菇云”行动第72课: 基于Spark 2.0.1项目实现之二. 实战 各种小bug修复及性能调优 200并行度调整为2个task
- 大数据Spark“蘑菇云”行动第53课: Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战 项目!!!大项目!!!超大型大数据项目!!!
- 大数据Spark “蘑菇云”行动第89课:Hive中GroupBy优化、Join的多种类型实战及性能优化、OrderBy和SortBy、UnionAll等实战和优化
- 大数据Spark “蘑菇云”行动第61课: 广告点击系统时间管理和数据库分层
- 大数据Spark “蘑菇云”行动第59课: 广告点击系统TopN热门广告分析与实现
- 大数据Spark “蘑菇云”行动第60课: 广告点击系统广告点击趋势分析与实现
- 大数据Spark “蘑菇云”行动第52课: Spark大型项目广告点击项目数据建模 项目!!!大项目!!!超大型大数据项目!!!
- 大数据Spark “蘑菇云”行动第62课: 广告点击系统数据库系统DAO实现
- Spark性能优化——序列化、内存、并行度、数据存储格式、Shuffle
- 大数据Spark “蘑菇云”行动第99课:Hive性能调优之企业级Mapper和Reducer调优深度细节解密 参数配置
- 大数据spark“蘑菇云”行动超大型项目实战第68课:spark RDD案例和spark sql案例对比实战 看电影的例子分析 某门热门电影的年龄、性别分析
- 大数据Spark “蘑菇云”行动第84课:Hive配置和实战第一课
- Spark性能调优之——在实际项目中,使用fastutil优化数据格式
- 大数据Spark “蘑菇云”行动第57课: Spark 2.0.1稳定版本解析及广告点击案例数据库和动态黑名单过滤代码
- Spark性能优化(1)——序列化、内存、并行度、数据存储格式、Shuffle
- 第113课:Spark Streaming电商广告点击综合案例实战模拟点击数据的生成和数据表SQL建立
- 大数据Spark “蘑菇云”行动第58课: 广告点击广告累计点击数分析与实现
- 第53课实战操作Kafka+Flume成功! Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战
- 第52课: Spark大型项目广告点击项目数据建模