SparkStreamingj集成Kafka的几个重要参数
2017-01-20 00:00
405 查看
sparkstreaming集成kafka时的maven的pom依赖:
使用SparkStreaming集成kafka时有几个比较重要的参数:
(1)spark.streaming.stopGracefullyOnShutdown (true / false)默认fasle
确保在kill任务时,能够处理完最后一批数据,再关闭程序,不会发生强制kill导致数据处理中断,没处理完的数据丢失
(2)spark.streaming.backpressure.enabled (true / false) 默认false
开启后spark自动根据系统负载选择最优消费速率
(3)spark.streaming.backpressure.initialRate (整数) 默认直接读取所有
在(2)开启的情况下,限制第一次批处理应该消费的数据,因为程序冷启动
队列里面有大量积压,防止第一次全部读取,造成系统阻塞
(4)spark.streaming.kafka.maxRatePerPartition (整数) 默认直接读取所有
限制每秒每个消费线程读取每个kafka分区最大的数据量
注意:
只有(4)激活的时候,每次消费的最大数据量,就是设置的数据量,如果不足这个数,就有多少读多少,如果超过这个数字,就读取这个数字的设置的值
只有(2)+(4)激活的时候,每次消费读取的数量最大会等于(4)设置的值,最小是spark根据系统负载自动推断的值,消费的数据量会在这两个范围之内变化根据系统情况,但第一次启动会有多少读多少数据。此后按(2)+(4)设置规则运行
(2)+(3)+(4)同时激活的时候,跟上一个消费情况基本一样,但第一次消费会得到限制,因为我们设置第一次消费的频率了。
除此之外,还应该考虑程序容错性,这个跟checkpoint有关系散仙在前面的文章已经描述过具体请参考:http://qindongliang.iteye.com/
有什么问题可以扫码关注微信公众号:我是攻城师(woshigcs),在后台留言咨询。 技术债不能欠,健康债更不能欠, 求道之路,与君同行。
<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-8_2.11</artifactId> <version>0.8.2.1/version> </dependency>
使用SparkStreaming集成kafka时有几个比较重要的参数:
(1)spark.streaming.stopGracefullyOnShutdown (true / false)默认fasle
确保在kill任务时,能够处理完最后一批数据,再关闭程序,不会发生强制kill导致数据处理中断,没处理完的数据丢失
(2)spark.streaming.backpressure.enabled (true / false) 默认false
开启后spark自动根据系统负载选择最优消费速率
(3)spark.streaming.backpressure.initialRate (整数) 默认直接读取所有
在(2)开启的情况下,限制第一次批处理应该消费的数据,因为程序冷启动
队列里面有大量积压,防止第一次全部读取,造成系统阻塞
(4)spark.streaming.kafka.maxRatePerPartition (整数) 默认直接读取所有
限制每秒每个消费线程读取每个kafka分区最大的数据量
注意:
只有(4)激活的时候,每次消费的最大数据量,就是设置的数据量,如果不足这个数,就有多少读多少,如果超过这个数字,就读取这个数字的设置的值
只有(2)+(4)激活的时候,每次消费读取的数量最大会等于(4)设置的值,最小是spark根据系统负载自动推断的值,消费的数据量会在这两个范围之内变化根据系统情况,但第一次启动会有多少读多少数据。此后按(2)+(4)设置规则运行
(2)+(3)+(4)同时激活的时候,跟上一个消费情况基本一样,但第一次消费会得到限制,因为我们设置第一次消费的频率了。
除此之外,还应该考虑程序容错性,这个跟checkpoint有关系散仙在前面的文章已经描述过具体请参考:http://qindongliang.iteye.com/
有什么问题可以扫码关注微信公众号:我是攻城师(woshigcs),在后台留言咨询。 技术债不能欠,健康债更不能欠, 求道之路,与君同行。
相关文章推荐
- SparkStreamingj集成Kafka的几个重要参数
- SparkStreamingj集成Kafka的几个重要参数
- Spark集成Kafka源码分析——SparkStreaming从kafak中接收数据
- Spark学习八:spark streaming与flume和kafka集成
- sparkstreaming接受kafka数据实时存入hbse并集成rest服务
- java实现spark streaming与kafka集成进行流式计算
- Spark Streaming 和kafka 集成指导(kafka 0.8.2.1 或以上版本)
- Kafka和Spark Streaming Java版本集成并将数据实时写入HBase及代码
- spring-sparkstreaming-kafka10集成实现和疑难杂症解决
- spark-streaming集成Kafka工程实例【转】
- 【Spark】SparkStreaming-Kafka-Redis-集成-基础参考资料
- 「官文译」Spark 结构Streaming-2.1.1 + Kafka 集成指南 (Kafka broker version 0.10.0 or higher)
- SBT 构建 spark streaming集成kafka (scala版本)
- Spark Streaming集成Kafka总结
- Kafka+Spark Streaming集成
- Spark(1.2.0) Streaming 集成 Kafka 总结
- Spark(1.2.0) Streaming 集成 Kafka 总结 [复制链接]
- sparkStreaming集成Kafka
- Spark 和 kafka 集成 Spark Streaming + Kafka Integration Guide (Kafka broker version 0.10.0 or higher)
- sparkstreaming和kafka集成的两种方式(最全)