您的位置：首页 > 其它

Spark Streaming基础概念

2016-12-04 12:33 155 查看

　　为了更好地理解Spark Streaming 子框架的处理机制，必须得要自己弄清楚这些最基本概念。

　　1、[b]离散流[/b]（Discretized Stream，DStream）：这是Spark Streaming对内部持续的实时数据流的抽象描述，即我们处理的一个实时数据流，在Spark Streaming中对应于一个DStream的实例。

　　2、[b]批[/b][b][b]数[/b]据[/b]（batch data）：这是化整为零的第一步，将实时流数据以时间片为单位进行分批，将流处理转换为时间片数据的批处理。随着持续时间的推移，这些处理结果就形成了对应的结果数据流了。

　　3、时间片或批处理时间间隔（batch interval）：这是人为地对流数据进行定量的标准，以时间片作为拆分流数据的依据。一个时间片的数据对应一个RDD实例。

　　4、[b]窗口长度[/b]（window length）：一个窗口覆盖的流数据的时间长度。必须是批处理时间间隔的倍数。

　　5、[b]滑动时间间隔[/b]：前一个窗口到后一个窗口所经过的时间长度。必须是批处理是假间隔的倍数。

　　6、[b]input DStream[/b]：一个input DStream是一个特殊的DStream，将Spark Streaming连接到一个外部数据源来读取数据。

　　7、Receiver ：长时间（可能 7 X 24小时）运行在Executor。每个Receiver负责一个input DStream（例如一个读取Kafka消息的输入流）。每个Receiver，加上DStream会占用一个core/slot。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航