Spark Streaming基础概念
2016-12-04 12:33
155 查看
为了更好地理解Spark Streaming 子框架的处理机制,必须得要自己弄清楚这些最基本概念。
1、[b]离散流[/b](Discretized Stream,DStream):这是Spark Streaming对内部持续的实时数据流的抽象描述,即我们处理的一个实时数据流,在Spark Streaming中对应于一个DStream的实例。
2、[b]批[/b][b][b]数[/b]据[/b](batch data):这是化整为零的第一步,将实时流数据以时间片为单位进行分批,将流处理转换为时间片数据的批处理。随着持续时间的推移,这些处理结果就形成了对应的结果数据流了。
3、时间片或批处理时间间隔(batch interval):这是人为地对流数据进行定量的标准,以时间片作为拆分流数据的依据。一个时间片的数据对应一个RDD实例。
4、[b]窗口长度[/b](window length):一个窗口覆盖的流数据的时间长度。必须是批处理时间间隔的倍数。
5、[b]滑动时间间隔[/b]:前一个窗口到后一个窗口所经过的时间长度。必须是批处理是假间隔的倍数。
6、[b]input DStream[/b]:一个input DStream是一个特殊的DStream,将Spark Streaming连接到一个外部数据源来读取数据。
7、Receiver :长时间(可能 7 X 24小时)运行在Executor。每个Receiver负责一个input DStream(例如一个读取Kafka消息的输入流)。每个Receiver,加上DStream会占用一个core/slot。
1、[b]离散流[/b](Discretized Stream,DStream):这是Spark Streaming对内部持续的实时数据流的抽象描述,即我们处理的一个实时数据流,在Spark Streaming中对应于一个DStream的实例。
2、[b]批[/b][b][b]数[/b]据[/b](batch data):这是化整为零的第一步,将实时流数据以时间片为单位进行分批,将流处理转换为时间片数据的批处理。随着持续时间的推移,这些处理结果就形成了对应的结果数据流了。
3、时间片或批处理时间间隔(batch interval):这是人为地对流数据进行定量的标准,以时间片作为拆分流数据的依据。一个时间片的数据对应一个RDD实例。
4、[b]窗口长度[/b](window length):一个窗口覆盖的流数据的时间长度。必须是批处理时间间隔的倍数。
5、[b]滑动时间间隔[/b]:前一个窗口到后一个窗口所经过的时间长度。必须是批处理是假间隔的倍数。
6、[b]input DStream[/b]:一个input DStream是一个特殊的DStream,将Spark Streaming连接到一个外部数据源来读取数据。
7、Receiver :长时间(可能 7 X 24小时)运行在Executor。每个Receiver负责一个input DStream(例如一个读取Kafka消息的输入流)。每个Receiver,加上DStream会占用一个core/slot。
相关文章推荐
- Web Service(1)---基础概念
- VB.Net学习笔记(基础概念和语法)
- SQL Server 基础概念集
- 一些JAVA基础概念
- ASP.NET服务器控件与组件基础概念——HttpModule(转载)
- 一点一点学ASP.NET之基础概念——HTTP运行期与页面执行模型
- 网格基础概念(1)
- SQL查询之基础(语法和概念)完整版
- SQL Server 基础概念集
- C语言递归的基础和数据结构的初步概念
- 面向对象的设计与实现的一些基础但重要的概念
- arm的基础概念
- [导入]视频游戏开发系列课程(2):基础编程概念及C#简介
- Flash基础概念串串烧
- java基础概念
- 工作流的基础概念
- 网格基础概念(2)
- 一点一点学ASP.NET之基础概念——HttpHandler
- ASP.NET服务器控件与组件基础概念——HttpHandler (转载)