Spark Streaming揭秘 Day26 JobGenerator源码图解
2016-06-14 23:31
369 查看
Spark Streaming揭秘 Day26
JobGenerator源码图解
今天主要解析一下JobGenerator,它相当于一个转换器,和机器学习的pipeline比较类似,因为最终运行在SparkCore上,作为应用程序,需要开发者提供一些信息才能够运行。简述
JobGenerator这个类会负责从DStream中产生Jobs,同时进行checkpoint和清理数据。JobGenerator的核心是一个钟,这里采用反射生成,并提供给定时器,根据周期性触发事件
generateJobs是核心方法,分为5个运行步骤:
获取时间段内的Block信息,所以说SparkStreaming的本质是一个小型的批处理。
根据graph基于时间来使用Block,最终会调用OutputStream的generateJob方法。
处理元数据inputInfo。
提交处理作业,首先处理监听器,之后交给线程池来执行。
进行checkpoint归档,并更新元数据信息。
下面进入启动方法start,这里面除了启动定时器以外,还对graph进行了初始化。
graph的初始化,最终会调用DStream上的方法,首先是设置起始时间,最后会根据依赖关系初始化父DStream。
绘图
欲知后事如何,且听下回分解!
DT大数据每天晚上20:00YY频道现场授课频道68917580相关文章推荐
- 最好的学习时光是四年前,其次是现在
- TextView的一些应用(Textview 自定义字体、显示多种颜色、添加阴影)
- 机器学习之K-近邻算法
- 【BZOJ-4008】亚瑟王 概率与期望 + DP
- DOCKER windows安装
- Qt安卓JNI交互之(1) C++注册函数给JAVA调用
- android——数据存储SQLite
- linux 版本
- js api 微信支付 chooseWXPay:fail
- 腾讯某论坛存在SSRF漏洞(附批量捡漏脚本) ------ 20160614
- java 实现对象的clone
- lua 闭包
- js获取当前时间
- Android数据库之ormlite简单使用
- Volley框架
- HttpClient的使用,整理了一个工具类
- PYTHON 获取csdn的博客文章标题和描述
- 如何从Eclipse迁移到AndroidStudio
- HDU 2180 时钟
- 几种session存储方式比较