第105课: Spark Streaming电商广告点击综合案例在线点击统计实战
2016-05-18 21:16
375 查看
第105课: Spark Streaming电商广告点击综合案例在线点击统计实战
/*王家林老师授课http://weibo.com/ilovepains 每天晚上20:00YY频道现场授课频道68917580*/
语言选择:Java中大规模项目开发(京东) Scala看Spark源代码
数据来自于kafka
1,复制代码 SparkStreamingonkafkaDirected.java
AdClickedSteamingStatus.java
2,大型项目不允许 hard code 硬编码。要配置文件,项目可配置。
topic: AdClicked
3,在线处理广告点击流
广告点击的基本数据格式:timestamp,ip,userID,adID,province,city
时间、ip、用户ID、广告ID,点击广告所在的省、所在的城市
4,统计进来了多少条广告
5,计算每隔10秒钟,每隔用户的广告点击量
reducebykey
6,判断有效的点击,复杂化的采用机器学习训练模型进行在线过滤
简单的根据ip判断1天不超过100次;也可以通过一个batch duration的点击次数判断是否非法广告点击,通过一个batch来判断是不完整的,还需要一天的数据也可以每一个小时来判断。
/*王家林老师授课http://weibo.com/ilovepains 每天晚上20:00YY频道现场授课频道68917580*/
语言选择:Java中大规模项目开发(京东) Scala看Spark源代码
数据来自于kafka
1,复制代码 SparkStreamingonkafkaDirected.java
AdClickedSteamingStatus.java
2,大型项目不允许 hard code 硬编码。要配置文件,项目可配置。
topic: AdClicked
3,在线处理广告点击流
广告点击的基本数据格式:timestamp,ip,userID,adID,province,city
时间、ip、用户ID、广告ID,点击广告所在的省、所在的城市
4,统计进来了多少条广告
5,计算每隔10秒钟,每隔用户的广告点击量
reducebykey
6,判断有效的点击,复杂化的采用机器学习训练模型进行在线过滤
简单的根据ip判断1天不超过100次;也可以通过一个batch duration的点击次数判断是否非法广告点击,通过一个batch来判断是不完整的,还需要一天的数据也可以每一个小时来判断。
相关文章推荐
- 堆排序算法(排序详解)
- tsiLdekniLnevEddO.328
- 简单的方法实现侧滑功能
- RedHat-如何在linux系统中设置静态ip地址及设置主机名
- 简单的slideShow(jQuery实现)
- kdtree学习
- 第7周项目3- C++游戏系列3:用多文件组织角色类
- Java集合类的混淆点总结(二)
- 对静态库,共享库,动态加载库的理解
- bzoj 2226 LCMSum 欧拉函数
- 5月17日 AJAX之JSON
- 算法设计☞快速排序
- poll函数
- HDU 2255 奔小康赚大钱(KM)
- 第十二周的学习进度表
- SQLHelper
- CSS应用:径向渐变
- Js中的天坑----JS:parseInt("08")和“09”返回0
- 我的Android进阶之旅------>解决Android Studio全局搜索搜不到结果的问题
- 使用sizeof()计算类的大小