您的位置:首页 > 其它

第105课: Spark Streaming电商广告点击综合案例在线点击统计实战

2016-05-18 21:16 375 查看
第105课: Spark Streaming电商广告点击综合案例在线点击统计实战

/*王家林老师授课http://weibo.com/ilovepains 每天晚上20:00YY频道现场授课频道68917580*/

语言选择:Java中大规模项目开发(京东) Scala看Spark源代码

数据来自于kafka

1,复制代码 SparkStreamingonkafkaDirected.java

AdClickedSteamingStatus.java

2,大型项目不允许 hard code 硬编码。要配置文件,项目可配置。

topic: AdClicked

3,在线处理广告点击流

广告点击的基本数据格式:timestamp,ip,userID,adID,province,city

时间、ip、用户ID、广告ID,点击广告所在的省、所在的城市

4,统计进来了多少条广告

5,计算每隔10秒钟,每隔用户的广告点击量

reducebykey

6,判断有效的点击,复杂化的采用机器学习训练模型进行在线过滤

简单的根据ip判断1天不超过100次;也可以通过一个batch duration的点击次数判断是否非法广告点击,通过一个batch来判断是不完整的,还需要一天的数据也可以每一个小时来判断。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: