第104讲: Spark Streaming电商广告点击综合案例需求分析和技术架构
2016-05-22 21:16
260 查看
有兴趣想学习国内整套Spark+Spark Streaming+Machine learning顶级课程的,可加我qq
471186150。共享视频,性价比超高!
本讲内容:对京东等电商网站对广告点击行为进行分析,具体我们有哪些需求点,我们初步的技术架构是什么样的。
1:广告点击系统实时分析:
广告来自于网站或者移动App等,广告需要设定在具体的广告位,当用户点击广告的时候,一般都会通过JavaScript、Ajax或者Socket往后台发送点击的日志数据,在这里我们是要基于Spark Streaming做实时在线统计,那么数据就需要放进消息系统(Kafka)中,为什么不是放进文件中?因为系统一旦运行起来,它可能要运行一年,中间不能出任何问题,所以一般是放在消息组件中解耦合的,二是kafka肯定是更稳定,还可以随时查过去一小时,7天,一个月,甚至一百天,只要你磁盘足够大。我们的Spark Streaming应用程序就会去Kafka中Pull数据过来进行计算和消费,并把计算后的数据放入到持久化系统中(MySQL);
广告点击系统实时分析的意义:因为可以在线实时的看见广告的投放效果,就为广告的更加规模的投入和调整打下的坚实的基础,从而为公司带来最大化的经济回报;
核心需求:
1,实时黑名单动态过滤出有效的用户广告点击行为;因为黑名单用户可能随时出现,所以需要动态更新;
2,在线计算广告点击流量;(方便计费或者调整广告)
3,Top3 热门广告;最挣钱的广告
4,每个广告的流量趋势;可以知道哪个时间断,用户对你这个类型的广告特别敢兴趣。另外一个时间段,有可能对另外一个广告特别感兴趣。
5,广告点击用户的区域分布分析;可以看到用户的各省各城市分析。
6,最近一分钟的广告点击量;‘
7,整个广告点击Spark Streaming处理程序7*24小时的运行;
数据格式:
点击的时间、用户、广告、城市地点等
技术细节,暂时列出下面几条:
在线计算用户点击的次数分析、屏蔽IP等,实现黑名单过滤,你一天对我的广告点击50次,肯定不正常。
使用updateStateByKey或者mapWithState进行不同地区广告点击排名的计算;
Spark Streaming+Spark SQL+Spark Core等综合分析数据;
使用Window类型的操作;
高可用和性能调优;
流量趋势 一般会结合DB等;最好的流量趋势从机器学习去用,因为不仅可以算过去,也可以预测未来。
以上是本次项目重点技术和功能设计。
471186150。共享视频,性价比超高!
本讲内容:对京东等电商网站对广告点击行为进行分析,具体我们有哪些需求点,我们初步的技术架构是什么样的。
1:广告点击系统实时分析:
广告来自于网站或者移动App等,广告需要设定在具体的广告位,当用户点击广告的时候,一般都会通过JavaScript、Ajax或者Socket往后台发送点击的日志数据,在这里我们是要基于Spark Streaming做实时在线统计,那么数据就需要放进消息系统(Kafka)中,为什么不是放进文件中?因为系统一旦运行起来,它可能要运行一年,中间不能出任何问题,所以一般是放在消息组件中解耦合的,二是kafka肯定是更稳定,还可以随时查过去一小时,7天,一个月,甚至一百天,只要你磁盘足够大。我们的Spark Streaming应用程序就会去Kafka中Pull数据过来进行计算和消费,并把计算后的数据放入到持久化系统中(MySQL);
广告点击系统实时分析的意义:因为可以在线实时的看见广告的投放效果,就为广告的更加规模的投入和调整打下的坚实的基础,从而为公司带来最大化的经济回报;
核心需求:
1,实时黑名单动态过滤出有效的用户广告点击行为;因为黑名单用户可能随时出现,所以需要动态更新;
2,在线计算广告点击流量;(方便计费或者调整广告)
3,Top3 热门广告;最挣钱的广告
4,每个广告的流量趋势;可以知道哪个时间断,用户对你这个类型的广告特别敢兴趣。另外一个时间段,有可能对另外一个广告特别感兴趣。
5,广告点击用户的区域分布分析;可以看到用户的各省各城市分析。
6,最近一分钟的广告点击量;‘
7,整个广告点击Spark Streaming处理程序7*24小时的运行;
数据格式:
点击的时间、用户、广告、城市地点等
技术细节,暂时列出下面几条:
在线计算用户点击的次数分析、屏蔽IP等,实现黑名单过滤,你一天对我的广告点击50次,肯定不正常。
使用updateStateByKey或者mapWithState进行不同地区广告点击排名的计算;
Spark Streaming+Spark SQL+Spark Core等综合分析数据;
使用Window类型的操作;
高可用和性能调优;
流量趋势 一般会结合DB等;最好的流量趋势从机器学习去用,因为不仅可以算过去,也可以预测未来。
以上是本次项目重点技术和功能设计。
相关文章推荐
- 存储scale-up和scalce-out架构
- 高性能服务器架构思路
- 高性能网站建设指南
- 第11课:Spark Streaming源码解读之Driver中的ReceiverTracker架构设计以及具体实现彻底研究
- Spark定制班第9课:Spark Streaming源码解读之Receiver在Driver的精妙实现全生命周期彻底研究和思考
- 第11课:Spark Streaming源码解读之Driver中的ReceiverTracker架构设计以及具体实现彻底研究
- 如何自己搭建钓鱼网站检测系统
- 一个帮助编辑,测试Cron表达式的网站
- 33个网站足以使你成为一个天才
- 第11课:Spark Streaming 源码解读之Driver中ReceiverTracker架构设计及具体实现彻底研究
- keepalived-lvs-dr-主主模型实现高可用负载均衡
- 网站开发从陌生到了解
- 33个网站足以使你成为一个天才
- Java千百问_07JVM架构(006)_java堆和栈有什么区别
- 重要学习网站记录
- 推荐几个在线PDF转化成Word网站
- 从SEO角度出发,我们应该禁止搜索引擎对网站分页的抓取
- SCA(服务组件架构)编程模式
- Java千百问_07JVM架构(005)_显示内存管理有什么弊端
- 大型电商架构设计各路诸侯点评