您的位置:首页 > 运维架构 > 网站架构

第104讲: Spark Streaming电商广告点击综合案例需求分析和技术架构

2016-05-22 21:16 260 查看
有兴趣想学习国内整套Spark+Spark Streaming+Machine learning顶级课程的,可加我qq
471186150。共享视频,性价比超高!

本讲内容:对京东等电商网站对广告点击行为进行分析,具体我们有哪些需求点,我们初步的技术架构是什么样的。

1:广告点击系统实时分析:

广告来自于网站或者移动App等,广告需要设定在具体的广告位,当用户点击广告的时候,一般都会通过JavaScript、Ajax或者Socket往后台发送点击的日志数据,在这里我们是要基于Spark Streaming做实时在线统计,那么数据就需要放进消息系统(Kafka)中,为什么不是放进文件中?因为系统一旦运行起来,它可能要运行一年,中间不能出任何问题,所以一般是放在消息组件中解耦合的,二是kafka肯定是更稳定,还可以随时查过去一小时,7天,一个月,甚至一百天,只要你磁盘足够大。我们的Spark Streaming应用程序就会去Kafka中Pull数据过来进行计算和消费,并把计算后的数据放入到持久化系统中(MySQL);

广告点击系统实时分析的意义:因为可以在线实时的看见广告的投放效果,就为广告的更加规模的投入和调整打下的坚实的基础,从而为公司带来最大化的经济回报;

核心需求:

1,实时黑名单动态过滤出有效的用户广告点击行为;因为黑名单用户可能随时出现,所以需要动态更新;

2,在线计算广告点击流量;(方便计费或者调整广告)

3,Top3 热门广告;最挣钱的广告

4,每个广告的流量趋势;可以知道哪个时间断,用户对你这个类型的广告特别敢兴趣。另外一个时间段,有可能对另外一个广告特别感兴趣。

5,广告点击用户的区域分布分析;可以看到用户的各省各城市分析。

6,最近一分钟的广告点击量;‘

7,整个广告点击Spark Streaming处理程序7*24小时的运行;

数据格式:

点击的时间、用户、广告、城市地点等

技术细节,暂时列出下面几条:

在线计算用户点击的次数分析、屏蔽IP等,实现黑名单过滤,你一天对我的广告点击50次,肯定不正常。

使用updateStateByKey或者mapWithState进行不同地区广告点击排名的计算;

Spark Streaming+Spark SQL+Spark Core等综合分析数据;

使用Window类型的操作;

高可用和性能调优;

流量趋势 一般会结合DB等;最好的流量趋势从机器学习去用,因为不仅可以算过去,也可以预测未来。

以上是本次项目重点技术和功能设计。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: