您的位置：首页 > 运维架构 > 网站架构

第104讲： Spark Streaming电商广告点击综合案例需求分析和技术架构

2016-05-22 21:16 260 查看

有兴趣想学习国内整套Spark+Spark Streaming+Machine learning顶级课程的，可加我qq
471186150。共享视频，性价比超高！

本讲内容：对京东等电商网站对广告点击行为进行分析，具体我们有哪些需求点，我们初步的技术架构是什么样的。

1：广告点击系统实时分析：

广告来自于网站或者移动App等，广告需要设定在具体的广告位，当用户点击广告的时候，一般都会通过JavaScript、Ajax或者Socket往后台发送点击的日志数据，在这里我们是要基于Spark Streaming做实时在线统计，那么数据就需要放进消息系统（Kafka）中，为什么不是放进文件中？因为系统一旦运行起来，它可能要运行一年，中间不能出任何问题，所以一般是放在消息组件中解耦合的，二是kafka肯定是更稳定，还可以随时查过去一小时，7天，一个月，甚至一百天，只要你磁盘足够大。我们的Spark Streaming应用程序就会去Kafka中Pull数据过来进行计算和消费，并把计算后的数据放入到持久化系统中（MySQL）;

广告点击系统实时分析的意义：因为可以在线实时的看见广告的投放效果，就为广告的更加规模的投入和调整打下的坚实的基础，从而为公司带来最大化的经济回报；

核心需求：

1，实时黑名单动态过滤出有效的用户广告点击行为；因为黑名单用户可能随时出现，所以需要动态更新；

2，在线计算广告点击流量；（方便计费或者调整广告）

3，Top3 热门广告；最挣钱的广告

4，每个广告的流量趋势；可以知道哪个时间断，用户对你这个类型的广告特别敢兴趣。另外一个时间段，有可能对另外一个广告特别感兴趣。

5，广告点击用户的区域分布分析；可以看到用户的各省各城市分析。

6，最近一分钟的广告点击量；‘

7，整个广告点击Spark Streaming处理程序7*24小时的运行；

数据格式：

点击的时间、用户、广告、城市地点等

技术细节，暂时列出下面几条：

在线计算用户点击的次数分析、屏蔽IP等，实现黑名单过滤，你一天对我的广告点击50次，肯定不正常。

使用updateStateByKey或者mapWithState进行不同地区广告点击排名的计算；

Spark Streaming+Spark SQL+Spark Core等综合分析数据；

使用Window类型的操作；

高可用和性能调优；

流量趋势一般会结合DB等；最好的流量趋势从机器学习去用，因为不仅可以算过去，也可以预测未来。

以上是本次项目重点技术和功能设计。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航