您的位置:首页 > 其它

阿里音乐流行趋势预测大赛一起做-(5)温故知新

2016-05-27 11:17 288 查看
比赛进行到现在已经有十天了,我们队伍已经进入瓶颈期了,具体表现就是:

1、每次线下预测结果都感觉不错,应该可以提升成绩吧,至少和现在成绩相当吧,结果10点成绩出来就傻眼了,成绩一直掉掉掉。

2、黔驴技穷。每天为提交成绩而发愁,没有好的思路和方法。看着后面的队伍蹭蹭蹭超越了自己,心里真不是滋味呐。

那么问题来了,到底怎么破?

我觉得可以先考虑从两方面入手:

1、多交流、多思考、多尝试。话说一个队伍内的小伙伴呆的时间久了,大家的思想会受彼此影响而趋同,很难有新的思路和火花。真心希望能和不同队伍之间在不违规的前提下进行思想交流,每个队伍都闭门造车,思路就打不开,进步就很困难。天池论坛还是缺乏像kaggle那种友好的讨论氛围,我期待的比赛队伍之间应该是在热烈的讨论氛围下共同进步,毕竟最后能拿奖的也就那几个,大家参赛的初衷也是来学习的,抛却了这些杂念大家才能营造一个和谐上进的论坛氛围。这也是我写这一系列博客的原因。

2、学习别人的经验,尤其是思考问题和解决问题的办法,可以是以往类似的比赛(天池大赛、kaggle等)也可以是书籍。这篇博客就是重温去年的“资金流入流出预测大赛”冠军的总结,来给大家提供一些思路。

重温2015“资金流入流出预测大赛”

首先看下资金流入流出预测大赛的官方介绍,总决赛冠军队“三只熊”的决赛演讲视频连接

资金流入流出预测大赛问题可以简单描述为:

给定10W余额宝用户过去14个月的操作历史数据,预测未来1个月内每天的申购赎回总额。

TOP4队伍的思路都基本一致: 按自然日对数据进行了汇总,得到了427天(14个月)的时间序列数据,然后用时间序列或者回归方法进行预测。

阿里音乐流行趋势预测大赛问题可以描述为:

给定35W阿里音乐用户过去6个月的对1W首歌曲的历史操作数据,预测未来2个月内每个艺人每天的总播放量。

“资金流入流出预测大赛”(简称资金预测)和“阿里音乐流行趋势预测大赛”(简称音乐预测)有什么异同点呢?

相同点:

1、都是回归问题,都有明显的时间序列特征。

2、都提供了丰富的用户操作历史记录。

不同点:

1、难度上来说,音乐预测难度明显更高:给定的历史数据更少,要预测的时间更长;要预测50个歌手每天的播放数量(50个维度的时间序列),而资金预测只需要预测申购和赎回每天的总量(本质是余额宝一个维度的时间序列);

2、音乐预测除了涉及到用户信息,还涉及到歌曲信息,而资金预测仅仅涉及用户信息和少量的第三方信息(上海银行间同业拆放利率表,然并卵 )。

总之,阿里音乐流行趋势预测大赛的难度虽然有所提升,但是本质上和资金流入流出预测大赛是类似的问题,所以对资金流入流出预测大赛的分析还是很有参考价值的。

冠军团队的参考价值分析

看了冠军团队“三只熊”的决赛视频和PPT,总结分析如下:

1、问题定位

三只熊将资金预测定位为经济时间序列回归/预测问题,最后用时间序列分析中的STL分解方法进行预测。

音乐预测和资金预测本质应该是同一个问题,应该可以借鉴时间序列分析方法,当然还有其他的回归模型也可以借鉴。

2、数据预处理

三只熊做了如下数据预处理:



我们逐条分析:

第1条在音乐预测中是不存在的,我们可以考虑去掉一些离群点对数据进行平滑。

第2条按照自然日进行汇总,相信大部分队伍都是这么做的。

第3条用户分类。也就是分为是否是歌迷粉丝。但是想要得到一个好的分类不太容易,阈值如何设置?能否分类后将非线性问题转化为线性问题?

关于这一点也是作为第一名的三只熊团队相对后面三支团队的独创性吧,后面三支队伍都没有做用户分类(专业术语应该是人群画像吧),三只熊在这方面的贡献应该增加了不少优势吧。具体来说,三只熊成功的选定了一个阈值分离出一个线性变量,如下图



这样的思路应该是很值得学习的。更进一步,这个阈值点如果不是靠人工的线下测试而是靠算法自动获得的,那就更完美了,因为音乐预测有50位歌手需要预测,纯靠经验来选阈值估计要哭晕在厕所了。如果选的不合适,切换数据后要再来50次,估计要死的心都有了。

第4条人均化处理我觉得也是可以尝试的,起码在用户分类上能起到作用。

3、误区提醒

毕竟两个比赛还是有差异的,我个人觉得资金预测可能存在以下误区:

1)资金预测过于关注特殊日期的预测

如下图是三只熊关于特殊日期的处理:



可以发现特殊日期(节假日、双十一、打新股)对预测结果有较大影响,而且这些特殊日期没有一定的规律,所以需要人工调参。这也是后来很多队伍陷入人工调参误区的主要原因。

我觉得音乐预测已经比较好的规避了该问题,组委会应该是不希望看到大家人工调参去逼近结果的,所以建议不要为了提高分数盲目地人工调整数据,因为很浪费时间和精力,而且对自己的能力没有什么提升,并且很有可能在数据切换后一脸懵逼。

2)模型最好不要太复杂

以下是三只熊的模型,由于资金预测比较倚重特殊的时间节点,导致了最后的模型受制于这些特殊时间而变的相对复杂。个人认为音乐预测的好的模型应该是简单而有效的,如有不同观点希望能讨论。



感悟

引用三只熊队伍的感悟作为结尾:



英雄不问出处,奉献才有收获!愿交流分享,共同进步!

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: