您的位置:首页 > 其它

阿里音乐流行趋势预测大赛一起做-(4)成绩提交

2016-05-20 10:47 323 查看
按照我上一篇博客中所描述的思路,我们仅用artist_id和艺人当天的播放量Plays,以及日期Ds三个维度的数据作为训练集合,对每个艺人分别使用时间序列算法进行预测,提交了成绩。本来没报多大希望,只是希望能在排行榜里露个脸,结果竟然进了首页!惊讶之余还是非常开心的。虽然不能说明该方法有多好,至少可以认为是有效的。

简单总结

由于我们仅仅使用了和 选手提交结果表(mars_tianchi_artist_plays_predict)中相同维度的数据进行了预测,所以利用的信息还是非常少的,也从侧面说明baseline的得分很可能就在6400+左右。

友情提醒

1、在数据处理的过程中发现是存在缺失数据的,也就是说部分艺人在训练集合时间(20150301-20150830)内会缺失某天的数据,大家要擦亮眼。本人已经趟过雷。

2、给出的是6个月内(20150301-20150830)的历史数据,要预测的是60天(20150901-20151030)的播放数据。还记得么?一三五七八十腊,三十一天永不差,8月份是31天呐!20150831去哪里啦?说明8月31日是要预测的,但是不会出现在提交表格里。也就是说总共要预测61天的数据,只不过提交的时候剃掉20150831的预测结果,只保留后面60天进行提交即可。

特征工程

下一步的任务就是在此基础上考虑如何加入其它维度的特征,比如publish_time,gender,language等,就是特征选择范畴了。特征选择在数据挖掘的整个任务中要占掉大部分的时间和精力,需要丰富的经验,通常要结合业务的理解来做,挑战还是很大的。

提交成绩为0情况-解决办法

看到很多同学在官方旺旺群里和论坛中反应自己提交结果一直为0,我觉得可以从以下几个方面查找问题:

1、文件名称是否对?正确的是csv格式,如下:mars_tianchi_artist_plays_predict.csv

2、用写字板打开文件,必须严格是如下格式:



检查是否有多余的逗号、分号、冒号等

检查日期格式,有同学的可能是2015/9/1这种格式

Plays用整数表示,带小数点可能会有问题

3、不需要加列名

4、字段顺序要一致。从左到右顺序为:artist_id,Plays,Ds

5、行数总共50X60=3000行

6、检查Plays是否有0或者负数的情况,结果应该都是正数

按照上面检查都对应该没有问题了,如果还有问题可以发给官方旺旺群(群号:1270938233 )里阿里的师兄们看看。

小工具推荐

比赛过程中要经常打开各种不同格式的表,用excel打开较大的csv文件通常会很卡,并且显示乱乱的,在此墙裂推荐ultraedit软件,兼容各种格式,秒开大文件(真的是秒开),查找比对都非常方便。类似的工具应该有很多,各位可以自行Google。

前方的路还很漫长,大家一起奔跑,一起加油吧!

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: