阿里音乐流行趋势预测大赛一起做-(4)成绩提交
2016-05-20 10:47
323 查看
按照我上一篇博客中所描述的思路,我们仅用artist_id和艺人当天的播放量Plays,以及日期Ds三个维度的数据作为训练集合,对每个艺人分别使用时间序列算法进行预测,提交了成绩。本来没报多大希望,只是希望能在排行榜里露个脸,结果竟然进了首页!惊讶之余还是非常开心的。虽然不能说明该方法有多好,至少可以认为是有效的。
2、给出的是6个月内(20150301-20150830)的历史数据,要预测的是60天(20150901-20151030)的播放数据。还记得么?一三五七八十腊,三十一天永不差,8月份是31天呐!20150831去哪里啦?说明8月31日是要预测的,但是不会出现在提交表格里。也就是说总共要预测61天的数据,只不过提交的时候剃掉20150831的预测结果,只保留后面60天进行提交即可。
1、文件名称是否对?正确的是csv格式,如下:mars_tianchi_artist_plays_predict.csv
2、用写字板打开文件,必须严格是如下格式:
检查是否有多余的逗号、分号、冒号等
检查日期格式,有同学的可能是2015/9/1这种格式
Plays用整数表示,带小数点可能会有问题
3、不需要加列名
4、字段顺序要一致。从左到右顺序为:artist_id,Plays,Ds
5、行数总共50X60=3000行
6、检查Plays是否有0或者负数的情况,结果应该都是正数
按照上面检查都对应该没有问题了,如果还有问题可以发给官方旺旺群(群号:1270938233 )里阿里的师兄们看看。
简单总结
由于我们仅仅使用了和 选手提交结果表(mars_tianchi_artist_plays_predict)中相同维度的数据进行了预测,所以利用的信息还是非常少的,也从侧面说明baseline的得分很可能就在6400+左右。友情提醒
1、在数据处理的过程中发现是存在缺失数据的,也就是说部分艺人在训练集合时间(20150301-20150830)内会缺失某天的数据,大家要擦亮眼。本人已经趟过雷。2、给出的是6个月内(20150301-20150830)的历史数据,要预测的是60天(20150901-20151030)的播放数据。还记得么?一三五七八十腊,三十一天永不差,8月份是31天呐!20150831去哪里啦?说明8月31日是要预测的,但是不会出现在提交表格里。也就是说总共要预测61天的数据,只不过提交的时候剃掉20150831的预测结果,只保留后面60天进行提交即可。
特征工程
下一步的任务就是在此基础上考虑如何加入其它维度的特征,比如publish_time,gender,language等,就是特征选择范畴了。特征选择在数据挖掘的整个任务中要占掉大部分的时间和精力,需要丰富的经验,通常要结合业务的理解来做,挑战还是很大的。提交成绩为0情况-解决办法
看到很多同学在官方旺旺群里和论坛中反应自己提交结果一直为0,我觉得可以从以下几个方面查找问题:1、文件名称是否对?正确的是csv格式,如下:mars_tianchi_artist_plays_predict.csv
2、用写字板打开文件,必须严格是如下格式:
检查是否有多余的逗号、分号、冒号等
检查日期格式,有同学的可能是2015/9/1这种格式
Plays用整数表示,带小数点可能会有问题
3、不需要加列名
4、字段顺序要一致。从左到右顺序为:artist_id,Plays,Ds
5、行数总共50X60=3000行
6、检查Plays是否有0或者负数的情况,结果应该都是正数
按照上面检查都对应该没有问题了,如果还有问题可以发给官方旺旺群(群号:1270938233 )里阿里的师兄们看看。
小工具推荐
比赛过程中要经常打开各种不同格式的表,用excel打开较大的csv文件通常会很卡,并且显示乱乱的,在此墙裂推荐ultraedit软件,兼容各种格式,秒开大文件(真的是秒开),查找比对都非常方便。类似的工具应该有很多,各位可以自行Google。前方的路还很漫长,大家一起奔跑,一起加油吧!
相关文章推荐
- 单例模式
- H264—MP4格式及在MP4文件中提取H264的SPS、PPS及码流
- DELPHI copy,pos函数用法
- Yii2 Format 如何使用
- 在MAC上搭建cordova3.4.0的IOS和android开发环境
- 电子商务网站商品推荐案例分析
- c++第六次上机实验——循环复习
- C++基础:各种输入方法总结,cin、cin.get()、cin.getline()、getline()、gets()、getchar()
- apache虚拟主机的配置
- SSH框架之Spring注解
- /dev/shm应该设置多大Oracle 实例启动时才能不报ORA-00845
- Socket编程(一)---图解Socket
- 122. Best Time to Buy and Sell Stock II
- Effective cpp 读书笔记6
- 互补滤波器
- 欢迎使用CSDN-markdown编辑器
- LeetCode 43. Multiply Strings(乘法)
- nginx 并发数
- 优秀程序员的十个习惯
- Java中Properties的使用详解