进军Kaggle(一)
2015-04-23 02:08
113 查看
Kaggle
Kaggle是一个为机器学习提供数据集以及在线测评的网站。学算法时我们知道在OJ上面做题会很有帮助,那么同样的道理,学习机器学习的相关知识,刷相关的数据集,与大家进行交流,就显得很重要。Kaggle的好处有以下几点:
1. 提供许多数据集,各种题材、各种格式、各种类型的数据集都有涉猎
2. 提供讨论区,大家可以在网站上面针对题目进行有针对性的讨论
3. 提供相关的代码分享,以及可视化分享区,帮助用户更好的理解数据,理解算法
好处
在Kaggle上面分析数据的好处是:1. 可以避免闭门造车的境地。在同一个数据集上面,可以明确的看到自己所处的位置,自己的方法与标准方法相比、与其他人的方法相比,有多大的差距以及有哪些区别。
2. 可以比较不同的方法在同一个数据集上面的表现
3. 模型取得的成绩能够在很大程度上得到他人的认可
兴趣点
我在Kaggle上面的兴趣点在于两个方面,一个是社交网络分析,一个是机器视觉。最近已经尝试过两个数据集,一个是MNIST手写数字识别,一个是Influencers in Social Networks。这两个都是相对较为基础的数据集,学界以及业界都有非常成熟的解决方案,取得了很好的效果。其中,MNIST数据集中去年有人在Kaggle上面得到了惊人的1.00的评测值,在这个数据的意义上来说已经登峰造极。做这两个数据集的目的在于考察自己掌握的机器学习方法的真实能力。如果读者有兴趣,也可以从这两个数据集开始做起。其中MNIST数据集本人采用SVM做Baseline,达到了0.982的评分,而使用CNN,达到了0.992的评分。Influencers数据集使用Baseline LogisticRegression达到了0.856的评分。
相关文章推荐
- 从Kaggle上直接下载数据到aws
- kaggle完整的分析过程
- Kaggle房价预测-Lasso线性规划代入学习
- 用 Kaggle 经典案例教你用 CNN 做图像分类!
- kaggle比赛猫狗数据集百度网盘分享
- 完成一个kaggle竞赛
- 进军IA64企业级高端应用 红旗推出Server 4.1 for Itanium2 系列
- 微软推高性能β2 Windows 进军超级计算领域
- Linux系统进军ThinkPad笔记本预装
- BEA进军下一代通信服务
- SAP进军互联网 发布基于浏览器的管理软件
- 百度酝酿进军品牌广告领域 加强商业模式探索
- 向FreeBSD进军
- 百度酝酿进军网游 或与游戏公司联合运营
- GOOGLE进军手机战略
- 互联网进军影视作品的软广告
- 搜狐全面进军SNS市场 目标直指开心网
- [CTO札记]Disney也进军数字出版市场了
- 迎接64bit时代,向2010进军
- HTC最快7月进军大陆 或采取双品牌运作