您的位置：首页 > 其它

【数据挖掘】【笔记】阅读之机器学习竞赛进阶

2017-06-25 21:25 351 查看

教你如何在机器学习竞赛中更胜一筹（上）-博客-云栖社区-阿里云
https://yq.aliyun.com/articles/73755?spm=5176.100239.bloglist.40.wxgxxt
介绍一些建立机器学习模型的技巧

问答

了解数据

检查变量类

可视化了解变量性质

评估指标

了解评估指标的变化趋势

确定交叉验证策略

初期阶段设置

获得可靠得分

超参调整

数据转换

缩放

异常值

空值

哑变量处理

特征选择

创建交互

选择算法

使用多种算法

保持预测结果

组合模型

使用训练集验证集

重复评分

充分利用数据

估算缺失值：

- 均值，中位数插值

- 在变量的正常范围之外标记。如-1， -9999

- 用一种可能性替换，例如与目标变量有关的事物

- 有时，空==0

- 尝试用已知值子集来预测缺失值

- 删除空值行

将业务问题转化为机器学习问题 -> 继续转化为可解决的问题

有一定比例重叠

kaggle之外

- 如何将业务问题转化为建模问题

- 如何监控模型的部署

- 如何解释困难的概念

数据探索

数据预处理

工具

metrics和优化

交叉验证

模型调整

集成

算法核心 or 使用

- 每天都有新东西出现，有时很难跟踪

- 关注机器算法的正确使用

机器学习算法和深度学习能够提高准确度，但很难解释（黑盒）

数据科学家，应该努力确保有一种方法来测试模型对数据的预测结果有多好，而不是了解为什么能得到这样的结果。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 数据挖掘

相关文章推荐

新的分享

章节导航