您的位置:首页 > 其它

【数据挖掘】【笔记】阅读之机器学习竞赛进阶

2017-06-25 21:25 351 查看
教你如何在机器学习竞赛中更胜一筹(上)-博客-云栖社区-阿里云
https://yq.aliyun.com/articles/73755?spm=5176.100239.bloglist.40.wxgxxt
介绍一些建立机器学习模型的技巧

问答

解决ML问题的步骤

了解数据

检查变量类

可视化了解变量性质

评估指标

了解评估指标的变化趋势

确定交叉验证策略

初期阶段设置

获得可靠得分

超参调整

数据转换

缩放

异常值

空值

哑变量处理

特征选择

创建交互

选择算法

使用多种算法

保持预测结果

组合模型

交叉验证

使用训练集验证集

重复评分

充分利用数据

缺失值处理

估算缺失值:

- 均值,中位数插值

- 在变量的正常范围之外标记。如-1, -9999

- 用一种可能性替换,例如与目标变量有关的事物

- 有时,空==0

- 尝试用已知值子集来预测缺失值

- 删除空值行

数据科学能力

将业务问题转化为机器学习问题 -> 继续转化为可解决的问题

kaggle与日常工作的区别

有一定比例重叠

kaggle之外

- 如何将业务问题转化为建模问题

- 如何监控模型的部署

- 如何解释困难的概念

比赛中需要的机器学习概念

数据探索

数据预处理

工具

metrics和优化

交叉验证

模型调整

集成

机器学习关注点

算法核心 or 使用

- 每天都有新东西出现,有时很难跟踪

- 关注机器算法的正确使用

黑盒模型

机器学习算法和深度学习能够提高准确度,但很难解释(黑盒)

数据科学家,应该努力确保有一种方法来测试模型对数据的预测结果有多好,而不是了解为什么能得到这样的结果。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  数据挖掘
相关文章推荐