【数据挖掘】【笔记】阅读之机器学习竞赛进阶
2017-06-25 21:25
351 查看
教你如何在机器学习竞赛中更胜一筹(上)-博客-云栖社区-阿里云
https://yq.aliyun.com/articles/73755?spm=5176.100239.bloglist.40.wxgxxt
介绍一些建立机器学习模型的技巧
检查变量类
可视化了解变量性质
评估指标
了解评估指标的变化趋势
确定交叉验证策略
初期阶段设置
获得可靠得分
超参调整
数据转换
缩放
异常值
空值
哑变量处理
特征选择
创建交互
选择算法
使用多种算法
保持预测结果
组合模型
重复评分
充分利用数据
- 均值,中位数插值
- 在变量的正常范围之外标记。如-1, -9999
- 用一种可能性替换,例如与目标变量有关的事物
- 有时,空==0
- 尝试用已知值子集来预测缺失值
- 删除空值行
kaggle之外
- 如何将业务问题转化为建模问题
- 如何监控模型的部署
- 如何解释困难的概念
数据预处理
工具
metrics和优化
交叉验证
模型调整
集成
- 每天都有新东西出现,有时很难跟踪
- 关注机器算法的正确使用
数据科学家,应该努力确保有一种方法来测试模型对数据的预测结果有多好,而不是了解为什么能得到这样的结果。
https://yq.aliyun.com/articles/73755?spm=5176.100239.bloglist.40.wxgxxt
介绍一些建立机器学习模型的技巧
问答
解决ML问题的步骤
了解数据检查变量类
可视化了解变量性质
评估指标
了解评估指标的变化趋势
确定交叉验证策略
初期阶段设置
获得可靠得分
超参调整
数据转换
缩放
异常值
空值
哑变量处理
特征选择
创建交互
选择算法
使用多种算法
保持预测结果
组合模型
交叉验证
使用训练集验证集重复评分
充分利用数据
缺失值处理
估算缺失值:- 均值,中位数插值
- 在变量的正常范围之外标记。如-1, -9999
- 用一种可能性替换,例如与目标变量有关的事物
- 有时,空==0
- 尝试用已知值子集来预测缺失值
- 删除空值行
数据科学能力
将业务问题转化为机器学习问题 -> 继续转化为可解决的问题kaggle与日常工作的区别
有一定比例重叠kaggle之外
- 如何将业务问题转化为建模问题
- 如何监控模型的部署
- 如何解释困难的概念
比赛中需要的机器学习概念
数据探索数据预处理
工具
metrics和优化
交叉验证
模型调整
集成
机器学习关注点
算法核心 or 使用- 每天都有新东西出现,有时很难跟踪
- 关注机器算法的正确使用
黑盒模型
机器学习算法和深度学习能够提高准确度,但很难解释(黑盒)数据科学家,应该努力确保有一种方法来测试模型对数据的预测结果有多好,而不是了解为什么能得到这样的结果。
相关文章推荐
- 『数据挖掘』scikit-learn包的进阶学习笔记——第二章:线性回归
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(二)
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(五)
- 机器学习、数据挖掘、计算机视觉等领域经典书籍推荐
- 数据挖掘学习笔记:挖掘频繁模式、关联和相关[ZZ]
- 数据挖掘概念与技术学习笔记(1)
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(三)
- web数据挖掘(学习笔记)-观点挖掘
- 北美+德国18名校的数据挖掘、数据分析、人工智能及机器学习课程资源汇总
- 北美+德国18名校的数据挖掘、数据分析、人工智能及机器学习课程资源汇总
- 北美18名校的数据挖掘,数据分析,人工智能及机器学习课程汇总
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(四)
- 《SQL Server 2005数据挖掘与商业智能完全解决方案》学习笔记(1/12-3/12)
- R语言与数据挖掘学习笔记(1):数据挖掘相关包的介绍
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(一)
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(四)
- 【django 学习笔记】09-数据模型高级进阶
- 数据挖掘学习笔记(一)
- 北美18名校的数据挖掘,数据分析,人工智能及机器学习课程汇总
- 《大数据互联网大规模数据挖掘与分布式处理》阅读笔记一