介绍机器学习基本概念(七张图)
2014-03-21 10:24
295 查看
主要涉及机器学习一些基本概念:偏差与方差权衡,避免过度拟合,贝叶斯推论、奥卡姆原则,特征组合,非线性偏差函数和其他以图片方式展示的概念。
Deniz Yuret, Feb 2014.
我发现当我试图解释基本的机器学习概念时,总会涉及到同样的少数图片。下方是一些我非常想阐明的图。
1.偏差(bias)VS 方差权衡(variancetradeoff)
2.避免过度拟合(overfitting)
为何减少训练误差并不一定总是好事,来自ESL。可以将测试和训练误差作为模型的复杂度函数。
PRML中图1.4。M表示多项式中不同次序的点,即图中红色的曲线,它们用于与绿色曲线所产生的数据集相适应。
3.为何贝叶斯推论(Bayesianinference)是奥卡姆原则(Occam razor)的具体化?
来自ITILA中图28.3。该图用简单直观的方式来解释为何复杂的模型能够转变成复杂性较小的模型。横坐标表示数据集D的取值空间。
贝叶斯理论以模型方式来预测相关点发生的概率。这些预测可以用一个分布在D上的标准的概率分布来表示。用Hi表示数据发生的概率模型,则P(D|Hi)表示模型Hi可能性的依据。简单的模型H1仅能在受限的范围内进行预测,即函数P(D|H1);假设H2是比H1更强的模型,它的相关参数比H1更宽松一些,因此可以更大范围的数据集。这就是说,H2不能像H1那样更充分的预测分布在区域C1的数据集。如果数据集落在C1区域,则模型H1更可能成为合适的模型。
4.特征组合(Feature combination)
(1)为何集体相关关特征(collectively relevant features)看起来是独立和无关的。
(2)为何线性分析方法会失败。
问题来自Isabelle Guyon(数据挖掘人物)的特征提取教学演示篇。
5.为何无关特征(irrelevantfeatures)会损害到 kNN、聚类以及其他类似的分析方法。
(上面这张图上传有问题,应为白底,如有需要可参见原文链接)
左图中,两个类被纵坐标很好的分割开。
右图中,添加的一个无关的横坐标破坏了原有的群组关系,使得大部分的点都集中在两个类的相邻位置。
6.非线性偏差(non-linear basis)函数
非线性偏差函数是如何将一个没有线性边界的底维度分类问题,转变成一个有线性边界的高维度分类问题。
7.条件概率vs 联合概率(discriminativevs generative)
从Andrew Moore的SVM教学演示篇中可以得知:已知一个一维非线性分类问题,输入是x,将其变换成一个二维分类问题,转换公式为z=(x,x^2)(线性可分)。
如果想了解更多机器学习相关的图片请查看:http://www.denizyuret.com/2014/02/machine-learning-in-5-pictures.html
原文链接:http://www.kdnuggets.com/2014/03/machine-learning-7-pictures.html
说明:相关专业知识及翻译能力有限,如有翻译有误的地方还请指出。转载请注明出处。
Deniz Yuret, Feb 2014.
我发现当我试图解释基本的机器学习概念时,总会涉及到同样的少数图片。下方是一些我非常想阐明的图。
1.偏差(bias)VS 方差权衡(variancetradeoff)
2.避免过度拟合(overfitting)
为何减少训练误差并不一定总是好事,来自ESL。可以将测试和训练误差作为模型的复杂度函数。
PRML中图1.4。M表示多项式中不同次序的点,即图中红色的曲线,它们用于与绿色曲线所产生的数据集相适应。
3.为何贝叶斯推论(Bayesianinference)是奥卡姆原则(Occam razor)的具体化?
来自ITILA中图28.3。该图用简单直观的方式来解释为何复杂的模型能够转变成复杂性较小的模型。横坐标表示数据集D的取值空间。
贝叶斯理论以模型方式来预测相关点发生的概率。这些预测可以用一个分布在D上的标准的概率分布来表示。用Hi表示数据发生的概率模型,则P(D|Hi)表示模型Hi可能性的依据。简单的模型H1仅能在受限的范围内进行预测,即函数P(D|H1);假设H2是比H1更强的模型,它的相关参数比H1更宽松一些,因此可以更大范围的数据集。这就是说,H2不能像H1那样更充分的预测分布在区域C1的数据集。如果数据集落在C1区域,则模型H1更可能成为合适的模型。
4.特征组合(Feature combination)
(1)为何集体相关关特征(collectively relevant features)看起来是独立和无关的。
(2)为何线性分析方法会失败。
问题来自Isabelle Guyon(数据挖掘人物)的特征提取教学演示篇。
5.为何无关特征(irrelevantfeatures)会损害到 kNN、聚类以及其他类似的分析方法。
(上面这张图上传有问题,应为白底,如有需要可参见原文链接)
左图中,两个类被纵坐标很好的分割开。
右图中,添加的一个无关的横坐标破坏了原有的群组关系,使得大部分的点都集中在两个类的相邻位置。
6.非线性偏差(non-linear basis)函数
非线性偏差函数是如何将一个没有线性边界的底维度分类问题,转变成一个有线性边界的高维度分类问题。
7.条件概率vs 联合概率(discriminativevs generative)
从Andrew Moore的SVM教学演示篇中可以得知:已知一个一维非线性分类问题,输入是x,将其变换成一个二维分类问题,转换公式为z=(x,x^2)(线性可分)。
如果想了解更多机器学习相关的图片请查看:http://www.denizyuret.com/2014/02/machine-learning-in-5-pictures.html
原文链接:http://www.kdnuggets.com/2014/03/machine-learning-7-pictures.html
说明:相关专业知识及翻译能力有限,如有翻译有误的地方还请指出。转载请注明出处。
相关文章推荐
- 深度学习基础介绍:机器学习介绍和基本概念
- 程序员的机器学习入门笔记(一):基本概念介绍
- GCD介绍: 基本概念和Dispatch…
- 【机器学习 基本概念】高斯分布
- RocketMQ基本概念及原理介绍-适合初学者
- sed基本用法一:概念介绍
- 基于服务的企业集成模式轻松入门,第 2 部分: 进一步介绍基本概念的演变
- Openstack组件部署 — Netwotking service组件介绍与网络基本概念
- GCD介绍(一): 基本概念和Dispatch Queue
- 一篇非常非常好的机器学习概念介绍
- GCD介绍: 基本概念和Dispatch Queue
- (一)Lucene——基本概念介绍
- GCD介绍(一):基本概念和Dispatch Queue
- Delphi三层开发手册——三层开发基本概念介绍
- GCD介绍(一):基本概念和Dispatch Queues
- 几个基础算法介绍和实现——基本概念
- 机器学习基本数学概念速查
- GCD介绍(一): 基本概念和Dispatch Queue
- Emit学习-基础篇-基本概念介绍
- CentOS7日期时间设置方法以及时间基本概念介绍