统计学习(一)--统计学习的定义及常识
2015-05-22 17:13
363 查看
写在前面:
机器学习的一个比较热门的方向是统计机器学习(另外一个可能是图模型,按照Jordan的说法是统计机器学习属于频率主义,而图模型属于贝叶斯主义), 对于每一个做统计机器学习的研究者来说,他们大致可以分为两类:一类做统计学习理论相关工作,如泛化界、约简或一致性;一类做优化算法,如支持向量机、Boosting等。做为机器学习的初学者学好统计学的理论至关重要。只有理解了理论知识,才能抓住机器学习的实质。废话不多说,开始学习吧。
统计学习方法分类:
1. 监督学习(supervised learning)
2. 非监督学习(unsupervised learning)
3. 半监督学习 (semi-supervised learning)
4. 强化学习(reinforcement learning)
统计学习的三要素:
1. 模型(model)
2. 策略(strategy)
3. 算法(algorithm)
所谓模型就是两种形式:
1. 条件概率分布 :
![](http://img.my.csdn.net/uploads/201505/28/1432782092_9031.png)
就是根据部分得信息,计算出某种结果的可能性大小。比如:今天35度,晴,西瓜能卖出的可能性?
2 .决策函数:
![](http://img.my.csdn.net/uploads/201505/28/1432781677_3606.png)
就是一堆变量已知的情况下,应该得出什么样的值。 比如: 今天35度,晴, 街上的西瓜卖多少钱?
机器学习的终极目标就是得到尽可能精准的模型,用来预测未知信息。 机器学习的难点就在于追求模型“精准”的途中。 对于“精准”的判定,必需有一个可评价的标准,用来衡量模型的“精确度”,以便更好的为后续调整、取舍模型提供数据依据与支持。这里度量时需要用到的概念主要有损失函数和风险函数。损失函数考查的是单样本(1个),风险函数考查的是多样本(N个)。
1. 损失函数:
(1) 0-1 损失函数:
![](http://img.my.csdn.net/uploads/201505/28/1432781716_9555.png)
(2) 平方损失函数:
![](http://img.my.csdn.net/uploads/201505/28/1432781717_2546.png)
(3)绝对损失函数:
![](http://img.my.csdn.net/uploads/201505/28/1432781717_7064.png)
(4)对数损失函数/对数似然损失函数:
![](http://img.my.csdn.net/uploads/201505/28/1432781718_5676.png)
从上面的函数可知,损失函数说白了就是单个预测值f(X)和实际值Y不相符(预测失败)的不同衡量方法。显然损失函数越大,模型越不好。
但单个损失的大小不能说明整体模型的好坏。跟中学数据中提到的成绩相同,要看整班的成绩好坏,得看平均分(期望),不能选单个学生的成绩做对比。毕竟每个班的好学生成绩都差不多。但对于模型来说,显然更绕一点。原因如下:
要衡量一个模型的优劣,就是求期望风险,但我们在衡量模型时手上只有样品空间,无法拥有模型所处在的大千世界的真实数据。因此我们只能根据样本空间来预测模型。样品空间中模型表现(经验风险)好,就表明在大千世界中模型表现(期望风险)也好,这里的理论依据就是“大数定律”。
经验风险/经验损失:
![](http://img.my.csdn.net/uploads/201505/28/1432781719_8910.png)
写到这里,寻找最优模型的本质已经可以表述成:在给定假设空间、损失函数及训练数据集的情况下,求经验风险最小化的过程。也即:经验风险最小时的模型就是所追求的真理(暂时的真理)。
![](http://img.my.csdn.net/uploads/201505/28/1432781732_7169.png)
但这样同时又存在另一个弊端,就是样本空间毕竟是有限的,在模型选取时,我可以最大限度的让经验风险最小。可以想象一下函数拟合的情况,总能找到一个函数通过给出的所有点。这样经验风险显然最好(为0)。但是一旦样本改变(增加若干个点),这个函数(模型)直接就跪了。这就是过拟合(over-fitting)。为在防止这种情况,就得使函数(模型)在尽量简单的情况下,达到经验风险最小。
为了可度量"模型简单化和经验风险最小化"两个值,我们引入一个新概念:结构风险。
![](http://img.my.csdn.net/uploads/201505/28/1432781732_6323.png)
结构风险最小化
![](http://img.my.csdn.net/uploads/201505/28/1432781732_8666.png)
通过调整系数( λ)大小,调节模型复杂度所占的比重。结构风险最小化才是我们追求的真理。
机器学习的一个比较热门的方向是统计机器学习(另外一个可能是图模型,按照Jordan的说法是统计机器学习属于频率主义,而图模型属于贝叶斯主义), 对于每一个做统计机器学习的研究者来说,他们大致可以分为两类:一类做统计学习理论相关工作,如泛化界、约简或一致性;一类做优化算法,如支持向量机、Boosting等。做为机器学习的初学者学好统计学的理论至关重要。只有理解了理论知识,才能抓住机器学习的实质。废话不多说,开始学习吧。
统计学习方法分类:
1. 监督学习(supervised learning)
2. 非监督学习(unsupervised learning)
3. 半监督学习 (semi-supervised learning)
4. 强化学习(reinforcement learning)
统计学习的三要素:
1. 模型(model)
2. 策略(strategy)
3. 算法(algorithm)
所谓模型就是两种形式:
1. 条件概率分布 :
![](http://img.my.csdn.net/uploads/201505/28/1432782092_9031.png)
就是根据部分得信息,计算出某种结果的可能性大小。比如:今天35度,晴,西瓜能卖出的可能性?
2 .决策函数:
![](http://img.my.csdn.net/uploads/201505/28/1432781677_3606.png)
就是一堆变量已知的情况下,应该得出什么样的值。 比如: 今天35度,晴, 街上的西瓜卖多少钱?
机器学习的终极目标就是得到尽可能精准的模型,用来预测未知信息。 机器学习的难点就在于追求模型“精准”的途中。 对于“精准”的判定,必需有一个可评价的标准,用来衡量模型的“精确度”,以便更好的为后续调整、取舍模型提供数据依据与支持。这里度量时需要用到的概念主要有损失函数和风险函数。损失函数考查的是单样本(1个),风险函数考查的是多样本(N个)。
1. 损失函数:
(1) 0-1 损失函数:
![](http://img.my.csdn.net/uploads/201505/28/1432781716_9555.png)
(2) 平方损失函数:
![](http://img.my.csdn.net/uploads/201505/28/1432781717_2546.png)
(3)绝对损失函数:
![](http://img.my.csdn.net/uploads/201505/28/1432781717_7064.png)
(4)对数损失函数/对数似然损失函数:
![](http://img.my.csdn.net/uploads/201505/28/1432781718_5676.png)
从上面的函数可知,损失函数说白了就是单个预测值f(X)和实际值Y不相符(预测失败)的不同衡量方法。显然损失函数越大,模型越不好。
但单个损失的大小不能说明整体模型的好坏。跟中学数据中提到的成绩相同,要看整班的成绩好坏,得看平均分(期望),不能选单个学生的成绩做对比。毕竟每个班的好学生成绩都差不多。但对于模型来说,显然更绕一点。原因如下:
要衡量一个模型的优劣,就是求期望风险,但我们在衡量模型时手上只有样品空间,无法拥有模型所处在的大千世界的真实数据。因此我们只能根据样本空间来预测模型。样品空间中模型表现(经验风险)好,就表明在大千世界中模型表现(期望风险)也好,这里的理论依据就是“大数定律”。
经验风险/经验损失:
![](http://img.my.csdn.net/uploads/201505/28/1432781719_8910.png)
写到这里,寻找最优模型的本质已经可以表述成:在给定假设空间、损失函数及训练数据集的情况下,求经验风险最小化的过程。也即:经验风险最小时的模型就是所追求的真理(暂时的真理)。
![](http://img.my.csdn.net/uploads/201505/28/1432781732_7169.png)
但这样同时又存在另一个弊端,就是样本空间毕竟是有限的,在模型选取时,我可以最大限度的让经验风险最小。可以想象一下函数拟合的情况,总能找到一个函数通过给出的所有点。这样经验风险显然最好(为0)。但是一旦样本改变(增加若干个点),这个函数(模型)直接就跪了。这就是过拟合(over-fitting)。为在防止这种情况,就得使函数(模型)在尽量简单的情况下,达到经验风险最小。
为了可度量"模型简单化和经验风险最小化"两个值,我们引入一个新概念:结构风险。
![](http://img.my.csdn.net/uploads/201505/28/1432781732_6323.png)
结构风险最小化
![](http://img.my.csdn.net/uploads/201505/28/1432781732_8666.png)
通过调整系数( λ)大小,调节模型复杂度所占的比重。结构风险最小化才是我们追求的真理。
相关文章推荐
- 李航老师统计学习常识
- MFC学习(17)数据库对于给定起始时间和目标统计时间段的情况如何处理
- 硬件电路的一些常识(由CS8900a学习得到)
- 统计自然语言处理基础学习笔记(3)——统计推理
- Python学习笔记(10)-函数-函数定义、调用、参数、返回值、嵌
- c语言学习之统计字符个数
- 【机器学习系列之四】概率统计学习基础
- 【2016-10-28】【坚持学习】【Day15】【Oracle】【变量 定义 使用】
- Spring MVC 学习总结(二)——控制器定义与@RequestMapping详解
- Oracle基础学习四之表的定义及脚本编写二
- 李航-统计学习方法学习笔记-第一章
- 统计算法学习梳理(一)
- 统计学习精要 (Elements of Statistical Learning ) 习题 2.1
- 树系列学习--树的定义(-)
- OSG学习:使用OSG中预定义的几何体
- 缠中说禅学习整理——线段定义及划分(一)
- HTML基础学习-12-CSS class id 控件样式定义
- 统计学习方法学习笔记(一)--极大似然估计与贝叶斯估计原理及区别
- 统计学习
- 【Scikit-Learn 中文文档】无监督学习: 寻求数据表示 - 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN