统计学习方法笔记(一)——统计学习的基本概念
2015-01-15 19:02
429 查看
统计学习的三要素:
方法 = 模型 + 策略 + 算法
1、模型
模型就是要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。
空间用F表示,假设空间可以定义为决策函数的集合,即:
F通常是由一个参数向量来决定的条件概率分布族
2、策略
有了模型的假设空间,则要考虑选择什么准则学习或者说是选择最优的模型。则引入了损失函数和风险函数。损失函数度量模型一次预测的好坏,风险函数度量评价意义下的模型预测的好坏。
真实值Y,预测值f(X)
损失函数:
风险函数就是损失函数的期望。
损失函数的平均值叫做经验风险。
经验风险和损失函数
根据大数定律,当样本数量趋于无穷时,经验风险趋于期望风险。所以想要用经验风险估计期望风险,但是由于实际的样本数目游戏那,所以要对经验风险进行校正,也就使用了监督学习的两个基本策略:经验风险最小化和结构风险最小化。
经验风险最小化:
极大似然估计就是经验风险最小化的一个例子。损失函数就是对数损失函数,经验风险最小化就是极大似然估计。
但是当样本很小的时候,会出现“过拟合”的现象,因此引出了结构最小化
因为训练数据本身存在噪声,过拟合的模型对未知数据的预测能力往往是不好的,砸并不可取。
结构风险最小化:
在经验风险最小化的基础上加上一个表示模型复杂度的正则化项或罚项
模型越复杂,J越大
比如回归函数中,正则项可以取参数向量的L2范数或是L1范数
所谓向量的范数可以简单的理解为向量的长度,或者说向量到零点的距离。
L1范数: ||x|| 为x向量各个元素绝对值之和
L2范数: ||x||为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或者Frobenius范数
Lp范数: ||x||为x向量各个元素绝对值p次方和的1/p次方
L∞范数: ||x||为x向量各个元素绝对值最大那个元素的绝对值
贝叶斯估计中的最大后验概率估计就是结构最小化的例子。
除了正则项,还有另一种方法选择模型:交叉验证
重复地使用数据,把数据进行切分,将切分的数据分成训练集和测试集,在此基础上不断地进行训练、测试和模型选择。
简单交叉验证:如分成70%训练集,30%测试集
S折加成验证:随机将数据切分成S个互不相交的大小相同的子集,将S-1个子集的数据训练模型,剩下的为测试集。
留一交叉验证:数据缺乏时使用,S=N时,N是给定数据集的容量。
一旦损失函数确定后,损失函数的训练误差和测试误差就是模型评估的标准。
学习方法的泛化能力是值方法学习到的模型对未知数据的预测能力。一般通过泛化误差的上界的大小来选择函数
3、算法
是指模型的具体计算方法。
其中,
监督学习方法分为生成方法和潘博方法。
生成方法是给定输入X产生输出Y的生成关系,如朴素贝叶斯法和隐马尔科夫模型
破案别则是给定输入X应该预测什么样的输出Y。比如:k近邻法、感知器、决策树、logistic回归、最大熵模型、支持向量机、提升方法和条件随机场
监督学习中的监督分类:
对二类分类的最常用的评价指标是精确率和召回率:
标注问题也是监督学习的一类:
回归问题也是监督学习的一类。
方法 = 模型 + 策略 + 算法
1、模型
模型就是要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。
空间用F表示,假设空间可以定义为决策函数的集合,即:
F通常是由一个参数向量来决定的条件概率分布族
2、策略
有了模型的假设空间,则要考虑选择什么准则学习或者说是选择最优的模型。则引入了损失函数和风险函数。损失函数度量模型一次预测的好坏,风险函数度量评价意义下的模型预测的好坏。
真实值Y,预测值f(X)
损失函数:
风险函数就是损失函数的期望。
损失函数的平均值叫做经验风险。
经验风险和损失函数
根据大数定律,当样本数量趋于无穷时,经验风险趋于期望风险。所以想要用经验风险估计期望风险,但是由于实际的样本数目游戏那,所以要对经验风险进行校正,也就使用了监督学习的两个基本策略:经验风险最小化和结构风险最小化。
经验风险最小化:
极大似然估计就是经验风险最小化的一个例子。损失函数就是对数损失函数,经验风险最小化就是极大似然估计。
但是当样本很小的时候,会出现“过拟合”的现象,因此引出了结构最小化
因为训练数据本身存在噪声,过拟合的模型对未知数据的预测能力往往是不好的,砸并不可取。
结构风险最小化:
在经验风险最小化的基础上加上一个表示模型复杂度的正则化项或罚项
模型越复杂,J越大
比如回归函数中,正则项可以取参数向量的L2范数或是L1范数
所谓向量的范数可以简单的理解为向量的长度,或者说向量到零点的距离。
L1范数: ||x|| 为x向量各个元素绝对值之和
L2范数: ||x||为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或者Frobenius范数
Lp范数: ||x||为x向量各个元素绝对值p次方和的1/p次方
L∞范数: ||x||为x向量各个元素绝对值最大那个元素的绝对值
贝叶斯估计中的最大后验概率估计就是结构最小化的例子。
除了正则项,还有另一种方法选择模型:交叉验证
重复地使用数据,把数据进行切分,将切分的数据分成训练集和测试集,在此基础上不断地进行训练、测试和模型选择。
简单交叉验证:如分成70%训练集,30%测试集
S折加成验证:随机将数据切分成S个互不相交的大小相同的子集,将S-1个子集的数据训练模型,剩下的为测试集。
留一交叉验证:数据缺乏时使用,S=N时,N是给定数据集的容量。
一旦损失函数确定后,损失函数的训练误差和测试误差就是模型评估的标准。
学习方法的泛化能力是值方法学习到的模型对未知数据的预测能力。一般通过泛化误差的上界的大小来选择函数
3、算法
是指模型的具体计算方法。
其中,
监督学习方法分为生成方法和潘博方法。
生成方法是给定输入X产生输出Y的生成关系,如朴素贝叶斯法和隐马尔科夫模型
破案别则是给定输入X应该预测什么样的输出Y。比如:k近邻法、感知器、决策树、logistic回归、最大熵模型、支持向量机、提升方法和条件随机场
监督学习中的监督分类:
对二类分类的最常用的评价指标是精确率和召回率:
标注问题也是监督学习的一类:
回归问题也是监督学习的一类。
相关文章推荐
- IOStream系统学习笔记 IOStream基本概念
- oracle基本概念的学习笔记
- Windows GDI学习笔记(1)——基本概念
- [WCF 学习笔记] 1. 基本概念
- [WCF 学习笔记] 1. 基本概念
- 孙鑫VC学习笔记:第十四讲 网络的基本概念
- UML学习笔记(二):复习面向对象的一些基本概念
- Lotus Workflow 学习笔记(1) 基本概念
- SOA学习笔记(一)----SOA基本概念
- 编解码学习笔记(一):基本概念
- oracle基本概念的学习笔记
- [WCF 学习笔记] 1. 基本概念
- OSPF学习笔记1-基本概念
- 孙鑫VC学习笔记:第十四讲 (一) 网络的基本概念
- 电信增值业务学习笔记2--移动网络基本概念和组网结构
- 孙鑫VC学习笔记:第十五讲 进程和线程基本概念
- UML学习笔记(二):复习面向对象的一些基本概念
- 孙鑫VC学习笔记:第十四讲 网络的基本概念
- Oracle RAC学习笔记:基本概念及入门
- NGN学习笔记1——NGN的基本概念和体系结构