您的位置:首页 > 其它

抄书整理笔记:第一章统计学习方法概论

2018-01-26 22:45 295 查看

第一章统计学习方法概论

1、 统计学习

统计学习方法:基于数据构建统计模型,从而对数据进行预测和分析。

统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。

实现统计学习方法的步骤:

(1)得到一个有限的训练集

(2)确定包含所有可能的模型的假设空间,即学习模型的集合

(3)确定模型选择的准则,即学习的策略

(4)实现求解最优模型的算法,即学习的算法

(5)通过学习方法选择最优模型

(6)利用学习的最优模型对新数据进行预测或分析

2、监督学习

监督学习是指根据已有的训练集学习一个模型,使得模型能够对任意给定的输入,对未知的输出做一个很好的预测。

基本概念

输入/出空间:输入/出 所有可能取值的集合。

   它们可以是有限元素的集合或者是整个欧式空间,输入与输出可以是同一个空间或不同空间,而通常情况下输出空间远远小于输入空间。

具体的输入:是一个实例,由特征向量表示。

  所有特征向量存在的空间称为特征空间。特征空间的每一维对应于一个特征。

  若输入空间与特征空间相同,则不予区分;如果不同,则将实例从输入空间映射到特征空间。模型实际上是定义在特征空间上。

输入,输出:该对应空间上的随机变量的取值。大写字母表示变量,小写字母表示对应的取值。以下向量皆为列向量。

第ii个实例xixi的特征向量记做 xi=(x(1)i,x(2)i,...,x(n)i)Txi=(xi(1),xi(2),...,xi(n))T

训练数据:输入(或特征向量)和输出成对组成。一对输入输出对又称为样本或样本点。

训练集表示为:T=(x1,y1),(x2,y2),...,(xN,yN)T=(x1,y1),(x2,y2),...,(xN,yN)

监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)P(X,Y). P(X,Y)P(X,Y)为分布密度函数。

假设空间:输入空间到输出空间的映射的集合

问题的形式化

给定一个训练数据集 T=(x1,y1),(x2,y2),...,(xN,yN)T=(x1,y1),(x2,y2),...,(xN,yN),假设训练数据与测试数据是依联合概率分布P(X,Y)P(X,Y)独立同分布产生的。然后利用训练集TT,通过学习一个模型,表示为条件概率分布P^(Y|X)P^(Y|X)或决策函数 Y=f^(X)Y=f^(X) .这两个函数描述输入与输出随机变量之间的映射关系。那么在预测中,我们通过给定的测试样本的输入经由上述模型给出相应的输出。

3、统计学习三要素:方法 = 模型+策略+算法

模型

以决策函数的集合定义假设空间(以函数为表达式,它表示的模型为非概率模型):

F={f|Y=f(X)}(1)(1)F={f|Y=f(X)}

  这时FF是由一个参数向量决定的函数族:F={f|Y=fθ(X),θ∈Rn}F={f|Y=fθ(X),θ∈Rn}.其中参数向量θθ取值于nn维欧式空间RnRn,称为参数空间。

以条件概率的集合定义假设空间(以条件概率为表达式,它表示的模型为概率模型):

F={P|P(Y|X)}(2)(2)F={P|P(Y|X)}

  这时FF 是由一个参数向量决定的条件概率分布族:F={P|Pθ(Y|X),θ∈Rn}F={P|Pθ(Y|X),θ∈Rn}

策略

损失函数和风险函数

损失函数:度量模型一次预测的好坏,即预测值f(X)与真实值Y的差异,记作L(Y,f(X))L(Y,f(X)).为非负实值函数。损失函数值越小,模型越好。

风险函数:度量平均意义下模型预测的好坏。即损失函数的期望。

损失函数的期望: Rexp(f)=Ep[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdyRexp(f)=Ep[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdy

  我们学习的目标是选择期望风险最小的模型,然而P(X,Y)P(X,Y)未知,Rexp(f)Rexp(f)不能直接计算。因此我们通过训练集的平均损失来度量,称为经验风险或经验损失,记作RempRemp.

Remp(f)=1N∑i=1NL(yi,f(xi))(3)(3)Remp(f)=1N∑i=1NL(yi,f(xi))

  期望风险Rexp(f)Rexp(f)是模型关于联合分布的期望损失;经验风险Remp(f)Remp(f)是模型关于训练样本集的平均损失。当样本容量NN趋于无穷时,经验风险Remp(f)Remp(f)趋于期望风险Rexp(f)Rexp(f)。然而现实中训练集数目有限,因此无法用经验风险估计期望风险。

经验风险最小化

若假设空间、损失函数和训练集确定的情况下,经验风险函数式(3)可以确定。

经验风险最小化(ERM):经验风险最小的模型是最优的模型。则我们的最优模型就是求解以下最优化问题:

minf∈F1N∑i=1NL(yi,f(xi))(4)(4)minf∈F1N∑i=1NL(yi,f(xi))

其中,FF是假设空间。

- 若样本空间足够大,则经验风险最小化效果很好.

- 若样本空间太小,则容易产生过拟合

  

极大似然估计:当模型是条件概率分布,损失函数是对数损失函数,经验风险最小化等价于极大似然估计.

结构风险最小化

结构风险最小化(SRM):为了防止过拟合而提出来的策略。等价于正则化。相当于在经验风险上加上表示模型复杂度的正则化项或罚项。

假设空间、损失函数和训练集确定的情况下,结构风险的定义是:

Rsrm(f)=1N∑i=1NL(yi,f(xi))+λJ(f)(5)(5)Rsrm(f)=1N∑i=1NL(yi,f(xi))+λJ(f)

其中J(f)J(f)为模型复杂度,是定义在假设空间FF上的泛函,它表示了对复杂模型的惩罚。模型ff越复杂,复杂度就越大。

λ≥0λ≥0是系数,用以权衡经验风险和模型复杂度。

贝叶斯估计中的最大后验概率估计:当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化等价于最大后验概率估计。

结构风险最小化认为结构风险最小的模型是最优的,因此等价于求解以下最优化问题:

minf∈F1N∑i=1NL(yi,f(xi))+λJ(f)(6)(6)minf∈F1N∑i=1NL(yi,f(xi))+λJ(f)

  由此,监督化问题转换成为经验风险或结构风险函数的最优化问题(4)和(6),此时,该函数为最优化的目标函数。

算法

算法指学习模型的具体计算方法。

4、模型评估与模型选择

训练误差与测试误差

  损失函数给定时,假设学习到的模型是Y=f^(X)Y=f^(X),训练误差是模型Y=f^(X)Y=f^(X)关于训练集的平均损失:

Remp(f^)=1N∑i=1NL(yi,f^(xi))(7)(7)Remp(f^)=1N∑i=1NL(yi,f^(xi))

其中NN是训练样本容量。

  测试误差是模型Y=f^(X)Y=f^(X)关于测试集的平均损失:

etest=1N′∑i=1N′I(yi,f^(xi))(8)(8)etest=1N′∑i=1N′I(yi,f^(xi))

其中N′N′是测试样本容量。

例:当损失函数为0-1损失时

测试误差相当于常见的测试数据集上的误差率

etest=1N′∑i=1N′I(yi≠f^(xi))(9)(9)etest=1N′∑i=1N′I(yi≠f^(xi))

II为指示函数,即yi≠f^(xi)yi≠f^(xi)时为1,反之为0;

则相应的准确率为

etest=1N′∑i=1N′I(yi=f^(xi))(10)(10)etest=1N′∑i=1N′I(yi=f^(xi))

显然

rtest+etest=1(11)(11)rtest+etest=1

测试误差反映了学习方法对未知的测试集的预测能力,测试误差小的具有更好的预测能力

过拟合与模型选择

过拟合:学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。

模型选择时,不仅要考虑对已知数据的预测能力,而且还要考虑对未知数据的预测能力。

当模型的复杂度增大时,训练误差会逐渐减小并趋于0,而测试误差会先减小,达到最小值后增大。

5、正则化与交叉验证

正则化——模型选择的典型方法

正则化:经验风险+正则化项/罚项。一般来说模型越复杂,正则化值越大。

正则化一般具有如下形式:

minf∈F1N∑i=1NL(yi,f(xi))+λJ(f)(12)(12)minf∈F1N∑i=1NL(yi,f(xi))+λJ(f)

在回归问题中,损失函数是平方损失,则正则化项是参数向量的L2L2范数:

L(w)=1N∑i=1N(f(xi;w)−yi)2+λ2∥w∥2(13)(13)L(w)=1N∑i=1N(f(xi;w)−yi)2+λ2‖w‖2

这里,∥w∥2‖w‖2表示参数向量ww的L2L2范数。

正则化的作用是选择经验风险与模型复杂度同时较小的模型。

交叉验证

  随机地将数据集切分为训练集、验证集合测试集。在此基础上反复地训练、测试以及选择最小预测误差的模型。

简单交叉验证

  将数据集分成训练集和测试集两部分,然后用训练集在各种条件下训练模型;在测试集上评价各个模型的测试误差,选择最小的那个。

S折交叉验证

  此法应用最多;随机将数据切分为S个互不相交的大小相同的子集,然后利用S-1个子集的数据进行训练,余下的测试模型;将这一过程对可能的S种选择重复进行,最终选择S次评测中平均测试误差最小的模型。

留一交叉验证

  S折交叉验证的特殊情形:S=N。一般应用于数据缺乏时。这里的N是给定数据集的容量。

6、泛化能力

学习方法的泛化能力:由该方法学习到的模型对未知数据的预测能力。

泛化误差

若学到的模型是f^f^,那么用这个模型对未知数据预测的误差即为泛化误差:

Rexp(f^)=Ep[L(Y,f^(X))]=∫X×YL(y,f^(x))P(x,y)dxdy(14)(14)Rexp(f^)=Ep[L(Y,f^(X))]=∫X×YL(y,f^(x))P(x,y)dxdy

泛化误差反映了学习方法的泛化能力。泛化误差越小,该方法就越有效。事实上,泛化误差就是所学习到的模型的期望风险。

泛化误差上界

泛化能力通过误差上界来比较。

泛化误差的性质:

* 是样本容量的函数,样本容量增加时趋于0

* 是假设空间容量的函数,假设空间越大,模型越难学,上界越大

  定理1.1(泛化误差上界)对二分类问题,当假设空间是有限个函数的集合F={f1,f2,...,fd}F={f1,f2,...,fd}时,对任意一个函数f∈Ff∈F,至少以概率1−δ1−δ,以下不等式成立:

R(f)≤R^(f)+ε(d,N,δ)(15)(15)R(f)≤R^(f)+ε(d,N,δ)

其中ε(d,N,δ)=12N(logd+log1δ)−−−−−−−−−−−−−−−√(16)(16)ε(d,N,δ)=12N(log⁡d+log⁡1δ)

不等式(15)左端R(f)R(f)是泛化误差,右端即为泛化误差上界。在泛化误差上界中,第一项是训练误差,训练误差越小泛化误差也就越小;第二项ε(d,N,δ)ε(d,N,δ)是NN的单调递减函数,NN趋于无穷时趋于0;同时它也是logd−−−−√log⁡d阶函数,假设空间FF包含的函数越多,其值越大。

从泛化误差上界可知,R(fN)≤R^(fN)+ε(d,N,δ)(17)(17)R(fN)≤R^(fN)+ε(d,N,δ)

其中,ε(d,N,δ)ε(d,N,δ)由式(16)定义,fN=argminf∈FR^(f)fN=arg⁡minf∈FR^(f).即训练误差小的模型,其泛化误差也会小。

7、生成模型与判别模型

监督学习方法又分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型。

生成方法

由数据学习联合概率分布P(X,Y)P(X,Y),然后求出条件概率分布P(Y|X)P(Y|X)作为预测模型,即生成模型:

P(Y|X)=P(X,Y)P(X)(18)(18)P(Y|X)=P(X,Y)P(X)

典型的生成模型:朴素贝叶斯法、隐马尔可夫模型。

特点:

* 可以还原联合概率分布P(X,Y)P(X,Y)

* 学习收敛速度更快

* 存在隐变量时仍可使用

判别方法

由数据直接学习决策函数f(X)f(X)或条件概率分布P(Y|X)P(Y|X)作为预测的模型。判别方法关心的是对给定的输入XX,应该预测什么样的输出YY。

典型的判别模型:k近邻法、感知机、决策树、logistic回归、最大熵模型、SVM、提升方法和条件随机场。

特点:

* 无法还原联合概率分布P(X,Y)P(X,Y)

* 存在隐变量时无法使用

* 直接面对预测,学习的准确率更高

* 可以简化学习问题。

8、分类问题

9、标注问题

分类问题的推广

10、回归问题

预测输入变量和输出变量之间的关系
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: