您的位置：首页 > 其它

抄书整理笔记：第一章统计学习方法概论

2018-01-26 22:45 295 查看

第一章统计学习方法概论

1、统计学习

统计学习方法：基于数据构建统计模型，从而对数据进行预测和分析。

统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。

实现统计学习方法的步骤：

（1）得到一个有限的训练集

（2）确定包含所有可能的模型的假设空间，即学习模型的集合

（3）确定模型选择的准则，即学习的策略

（4）实现求解最优模型的算法，即学习的算法

（5）通过学习方法选择最优模型

（6）利用学习的最优模型对新数据进行预测或分析

2、监督学习

监督学习是指根据已有的训练集学习一个模型，使得模型能够对任意给定的输入，对未知的输出做一个很好的预测。

基本概念

输入/出空间：输入/出所有可能取值的集合。

它们可以是有限元素的集合或者是整个欧式空间，输入与输出可以是同一个空间或不同空间，而通常情况下输出空间远远小于输入空间。

具体的输入：是一个实例，由特征向量表示。

所有特征向量存在的空间称为特征空间。特征空间的每一维对应于一个特征。

若输入空间与特征空间相同，则不予区分；如果不同，则将实例从输入空间映射到特征空间。模型实际上是定义在特征空间上。

输入，输出：该对应空间上的随机变量的取值。大写字母表示变量，小写字母表示对应的取值。以下向量皆为列向量。

第ii个实例xixi的特征向量记做 xi=(x(1)i,x(2)i,...,x(n)i)Txi=(xi(1),xi(2),...,xi(n))T

训练数据：输入（或特征向量）和输出成对组成。一对输入输出对又称为样本或样本点。

训练集表示为：T=(x1,y1),(x2,y2),...,(xN,yN)T=(x1,y1),(x2,y2),...,(xN,yN)

监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)P(X,Y). P(X,Y)P(X,Y)为分布密度函数。

假设空间：输入空间到输出空间的映射的集合

问题的形式化

给定一个训练数据集 T=(x1,y1),(x2,y2),...,(xN,yN)T=(x1,y1),(x2,y2),...,(xN,yN)，假设训练数据与测试数据是依联合概率分布P(X,Y)P(X,Y)独立同分布产生的。然后利用训练集TT，通过学习一个模型，表示为条件概率分布P^(Y|X)P^(Y|X)或决策函数 Y=f^(X)Y=f^(X) .这两个函数描述输入与输出随机变量之间的映射关系。那么在预测中，我们通过给定的测试样本的输入经由上述模型给出相应的输出。

3、统计学习三要素：方法 = 模型+策略+算法

模型

以决策函数的集合定义假设空间（以函数为表达式，它表示的模型为非概率模型）：

F={f|Y=f(X)}(1)(1)F={f|Y=f(X)}

这时FF是由一个参数向量决定的函数族：F={f|Y=fθ(X),θ∈Rn}F={f|Y=fθ(X),θ∈Rn}.其中参数向量θθ取值于nn维欧式空间RnRn，称为参数空间。

以条件概率的集合定义假设空间（以条件概率为表达式，它表示的模型为概率模型）：

F={P|P(Y|X)}(2)(2)F={P|P(Y|X)}

这时FF 是由一个参数向量决定的条件概率分布族：F={P|Pθ(Y|X),θ∈Rn}F={P|Pθ(Y|X),θ∈Rn}

策略

损失函数和风险函数

损失函数：度量模型一次预测的好坏，即预测值f(X)与真实值Y的差异，记作L(Y,f(X))L(Y,f(X)).为非负实值函数。损失函数值越小，模型越好。

风险函数：度量平均意义下模型预测的好坏。即损失函数的期望。

损失函数的期望： Rexp(f)=Ep[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdyRexp(f)=Ep[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdy

我们学习的目标是选择期望风险最小的模型，然而P(X,Y)P(X,Y)未知，Rexp(f)Rexp(f)不能直接计算。因此我们通过训练集的平均损失来度量，称为经验风险或经验损失，记作RempRemp.

Remp(f)=1N∑i=1NL(yi,f(xi))(3)(3)Remp(f)=1N∑i=1NL(yi,f(xi))

期望风险Rexp(f)Rexp(f)是模型关于联合分布的期望损失；经验风险Remp(f)Remp(f)是模型关于训练样本集的平均损失。当样本容量NN趋于无穷时，经验风险Remp(f)Remp(f)趋于期望风险Rexp(f)Rexp(f)。然而现实中训练集数目有限，因此无法用经验风险估计期望风险。

经验风险最小化

若假设空间、损失函数和训练集确定的情况下，经验风险函数式（3）可以确定。

经验风险最小化（ERM）：经验风险最小的模型是最优的模型。则我们的最优模型就是求解以下最优化问题：

minf∈F1N∑i=1NL(yi,f(xi))(4)(4)minf∈F1N∑i=1NL(yi,f(xi))

其中，FF是假设空间。

- 若样本空间足够大，则经验风险最小化效果很好.

- 若样本空间太小，则容易产生过拟合

极大似然估计：当模型是条件概率分布，损失函数是对数损失函数，经验风险最小化等价于极大似然估计.

结构风险最小化

结构风险最小化（SRM）：为了防止过拟合而提出来的策略。等价于正则化。相当于在经验风险上加上表示模型复杂度的正则化项或罚项。

假设空间、损失函数和训练集确定的情况下，结构风险的定义是：

Rsrm(f)=1N∑i=1NL(yi,f(xi))+λJ(f)(5)(5)Rsrm(f)=1N∑i=1NL(yi,f(xi))+λJ(f)

其中J(f)J(f)为模型复杂度，是定义在假设空间FF上的泛函，它表示了对复杂模型的惩罚。模型ff越复杂，复杂度就越大。

λ≥0λ≥0是系数，用以权衡经验风险和模型复杂度。

贝叶斯估计中的最大后验概率估计：当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时，结构风险最小化等价于最大后验概率估计。

结构风险最小化认为结构风险最小的模型是最优的，因此等价于求解以下最优化问题：

minf∈F1N∑i=1NL(yi,f(xi))+λJ(f)(6)(6)minf∈F1N∑i=1NL(yi,f(xi))+λJ(f)

由此，监督化问题转换成为经验风险或结构风险函数的最优化问题（4）和（6），此时，该函数为最优化的目标函数。

算法

算法指学习模型的具体计算方法。

4、模型评估与模型选择

训练误差与测试误差

损失函数给定时，假设学习到的模型是Y=f^(X)Y=f^(X)，训练误差是模型Y=f^(X)Y=f^(X)关于训练集的平均损失：

Remp(f^)=1N∑i=1NL(yi,f^(xi))(7)(7)Remp(f^)=1N∑i=1NL(yi,f^(xi))

其中NN是训练样本容量。

测试误差是模型Y=f^(X)Y=f^(X)关于测试集的平均损失：

etest=1N′∑i=1N′I(yi,f^(xi))(8)(8)etest=1N′∑i=1N′I(yi,f^(xi))

其中N′N′是测试样本容量。

例：当损失函数为0-1损失时

测试误差相当于常见的测试数据集上的误差率

etest=1N′∑i=1N′I(yi≠f^(xi))(9)(9)etest=1N′∑i=1N′I(yi≠f^(xi))

II为指示函数，即yi≠f^(xi)yi≠f^(xi)时为1，反之为0；

则相应的准确率为

etest=1N′∑i=1N′I(yi=f^(xi))(10)(10)etest=1N′∑i=1N′I(yi=f^(xi))

显然

rtest+etest=1(11)(11)rtest+etest=1

测试误差反映了学习方法对未知的测试集的预测能力，测试误差小的具有更好的预测能力

过拟合与模型选择

过拟合：学习时选择的模型所包含的参数过多，以致于出现这一模型对已知数据预测得很好，但对未知数据预测得很差的现象。

模型选择时，不仅要考虑对已知数据的预测能力，而且还要考虑对未知数据的预测能力。

当模型的复杂度增大时，训练误差会逐渐减小并趋于0，而测试误差会先减小，达到最小值后增大。

5、正则化与交叉验证

正则化——模型选择的典型方法

正则化：经验风险+正则化项/罚项。一般来说模型越复杂，正则化值越大。

正则化一般具有如下形式：

minf∈F1N∑i=1NL(yi,f(xi))+λJ(f)(12)(12)minf∈F1N∑i=1NL(yi,f(xi))+λJ(f)

在回归问题中，损失函数是平方损失，则正则化项是参数向量的L2L2范数：

L(w)=1N∑i=1N(f(xi;w)−yi)2+λ2∥w∥2(13)(13)L(w)=1N∑i=1N(f(xi;w)−yi)2+λ2‖w‖2

这里，∥w∥2‖w‖2表示参数向量ww的L2L2范数。

正则化的作用是选择经验风险与模型复杂度同时较小的模型。

交叉验证

随机地将数据集切分为训练集、验证集合测试集。在此基础上反复地训练、测试以及选择最小预测误差的模型。

简单交叉验证

将数据集分成训练集和测试集两部分，然后用训练集在各种条件下训练模型；在测试集上评价各个模型的测试误差，选择最小的那个。

S折交叉验证

此法应用最多；随机将数据切分为S个互不相交的大小相同的子集，然后利用S-1个子集的数据进行训练，余下的测试模型；将这一过程对可能的S种选择重复进行，最终选择S次评测中平均测试误差最小的模型。

留一交叉验证

S折交叉验证的特殊情形：S=N。一般应用于数据缺乏时。这里的N是给定数据集的容量。

6、泛化能力

学习方法的泛化能力：由该方法学习到的模型对未知数据的预测能力。

泛化误差

若学到的模型是f^f^，那么用这个模型对未知数据预测的误差即为泛化误差：

Rexp(f^)=Ep[L(Y,f^(X))]=∫X×YL(y,f^(x))P(x,y)dxdy(14)(14)Rexp(f^)=Ep[L(Y,f^(X))]=∫X×YL(y,f^(x))P(x,y)dxdy

泛化误差反映了学习方法的泛化能力。泛化误差越小，该方法就越有效。事实上，泛化误差就是所学习到的模型的期望风险。

泛化误差上界

泛化能力通过误差上界来比较。

泛化误差的性质：

* 是样本容量的函数，样本容量增加时趋于0

* 是假设空间容量的函数，假设空间越大，模型越难学，上界越大

定理1.1（泛化误差上界）对二分类问题，当假设空间是有限个函数的集合F={f1,f2,...,fd}F={f1,f2,...,fd}时，对任意一个函数f∈Ff∈F，至少以概率1−δ1−δ，以下不等式成立：

R(f)≤R^(f)+ε(d,N,δ)(15)(15)R(f)≤R^(f)+ε(d,N,δ)

其中ε(d,N,δ)=12N(logd+log1δ)−−−−−−−−−−−−−−−√(16)(16)ε(d,N,δ)=12N(log⁡d+log⁡1δ)

不等式（15）左端R(f)R(f)是泛化误差，右端即为泛化误差上界。在泛化误差上界中，第一项是训练误差，训练误差越小泛化误差也就越小；第二项ε(d,N,δ)ε(d,N,δ)是NN的单调递减函数，NN趋于无穷时趋于0；同时它也是logd−−−−√log⁡d阶函数，假设空间FF包含的函数越多，其值越大。

从泛化误差上界可知，R(fN)≤R^(fN)+ε(d,N,δ)(17)(17)R(fN)≤R^(fN)+ε(d,N,δ)

其中，ε(d,N,δ)ε(d,N,δ)由式（16）定义，fN=argminf∈FR^(f)fN=arg⁡minf∈FR^(f).即训练误差小的模型，其泛化误差也会小。

7、生成模型与判别模型

监督学习方法又分为生成方法和判别方法，所学到的模型分别称为生成模型和判别模型。

生成方法

由数据学习联合概率分布P(X,Y)P(X,Y)，然后求出条件概率分布P(Y|X)P(Y|X)作为预测模型，即生成模型：

P(Y|X)=P(X,Y)P(X)(18)(18)P(Y|X)=P(X,Y)P(X)

典型的生成模型：朴素贝叶斯法、隐马尔可夫模型。

特点：

* 可以还原联合概率分布P(X,Y)P(X,Y)

* 学习收敛速度更快

* 存在隐变量时仍可使用

判别方法

由数据直接学习决策函数f(X)f(X)或条件概率分布P(Y|X)P(Y|X)作为预测的模型。判别方法关心的是对给定的输入XX，应该预测什么样的输出YY。

典型的判别模型：k近邻法、感知机、决策树、logistic回归、最大熵模型、SVM、提升方法和条件随机场。

特点：

* 无法还原联合概率分布P(X,Y)P(X,Y)

* 存在隐变量时无法使用

* 直接面对预测，学习的准确率更高

* 可以简化学习问题。

8、分类问题

9、标注问题

分类问题的推广

10、回归问题

预测输入变量和输出变量之间的关系

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航