您的位置:首页 > 其它

学习理论-模型选择-2-训练样本数量与误差上界

2016-04-09 23:33 344 查看
模型选择-1-问题引入中我们知道,我们要获得尽可能小的泛化误差。下面让我们一起看看泛化误差与样本数量和模型数量的关系。

当H\mathcal H中模型数有限时

证明一致收敛性

我们假设H={h1,...,hk}\mathcal H =\{h_1,...,h_k\},这里只考虑二分类情况,即H\mathcal H中每个模型都能够将样本X\mathcal X映射到{0,1}\{0,1\}。

假如选定H\mathcal H中的某个模型hih_i,定义ZZ是一个伯努利随机变量(Z∈{0,1}Z\in \{0,1\}),对于样本集(x,y)∼D(x,y)\sim \mathcal D,我们使Z=I{hi(x)≠y}Z=I\{ h_i(x)\not = y \},即对于任意样本输入样本,我们用ZZ表示hih_i是否将它误分类。进而我们用Zj=I{hi(x(j))≠y(j)}Z_j=I\{ h_i(x^{(j)})\not = y^{(j)} \}表示第j个样本是否被hih_i误分类。因为我们的样本集满足独立同分布,因此ZjZ_j也服独立同分布。

回想之前对训练误差的定义:ϵ^(h)=1m∑mi=1I{h(x(i))≠y(i)}\hat{\epsilon}(h)=\frac{1}{m}\sum^m_{i=1}I\{ h(x^{(i)})\not = y^{(i)} \},因此这里我们可以改写成ϵ^(hi)=1m∑mj=1Zj\hat{\epsilon}(h_i)=\frac{1}{m}\sum^m_{j=1}Z_j,这里的ZjZ_j是满足伯努利分布的,因此可以利用模型选择-1-问题引入中给出的第二个fact(Hoeffding不等式)得到:



上式说明,对于确定的hih_i当样本数量mm很大时,训练误差将会非常接近泛化误差(实际误差)。下面将它推广到整个模型集H\mathcal H:

首先,令AiA_i代表|ϵ(hi)−ϵ^(hi)|>γ|\epsilon(h_i)-\hat{\epsilon}(h_i)|>\gamma.我们可得:



第一行是指:我们的模型中只要有一个满足条件即可,或者说至少要有一个满足条件,因为我们只需要选择出一个最好的模型。第二行以及后面的显然是成立的。

两边同时用1减得:



该条件称为,一致性收敛(uniform convergence),它是说明,当m足够大时,假设集中的所有hih_i的训练误差与泛化误差都会很接近。

如果给定γ\gamma和δ=2ke−2γ2m\delta=2ke^{-2\gamma^2m}需要多少训练样本才能保证训练误差与泛化误差的差值在γ\gamma以内的概率为1−δ1-\delta呢?

我们可以得到m≥12γ2log2kδm\geq\frac{1}{2\gamma^2}\log\frac{2k}{\delta}.

同样的我们可以固定mm和δ\delta进而求γ\gamma,得到:|ϵ^(h)−ϵ(h)|≤12mlog2kδ−−−−−−−−√|\hat{\epsilon}(h)-\epsilon(h)|\leq\sqrt{\frac{1}{2m}\log\frac{2k}{\delta}}

使用一致收敛性得出结论

基于一致收敛性,

令h^=argminh∈Hϵ^(h)\hat{h}=\arg\min_{h\in\mathcal H}\hat{\epsilon}(h)

令h∗=argminh∈Hϵ(h)h^*=\arg\min_{h\in\mathcal H}\epsilon(h)

h^\hat{h}是我们的算法选择的模型,h∗h^*是模型集中实际上最好的一个。

我们可以得到下面的结论:



第一行使用了条件|ϵ(h^)−ϵ^(h^)|≤γ|\epsilon(\hat h)-\hat{\epsilon}(\hat h)| \leq \gamma,第二行的依据是,我们的算法选择h^\hat h时,对应的ϵ^(h)\hat \epsilon(h)是最小的。因此对于任意的ϵ^(h^)≤ϵ^(h)\hat\epsilon(\hat h) \leq \hat\epsilon(h),故可得第二行;第三行再次使用了一致性收敛条件。

因此,可知,如果满足了一致性收敛,那么我们的算法选择出的模型h^\hat h的泛化误差最多比模型集H\mathcal H中最好的模型高出2γ2\gamma.

因此令|H|=k|\mathcal H |=k,固定m,δm,\delta不变,我们有1−δ1-\delta概率可得:



显然不等式右面第二项就是γ\gamma.

这个式子实际上描述了偏差与方差的权衡;当模型数量增加时右面第一项只会减小,不会增大,但是第二项却因为k变大而增大;第一项其实反映了偏差,第二项反映了方差。

令|H|=k|\mathcal H |=k,δ,γ\delta,\gamma不变,为了使得ϵ(h^)≤minh∈Hϵ(h)+2γ\epsilon(\hat h) \leq \min_{h\in\mathcal H}\epsilon(h)+2\gamma的概率最好少为1−δ1-\delta,可得:



当H\mathcal H中模型数无限时

为了简化处理,我们由一个不太严谨的假设开始:

假设H\mathcal H中的模型全是线性回归模型,模型的参数有d个,假设一个浮点型在计算机中用64位表示,那么,,那么H\mathcal H中可能的假设模型共有264d2^{64d}种组合,即k=264dk=2^{64d}.这样利用之前证明的结论,为了保证ϵ(h^)≤ϵ(h∗)+2γ\epsilon(\hat h) \leq \epsilon(h^*)+2\gamma的概率至少为1−δ1-\delta,需要满足


因此,训练样本数量至少与参数数量线性相关。

虽然这个假设不严谨,但是他却是合理的,且可以推广到k为无限大的情况:

因为对于线性回归分类hθ(x)=I{θ0+θ1x1+...+θnxn≥0}h_\theta(x)=I\{ \theta_0+\theta_1x_1+...+\theta_n x_n \geq 0 \}也可以写成hu,v(x)=I{(u20−v20)+(u21−v21)x1+...+(u2n−v2n)xn≥0}h_{u,v}(x)=I\{ (u_0^2-v_0^2)+(u_1^2-v_1^2)x_1+...+(u_n^2-v_n^2)x_n \geq 0 \},参数数量可以增大到无限,且他们都是模型集H\mathcal H中的参数。H\mathcal H一直是n维中的线性分类模型的集合。

给定一个新的样本集X\mathcal X(它和训练样本没有关系)以及类别集合{y(1),y(2),...,y(d)}\{y^{(1)},y^{(2)},...,y^{(d)}\},如果H\mathcal H中存在模型hh使得对于任意的i=1,...,di=1,...,d都有h(x(i))=y(i)h(x^{(i)})=y^{(i)},那么称H 分散(shatters) S\mathcal H \ 分散(shatters)\ S,即存在h存在h能够完美的对SS中的样本分类。

看下面的图来说明分散问题(shatters):



由图可知二维坐标系中的任意两个点必然可以被线性分类器shatter.



可见二维坐标中的三个点也可以被线性分类器shatter.



显然二维坐标系中的四个点必然存在不能被线性分类器shatter的情况。

给定一个H\mathcal H,我们定义它的Vapnik-Chervonenkis dimension(简称VC尺度)为VC(H)VC(\mathcal H),VC尺度表示H\mathcal H所能shatter的最大的样本数,若H\mathcal H能够shatter任意多的样本,那么VC(H)=∞VC(\mathcal H)=\infty.

begin-补充-VC维

在二维坐标系中,三个样本点的情况下存在下面分布情况,左图是三个样本的分布位置,右图是在在这三个位置上可能出现的一种分布情况,显然在这种分布下他是无法被线性分类器shatter的。



但是,当我们给予这三个点不同的坐标,可以找到使得他们能够被shatter的情况,比如三个点的位置如下,显然这就是我们上面的例子中的分布,基于这三个点的当前位置的所有组合(共232^3个可能组合)都是可以被线性分类器成功分类,因此三个样本是可以被shatter的:



但是对于二维坐标系中的四个点,必然是不能被线性分类器shatter的,即无法给四个样本找到固定的坐标,使得基于当前坐标的242^4种可能的分布都能够被线性分类器成功分类。

因此,线性分类器,在二维坐标系中的VC维d=3d=3.

end-补充

下面给出Vapnik和Chervonenkis基于VC维证明得到的结论:

对于某一H\mathcal H,已知d=VC(H)d=VC(\mathcal H),那么对于所有的h∈Hh\in\mathcal H,至少有1−δ1-\delta的概率满足下式:



因此可知,至少有1−δ1-\delta的概率满足下式:



上式说明,当H\mathcal H的VC维有限时,那么它随着样本数量m的增加是一致收敛的。

下面得到我们的结论:

对于h∈Hh\in\mathcal H,为了使得|ϵ(h)−ϵ^(h)|≤γ|\epsilon(h)-\hat{\epsilon}(h)|\leq\gamma(即ϵ^(h)≤ϵ(h∗)+2γ\hat{\epsilon}(h) \leq \epsilon (h^*)+ 2\gamma)的概率至少为1−δ1-\delta,那么必须有m=Oγ,δ(d)m=\mathit O_{\gamma,\delta}(d)

因此,训练样本的数量,应该与H\mathcal H的VC维呈线性关系。

事实上,实际应用中,VC维基本都是是和训练模型的参数数目相差无几的,因此样本数量也是与样模型参数呈线性关系的。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: