您的位置:首页 > 其它

台湾国立大学机器学习基石.听课笔记(第十四讲):Regularization

2015-08-25 10:15 232 查看
台湾国立大学机器学习基石.听课笔记(第十四讲):Regularization

1,Regularization Hypothesis set

我们有上一讲的假设集合可知:



我们发现发生overfitting的一个重要原因可能是假设过于复杂了,我们希望在假设上做出让步,用稍简单的模型来学习,避免overfitting。例如,原来的假设空间是10次曲线,很容易对数据过拟合;我们希望它变得简单些,比如w 向量只保持三个分量(其他分量为零)。





图中的H^(')_2优化问题是NP-Hard 的。如果对w 进行更soft/smooth 的约束,可以使其更容易优化,所以我们改为:



我们将此时的假设空间记为H(C),这是“正则化的假设空间”。而w_(REG)为正则化空间的正则化项。

2,Weight Decay Regularization

通过前面的分析,我们已经把优化问题变为向量形式,其形式为:



接着我们从几何意义上去解释拉格朗日问题,得到以下结论:



我们对上面最后一个式子从两个方面分析:

1、把E_in(g)带入



2、从此式子的原函数考虑



通过上述两种解释,我们得到了下一步我们要的augmented error; 那么从上述式子可以看出,在不同lambda下,所得到的E_(aug)(w)不同:



我们从上面lambda不同的值可以得出:



总的来说,lambda 越大,对应的常数C 越小,模型越倾向于选择更小的w 向量。

这种正规化成为 weight-decay regularization,它对于线性模型以及进行了非线性转换的线性假设都是有效的。

有时我们为了更加直观的了解各个分量的意义,还会用上勒记得多项式·:





3,正规化与VC 理论(Regularization and VC Theory)

VC bound 与 regularizator 的联系:





1、从各自的定义式考虑

E_(aug)与[E_(out)-E_(in)]的定义是:



所以:



根据VC Bound理论,Ein 与 Eout 的差距是模型的复杂度。也就是说,假设越复杂(dvc 越大),Eout 与 Ein 相差就越大,违背了我们学习的意愿。

对于某个复杂的假设空间H,dvc 可能很大;通过正规化,原假设空间变为正规化的假设空间H(C)。与H 相比,H(C) 是受正规化的“约束”的,因此实际上H(C) 没有H 那么大,也就是说H(C) 的VC维比原H 的VC维要小。因此,Eout 与 Ein 的差距变小。所以我们可以用E_(aug)代替E_(in)。

2、从物理意义上来说



我们得到的d_(eff)(H,A)比d_(vc)(g)要小得多,所及计算复杂度也进一步降低。

4,泛化的正规项 (General Regularizers)

指导我们更好地设计正规项的原则:target-dependent, plausible, friendly.



L2 and L1 Regularizer:



此处为下一讲做铺垫。
lambda 当然不是越大越好!选择合适的lambda 也很重要,它收到随机噪音和确定性噪音的影响。



总结

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: