您的位置：首页 > 其它

台湾国立大学机器学习基石.听课笔记（第十四讲）：Regularization

2015-08-25 10:15 232 查看

台湾国立大学机器学习基石.听课笔记（第十四讲）：Regularization

1，Regularization Hypothesis set

我们有上一讲的假设集合可知：

我们发现发生overfitting的一个重要原因可能是假设过于复杂了，我们希望在假设上做出让步，用稍简单的模型来学习，避免overfitting。例如，原来的假设空间是10次曲线，很容易对数据过拟合；我们希望它变得简单些，比如w 向量只保持三个分量（其他分量为零）。

图中的H^(')_2优化问题是NP-Hard 的。如果对w 进行更soft/smooth 的约束，可以使其更容易优化，所以我们改为：

我们将此时的假设空间记为H(C)，这是“正则化的假设空间”。而w_(REG)为正则化空间的正则化项。

2，Weight Decay Regularization

通过前面的分析，我们已经把优化问题变为向量形式，其形式为：

接着我们从几何意义上去解释拉格朗日问题，得到以下结论：

我们对上面最后一个式子从两个方面分析：

1、把E_in(g)带入

2、从此式子的原函数考虑

通过上述两种解释，我们得到了下一步我们要的augmented error；那么从上述式子可以看出，在不同lambda下，所得到的E_(aug)(w)不同：

我们从上面lambda不同的值可以得出：

总的来说，lambda 越大，对应的常数C 越小，模型越倾向于选择更小的w 向量。

这种正规化成为 weight-decay regularization，它对于线性模型以及进行了非线性转换的线性假设都是有效的。

有时我们为了更加直观的了解各个分量的意义，还会用上勒记得多项式·：

3，正规化与VC 理论(Regularization and VC Theory)

VC bound 与 regularizator 的联系：

1、从各自的定义式考虑

E_(aug)与[E_(out)-E_(in)]的定义是：

所以：

根据VC Bound理论，Ein 与 Eout 的差距是模型的复杂度。也就是说，假设越复杂（dvc 越大），Eout 与 Ein 相差就越大，违背了我们学习的意愿。

对于某个复杂的假设空间H，dvc 可能很大；通过正规化，原假设空间变为正规化的假设空间H(C)。与H 相比，H(C) 是受正规化的“约束”的，因此实际上H(C) 没有H 那么大，也就是说H(C) 的VC维比原H 的VC维要小。因此，Eout 与 Ein 的差距变小。所以我们可以用E_(aug)代替E_(in)。

2、从物理意义上来说

我们得到的d_(eff)(H,A)比d_(vc)(g)要小得多，所及计算复杂度也进一步降低。

4，泛化的正规项 (General Regularizers)

指导我们更好地设计正规项的原则：target-dependent, plausible, friendly.

L2 and L1 Regularizer:

此处为下一讲做铺垫。
lambda 当然不是越大越好！选择合适的lambda 也很重要，它收到随机噪音和确定性噪音的影响。

总结

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

添加评论
分享网址
分享文章
返回顶部