您的位置：首页 > 其它

机器学习中关于正则化的理解

2014-08-18 09:47 393 查看

正则化的目的：避免出现过拟合（over-fitting）

经验风险最小化 + 正则化项 = 结构风险最小化

经验风险最小化（ERM），是为了让拟合的误差足够小，即：对训练数据的预测误差很小。

但是，我们学习得到的模型，当然是希望对未知数据有很好的预测能力（泛化能力），这样才更有意义。

当拟合的误差足够小的时候，可能是模型参数较多，模型比较复杂，此时模型的泛化能力一般（过拟合）。于是，我

们增加一个正则化项，它是一个正的常数乘以模型复杂度的函数，aJ(f)，a>=0
用于调整ERM与模型复杂度的关系。

结构风险最小化（SRM），相当于是要求拟合的误差足够小，同时模型不要太复杂（正则化项的极小化），这样得到

的模型具有较强的泛化能力。

奥卡姆剃刀原理（Occam's
razor）与正则化实际上是一个道理。

给出一个机器学习中经典的图，模型越复杂，训练误差越小，但是测试误差先变小后变大，继而出现过拟合。

以决策树的剪枝（pruning）为例：

通过ID3或C4.5算法生成决策树往往会发生过拟合，因为它是对结点通过特征选取来选择特征并生成一棵决策

树，这将导致树因枝叶过多（IF-THEN过多）。树的剪枝过程是通过从已生成的树上剪掉一些子树或叶节点，从而对

树进行简化。

决策树的剪枝通过极小化决策树整体的损失函数来实现，这等价于正则化的极大似然估计：

${C_\alpha }\left( T \right) = C\left( T \right) + \alpha \left| T \right|$

其中，C(T)表示模型对训练数据的拟合程度，
$\alpha \left| T \right|$
为正则化项，这里用树T的叶结点个数表示树的复杂度。

参考资料《统计学习方法》李航

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 过拟合正则化模型选择奥卡姆剃刀

相关文章推荐

新的分享

章节导航