您的位置:首页 > 职场人生

overfitting-过拟合

2017-01-16 00:00 387 查看
过拟合:模型在测试集上的效果表现很好,在训练集上的效果与在训练集上的效果差异很大,这种情况就是发生了过拟合。

过拟合是过度拟合的训练集中的数据。

1、由于样本量不足,训练样本的分布于测试样本之间的分布存在差异。

2、在样本量不足的情况下,训练模型时,令代价函数等于零(极端),使得模型的泛化性能很差,导致了过拟合。

处理过拟合的方法

(1)正则化,就是在在模型中考虑模型复杂度,同时考虑经验风险和模型复杂度,预防过拟合。

(2)交叉验证,就是将训练集和测试集来回使用,反复训练验证。一般分为简单交叉验证,S折交叉验证,留一交叉验证。

(3)增加样本的全面性和数量;

(4)控制模型的复杂度;

(5)不要过度训练

(6)模型融合本质上也是一种提高泛化能力的方法

NG:

训练集误差与交叉验证集误差近似时:偏差/欠拟合

交叉验证集误差远大于训练集误差时:方差/过拟合

参考:[1] http://lib.csdn.net/article/machinelearning/33798

[2] NG视频
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息