您的位置:首页 > 其它

机器学习中过拟合问题分析及解决方法

2016-05-20 22:31 387 查看

机器学习中过拟合问题分析及解决方法

表现:在训练集上的误差特别小,在测试集上的误差特别大。

原因:模型过于复杂,过分拟合数据噪声和outliers(离群值).

解决方法:

1、正则化。模型中添加先验知识,降低模型复杂度,降低噪声和离群值outliers的扰动影响。

举例1:抛硬币,推荐正面朝上的概率。如果抛五次结果都是正面朝上,得出结果正面朝上的概率是1——过拟合。

如果我们在模型中加上正面朝上概率为0.5的先验,则结果就不会离谱,这就是正则化。

举例2:最小二乘法求回归问题时,加2范数正则,等价于加高斯分布的先验;加1范数正则,等价于加拉普拉斯分布的先验。

2、决策树中的预剪枝(Pre-prunig)和后剪枝(Post-pruning).

Pre-pruning:预剪枝,预先设定某些规则,限定决策树的充分生长。实际运用较少。

Post-pruning:后剪枝,待决策树充分生长后,再通过某些规则进行剪枝。实际运用较多。

后剪枝:在决策树形成后,删除一些子树,用其叶子节点代替,叶子节点的类别用大多数原则确定,即被删除子树中多有节点中类别划分最多的类作为剪枝后的叶子节点类别。(majority class)

悲观剪枝Pessimistic-Error Pruning:使用训练集生成决策树,又使用训练集进行剪枝,会产生错分,但速度快,效率高。

降低错误率剪枝Reduced-Error Pruning:考虑 树上每个节点,作为待剪枝对象;删除此节点为根的子树,使其成为叶子节点;赋予该节点关联训练数据常见分类;判断剪枝后的树是否在测试集上的精度不会比原来的差,则真正删除此节点。通过这种bottom-up的方式,直到没有子树可以删除是的测试集的错误率降低,剪枝过程结束。

参考文章

1、http://www.open-open.com/lib/view/open1436689999779.html

2、http://blog.sina.com.cn/s/blog_4e4dec6c0101fdz6.html

3、http://blog.sina.com.cn/s/blog_68ffc7a40100urn3.html
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  过拟合 决策树