机器学习中过拟合问题分析及解决方法
2016-05-20 22:31
387 查看
机器学习中过拟合问题分析及解决方法
表现:在训练集上的误差特别小,在测试集上的误差特别大。原因:模型过于复杂,过分拟合数据噪声和outliers(离群值).
解决方法:
1、正则化。模型中添加先验知识,降低模型复杂度,降低噪声和离群值outliers的扰动影响。
举例1:抛硬币,推荐正面朝上的概率。如果抛五次结果都是正面朝上,得出结果正面朝上的概率是1——过拟合。
如果我们在模型中加上正面朝上概率为0.5的先验,则结果就不会离谱,这就是正则化。
举例2:最小二乘法求回归问题时,加2范数正则,等价于加高斯分布的先验;加1范数正则,等价于加拉普拉斯分布的先验。
2、决策树中的预剪枝(Pre-prunig)和后剪枝(Post-pruning).
Pre-pruning:预剪枝,预先设定某些规则,限定决策树的充分生长。实际运用较少。
Post-pruning:后剪枝,待决策树充分生长后,再通过某些规则进行剪枝。实际运用较多。
后剪枝:在决策树形成后,删除一些子树,用其叶子节点代替,叶子节点的类别用大多数原则确定,即被删除子树中多有节点中类别划分最多的类作为剪枝后的叶子节点类别。(majority class)
悲观剪枝Pessimistic-Error Pruning:使用训练集生成决策树,又使用训练集进行剪枝,会产生错分,但速度快,效率高。
降低错误率剪枝Reduced-Error Pruning:考虑 树上每个节点,作为待剪枝对象;删除此节点为根的子树,使其成为叶子节点;赋予该节点关联训练数据常见分类;判断剪枝后的树是否在测试集上的精度不会比原来的差,则真正删除此节点。通过这种bottom-up的方式,直到没有子树可以删除是的测试集的错误率降低,剪枝过程结束。
参考文章
1、http://www.open-open.com/lib/view/open1436689999779.html2、http://blog.sina.com.cn/s/blog_4e4dec6c0101fdz6.html
3、http://blog.sina.com.cn/s/blog_68ffc7a40100urn3.html
相关文章推荐
- 自己做的一个肤色检测模型
- 关于机器学习的学习笔记(二):决策树算法
- 数据挖掘--分类--决策树--算法
- 数据挖掘--分类--决策树--特征
- 机器学习之决策树整理
- 一步一步详解ID3和C4.5的C++实现
- 机器学习实战3:决策树学习笔记(python)
- ID3和C4.5的区别
- 数据挖掘—决策树几种方法的比较
- 读《边城》与《时生》
- 斯坦福吴恩达-cousera课程笔记-Logistic回归
- Matlab实现决策树算法进行数字识别
- 数据量多少与训练的过拟合和欠拟合 overfitting and underfitting
- 数据挖掘学习笔记-决策树算法浅析(含Java实现)
- 决策树sama
- 12球问题/12硬币问题通解,以及引申的决策树/最优三叉树算法
- IBM SPSS Modeler 应用实例篇--简单的分类建模及应用
- 利用CART算法建立分类回归树
- AdaBoost原理,算法实现
- 信息增益与信息增益率详解