您的位置：首页 > 其它

数据挖掘之基础概念二

2015-10-07 10:58 411 查看

模型的过拟合

分类模型的误差大致分为两张：训练误差（再代入误差或表现误差），泛化误差

模型拟合不足：决策树很小，训练和检验误差都很大

模型过分拟合：树的模型变得太大，即使训练误差还在继续降低，但是检验误差开始增大，这种现象叫做过分拟合

奥卡姆剃刀：给定两个具有相同泛化误差的模型，较简单的模型比较复杂的模型更可取

悲观误差评估：第一种方法明确使用训练误差与模型复杂度罚项的和计算泛华误差。结果泛华误差可以看做模型的悲观误差估计。设n是结点t分类的训练记录数，e是被误分类的记录数。决策树t 的悲观误差估计e 可以用下式计算

保持方法：
在保持（Holdout）方法中，将被标记的原始数据划分成两个不想交的集合，分别成为训练集和检验集。在训练数据集上归纳分类模型，在检验集上评估模型的性能。

随机二次抽样：
多次重复保持方法来改进对分类器性能的估计，称作随机二次抽样
交叉验证：
假设把数据分为相同大小的两个子集，首先，我们选择一个自己做训练集，而另一个做检验集，然后交换两个集合的角色，原先做训练集的现在做检验集，反之亦然，这种方法叫做二折交叉验证
K折交叉验证：把数据分为大小相同的K份，在每次运行，选择其中一份作检验集，而其余的全做为训练集，该过程重复K次，使得每份数据都用于检验恰好一次。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航