您的位置:首页 > 其它

数据挖掘之基础概念二

2015-10-07 10:58 411 查看
模型的过拟合

分类模型的误差大致分为两张:训练误差(再代入误差或表现误差),泛化误差

模型拟合不足:决策树很小,训练和检验误差都很大

模型过分拟合:树的模型变得太大,即使训练误差还在继续降低,但是检验误差开始增大,这种现象叫做过分拟合

奥卡姆剃刀:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取

悲观误差评估:第一种方法明确使用训练误差与模型复杂度罚项的和计算泛华误差。结果泛华误差可以看做模型的悲观误差估计。设n是结点t分类的训练记录数,e是被误分类的记录数。决策树t 的悲观误差估计e 可以用下式计算

保持方法:
在保持(Holdout)方法中,将被标记的原始数据划分成两个不想交的集合,分别成为训练集和检验集。在训练数据集上归纳分类模型,在检验集上评估模型的性能。

随机二次抽样:
多次重复保持方法来改进对分类器性能的估计,称作随机二次抽样
交叉验证:
假设把数据分为相同大小的两个子集,首先,我们选择一个自己做训练集,而另一个做检验集,然后交换两个集合的角色,原先做训练集的现在做检验集,反之亦然,这种方法叫做二折交叉验证
K折交叉验证:把数据分为大小相同的K份,在每次运行,选择其中一份作检验集,而其余的全做为训练集,该过程重复K次,使得每份数据都用于检验恰好一次。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: