数据挖掘之基础概念二
2015-10-07 10:58
411 查看
模型的过拟合
分类模型的误差大致分为两张:训练误差(再代入误差或表现误差),泛化误差
模型拟合不足:决策树很小,训练和检验误差都很大
模型过分拟合:树的模型变得太大,即使训练误差还在继续降低,但是检验误差开始增大,这种现象叫做过分拟合
奥卡姆剃刀:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取
悲观误差评估:第一种方法明确使用训练误差与模型复杂度罚项的和计算泛华误差。结果泛华误差可以看做模型的悲观误差估计。设n是结点t分类的训练记录数,e是被误分类的记录数。决策树t 的悲观误差估计e 可以用下式计算
保持方法:
在保持(Holdout)方法中,将被标记的原始数据划分成两个不想交的集合,分别成为训练集和检验集。在训练数据集上归纳分类模型,在检验集上评估模型的性能。
随机二次抽样:
多次重复保持方法来改进对分类器性能的估计,称作随机二次抽样
交叉验证:
假设把数据分为相同大小的两个子集,首先,我们选择一个自己做训练集,而另一个做检验集,然后交换两个集合的角色,原先做训练集的现在做检验集,反之亦然,这种方法叫做二折交叉验证
K折交叉验证:把数据分为大小相同的K份,在每次运行,选择其中一份作检验集,而其余的全做为训练集,该过程重复K次,使得每份数据都用于检验恰好一次。
分类模型的误差大致分为两张:训练误差(再代入误差或表现误差),泛化误差
模型拟合不足:决策树很小,训练和检验误差都很大
模型过分拟合:树的模型变得太大,即使训练误差还在继续降低,但是检验误差开始增大,这种现象叫做过分拟合
奥卡姆剃刀:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取
悲观误差评估:第一种方法明确使用训练误差与模型复杂度罚项的和计算泛华误差。结果泛华误差可以看做模型的悲观误差估计。设n是结点t分类的训练记录数,e是被误分类的记录数。决策树t 的悲观误差估计e 可以用下式计算
保持方法:
在保持(Holdout)方法中,将被标记的原始数据划分成两个不想交的集合,分别成为训练集和检验集。在训练数据集上归纳分类模型,在检验集上评估模型的性能。
随机二次抽样:
多次重复保持方法来改进对分类器性能的估计,称作随机二次抽样
交叉验证:
假设把数据分为相同大小的两个子集,首先,我们选择一个自己做训练集,而另一个做检验集,然后交换两个集合的角色,原先做训练集的现在做检验集,反之亦然,这种方法叫做二折交叉验证
K折交叉验证:把数据分为大小相同的K份,在每次运行,选择其中一份作检验集,而其余的全做为训练集,该过程重复K次,使得每份数据都用于检验恰好一次。
相关文章推荐
- ubuntu 修改.vimrc来配置vim
- Swift - 使用UI Dynamics给UIKit组件添加重力和碰撞行为
- *Move Zeroes
- listView遇到的问题
- 图解Linux命令之--id命令
- GDT 与 LDT
- mysql(二、查询)
- Swift - 重写UIKit框架类的init初始化方法(以UITabBarController为例)
- JSON 数据格式
- python 如何找到某一目录下的文件类型(三种方法)
- 【Python】Learn Python the hard way, ex11 raw_input
- maven详解之生命周期与插件
- 黑马程序员——OC语言加强---Foundation框架介绍
- 欢迎使用Markdown编辑器写博客
- Swift - 如何实现字符串的HMAC_SHA1加密
- Swift - 获取字符串的MD5值
- LeetCode OJ:Ugly Number(丑数)
- 【Tools】【版本控制】Repo
- 【Tools】【版本控制】Repo
- 【Tools】【版本控制】Repo