Bootstrap Method 自助法
2014-05-08 09:44
204 查看
自助法(Bootstrap Method,Bootstrapping或自助抽样法)
定义:
是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。
历史:
自助法由Bradley Efron于1979年在《Annals of Statistics》上发表。当样本来自总体,能以正态分布来描述,其抽样分布(Sampling
Distribution)为正态分布(The Normal Distribution);但当样本来自的总体无法以正态分布来描述,则以渐进分析法、自助法等来分析。采用随机可置换抽样(random
sampling with replacement)。对于小数据集,自助法效果很好。
最常用的方法:
.632自助法,假设给定的数据集包含d个样本。
该数据集有放回地抽样d次,产生d个样本的训练集。这样原数据样本中的某些样本很可能在该样本集中出现多次。没有进入该训练集的样本最终形成检验集(测试集)。 显然每个样本被选中的概率是1/d,因此未被选中的概率就是(1-1/d),这样一个样本在训练集中没出现的概率就是d次都未被选中的概率,即(1-1/d)d。当d趋于无穷大时,这一概率就将趋近于e-1=0.368,所以留在训练集中的样本大概就占原来数据集的63.2%。
定义:
是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。
历史:
自助法由Bradley Efron于1979年在《Annals of Statistics》上发表。当样本来自总体,能以正态分布来描述,其抽样分布(Sampling
Distribution)为正态分布(The Normal Distribution);但当样本来自的总体无法以正态分布来描述,则以渐进分析法、自助法等来分析。采用随机可置换抽样(random
sampling with replacement)。对于小数据集,自助法效果很好。
最常用的方法:
.632自助法,假设给定的数据集包含d个样本。
该数据集有放回地抽样d次,产生d个样本的训练集。这样原数据样本中的某些样本很可能在该样本集中出现多次。没有进入该训练集的样本最终形成检验集(测试集)。 显然每个样本被选中的概率是1/d,因此未被选中的概率就是(1-1/d),这样一个样本在训练集中没出现的概率就是d次都未被选中的概率,即(1-1/d)d。当d趋于无穷大时,这一概率就将趋近于e-1=0.368,所以留在训练集中的样本大概就占原来数据集的63.2%。
相关文章推荐
- 麦德龙安装全球首个混合型RFID自助结帐设备
- 购物商城可以在一比二购自助添加链接
- Quattro发布自助手机广告产品
- 吃自助最高境界:扶墙进,扶墙出
- 可以免费自助建站的网站
- 3月7日 今天自助不给力啊,吃完之后没有油水
- SCVMM 2007 R2 自助门启无法打开
- 消费者的福音:IBM推出店内货物扫描和自助结账服务
- 域用户自助修改AD属性Web应用 - ADCustomWeb
- 校园银行自助系统
- 排队叫号机控制系统与自助查询终端系统解决方案
- System Center 2012 R2 自助门户2—App Controller
- SCVMM2008R2学习(十一),安装虚拟机自助服务
- 自助建站妙处多,低成本高实用,三站合一不是梦!
- R in action读书笔记(16)第十二章 重抽样与自助法之 置换检验
- C#+Oracle:ATM自助取款机开发
- 操蛋 京东 配电脑 自助装机 严重问题
- 御厨传奇自助涮烤 创业者的首选
- 联创自助打印驱动程序 v1.0官方版
- 深圳3分钟完成港澳签注 24小时自助办证服务攻略