您的位置:首页 > Web前端 > BootStrap

bootstrap bagging boosting adboost oob

2017-03-11 10:29 155 查看
bootstrap、bagging、boosting和adaboost是机器学习中几种常用的重采样方法。其中bootstrap重采样方法主要用于统计量的估计,bagging、boosting
和 adaboost方法则主要用于多个子分类器的组合。


一、bootstrap:估计统计量的重采样方法

    bootstrap方法是从大小为n的原始训练数据集中随机选择n个样本点组成一个新的训练集,这个选择过程独立重复B次,然后用这B个数据集对模型统计量进行估计(如均值、方差等)。由于原始数据集的大小就是n,所以这B个新的训练集中不可避免的会存在重复的样本。

    统计量的估计值定义为独立的B个训练集上的估计值θb的平均: 

θ=1B∑b=1Bθb


二、bagging:

    bagging方法是从大小为n的原始训练数据集中随机选择n′(n′<n)个样本点组成一个新的训练集,这个选择过程独立重复B次。然后,每一个新的训练集都被独立的用于训练一个子分类器,最终分类器的分类结果由这些子分类器投票决定。


三、boosting:

    boosting依次训练k个子分类器,最终的分类结果由这些子分类器投票决定。首先从大小为n的原始训练数据集中随机选取n1个样本训练出第一个分类器,记为C1,然后构造第二个分类器C2的训练集2,要求:2中一半样本能被C1正确分类,而另一半样本被C1错分。接着继续构造第三个分类器C3的训练集3,要求:C1、C2对3中样本的分类结果不同。剩余的子分类器按照类似的思路进行训练。

    boosting构造新训练集的主要原则是使用最富信息的样本。


四、adboost:

adaboost方法是boosting方法的一种改进。adaboost为每个样本赋予一个权值,adaboost希望在下一轮训练时被上一个子分类器正确分类的样本权重减小、被错误分类的样本权重增加,从而使得已经正确分类的样本能继续正确分类,已经错误分类的样本有很大机会被正确分类。


五、oob:

在随机森林bagging法中可以发现Bootstrap每次约有1/3的样本不会出现在Bootstrap所采集的样本集合中,当然也就没有参加决策树的建立,我们把这1/3的数据称为袋外数据oob(out
of bag),它可以用于取代测试集误差估计方法.

对于已经生成的随机森林,用袋外数据测试其性能,假设袋外数据总数为O,用这O个袋外数据作为输入,带进之前已经生成的随机森林分类器,分类器会给出O个数据相应的分类,因为这O条数据的类型是已知的,则用正确的分类与随机森林分类器的结果进行比较,统计随机森林分类器分类错误的数目,设为X,则袋外数据误差大小=X/O;这已经经过证明是无偏估计的,所以在随机森林算法中不需要再进行交叉验证或者单独的测试集来获取测试集误差的无偏估计。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: