您的位置：首页 > 其它

机器学习之集成学习

2017-04-19 10:26 176 查看

集成学习

看了DeepForest论文后，对于DeepForest的结构还是不是很理解，找来了一本paper作者的书《机器学习》，本文内容均选自书中，如有不雷同，纯属失误~

个体与集成

集成学习（ensemble learning）通过构建并结合多个学习器来完成学习任务：

先产生一组“个体学习器”(individual learner),再用某种策略将它们结合起来。其中每个IL由一个现有的学习算法从训练数据中产生，如：C4.5决策树算法、BP神经网络等。

同质（homogeneous）所有的个体学习器都是相同的，且其中的个体学习器也称“基学习器”，相应的学习算法称为“基学习算法”。

异质（heterogenous）集成包含不同类型的个体学习器，此时不再有基学习算法，此时的个体学习器称为“组件学习器”。

性能：集成学习器的能力和个体学习器有很大关系，个体学习器本身在具有一定“准确性”的同时，还要有“多样性”，学习器间要具有差异。

分析对于一个二分类问题y∈{−1,+1}和真是函数f，假定基分类器的错误率为ϵ，即对每个基分类器hi有P(hi(x)≠f(x))=ϵ.假设集成通过简单投票法结合T个基分类器，若有超过半数的基分类器正确，则集成分类就正确：H(x)=sing(∑i=1Thi(x)).假设基分类器的错误率相互独立，则由Hoeffding不等式可知，集成的错误率为P(H(x)≠f(x))=∑k=0⌊T/2⌋(Tk)(1−ϵ)kϵT−k≤exp(−12T(1−2ϵ)2).从上式可知，随着集成中个体分类器数目T的增大，集成的错误率将指数级下降，最终趋向于0。

注意：上述分析的前提是基学习器的误差相互独立，但事实上，个体学习器的“准确性”和“多样性”本身就存在冲突，所以，如何产生并结合“好而不同”的个体学习器恰恰是集成学习的核心

分类：目前集成学习方法大致分类两大类：

1、个体学习器间存在强依赖关系、必须串行生成的序列化方法，如Boosting

2、个体学习器间不存在强依赖关系、可同时生成的并行化方法，如Bagging、“随机森林(Random Forest)”

Boosting

这是一族可将弱学习器提升为强学习器的算法

工作机制：先从初始训练集中训练出来一个基学习器，然后根据表现，对训练样本进行调整，是基学习器之前做错的训练样本在后续受到更多关注，然后基于调整后的样本分布来训练下一个基学习器，如此反复，直到基学习器数目达到事先指定的值T，最终将这T个基学习器进行加权结合。

AdaBoost：

1、初始化样本权值分布

2、基于分布Dt从数据集D中训练处分类器ht

3、估计ht的误差

4、确定分类器ht的权重

5、更新样本分布，其中Zt是规范化因子，以确保Dt+1是一个分布

Bagging与随机森林

Bagging

Bagging是并行式集成学习方法最著名的代表，它基于自助采样法（bootstrap sampling），先采样出T个含m个训练样本的采样集，然后基于每个采样集训练出一个基学习器，再将这些基学习器进行结合，这就是Bagging的流程。

通常Bagging对分类任务使用简单投票法，对回归任务使用简单平均法。

计算复杂度T(O(m)+O(s))

基学习器的计算复杂度O(m)

采样与投票/平均过程的复杂度O(s)

一般O(s)很小，所以训练一个Bagging集成与直接使用基学习算法训练一个学习器的复杂度同阶，这说明Bagging很高效

随机森林

随机森林(Random Forest，简称BF)，是Bagging的一个扩展变体，RF以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机属性选择

工作过程：在RF中，对基决策树的每个节点，先从该节点的属性集合中随机选择一个包含k个属性的子集，然后再从这个子集中选择一个最优属性用于划分（此处与决策树不同：传统决策树在选择划分属性时是在当前节点的属性集合(假设有d个属性)中选择一个最优属性），这里的参数k控制了随机性的引入程度：若令k=d，则基决策树的构建与传统决策树相同，若令k=1，则是随机选择一个属性用于划分，一般推荐令k=log2d.

特点：结构简单、容易实现、计算开销小，且在很多现实任务中展现出强大的性能

两者的比较

随机森林的收敛性与Bagging相似，随机森林的起始性能往往相对较差，然而，随着个体学习器数目的增加，随机森林通常会收敛到更低的泛化误差，且随机森林的训练效率常优于Bagging，因为在个体决策树的构建过程中，Bagging使用的是“确定性”决策树，在选择划分属性时要对节点的所有属性进行考察，而随机森林使用的“随机型”决策树则只需考察一个属性子集即可

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 机器学习

相关文章推荐

新的分享

章节导航