您的位置:首页 > 其它

机器学习之随机森林和GBDT的区别以及Xgboost和GBDT的区别

2018-09-06 08:44 302 查看

随机森林:

理解:多棵决策树(CART树)https://blog.csdn.net/blank_tj/article/details/82081002组合而成,分类问题:每棵树投票找最高票;回归问题:每棵树的值求和取平均。

特点:随机森林基于Bagging https://blog.csdn.net/blank_tj/article/details/82229322,所以每次训练随机从总数据DD中选择NN条数据,N<DN<D。每次选择的特征是从总特数PP中,随机选择QQ个特征,通常Q<PQ<P。重复MM次,生成MM棵树。
通过这种每次随机数据,随机特征的方式进行建树。

优点
1)训练速度快,泛化能力强,可并行建树,因为树与树相互独立;
2)能学到特征之间的相互影响,因为每次选择的特征不同;
3)可处理高维特征,因为不需要特征选择,用随机选择;
4)相比SVMSVM,不是很怕特征缺失,因为随机特征;
6)可以反馈哪些特征的权重,价值比较高。

随机森林和GBDT区别

1)随机森林采用的baggingbagging思想,而GBDTGBDT采用的boostingboosting思想。
2)组成随机森林的树可以是分类树,也可以是回归树;而GBDTGBDT只能由回归树组成。
3)组成随机森林的树可以并行生成;而GBDTGBDT只能是串行生成。
4)对于最终的输出结果而言,随机森林采用多数投票等;而GBDTGBDT则是将所有结果累加起来,或者加权累加起来。
5)随机森林对异常值不敏感;GBDTGBDT对异常值非常敏感。
6)随机森林对训练集一视同仁;GBDTGBDT是基于权值的弱分类器的集成。
7)随机森林是通过减少模型方差提高性能;GBDTGBDT是通过减少模型偏差提高性能。

GBDT和Xgboost区别

1)GBDTGBDT以CARTCART作为基分类器,xgboostxgboost还支持线性分类器,这个时候xgboostxgboost相当于带L1L1和L2L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。
2)GBDTGBDT在优化时只用到一阶导数信息,xgboostxgboost则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数。
3)xgboostxgboost在代价函数里加入了正则项,用于控制模型的复杂度。正则项降低了模型的variancevariance,使学习出来的模型更加简单,防止过拟合。
4)随机特征选择。xgboostxgboost借鉴了随机森林的做法,支持列抽样,不仅能降低过拟合,还能减少计算,这也是xgboostxgboost异于GBDTGBDT的一个特性。对于特征的值有缺失的样本,xgboostxgboost可以自动学习出它的分裂方向。
5)信息增益计算不同,GBDTGBDT是ginigini,xgboostxgboost是优化推导公式。
6)xgboostxgboost的特征列排序后以块的形式存储在内存中,在迭代中可以重复使用;虽然boostingboosting算法在构建树迭代必须串行,但是在处理每个特征列时可以做到并行。因为:xgboostxgboost在训练之前,预先对数据进行了排序,然后保存为blockblock结构,后面的迭代中重复地使用这个结构,大大减小计算量。这个blockblock结构也使得并行成为了可能,在进行节点的分裂时,需要计算每个特征的增益,最终选增益最大的那个特征去做分裂,那么各个特征的增益计算就可以开多线程进行。

阅读更多
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: