您的位置：首页 > 其它

机器学习之随机森林和GBDT的区别以及Xgboost和GBDT的区别

2018-09-06 08:44 302 查看

随机森林：

理解：多棵决策树（CART树）https://blog.csdn.net/blank_tj/article/details/82081002组合而成，分类问题：每棵树投票找最高票；回归问题：每棵树的值求和取平均。

特点：随机森林基于Bagging https://blog.csdn.net/blank_tj/article/details/82229322，所以每次训练随机从总数据DD中选择NN条数据，N<DN<D。每次选择的特征是从总特数PP中，随机选择QQ个特征，通常Q<PQ<P。重复MM次，生成MM棵树。
通过这种每次随机数据，随机特征的方式进行建树。

优点：
1）训练速度快，泛化能力强，可并行建树，因为树与树相互独立；
2）能学到特征之间的相互影响，因为每次选择的特征不同；
3）可处理高维特征，因为不需要特征选择，用随机选择；
4）相比SVMSVM，不是很怕特征缺失，因为随机特征；
6）可以反馈哪些特征的权重，价值比较高。

随机森林和GBDT区别

1）随机森林采用的baggingbagging思想，而GBDTGBDT采用的boostingboosting思想。
2）组成随机森林的树可以是分类树，也可以是回归树；而GBDTGBDT只能由回归树组成。
3）组成随机森林的树可以并行生成；而GBDTGBDT只能是串行生成。
4）对于最终的输出结果而言，随机森林采用多数投票等；而GBDTGBDT则是将所有结果累加起来，或者加权累加起来。
5）随机森林对异常值不敏感；GBDTGBDT对异常值非常敏感。
6）随机森林对训练集一视同仁；GBDTGBDT是基于权值的弱分类器的集成。
7）随机森林是通过减少模型方差提高性能；GBDTGBDT是通过减少模型偏差提高性能。

GBDT和Xgboost区别

1）GBDTGBDT以CARTCART作为基分类器，xgboostxgboost还支持线性分类器，这个时候xgboostxgboost相当于带L1L1和L2L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。
2）GBDTGBDT在优化时只用到一阶导数信息，xgboostxgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。
3）xgboostxgboost在代价函数里加入了正则项，用于控制模型的复杂度。正则项降低了模型的variancevariance，使学习出来的模型更加简单，防止过拟合。
4）随机特征选择。xgboostxgboost借鉴了随机森林的做法，支持列抽样，不仅能降低过拟合，还能减少计算，这也是xgboostxgboost异于GBDTGBDT的一个特性。对于特征的值有缺失的样本，xgboostxgboost可以自动学习出它的分裂方向。
5）信息增益计算不同，GBDTGBDT是ginigini，xgboostxgboost是优化推导公式。
6）xgboostxgboost的特征列排序后以块的形式存储在内存中，在迭代中可以重复使用；虽然boostingboosting算法在构建树迭代必须串行，但是在处理每个特征列时可以做到并行。因为：xgboostxgboost在训练之前，预先对数据进行了排序，然后保存为blockblock结构，后面的迭代中重复地使用这个结构，大大减小计算量。这个blockblock结构也使得并行成为了可能，在进行节点的分裂时，需要计算每个特征的增益，最终选增益最大的那个特征去做分裂，那么各个特征的增益计算就可以开多线程进行。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航