您的位置：首页 > 其它

机器学习集成算法：XGBoost思想

2017-12-11 12:21 375 查看

机器学习集成算法：XGBoost思想

01

—

回顾

这几天推送了机器学习的降维算法，总结了特征值分解法，奇异值分解法，通过这两种方法做主成分分析（PCA）。大家有想了解的，可以参考：

数据预处理：PCA原理推导

数据降维处理：PCA之特征值分解法例子解析

数据降维处理：PCA之奇异值分解（SVD）介绍

数据降维：特征值分解和奇异值分解的实战分析

至此，已经总结了机器学习部分常用的回归，分类，聚类算法，接下来，介绍一种非常经典的，在工业界应用广泛的集成算法：XGBoost。

02

—

从随机森林说到XGBoost

随机森林是在决策树的基础上，放入许多棵决策树，并行的，独立的构造出每棵决策树，树与树之间没有关系，通过这种方式达到优化提升的目的。

随机森林算法，再加入第 k 棵树时，没有考虑前面的 k - 1 棵，只是随机的往森林里加一棵。与之相对的是，每次往森林里扔第 k 棵树的时候，要考虑前面的 k-1 棵树，并且加入这 k 棵树后，预测的效果必须要好才行，不好的话，就不能放入这 k 棵树，关于如何选择第 k 棵树以达到优化提升的过程，就是 XGBoost 的精华所在。

03

—

XGBoost选择第 k 棵树的思想

XGBoost算法解决的核心问题：如何选择第 k 棵树，而不是像随机森林那样随便往里面扔树。

下面举个例子先说明下问题的背景，要预测某个群体玩电脑游戏的可能性大小，在此我们要构建了 tree1，根据 age 和 male 这两个特征，得到了tree1，每个叶子节点不是简单的给出玩还是不玩电脑游戏，而是给出它的得分值（概率值相关），这是比较有意义的，之前，说到过，高斯混合模型（GMM）在做聚类任务时，最后也是给出每个样本属于每个分类的得分值，这就比KNN算法简单的给出每个样本属于某个簇，而不能给出属于每个簇的概率值，有时候要有意义的多。

根据 tree1，可以判断小男孩这个样本，玩电脑游戏的得分值为 +2，而小女孩呢得分值为 +0.1 ，爷爷奶奶们得分为 -1 。而根据实际的样本值得出小男孩玩游戏的得分值为+3，爷爷玩游戏的得分值为 +0.1 ，奶奶玩游戏的得分值为 -3 。

现在又来了 tree2，也就是说树的结构已经知道了，可以看出小男孩和爷爷的得分值都为 +0.9 。

所以，根据这两颗树，我们得出，小男孩玩电脑游戏的得分值为 +2.9，爷爷玩电脑游戏的得分值为 -0.1 。

问题来了，那么根据 tr
4000
ee2这个树的决策结构，我们是否该选择 tree2 呢？我们可以这样构思这个问题，tree1和tree2 我们可以综合起来看成一颗决策树来考虑，这样可以借用决策树的一些思想，比如加入 tree2 后，综合考虑得出的信息增益是否大于我们不加入tree2时的好，如果没有满足，那么还是不要这颗 tree2，如果能大于阈值，就可以说它提升了模型的预测精度，要！

可以看到加入tree2后，小男孩的最终得分值更接近 +3了，而爷爷的得分也更接近了目标值。所以tree2 要加入进来。

以上就是XGBoost在做优化时主要思想。总结下，XGBoost和随机森林虽然用的基础模型都是决策树，但是它们在本质上是不同的，XGBoost是串行的组合决策树，也就是先有了第一个，然后根据某个算法计算出要不要第二棵树，如果要，才有了第二个，依次类推，不可能并行地同时处理3个；而随机森林是并行的组合，意思是可以并行计算，一次并行处理多个。

明天，我们看下 XGBoost 是如何把上面这些思想建立出数学模型来的。

算法channel已推送的更多文章：

1 机器学习：不得不知的概念（1）

2 机器学习：不得不知的概念（2）

3 机器学习：不得不知的概念（3）

4 回归分析简介

5 最小二乘法：背后的假设和原理（前篇）

6 最小二乘法原理（后）：梯度下降求权重参数

7 机器学习之线性回归：算法兑现为python代码

8 机器学习之线性回归：OLS 无偏估计及相关性python分析

9 机器学习线性回归：谈谈多重共线性问题及相关算法

10 机器学习：说说L1和L2正则化

11 机器学习逻辑回归：原理解析及代码实现

12 机器学习逻辑回归：算法兑现为python代码

13 机器学习：谈谈决策树

14 机器学习：对决策树剪枝

15 机器学习决策树：sklearn分类和回归

16 机器学习决策树：提炼出分类器算法

17 机器学习：说说贝叶斯分类

18 朴素贝叶斯分类器：例子解释

19 朴素贝叶斯分类：拉普拉斯修正

20 机器学习：单词拼写纠正器python实现

21 机器学习：半朴素贝叶斯分类器

22 机器学习期望最大算法：实例解析

23 机器学习高斯混合模型（前篇）：聚类原理分析

24 机器学习高斯混合模型（中篇）：聚类求解

25 机器学习高斯混合模型（后篇）：GMM求解完整代码实现

26 高斯混合模型：不掉包实现多维数据聚类分析

27 高斯混合模型：GMM求解完整代码实现

28 数据降维处理：背景及基本概念

29 数据降维处理：PCA之特征值分解法例子解析

30 数据降维处理：PCA之奇异值分解（SVD）介绍

31 数据降维处理：特征值分解和奇异值分解的实战分析

请记住：每天一小步，日积月累一大步！

《实例》阐述算法，通俗易懂，助您对算法的理解达到一个新高度。包含但不限于：经典算法，机器学习，深度学习，LeetCode 题解，Kaggle 实战。期待您的到来！

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航