机器学习集成算法:XGBoost思想
2017-12-11 12:21
375 查看
机器学习集成算法:XGBoost思想
01
—
回顾
这几天推送了机器学习的降维算法,总结了特征值分解法,奇异值分解法,通过这两种方法做主成分分析(PCA)。大家有想了解的,可以参考:
数据预处理:PCA原理推导
数据降维处理:PCA之特征值分解法例子解析
数据降维处理:PCA之奇异值分解(SVD)介绍
数据降维:特征值分解和奇异值分解的实战分析
至此,已经总结了机器学习部分常用的回归,分类,聚类算法,接下来,介绍一种非常经典的,在工业界应用广泛的集成算法:XGBoost。
02
—
从随机森林说到XGBoost
随机森林是在决策树的基础上,放入许多棵决策树,并行的,独立的构造出每棵决策树,树与树之间没有关系,通过这种方式达到优化提升的目的。
随机森林算法,再加入第 k 棵树时,没有考虑前面的 k - 1 棵,只是随机的往森林里加一棵。与之相对的是,每次往森林里扔第 k 棵树的时候,要考虑前面的 k-1 棵树,并且加入这 k 棵树后,预测的效果必须要好才行,不好的话,就不能放入这 k 棵树,关于如何选择第 k 棵树以达到优化提升的过程,就是 XGBoost 的精华所在。
03
—
XGBoost选择第 k 棵树的思想
XGBoost算法解决的核心问题:如何选择第 k 棵树,而不是像随机森林那样随便往里面扔树。
下面举个例子先说明下问题的背景,要预测某个群体玩电脑游戏的可能性大小,在此我们要构建了 tree1,根据 age 和 male 这两个特征,得到了tree1,每个叶子节点不是简单的给出玩还是不玩电脑游戏,而是给出它的得分值(概率值相关),这是比较有意义的,之前,说到过,高斯混合模型(GMM)在做聚类任务时,最后也是给出每个样本属于每个分类的得分值,这就比KNN算法简单的给出每个样本属于某个簇,而不能给出属于每个簇的概率值,有时候要有意义的多。
根据 tree1,可以判断小男孩这个样本,玩电脑游戏的得分值为 +2,而小女孩呢得分值为 +0.1 ,爷爷奶奶们得分为 -1 。而根据实际的样本值得出小男孩玩游戏的得分值为+3,爷爷玩游戏的得分值为 +0.1 ,奶奶玩游戏的得分值为 -3 。
现在又来了 tree2,也就是说树的结构已经知道了,可以看出小男孩和爷爷的得分值都为 +0.9 。
所以,根据这两颗树,我们得出,小男孩玩电脑游戏的得分值为 +2.9,爷爷玩电脑游戏的得分值为 -0.1 。
问题来了,那么根据 tr
4000
ee2这个树的决策结构,我们是否该选择 tree2 呢? 我们可以这样构思这个问题,tree1和tree2 我们可以综合起来看成一颗决策树来考虑,这样可以借用决策树的一些思想,比如加入 tree2 后,综合考虑得出的信息增益是否大于我们不加入tree2时的好,如果没有满足,那么还是不要这颗 tree2,如果能大于阈值,就可以说它提升了模型的预测精度,要!
可以看到加入tree2后,小男孩的最终得分值更接近 +3了,而爷爷的得分也更接近了目标值。所以tree2 要加入进来。
以上就是XGBoost在做优化时主要思想。总结下,XGBoost和随机森林虽然用的基础模型都是决策树,但是它们在本质上是不同的,XGBoost是串行的组合决策树,也就是先有了第一个,然后根据某个算法计算出要不要第二棵树,如果要,才有了第二个,依次类推,不可能并行地同时处理3个;而随机森林是并行的组合,意思是可以并行计算,一次并行处理多个。
明天,我们看下 XGBoost 是如何把上面这些思想建立出数学模型来的。
算法channel已推送的更多文章:
1 机器学习:不得不知的概念(1)
2 机器学习:不得不知的概念(2)
3 机器学习:不得不知的概念(3)
4 回归分析简介
5 最小二乘法:背后的假设和原理(前篇)
6 最小二乘法原理(后):梯度下降求权重参数
7 机器学习之线性回归:算法兑现为python代码
8 机器学习之线性回归:OLS 无偏估计及相关性python分析
9 机器学习线性回归:谈谈多重共线性问题及相关算法
10 机器学习:说说L1和L2正则化
11 机器学习逻辑回归:原理解析及代码实现
12 机器学习逻辑回归:算法兑现为python代码
13 机器学习:谈谈决策树
14 机器学习:对决策树剪枝
15 机器学习决策树:sklearn分类和回归
16 机器学习决策树:提炼出分类器算法
17 机器学习:说说贝叶斯分类
18 朴素贝叶斯分类器:例子解释
19 朴素贝叶斯分类:拉普拉斯修正
20 机器学习:单词拼写纠正器python实现
21 机器学习:半朴素贝叶斯分类器
22 机器学习期望最大算法:实例解析
23 机器学习高斯混合模型(前篇):聚类原理分析
24 机器学习高斯混合模型(中篇):聚类求解
25 机器学习高斯混合模型(后篇):GMM求解完整代码实现
26 高斯混合模型:不掉包实现多维数据聚类分析
27 高斯混合模型:GMM求解完整代码实现
28 数据降维处理:背景及基本概念
29 数据降维处理:PCA之特征值分解法例子解析
30 数据降维处理:PCA之奇异值分解(SVD)介绍
31 数据降维处理:特征值分解和奇异值分解的实战分析
请记住:每天一小步,日积月累一大步!
《实例》阐述算法,通俗易懂,助您对算法的理解达到一个新高度。包含但不限于:经典算法,机器学习,深度学习,LeetCode 题解,Kaggle 实战。期待您的到来!
01
—
回顾
这几天推送了机器学习的降维算法,总结了特征值分解法,奇异值分解法,通过这两种方法做主成分分析(PCA)。大家有想了解的,可以参考:
数据预处理:PCA原理推导
数据降维处理:PCA之特征值分解法例子解析
数据降维处理:PCA之奇异值分解(SVD)介绍
数据降维:特征值分解和奇异值分解的实战分析
至此,已经总结了机器学习部分常用的回归,分类,聚类算法,接下来,介绍一种非常经典的,在工业界应用广泛的集成算法:XGBoost。
02
—
从随机森林说到XGBoost
随机森林是在决策树的基础上,放入许多棵决策树,并行的,独立的构造出每棵决策树,树与树之间没有关系,通过这种方式达到优化提升的目的。
随机森林算法,再加入第 k 棵树时,没有考虑前面的 k - 1 棵,只是随机的往森林里加一棵。与之相对的是,每次往森林里扔第 k 棵树的时候,要考虑前面的 k-1 棵树,并且加入这 k 棵树后,预测的效果必须要好才行,不好的话,就不能放入这 k 棵树,关于如何选择第 k 棵树以达到优化提升的过程,就是 XGBoost 的精华所在。
03
—
XGBoost选择第 k 棵树的思想
XGBoost算法解决的核心问题:如何选择第 k 棵树,而不是像随机森林那样随便往里面扔树。
下面举个例子先说明下问题的背景,要预测某个群体玩电脑游戏的可能性大小,在此我们要构建了 tree1,根据 age 和 male 这两个特征,得到了tree1,每个叶子节点不是简单的给出玩还是不玩电脑游戏,而是给出它的得分值(概率值相关),这是比较有意义的,之前,说到过,高斯混合模型(GMM)在做聚类任务时,最后也是给出每个样本属于每个分类的得分值,这就比KNN算法简单的给出每个样本属于某个簇,而不能给出属于每个簇的概率值,有时候要有意义的多。
根据 tree1,可以判断小男孩这个样本,玩电脑游戏的得分值为 +2,而小女孩呢得分值为 +0.1 ,爷爷奶奶们得分为 -1 。而根据实际的样本值得出小男孩玩游戏的得分值为+3,爷爷玩游戏的得分值为 +0.1 ,奶奶玩游戏的得分值为 -3 。
现在又来了 tree2,也就是说树的结构已经知道了,可以看出小男孩和爷爷的得分值都为 +0.9 。
所以,根据这两颗树,我们得出,小男孩玩电脑游戏的得分值为 +2.9,爷爷玩电脑游戏的得分值为 -0.1 。
问题来了,那么根据 tr
4000
ee2这个树的决策结构,我们是否该选择 tree2 呢? 我们可以这样构思这个问题,tree1和tree2 我们可以综合起来看成一颗决策树来考虑,这样可以借用决策树的一些思想,比如加入 tree2 后,综合考虑得出的信息增益是否大于我们不加入tree2时的好,如果没有满足,那么还是不要这颗 tree2,如果能大于阈值,就可以说它提升了模型的预测精度,要!
可以看到加入tree2后,小男孩的最终得分值更接近 +3了,而爷爷的得分也更接近了目标值。所以tree2 要加入进来。
以上就是XGBoost在做优化时主要思想。总结下,XGBoost和随机森林虽然用的基础模型都是决策树,但是它们在本质上是不同的,XGBoost是串行的组合决策树,也就是先有了第一个,然后根据某个算法计算出要不要第二棵树,如果要,才有了第二个,依次类推,不可能并行地同时处理3个;而随机森林是并行的组合,意思是可以并行计算,一次并行处理多个。
明天,我们看下 XGBoost 是如何把上面这些思想建立出数学模型来的。
算法channel已推送的更多文章:
1 机器学习:不得不知的概念(1)
2 机器学习:不得不知的概念(2)
3 机器学习:不得不知的概念(3)
4 回归分析简介
5 最小二乘法:背后的假设和原理(前篇)
6 最小二乘法原理(后):梯度下降求权重参数
7 机器学习之线性回归:算法兑现为python代码
8 机器学习之线性回归:OLS 无偏估计及相关性python分析
9 机器学习线性回归:谈谈多重共线性问题及相关算法
10 机器学习:说说L1和L2正则化
11 机器学习逻辑回归:原理解析及代码实现
12 机器学习逻辑回归:算法兑现为python代码
13 机器学习:谈谈决策树
14 机器学习:对决策树剪枝
15 机器学习决策树:sklearn分类和回归
16 机器学习决策树:提炼出分类器算法
17 机器学习:说说贝叶斯分类
18 朴素贝叶斯分类器:例子解释
19 朴素贝叶斯分类:拉普拉斯修正
20 机器学习:单词拼写纠正器python实现
21 机器学习:半朴素贝叶斯分类器
22 机器学习期望最大算法:实例解析
23 机器学习高斯混合模型(前篇):聚类原理分析
24 机器学习高斯混合模型(中篇):聚类求解
25 机器学习高斯混合模型(后篇):GMM求解完整代码实现
26 高斯混合模型:不掉包实现多维数据聚类分析
27 高斯混合模型:GMM求解完整代码实现
28 数据降维处理:背景及基本概念
29 数据降维处理:PCA之特征值分解法例子解析
30 数据降维处理:PCA之奇异值分解(SVD)介绍
31 数据降维处理:特征值分解和奇异值分解的实战分析
请记住:每天一小步,日积月累一大步!
《实例》阐述算法,通俗易懂,助您对算法的理解达到一个新高度。包含但不限于:经典算法,机器学习,深度学习,LeetCode 题解,Kaggle 实战。期待您的到来!
相关文章推荐
- 机器学习集成算法:XGBoost思想
- 深度 | 机器学习集成算法:XGBoost思想
- 机器学习集成算法:XGBoost思想
- Python数据分析与机器学习-Xgboost集成算法
- 干货 | 机器学习集成算法:XGBoost模型构造
- 集成算法-xgboost/bagging/voting
- 机器学习教程 之 集成学习算法: 深入刨析AdaBoost
- 机器学习总结(lecture 17)算法:XGBoost(再理解!!)
- 集成算法-Xgboost
- 机器学习十大算法的核心思想、工作原理、适用 情况及优缺点
- 机器学习:XGBoost 安装及实战应用
- 机器学习(七):集成方法(2)Boost
- 机器学习十大算法的每个算法的核心思想、工作原理、适用情况及优缺点
- 机器学习各算法思想(极简版)
- 机器学习 —— 决策树及其集成算法(Bagging、随机森林、Boosting)
- 机器学习十大算法的每个算法的核心思想、工作原理、适用情况及优缺点
- 常见算法(logistic回归,随机森林,GBDT和xgboost)
- 机器学习校招笔记3:集成学习之Adaboost
- 机器学习各个算法4--boosting,adaboost
- 理解XGBoost机器学习模型的决策过程