XGBoost理论相关推导
2017-07-27 17:23
651 查看
概论
弱分类器可以通过bagging和boosting转换成强分类器。随机森林是bagging的改进,通过有放回的随机采样,获得不同的样本数据,随机得到不同的决策树,各个决策树之间相互独立,通过投票选出最终结果。boosting是所有分类器加权求和预测最终结果,各个分类器相互不独立。XGBoost推导
首先定义损失函数,常见的有均方误差和绝对值差:XGBoost中,第i颗决策树依赖前i-1颗决策树加权求和而生成,表示为:
。
再思考基本分类器:决策树。决策树的复杂程度可以用叶节点个数和叶节点权重来表示,为防止过拟合,引入惩罚系数γ和λ:
定义最终目标函数,一个常见的目标函数应包括损失函数,和控制模型复杂度的正则项,于是有:
启示
回头看XGBoost和RF的区别,都是以树为基本分类器,都是遍历所有特征,区别在于无论是ID3,C4.5还是CART,都是以基于熵的评分标准选择特征。XGBoost是以基于残差的损失函数做评分标准。bagging能够减少训练方差,对不剪枝的决策树、神经网络等学习算法有良好的集成效果。boosting减少偏差,能够基于泛华较弱的学习器构造强学习器。(学习笔记,若有错误,欢迎随时指正,也欢迎加Q讨论:2289851798)
参考:
小象学院:邹博《机器学习V》
http://www.52cs.org/?p=429
http://wepon.me/files/gbdt.pdf
http://blog.csdn.net/qq_28031525/article/details/70207918
相关文章推荐
- xgboost模型部署及注意相关事宜。
- Angularjs相关理论
- PCA降维相关推导与重构误差计算k值选择
- 基础会计的相关理论知识
- 凸优化及其相关理论
- 一、相关理论及背景
- Ukylin手机助手相关理论及关键技术
- 四旋翼姿态解算——梯度下降法理论推导
- 无线测试相关理论
- Flash相关理论知识:SLC与MLC、NOR与NAND FLASH、闪存卡
- 机器学习之PCA降维理论推导
- Git-理论篇-设计理念及相关概念
- SVM相关的推导
- 深度学习之二——相关数学基础(线性代数理论)
- 理论基础知识之————KB Kb Kbps 相关单位的区别和换算
- 贝叶斯相关理论
- Android理论梳理-No1异步处理之Handler相关机制
- 深度学习笔记——理论与推导之概念,成本函数与梯度下降算法初识(一)
- 测试相关理论
- NLP︱高级词向量表达(一)——GloVe(理论、相关测评结果、R&python实现、相关应用)