【深度学习入门_机器学习理论】极致梯度提升原理（XGBoost）

XGBoost（eXtreme Gradient Boosting）是一种高效、灵活且广泛应用的机器学习算法，属于梯度提升决策树（Gradient Boosting Decision Tree, GBDT） 的优化实现。它在分类、回归、排序等结构化/表格数据的预测任务中表现尤为出色。

XGBoost Documentation：https://xgboost.readthedocs.io/en/release_3.0.0/

在这里插入图片描述

首先要明确一点，xgboost 是基于提升树的。

什么是提升树，简单说，就是一个模型表现不好，我继续按照原来模型表现不好的那部分训练第二个模型，依次类推。

来几个形象的比喻就是：

做题的时候，第一个人做一遍得到一个分数，第二个人去做第一个人做错的题目，第三个人去做第二个人做错的题目，以此类推，不停的去拟合从而可以使整张试卷分数可以得到100分（极端情况）。

把这个比喻替换到模型来说，就是真实值为100，第一个模型预测为90，差10分，第二个模型以10为目标值去训练并预测，预测值为7，差三分，第三个模型以3为目标值去训练并预测，以此类推。

一、从GBDT到XGBoost

作为GBDT的高效实现，XGBoost是一个上限特别高的算法，因此在算法竞赛中比较受欢迎。简单来说，对比原算法GBDT，XGBoost主要从下面三个方面做了优化：

一是算法本身的优化：在算法的弱学习器模型选择上，对比GBDT只支持决策树，还可以直接很多其他的弱学习器。在算法的损失函数上，除了本身的损失，还加上了正则化部分。在算法的优化方式上，GBDT的损失函数只对误差部分做负梯度（一阶泰勒）展开，而XGBoost损失函数对误差部分做二阶泰勒展开，更加准确。算法本身的优化是我们后面讨论的重点。
二是算法运行效率的优化：对每个弱学习器，比如决策树建立的过程做并行选择，找到合适的子树分裂特征和特征值。在并行选择之前，先对所有的特征的值进行排序分组，方便前面说的并行选择。对分组的特征，选择合适的分组大小，使用CPU缓存进行读取加速。将各个分组保存到多个硬盘以提高IO速度。
三是算法健壮性的优化：对于缺失值的特征，通过枚举所有缺失值在当前节点是进入左子树还是右子树来决定缺失值的处理方式。算法本身加入了L1和L2正则化项，可以防止过拟合，泛化能力更强。

在上面三方面的优化中，第一部分算法本身的优化是重点也是难点。现在我们就来看看算法本身的优化内容。

二、XGBoost原理

2.1 XGBoost损失函数

2.1.1 GBDT损失函数

我们先回顾下GBDT的回归算法迭代的流程，对于GBDT的第t颗决策树，主要是走下面4步：
在这里插入图片描述
上面第一步是得到负梯度，或者是泰勒展开式的一阶导数。第二步是第一个优化求解，即基于残差拟合一颗CART回归树，得到J个叶子节点区域。第三步是第二个优化求解，在第二步优化求解的结果上，对每个节点区域再做一次线性搜索，得到每个叶子节点区域的最优取值。最终得到当前轮的强学习器。

从上面可以看出，我们要求解这个问题，需要求解当前决策树最优的所有J个叶子节点区域和每个叶子节点区域的最优解Ctj。GBDT采样的方法是分两步走，先求出最优的所有J个叶子节点区域，再求出每个叶子节点区域的最优解。

对于XGBoost，它期望把第2步和第3步合并在一起做，即一次求解出决策树最优的所有J个叶子节点区域和每个叶子节点区域的最优解Ctj。在讨论如何求解前，我们先看看XGBoost的损失函数的形式。

2.1.2 GBDT损失函数

在这里插入图片描述
最终我们要极小化上面这个损失函数，得到第t个决策树最优的所有J个叶子节点区域和每个叶子节点区域的最优解Wtj .

2.1.3 GBDT损失函数二阶泰勒展开式

XGBoost没有和GBDT一样去拟合泰勒展开式的一阶导数，而是期望直接基于损失函数的二阶泰勒展开式来求解。现在我们来看看这个损失函数的二阶泰勒展开式：
在这里插入图片描述

为了方便，我们把第i个样本在第t个弱学习器的一阶和二阶导数分别记为:
在这里插入图片描述
则我们的损失函数现在可以表达为：

　损失函数里面L(yi,ft−1(xi))是常数，对最小化无影响，可以去掉，同时由于每个决策树的第j个叶子节点的取值最终会是同一个值Wtj ,因此我们的损失函数可以继续化简。
在这里插入图片描述
我们把每个叶子节点区域样本的一阶和二阶导数的和单独表示如下：