集成学习 | 集成学习思想：Boosting

一. Boosting思想
- 1. Adaboost 算法
- - 1.1 Adaboost算法构建流程
  - 1.2 sklearn库参数说明
- 2. Gradient Boosting 算法
- - 2.1 Gradient Boosting算法构建流程
  - 2.2 Gradient Boosting算法的回归与分类问题
  - - 2.2.1 Gradient Boosting回归算法
    - - 均方差损失函数
      - 绝对误差损失函数
    - 2.2.2 Gradient Boosting分类算法
    - - 对数损失函数(二分类)
      - 对数损失函数(多分类)
  - 2.3 sklearn库参数说明
- 3. 小节：Bagging、Boosting区别
- - 1. 样本选择方式对比
  - 2. 样本权重对比
  - 3. 预测函数
  - 4. 并行计算
  - 5. 可解决问题

在上一篇中，我们讨论了集成学习中的Bagging方法，在本文中，我们将继续深入研究集成学习，学习Boosting方法

一. Boosting思想

在对Bagging思想中随机森林算法有了一定了解之后，我们会发现

	在随机森林构建过程中，各棵树之间是相对独立的也就是说：在构建第m棵子树的时候，不会考虑前面的m-1棵树

那么，我们能否对这个现象进行优化呢？

在构建第m棵子树的时候，考虑到前m-1棵子树的结果，会不会对最终
结果产生有益的影响？
各个决策树组成随机森林后，最终结果能否存在一种既定的决策顺序，即哪颗子树先进行决策、哪颗子树后进行决策

针对上面提出的优化方向，集成学习又提出了提升学习（Boosting）思想

	思想：在弱学习器A的基础上训练得到弱学习器B弱学习器B+弱学习器A的预测结果一定优于弱学习器A即：每一步产生的弱预测模型加权累加到总模型中boosting意义：弱预测模型可以通过提升技术得到一个强预测模型boosting思想：可以用于回归和分类的问题

在这里插入图片描述

1. Adaboost 算法

Adaptive Boosting是一种迭代算法，即将基学习器的线性组合作为强学习器
既可以用于分类问题，也可以用于回归问题
AdaBoost算法主要用于解决分类问题，基学习器是CART分类树
AdaBoost算法也可以用于解决回归问题，基学习器是CART回归树，这种变体被称为AdaBoost.R2

	具体操作：1. 训练数据集，产生一个新的弱学习器2. 使用该学习器对所有训练样本进行预测3. 评估每个样本的重要性，即为每个样本赋予一个权重如果某个样本点被预测的越正确，则将样本权重降低如果某个样本点被预测的越错误，则将样本权重提高，即，越难区分的样本在下一次迭代中会变得越重要注意：这里样本的权重是归一的4. 通过迭代，得到n个基学习器对于误差率较小的基学习器以大的权重值对于误差率较大的基学习器以小的权重值 注意：这里基学习器的权重不归一5. 线性组合所有基学习器停止条件：错误率足够小或者达到一定的迭代次数

以二分类任务为例子，Adaboost 将基分类器的线性组合作为强分类器，即
$\sum_{m=1}^{M}\alpha_{m}G_{m}(x)$

公式解释：
$G_{m}(x)$ 为基分类器，且 $G_{m}(x)=\pm1$
$\alpha_{m}$ 为基分类器对应的权重，且 $\alpha_{m}>0$ ，不归一

最终分类器是在线性组合的基础上进行Sign函数转换，因此最终的强学习器为：
$sign[\sum_{m=1}^{M}\alpha_{m}G_{m}(x)]$
在这里插入图片描述

公式解释：

当所有样本的加权和为正数时，输出 $G (x) = 1$
当所有样本的加权和为负数时，输出 $G (x) = - 1$
当所有样本的加权和为0时，返回任意值

根据上面的公式，我们用错误率构建损失函数，就会得到每个学习器的损失函数，即分错了的样本权重和：
$\sum_{i=1}^{n}w_{i}I[G(x_{i})\ne y_{i}] ，I(b)=\left\{\begin{matrix}1，b=True \\0，b=False\end{matrix}\right.，\sum_{i=1}^{n} w_{i}=1{\tiny }$

公式解释：

$x_{i},y_{i}$ 分别为训练集的特征值和标签值

$\sum_{i=1}^{n}$ 表示训练集中有n个样本

$w_{i}$ 为每个样本的权重，归一

$G(x_{i})$ 为基学习器的预测值，即输入x值，输出+1 / -1

$I[G(x_{i})\ne y_{i}]$ 表示当预测错误时， $I 函数$ 返回1

公式说明：

训练样本固定，但每个样本的权重不同，因此 $G ()$ 不同

这里，由于损失函数是分段函数，不方便求导，所以我们可以通过边界值来求导，即损失函数（上界）公式为：
$\sum_{i=1}^{n}w_{i}I[G(x_{i})\ne y_{i}] \le \sum_{i=1}^{n}w_{i}e^{(-y_{i}f(x))}$

公式解释：

当 $G(x_{i})\ne y_{i}$ ， $I 函数 = 1$ ，此时 $f(x)<0，y_{i} =1$ ，即 $e^{x}>1$
当 $G(x_{i})= y_{i}$ ， $I 函数 = 0$ ，此时 $f(x)>0，y_{i} =1$ ，即 $e^{x}>0$

现在假设我们已经得到了第 $k - 1$ 轮的强学习器：
$f_{k-1}(x)=\sum_{j=1}^{k-1}\alpha _{j}G_{j} (x)$

那么，对于第 $k$ 轮的强化学习器，可以写为：
$f_{k}(x)=f_{k-1}(x)+\alpha _{k}G_{k}(x)=\sum_{j=1}^{k}\alpha _{j}G_{j} (x)$

因此对于第m次迭代，损失函数为：
$loss(\alpha _{m},G_{m}(x)) = \sum_{i=1}^{n}w_{m-1,i}e^{-(y_{i}f_{m}(x))}$

公式解释：

$w_{m-1,i}$ 为第m-1轮中，每个样本的权重值

$f_{m}(x)$ 为第m轮传入的样本

注意：这里第m-1轮次的参数是已知的

公式推导：

$=\sum_{i=1}^{n}w_{m-1,i}e^{-(y_{i}(f_{m-1}(x)+\alpha _{m}G_{m}(x)))}$

$=\sum_{i=1}^{n}w_{m-1,i}e^{-y_{i}(f_{m-1}(x))}e^{-y_{i}(\alpha _{m}G_{m}(x))}$

$=\sum_{i=1}^{n}w_{m,i}e^{-y_{i}(\alpha _{m}G_{m}(x))}$

其中， $w_{m,i}=w_{m-1,i}e^{-y_{i}(f_{m-1}(x))}$

此时每个样本的权重值不归一，即 $w_{m,i}$ 不归一

对 $w_{m-1,i}$ 除以一个常数，做归一化操作：
$\sum_{i=i}^{m} \bar{w}_{m,i}=1$

最终的损失函数公式为：
$loss(a_{m},G_{m}(x))=\sum_{i=1}^{n}\bar{w} _{m,i}e^{-y_{i}(\alpha _{m}G_{m}(x))}$

那么，使损失函数达到最小值的 $α_{m}$ 和 $G_{m}$ 就是AdaBoost算法的第m个学习器的最终解；

因此，最佳的第m个学习器 $G_{m}$ 公式为：
$G_{m}^{*} (x)=\min_{G_{m}(x)}\sum_{i=1}^{n}\bar{w} _{m,i}I(y_{i}\ne G_{m}(x_{i}))$

公式解释：

该公式表示：

使得样本权重在 $w_{m,i}$ 条件下，被分错的数量尽量的少

此时，误差为：
$\epsilon _{m}=\sum_{y_{i}\ne G_{m}(x)} \bar{w}_{m,i}$

公式解释：
这里我们梳理一下求解逻辑：

首先通过前 $m - 1$ 轮求出第 $m$ 轮的权重 $w_{m,i}$
得到权重 $w_{m,i}$ 后，通过最小化分错的数量，更新第m个学习器 $G_{m}^{*}$
此时，也就得到了第m个学习器下分错样本的权重和，即 $\epsilon_{m}$

在得到 $G_{m}^{*}和\epsilon_{m}$ 后，我们就会相应的得到第m轮学习器的权重 $\alpha _{m}^{*}$ ，即：
$\alpha _{m}^{*} =\frac{1}{2}ln( \frac{1-\epsilon _{m}}{\epsilon _{m}} )$

公式推导：

此时， $G_{m}(x)$ 已知

$loss(a_{m},G_{m}(x))$

$=\sum_{i=1}^{n}\bar{w} _{m,i}e^{-y_{i}(\alpha _{m}G_{m}(x))}$

$=\sum_{y = G(x)}\bar{w}_{m,i}e^{-\alpha _{m}} +\sum_{y\ne G(x)} \bar{w}_{m,i}e^{\alpha _{m}}$

$=\sum_{y = G(x)}\bar{w}_{m,i}e^{-\alpha _{m}} +\epsilon _{m}e^{\alpha _{m}}$

$=\sum_{y = G(x)}\bar{w}_{m,i}e^{-\alpha _{m}} +\epsilon _{m}e^{\alpha _{m}}+\sum_{y\ne G(x)} \bar{w}_{m,i}e^{-\alpha _{m}}-\sum_{y\ne G(x)} \bar{w}_{m,i}e^{-\alpha _{m}}$

$=\sum_{i=1}^{n} \bar{w}_{m,i}e^{-\alpha _{m}} +\epsilon _{m}e^{\alpha _{m}}-\epsilon _{m}e^{-\alpha _{m}}$

$=e^{-\alpha _{m} }+\epsilon _{m}e^{\alpha _{m}}-\epsilon _{m}e^{-\alpha _{m}}$

通过对损失函数求导，即可得到 $\alpha _{m}^{*}$

$\frac{\mathrm{d} loss}{\mathrm{d} \alpha _{m}} =-e^{-\alpha _{m} }+\epsilon _{m}e^{\alpha _{m}}+\epsilon _{m}e^{-\alpha _{m}}=0$

$\Longrightarrow (\epsilon _{m}-1)e^{-\alpha _{m} }+\epsilon _{m}e^{\alpha _{m}}=0$

$\Longrightarrow(1-\epsilon _{m})e^{-\alpha _{m} }=\epsilon _{m}e^{\alpha _{m}}$

$\Longrightarrow \frac{e^{\alpha _{m}}}{e^{-\alpha _{m} }} =\frac{(1-\epsilon _{m})}{\epsilon _{m}}$

$\Longrightarrow e^{2a_{m}} =\frac{(1-\epsilon _{m})}{\epsilon _{m}}$

$\Longrightarrow lne^{2a_{m}} =ln[\frac{(1-\epsilon _{m})}{\epsilon _{m}}]$

$\Longrightarrow a_{m} =\frac{1}{2} ln[\frac{(1-\epsilon _{m})}{\epsilon _{m}}]$

1.1 Adaboost算法构建流程

存在训练数据集 $X={(x1 ,y1 ),(x2 ,y2 )....(xn,yn)}$
初始化每个样本的权重 $D_{1}=(w_{11},w_{12},w_{13},...,w_{1n})，w_{1i}=\frac{1}{n}(i=1,2,3...,n)$
使用具有权值分布D1的训练数据集学习，得到基分类器 $G_{1}(x)$
注意：这里得到的是每个样本的预测值，即：+1或-1
根据预测值，计算 $G_{1}(x)$ 在训练集上的分类误差： $\varepsilon _{1}=P(G_{1}\ne y)=\sum_{i=1}^{n}\bar{w}_{mi}I(y_{i}\ne G_{m}(x_{i}))=\sum_{y_{i}\ne G_{m}(x_{i})}\bar{w}_{mi}$
计算 $G_{1}(x)$ 模型的权重系数 $α_{1}$
$α_{1}=\frac{1}{2} ln[\frac{(1-\epsilon _{m})}{\epsilon _{m}}]$
构建线性组合：
$f(x)=\sum_{m=1}^{M} \alpha _{m}G_{m}(x)$
更新训练数据集中每个样本的权值分布，用来训练下一个基分类器
$D_{2}=(w_{21},w_{22},w_{23},...,w_{2n})$
$w_{2i}=w_{1i}e^{-y_{i}\alpha _{1}G_{1}(x_{i})}$

参数解释：

$G_{1}(x_{i})$ 为上一个弱学习器的预测值，对应第3步

$归一化：w_{m+1,i}=\frac{w_{m,i}}{Z_{m}}e^{-y_{i}\alpha _{m}G_{m}(x_{i})}$
$其中，Z_{m}=\sum_{i=1}^{M}w_{m,i}e^{ -y_{i}\alpha _{m}G_{m}(x_{i})}$
8. 重复上述操作
9. 得到最终的分类器
$sign[\sum_{m=1}^{M}\alpha_{m}G_{m}(x)]$

1.2 sklearn库参数说明

对于sklearn.ensemble.AdaBoostClassifier或 sklearn.ensemble.AdaBoostRegressor：

	学习器：默认为CART分类树/ CART回归树最大迭代次数：值过小可能会导致欠拟合，值过大可能会导致过拟合，一般50~100比较适合，默认50学习率：调节学习速率，可以防止过拟合

2. Gradient Boosting 算法

Gradient Boosting，即梯度提升迭代决策树Gradient Boosting Decison Tree，与AdaBoost类似，也是加法模型；

	 AdaBoost算法：根据前一轮弱学习器的误差来更新样本权重值，然后进行迭代GBDT算法：根据前一轮的弱学习器的误差来重新计算目标值，然后进行迭代

GBDT算法既可以用于解决分类问题，也可以用于解决回归问题
GBDT算法的基学习器是CART回归树

在这里插入图片描述

2.1 Gradient Boosting算法构建流程

	目标是找到使损失函数L(Y,F(X))的损失值最小的近似函数F(X)

$F(x) = \arg\min_{c}L(y_{i},F(x))$

以回归任务为例子：

存在训练数据集 $X={(x1 ,y1 ),(x2 ,y2 )....(xn,yn)}$
给定第一个常数函数 $f_{0}$ ，即： $f_{0}(x) = c$

对于回归任务:

定义损失函数 $\frac{1}{2}(y-F(x))^{2}$

在给定的常数函数的基础上，求损失最小：
$f_{0}(x) = c=arg\min_{c} \sum_{i=1}^{n}L(y_{i},F(x))=arg\min_{c} \sum_{i=1}^{n}\frac{1}{2}(y_{i}-c)^{2}$

在回归任务中，损失最小时，函数的预测值为：均值

即：c一般选择平均值

也就是说：所有Y值取平均

构造第1棵树：
计算每一个样本损失函数的负梯度值:

对于初始化常数函数，负梯度值为c

对于第1棵树，第2棵树，… ，：
$y_{im} = -\frac{\partial L(y_{i},F(x_{i}))}{\partial F(x_{i})}$
$其中，F(x)=F_{m-1}(x)$

公式解释：

$F_{m-1}(x)$ 是前 $m - 1$ 个CART树的和
$F_{m-1}(x)=\sum_{j=0}^{m-1} f_{j}(x)$
对于第1棵树， $F_{2-1}(x)=f_{0}(x)$

对于第2棵树， $F_{3-1}(x)=f_{0}(x)+f_{1}(x)$

通过求解负梯度值，更新Y值：
对于最小二乘损失构造的损失函数，负梯度值就为残差：
$y_{im}=y_{i}-F_{m-1}(x_{i})$
更新模型
$F(x)=\sum_{i=0}^{M} f_{i}(x)$
重复第4步-第6步操作
为了防止每个学习器能力过强而导致过拟合，在上述的学习过程中可以给定一个学习率v：
$F(x)=v\sum_{i=0}^{M} f_{i}(x)$
```
 	v减小时，M个数变多
```

2.2 Gradient Boosting算法的回归与分类问题

GBDT回归算法和分类算法的唯一区别：
选择的损失函数不同，因此对应的负梯度值不同，采用的模型初值也不一样

2.2.1 Gradient Boosting回归算法

	损失函数选择一般是均方差(最小二乘)和绝对值误差

均方差损失函数

损失函数：$L(y,F_{m}(x))=\frac{1}{2}(y-F_{m}(x))^{2} $
负梯度值： $y_{im}=y_{i}-F_{m-1}(x)$
初始值：一般采用均值作为初始值

绝对误差损失函数

损失函数： $L(y,F_{m}(x))=|y-F_{m}(x)|$
负梯度值： $y_{im}=sign(y_{i}-F_{m-1}(x))$
初始值：一般采用中值作为初始值

2.2.2 Gradient Boosting分类算法

	分类算法中一般选择对数损失函数来表示

对数损失函数(二分类)

损失函数： $L(y,F_{m}(x))=-[yln(p_{m})+(1-y)ln(1-p_{m})],其中p_{m}=\frac{1}{1+e^{-F_{m}(x)}}$
负梯度值： $y_{im}=y_{i}-p_{m}$
初始值：一般采用 $l n (正样本个数 / 负样本个数)$ 作为初始值

对数损失函数(多分类)

损失函数： $L(y,F_{ml}(x))=-\sum_{k=1}^{K}y_{k}lnp_{k} (x),其中p_{k}(x)=\frac{e^{f_{k}(x)}}{\sum_{l=1}^{K}e^{f_{l}(x)} }$
负梯度值： $y_{iml}=y_{il}-p_{ml}(x)$
初始值：一般采用0作初始值

2.3 sklearn库参数说明

对于sklearn.ensemble.GradientBoostingClassifier或 sklearn.ensemble.GradientBoostingRegressor:

	loss：分类：对数似然函数deviance / 指数损失函数exponential；默认为deviance；不建议修改回归：均方差ls / 绝对损失lad / Huber损失 huber / 分位数损失quantile默认ls；一般采用默认如果噪音数据比较多，推荐huber如果是分段预测，推荐 quantile最大迭代次数：值过小可能会导致欠拟合，值过大可能会导致过拟合，一般50~100比较适合，默认50学习率：默认为1；一般从一个比较小的值开始进行调参；该值越小表示需要更多的弱分类器subsample：不放回采样默认为1，表示不采用子采样；小于1时，表示采用部分数据进行模型训练，可以降低模型的过拟合情况推荐[0.5,0.8]：

3. 小节：Bagging、Boosting区别

1. 样本选择方式对比

Bagging思想是有放回的随机采样
Boosting思想是每一轮训练集不变
改变的是训练集样本在分类器的权重 / 目标属性y
权重 / y值都是根据上一轮的预测结果进行调整

2. 样本权重对比

Bagging思想使用随机抽样，样例是等权重
Boosting思想根据样本被分类错误与否，不断的调整样本的权重值，分类错误的样本权重大(Adaboost)

3. 预测函数

Bagging思想所有预测模型的权重相等
Boosting思想对于误差小的分类器具有更大的权重(Adaboost)

4. 并行计算

Bagging思想可以并行生成各个基模型
Boosting思想理论上只能顺序生产，因为后一个模型需要前一个模型的结果

5. 可解决问题

Bagging思想是减少模型的variance(方差)
基学习器分散，总模型几种
Boosting思想是减少模型的Bias(偏度)
基学习器不断更新模型，达到目标值

$error = B ia s + Va r ian ce$
在这里插入图片描述

对于Low Variance & Low Bias：模型准确
对于High Variance & Low Bias：模型准但不确
方差大，过拟合现象 => bagging
对于Low Variance & High Bias：模型确但不准
偏度大，欠拟合现象 => boosting

对于High Variance & High Bias：模型不准确

bagging是对许多强(甚至过强)的分类器求平均

	此时每个单独的分类器bias都是低的，平均之后bias依然低；然而每个单独的分类器variance都很高，平均之后就是降低这个variance

boosting是把许多弱分类器组合成一个强的分类器

	Boosting是迭代算法，每一次迭代都根据上一次迭代的预测结果，对样本进行加权随着迭代不断进行，误差会越来越小，所以模型的 bias 会不断降低；所以说boosting起到了降低bias的作用variance不是boosting的主要考虑因素

感谢阅读🌼
如果喜欢这篇文章，记得点赞👍和转发🔄哦！
有任何想法或问题，欢迎留言交流💬，我们下次见！
本文相关代码存放位置
【Boosting思想代码实现】

祝愉快🌟！