机器学习：深入解析SVM的核心概念【四、软间隔与正则化】

软间隔与正则化

- 问题一：优化目标函数是如何得到的？得到的过程是怎样的？
- 问题二：拉格朗日乘子法计算详细过程
- 问题三：KKT条件求解过程
- 问题四：结构风险最小化（SRM）的原理

在前面的讨论中,我们一直假定训练样本在样本空间或特征空间中是线性可分的,即存在一个超平面能将不同类的样本完全划分开.然而,在现实任务中往往 很难确定合适的核函数 使得训练样本在特征空间中线性可分;

退一步说,即便恰好找到了某个核函数使训练集在特征空间中线性可分，也很难断定这个貌似线性可分的结果不是由于过拟合所造成的.

问题一：优化目标函数是如何得到的？得到的过程是怎样的？

在这里插入图片描述

软间隔SVM是对传统的硬间隔SVM的扩展，它允许某些数据点违反最初的分类边界。这样做的目的是提高模型对噪声和异常值的鲁棒性，从而获得更好的泛化能力。在这个设置中，优化目标函数的推导过程是这样的：

软间隔引入：为了应对现实世界数据中的噪声和不完全线性可分的情况，引入软间隔的概念。在硬间隔SVM中，所有数据点都严格满足 $y_i (w^T x_i + b) \geq 1$ 的约束。在软间隔SVM中，我们允许某些点不满足这个条件，引入松弛变量 $\xi_i$ 来衡量每个数据点违背间隔的程度。
优化目标函数：考虑到间隔违规和模型的复杂度，我们希望最小化一个包含正则化项（控制模型复杂度）和损失项（衡量间隔违规）的目标函数。因此，目标函数变为最小化 $\frac{1}{2} \|w\|^2$ （正则化项）加上 $\sum \xi_i$ （损失项），其中 $C$ 是一个正的正则化参数，用于平衡两者之间的重要性。
调整约束：每个数据点的原始约束 $y_i (w^T x_i + b) \geq 1$ 被调整为 $y_i (w^T x_i + b) \geq 1 - \xi_i$ ，同时确保松弛变量 $\xi_i$ 是非负的。
替代损失函数：松弛变量 $\xi_i$ 对应于 $\ell_0/1$ 损失函数的替代。在优化过程中，由于 $\ell_0/1$ 损失函数不是 连续的 ，不易优化，通常会采用其他连续可微的损失函数，如 hinge 损失函数 或 对数损失函数。

hinge 损失： $l_{\text{hinge}}(z) = \max(0, 1 - z)$ ;
指数损失(exponential loss)： $l_{\text{exp}}(z) = \exp(-z)$ ;
对数损失(logistic loss)： $l_{\text{log}}(z) = \log(1 + \exp(-z))$ .

三种常见替代损失函数
5. 最终优化问题：考虑到以上的点，我们的最终优化问题形式化为：
$\text{minimize}_{w,b,\xi} \quad \frac{1}{2} \|w\|^2 + C \sum_{i=1}^{m} \xi_i$
$\text{subject to} \quad y_i(w^T x_i + b) \geq 1 - \xi_i, \quad \xi_i \geq 0, \quad i=1, \ldots, m.$

在这个过程中，软间隔的引入以及对目标函数的修改都是为了使模型更适应实际数据集的复杂性。正则化参数 $C$ 的选择变得至关重要，因为它直接影响模型对数据中噪声的容忍程度和防止过拟合的能力。通过合理设置 $C$ ，模型可以在保持足够间隔的同时，允许某些数据点的违规，从而在保持模型泛化能力的前提下，最小化总体损失。

问题二：拉格朗日乘子法计算详细过程

定义问题和约束：
- 原始的SVM问题是最大化间隔，等价于最小化 $\frac{1}{2}\|w\|^2$ 。
- 我们要求每个数据点至少有一个距离超平面的函数间隔1。在软间隔SVM中，我们允许函数间隔小于1，但这种违规要受到惩罚。
- 引入松弛变量 $\xi_i$ 来度量第 ( i ) 个数据点的间隔违规程度。
引入拉格朗日乘子：
- 对每个数据点 ( i )，我们有两个约束：函数间隔 $y_i(w^T x_i + b) \geq 1 - \xi_i$ 和松弛变量 $\xi_i \geq 0$
- 为这两个约束引入两组拉格朗日乘子 $\alpha_i$ 和 $\mu_i$ ，它们必须满足 $\alpha_i \geq 0$ 和 $\mu_i \geq 0$
构建拉格朗日函数：
- 对于每个数据点 ( i )，对应的拉格朗日函数部分是 $\alpha_i (1 - \xi_i - y_i(w^T x_i + b))$ 和 $\mu_i \xi_i$ 。
- 所有数据点的拉格朗日函数相加，我们得到总拉格朗日函数
- $\alpha, \xi, \mu) = \frac{1}{2}\|w\|^2 + C\sum_{i=1}^{m} \xi_i + \sum_{i=1}^{m} \alpha_i (1 - \xi_i - y_i(w^T x_i + b)) - \sum_{i=1}^{m} \mu_i \xi_i$
- 这里 $C$ 是一个预先设定的正则化参数，它平衡了间隔的宽度和违规程度。
拉格朗日对偶问题：
- 通过对 $L$ 关于 $w$ 、 $b$ 和 $\xi$ 求偏导并设为0，我们可以得到 $w$ 、 $b$ 和 $\xi$ 的表达式，然后将它们从拉格朗日函数中消除，得到只关于 $\alpha$ 和 $\mu$ 的函数。

对 ( w ) 求偏导：
针对拉格朗日函数中与 $w$ 相关的部分 $\frac{1}{2}\|w\|^2$ 和 $\sum_{i=1}^{m} \alpha_i (1 - \xi_i - y_i(w^T x_i + b))$ ，我们分别对其求偏导。
首先，对 $\frac{1}{2}\|w\|^2$ 求偏导： $\frac{\partial L}{\partial w} = w$
然后，对 $\sum_{i=1}^{m} \alpha_i (1 - \xi_i - y_i(w^T x_i + b))$ 求偏导： $\frac{\partial L}{\partial w} = -\sum_{i=1}^{m} \alpha_i y_i x_i$
最终，令两者相等并设为零，我们有： $\sum_{i=1}^{m} \alpha_i y_i x_i = 0$
对 ( b ) 求偏导：
针对拉格朗日函数中与 ( b ) 相关的部分 $\sum_{i=1}^{m} \alpha_i (1 - \xi_i - y_i(w^T x_i + b))$ ，我们对其求偏导。
对 $\sum_{i=1}^{m} \alpha_i (1 - \xi_i - y_i(w^T x_i + b))$ 求偏导：
$\frac{\partial L}{\partial b} = -\sum_{i=1}^{m} \alpha_i y_i$
令其等于零，得到：
$-\sum_{i=1}^{m} \alpha_i y_i = 0$
对 $\xi$ 求偏导：
针对拉格朗日函数中与 $\xi$ 相关的部分 $C\sum_{i=1}^{m} \xi_i - \sum_{i=1}^{m} \mu_i \xi_i$ ，我们对其求偏导。
对 $C\sum_{i=1}^{m} \xi_i - \sum_{i=1}^{m} \alpha_i (1 - \xi_i - y_i(w^T x_i + b)) - \sum_{i=1}^{m} \mu_i \xi_i$ 求偏导： $\frac{\partial L}{\partial \xi_i} = C - \alpha_i - \mu_i$
令其等于零，得到：
$\alpha_i - \mu_i = 0 \quad \text{对所有的} i$

得到结果
$\sum_{i=1}^{m} \alpha_i y_i x_i$
$\sum_{i=1}^{m} \alpha_i y_i = 0$
$\alpha_i + \mu_i$

得到对偶优化问题：
- 消除 $w$ 、 $b$ 和 $\xi$ 后，我们得到对偶问题的最大化问题，仅关于 $\alpha$ ：
  $\max_{\alpha} \left[ \sum_{i=1}^{m} \alpha_i - \frac{1}{2} \sum_{i,j=1}^{m} y_i y_j \alpha_i \alpha_j x_i^T x_j \right]$
- 并且要满足约束 $\sum_{i=1}^{m} \alpha_i y_i = 0$ 和 $\leq \alpha_i \leq C$

根据KKT（Karush-Kuhn-Tucker）条件，对于每个数据点 $x_i$ ，如果 $\alpha_i = 0$ ，那么该数据点不会对模型的决策边界造成影响；如果 $\alpha_i < C$ ，那么 $x_i$ 是支持向量，并且处在边界上；如果 $\alpha_i = C$ ，那么数据点 $x_i$ 被误分类，或者它恰好在边界的违反侧上。

当 (\alpha_i = 0) 时：
这意味着对应的数据点 $x_i$ 不对模型的优化造成任何影响，也就是说它不是支持向量。这些点要么被正确分类且 远离决策边界 ，要么在软间隔SVM中，这些点虽然被误分类但由于它们的影响在优化过程中被允许忽略（即对总损失的贡献被限制在了可接受的成本 $C$ 内）。

当 (0 < \alpha_i < C) 时：
这表示数据点 $x_i$ 恰好在边界上，即它是一个 支持向量 。在SVM中，这些支持向量决定了最终的决策边界。它们恰好位于或者非常接近我们希望数据点分界的边界线。

当 (\alpha_i = C) 时：
这表示数据点 $x_i$ 在优化过程中发挥了最大的影响，可能是因为它被误分类，或者即便它被正确分类，也位于边界内侧 紧邻决策边界 的地方。在软间隔SVM中，这代表该点被允许违反最大间隔距离，但是由于其 $\alpha_i$ 值达到了上限 $C$ ，这种违反的程度受到了约束。

当我们将拉格朗日函数 $L(\alpha, \mu)$ 展开后，我们需要消除 $w$ 和 (b)，以及处理约束条件：

消除 $w$ 和 (b)：

我们已经有了 $\sum_{i=1}^{m} \alpha_i y_i x_i$ 和约束条件 $\sum_{i=1}^{m} \alpha_i y_i = 0$ 。我们代入 $w$ 的表达式和约束条件：

$\begin{align*} L(\alpha, \mu) &= \frac{1}{2}\left\| \sum_{i=1}^{m} \alpha_i y_i x_i \right\|^2 + C\sum_{i=1}^{m} (C - \alpha_i - \mu_i) \\ &\quad + \sum_{i=1}^{m} \alpha_i \left(1 - (C - \alpha_i - \mu_i) - y_i\left(\left(\sum_{j=1}^{m} \alpha_j y_j x_j\right)^T x_i\right)\right) \\ &\quad - \sum_{i=1}^{m} \mu_i (C - \alpha_i - \mu_i) \end{align*}$

我们可以进一步化简上述表达式。
化简 $\| \sum_{i=1}^{m} \alpha_i y_i x_i \|^2$ 【内积展开】：

注意到 $\| \sum_{i=1}^{m} \alpha_i y_i x_i \|^2$ 可以写为 $(\sum_{i=1}^{m} \alpha_i y_i x_i)^T (\sum_{i=1}^{m} \alpha_i y_i x_i)$ 。展开后得到：

$\| \sum_{i=1}^{m} \alpha_i y_i x_i \|^2 = (\sum_{i=1}^{m} \alpha_i y_i x_i)^T (\sum_{i=1}^{m} \alpha_i y_i x_i) = \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_i \alpha_j y_i y_j x_i^T x_j$
代入约束条件 $\sum_{i=1}^{m} \alpha_i y_i = 0$ ：

由于约束条件是 $\sum_{i=1}^{m} \alpha_i y_i = 0$ ，我们可以将 $\mu$ 表达为 $\mu_i = C - \alpha_i$ 。
代入上述结果到拉格朗日函数：

代入上述结果后，我们得到：

$\begin{align*} L(\alpha) &= \sum_{i=1}^{m} \alpha_i - \frac{1}{2} \sum_{i,j=1}^{m} \alpha_i \alpha_j y_i y_j x_i^T x_j \end{align*}$
以上步骤消除了 $w$ 和 (b)，并将 $L(\alpha, \mu)$ 表达为关于 $\alpha$ 的函数。

最大化 $L(\alpha)$ ：

我们的目标是最大化 $L(\alpha)$ ，即求解：

$\max_{\alpha} \left[ \sum_{i=1}^{m} \alpha_i - \frac{1}{2} \sum_{i,j=1}^{m} y_i y_j \alpha_i \alpha_j x_i^T x_j \right]$

并且要满足约束条件：

$\begin{cases} \sum_{i=1}^{m} \alpha_i y_i = 0 \\ 0 \leq \alpha_i \leq C, \quad i = 1, 2, ..., m \end{cases}$

问题三：KKT条件求解过程

和前面相比，两者唯一差别就在约束条件不同；
带有软间隔的KKT条件
了解KKT条件的推导过程首先要理解拉格朗日乘子法在处理优化问题时如何使用。在软间隔支持向量机中，我们希望最小化以下拉格朗日函数：

$\alpha, \xi, \mu) = \frac{1}{2}\|w\|^2 + C\sum_{i=1}^{m} \xi_i + \sum_{i=1}^{m} \alpha_i (1 - \xi_i - y_i(w^T x_i + b)) - \sum_{i=1}^{m} \mu_i \xi_i$

其中， $\alpha$ 和 $\mu$ 是拉格朗日乘子， $\xi$ 是松弛变量。

这个函数结合了目标函数和对每个样本 $x_i$ 的约束，其中 $y_i(w^T x_i + b) \geq 1 - \xi_i$ 。由于 $\xi_i$ 允许一定的分类违规，我们加入正则化参数 $C$ 以限制这种违规。

KKT条件是最优解必须满足的一组条件，它们来自拉格朗日函数 $L$ 关于每个变量的偏导数等于零的必要条件。下面是KKT条件：

$\alpha_i \geq 0$ 和 $\mu_i \geq 0$ ：这确保了拉格朗日乘子是非负的。在优化问题中，拉格朗日乘子用来 加权约束条件 ，而这个权重不能是负的。
$y_i f(x_i) - 1 + \xi_i \geq 0$ ：这是原始问题的约束，表示每个数据点的函数间隔至少为1，满足 $\xi_i$ （如果数据点被正确分类且在正确的间隔边界上或者超出间隔边界）。如果 $\xi_i > 0$ ，则该数据点有分类违规。
$\alpha_i(y_i f(x_i) - 1 + \xi_i) = 0$ ：互补松弛性条件。如果 $\alpha_i > 0$ ，则对应的 $y_i f(x_i) - 1 + \xi_i$ 必须等于0。这意味着对于非零 $\alpha_i$ 的数据点，它们要么恰好在决策边界上，要么就是被 错误分类 的点。
$\xi_i \geq 0$ ：松弛变量的非负性，允许某些数据点违背硬间隔条件。
$\mu_i \xi_i = 0$ ：这是对 $\mu$ 的互补松弛性条件，表明如果松弛变量 $\xi_i > 0$ ，即有分类违规，那么对应的 $\mu_i$ 必须是 0，反之亦然。