机器学习——支持向量机（SVM）（1）

一、认识SVM

1. 基本介绍

2. 支持向量机分类器目标

二、线性SVM分类原理（求解损失）

三、重要参数

1. kernel（核函数）

2 .C（硬间隔与软间隔）

四、sklearn中的支持向量机（自查）

1. 种类

2. 参数列表（SVC）

3. 属性列表（SVC）

4. 接口列表（SVC）

一、认识SVM

1. 基本介绍

支持向量机（Support Vector Machine，SVM）属于有监督学习模型，主要用于解决数据分类问题。SVM 将每个样本数据表示为空间中的点，使不同类别的样本点尽可能明显地区分开。通过将样本的向量映射到高维空间中，寻找最优区分两类数据的超平面，使各分类到超平面的距离最大化，距离越大表示 SVM 的分类误差越小。

通常 SVM 用于二元分类问题，对于多元分类可将其分解为多个二元分类问题，再进行分类，主要的应用场景有图像分类、文本分类、面部识别、垃圾邮件检测等领域。

2. 支持向量机分类器目标

支持向量机的分类方法，是在样本分布中找出一个超平面作为决策边界，使模型在数据上的分类误差尽量接近于小，尤其是在未知数据集上的分类误差（泛化误差）尽量小。

超平面

在几何中，超平面是一个空间的子空间，它是维度比所在空间小一维的空间。在二分类问题中，如果一个超平面能够将数据划分为两个集合，其中每个集合中包含单独的一个类别，我们就说这个超平面是数据的 “决策边界”。

对于一个数据集来说，让训练误差为 0 的决策边界可以有无数条。但这无法保证这条决策边界在未知数据集（测试集）上的表现也会优秀。

对于现有的数据集来说，有 B1 和 B2 两条可能的决策边界。可以把决策边界 B1 向两边平移，直到碰到离这条决策边界最近的方块和圆圈后停下，形成两个新的超平面，分别是 b11 和 b12，并且将原始的决策边界移动到 b11 和 b12 的中间，确保 B1 到 b11 和 b12 的距离相等。在 b11 和 b12 中间的距离，叫做 B1 这条决策边界的 边际 (margin），通常记作 d。

我们引入和原本的数据集相同分布的 测试样本（红色所示）。可得，拥有更大边际的决策边界在分类中的泛化误差更小。如果边际很小，则任何轻微扰动都会对决策边界的分类产生很大的影响。

边际很小 的情况，是一种模型在训练集上表现很好，却在测试集上表现糟糕的情况，所以会 “过拟合”。所以我们在找寻决策边界的时候，希望边际越大越好。支持向量机，就是通过找出边际最大的决策边界，来对数据进行分类的分类器。

二、线性SVM分类原理（求解损失）

假设数据中总计有 N 个训练样本，每个训练样本 i 可以被表示为（xi，yi）（ i=1,2，.… N ），其中 xi 是（ x1i，x2i … xni ）T 这样的一个特征向量，每个样本总共含有 n 个特征。二分类标签 yi 的取值是｛-1，1｝。如果 n 等于 2，则有 i =（x1i，x2i，yi）T，分别由特征向量和标签组成。此时可以在二维平面上，以 x2 为横坐标，x1 为纵坐标，y 为颜色，来可视化所有的 N 个样本。（紫色点的标签为 1，红色点的标签为 -1）

在二维平面上，决策边界（超平面）就是一条直线。二维平面上的任意一条线可以被表示为：

变换可得：

其中［a，-1］就是参数向量 w，x 就是特征向量，b 是截距。

在一组数据下，给定固定的 w 和 b，这个式子就可以是一条固定直线，在 w 和 b 不确定的状况下，这个表达式 wT x+b=0 就可以代表平面上的任意一条直线。如果在 w 和 b 固定时，给定一个唯一的 x 的取值，这个表达式就可以表示固定的一个点。在 SVM 中，就使用这个表达式来表示决策边界。

我们目标是求解能够让边际最大化的决策边界，所以要求解参数向量 w 和截距 b。

如果在决策边界上任意取两个点 xa、xb，并带入决策边界的表达式，则有：

两式相减得：

两个向量的点击为 0 表示两个向量的方向式互相垂直的。xa-xb 的方向是平行于他们所在的直线（决策边界）。而 w 与 xa-xb 相互垂直，所以参数向量 w 的方向必然是垂直于决策边界。

这样任意一个紫色的点 xp，就可以被表示为：

紫色点所代表的标签 y 是 1，所以规定 p > 0。同样对于任意一个红色的点 xr 而言，可以将它表示为：

红色点所表示的标签 y 是 -1，所以规定 r < 0。由此，如果有新的测试数据 xt，则的 xt 标签就可以根据以下式子来判定：

补充：

决策边界的两边要有两个超平面，这两个超平面在二维空间中就是两条平行线（虚线超平面），而他们之间的距离就是边际 d。而决策边界位于这两条线的中间，所以这两条平行线必然是 对称的。我们另这两条平行线被表示为：

变化得：

这就是平行于决策边界的两条线的表达式，表达式两边的 1 和 -1 分别表示了两条平行于决策边界的虚线到决策边界的相对距离。此时，可以让这两条线分别过两类数据中距离我们的决策边界最近的点，这些点就被称为 “支持向量”，而 决策边界永远在这两条线的中间，所以可以被调整。令紫色类的点为 xt，红色类的点为 xr，则可以得到：

变化得：

如下图所示，（xp - xr）可表示为两点之间的连线，而边际 d 是平行于 w 的，所以现在，相当于是得到了三角型中的斜边，并且知道一条直角边的方向。

在线性代数中，可以得到：

补充：

要最大化 d，就求解 w 的最小值。极值问题可以相互转化，可以把求解 w 的最小值转化为求解以下函数的最小值：

对于任意样本 i，可以把决策函数写做：

整理得：

将函数间隔作为条件附加到 f（w）上，就得到了 SVM 的损失函数最初形态：

这个损失函数分为两部分：需要最小化的函数，以及参数求解后必须满足的约束条件。这是一个最优化问题。

损失函数是二次的（quadratic），并且损失函数中的约束条件在参数 w 和 b 下是线性的，求解这样的损失函数被称为 “凸优化问题”（comvex optimiztion problem）。拉格明日乘数法正好可以用来解决凸优化问题，解决带约束条件，尤其是带有不等式的约束条件的函数的数学方法。

首先需要使用拉格朗日乘数来将损失函数改写为考虑了约束条件的形式：

此时要求解的就不只有参数向量 w 和截距 b 了，也要求解拉格朗日乘数 a。而 xi 和 yi 都是已知的特征矩阵和标签。

对参数求导后让一阶导数等于 0 得：

由于两个求偏导结果中都带有未知的拉格朗日乘数 ai，因此还是无法求解出 w 和 b 。这里拉格朗日函数还可以被转换成一种只带有 ai，而不带有 w 和 b 的形式，这种形式被称为 拉格朗日对偶函数。在对偶函数下，就可以求解出拉格朗日乘数 ai，然后带入到上面推导出的（1）和（2）式中来求解 w 和 b 。

        对于任何一个拉格朗日函数，都存在一个与它对应的对偶函数g（a），只带有拉格朗日乘数a作为唯一的参数。如果L（x，a）的最优解存在并可以表示为，并且对偶函数的最优解也存在并可以表示为，则我们可以定义对偶差异（dual gap），即拉格朗日函数的最优解与其对偶函数的最优解之间的差值：



        如果上式等于 0，则称 L（x，a）与其对偶函数之间 存在强对偶关系（strong duality property），此时就可以通过求解其对偶函数的最优解来替代求解原始函数的最优解。强对偶关系只在这个 拉格朗日函数满足 KKT（Karush-Kuhn-Tucker）条件下存在：



        当所有限制都被满足，则拉格朗日函数 L（x，a）的最优解与其对偶函数的最优解相等，就可以将原始的最优化问题转换成为对偶函数的最优化问题。而不难注意到，对于损失函数 L（w,b,a）而言，KKT条件都是可以操作的。如果能够人为让 KKT条件全部成立，就可以 求解出L（w,b,a）的对偶函数来解出 a。

函数 Ld 就是对偶函数。对所有存在对偶函数的拉格朗日函数有对偶差异如下表示：

则对于 L（w，b，a）和 Ld，则有：

求解对偶函数的过程其实是在求解 L（w,b,a）的最小值，所以又可以把公式写成：

如此，只需要求解对偶函数的最大值，就可以求出 a 了。最终目标函数变化为：

接下来就需要使用梯度下降，SMO 或者二次规划（QP，quadratic programming）来求解 a，一旦求得了 a 值，就可以使用求导后得到的（1）式求解 w，并可以使用（1）式和决策边界的表达式结合求解出 b。

当求得特征向量 w 和 b，就得到了决策边界的表达式，也就可以利用决策边界和其有关的超平面来进行分类了，决策函数就可以被写作：

其中 xtest 是任意测试样本，sign（h）是h＞0 时返回 1，h＜0 时返回 -1 的符号函数。

三、重要参数

1. kernel（核函数）

当数据在原始特征空间中线性不可分时，就需要通过某种方式将数据映射到一个更高维的空间中，使得在这个新空间中数据变得线性可分。核函数正是用来实现这种映射的。它并不直接对数据进行映射，而是定义了一个计算两个样本点之间相似度（或内积）的函数。在 SVM 的训练过程中，核函数被用来计算样本点之间的相似度，从而在高维空间中寻找最优的超平面。选用不同的核函数，就可以解决不同数据分布下的寻找超平面问题。