【机器学习】回归模型（线性回归+逻辑回归）原理详解

线性回归 Linear Regression

1 概述

线性回归类似高中的线性规划题目。线性回归要做的是就是找到一个数学公式能相对较完美地把所有自变量组合（加减乘除）起来，得到的结果和目标接近。

线性回归分为一元线性回归和多元线性回归。

2 一元线性回归

2.1 构造回归方程

有n组数据，自变量（特征值） $x(x_1,x_2,...,x_n)$ 与因变量（目标值） $y(y_1,y_2,...,y_n)$ ，我们需要找到一个线性关系，使他们之间尽可能满足： $f (x) = a x + b$ ，这个就是构建的一元线性方程。

在这里插入图片描述

线性回归的目标就是让 $f (X)$ 与 $y$ 之间的差距最小，也就是权重 $a$ 和偏置 $b$ 取什么值的时候 $f (X)$ 和 $y$ 最接近。

2.2 构造损失函数

损失函数是来度量模型预测值与真实值不一样的程度的，或者说度量预测错误的程度，损失函数值越小，模型就越好。

在回归问题中，误差平方和是回归任务中最常用的性能度量。这里就可以令损失函数 $L (a, b)$ 等于误差平方和（均方误差）。

则损失函数为：
$\sum \limits_{i = 1}^{n}(f(x_i) - y_i)^2$

2.3 确定参数

我们需要通过最小的损失函数得到最佳的参数 $a$ 和 $b$ 。一般使用最小二乘法。
$\frac{\sum \limits_{i=1}^{n}x_iy_i - n \overline x \overline y}{\sum \limits_{i=1}^{n}x_i^2 - n \overline x ^ 2} \\ b = \overline y - a \overline x$

3 多元线性回归

多元线性回归类似一元

回归方程： $y = a_1 x_1 + a_2 x_2 + a_3 x_3 + ... + a_n x_n + b$

对所有的数据统一用矩阵形式表示：
$y^{(i)} = \theta ^ T x ^ {(i)} + \varepsilon^{(i)} \ (1)$

$y^{(i)}$ 表示第i个样本的真实值

$\varepsilon$ 误差代表真实值和预测值之间的差异

误差 $\varepsilon ^{(i)}$ 是独立并具有相同的分布，服从均值为 0 方差为 $\theta ^ 2$ 的高斯分布

损失函数
$L(a_1, a_2, ..., a_n, b) = \sum_{i = 1}^{n}(f(x_i) - y_i)^2$

高斯分布的概率函数：
$\frac{1}{\sqrt {2 \pi} \sigma} \exp{(-\frac{x^2}{2 \sigma ^ 2})} \ (2)$
将(1)带入(2)得到预测值成为真实值的概率函数：
$\theta) = \frac{1}{\sqrt {2 \pi} \sigma} \exp{(-\frac{(y^{(i)} - \theta ^ T x ^ {(i)})^2}{2 \sigma ^ 2})}$
似然函数：（什么样的参数计算出来的误差最小，即与实际值最接近）
$L(\theta) = \prod \limits_{i = 1}^{m} p(y ^ {(i)} | x ^ {(i)}; \theta) = \prod \limits_{i=1}^{m}\frac{1}{\sqrt {2 \pi} \sigma} \exp{(-\frac{(y^{(i)} - \theta ^ T x ^ {(i)})^2}{2 \sigma ^ 2})}$
对数似然法：（将乘法转化为加法），之后需要用极大似然估计方法求解
$L(\theta) = ln \prod \limits_{i=1}^{m}\frac{1}{\sqrt {2 \pi} \sigma} \exp{(-\frac{(y^{(i)} - \theta ^ T x ^ {(i)})^2}{2 \sigma ^ 2})}$
展开化简：
$L(\theta) = \sum \limits_{i = 1}^{m}ln \frac{1}{\sqrt {2 \pi} \sigma} \exp{(-\frac{(y^{(i)} - \theta ^ T x ^ {(i)})^2}{2 \sigma ^ 2})} \\ = mln \frac{1}{\sqrt {2 \pi} \sigma} - \frac{1}{\sigma^2} \frac{1}{2} \sum \limits _{i = 1}^{m} (y^{(i)} - \theta ^ T x ^ {(i)})^2$

目标：让似然函数越大越好（极大似然估计），即让 $J(\theta)$ 越小越好（可以使用最小二乘法求解）
$J(\theta) = \frac{1}{2} \sum \limits _{i = 1}^{m} (y^{(i)} - \theta ^ T x ^ {(i)})^2$

其实由损失函数也可以得到同样的式子：

对于 $\theta x + b$ ， $\theta$ 将 $b$ 也吸入进入得到 $\hat \theta = (\theta, b)$ ， $X$ 代表所有的样本数据，最后一个元素置1，最后要和 $\hat\theta$ 相乘，最后求偏导也是一样的结果。
$\sum \limits_{ i = 1 } ^ n ( y_i - f(x_i)) ^ 2 = (y - X \hat \theta)^T (y - X \hat\theta) \\ X = \begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1d} & 1 \\ x_{11} & x_{12} & \cdots & x_{1d} & 1 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{md} & 1 \end{pmatrix} = \begin{pmatrix} x_1^T & 1 \\ x_2^T & 1 \\ \vdots & \vdots \\ x_m^T & 1 \end{pmatrix}$

矩阵求导参考：

https://zhuanlan.zhihu.com/p/263777564 （先导篇）
https://zhuanlan.zhihu.com/p/273729929 （公式篇）

在这里插入图片描述

4 梯度下降

梯度下降法（gradient descent）是一种常用的一阶（first-order）优化方法。主要解决求最小值问题，其基本思想在于不断地逼近最优点，每一步的优化方向就是梯度的方向。

4.1 梯度下降方法

批量梯度下降

容易得到最优解，但是由于每次考虑所有样本，速度很慢。

随机梯度下降

每次找一个样本，迭代速度很快，但不一定每次都朝着收敛的方向。

小批量梯度下降

每次更新一小部分数据来算，因为在整个训练集上算梯度资源消耗太大，我们可以随机采取 $b$ 个样本 $i_1, i_2, \cdots, i_b$ 来近似损失， $e$ 是损失函数， $b$ 是批量大小。
$\frac{1}{b} \sum \limits_{i \in I_b} \mathcal{e}(\mathbf{x_i}, y_i, \mathbf{w})$

4.2 其他参数

学习率：更新的步长

在这里插入图片描述

批处理数量

一般batch_size选择32，64，128等，有时候会考虑内存和效率。

逻辑回归

逻辑回归是一个经典的二分类算法。

1 sigmoid函数

$\frac{1}{1 + e ^ {-z}}, z \in R$

在这里插入图片描述

将任意的输入映射到了 $[0, 1]$ 区间中，在线性回归中可以得到一个预测值，再将该值映射到sigmoid函数中，这样就可以完成由值到概率的转换，这就是分类任务。

2 逻辑回归求解

预测函数：
$h_{\theta}(x) = g(\theta ^ T x) = \frac{1}{1 + e ^ {-\theta^T x}} \\ \text{其中} \theta_0 + \theta_1 x_1 + ... + \theta_n x_n = \sum \limits_{i = 1}^n \theta_i x_i = \theta ^ T x$
分类任务：
$\begin{cases} P(y = 1|x; \theta) = h_\theta(x) \\ P(y = 0|x; \theta) = 1 - h_\theta(x) \end{cases} \Rightarrow P(y | x; \theta) = (h_\theta(x)) ^ y (1 - h_\theta(x)) ^ {1 - y}$
对于二分类任务（0， 1），整合后，y取0只保留 $h_\theta(x)) ^ {1 - y}$ ，y取1只保留 $(h_\theta(x)) ^ y$ 。

似然函数：
$L(\theta) = \prod \limits_{i = 1}^m P(y_i | x_i; \theta) = \prod \limits_{i = 1}^m (h_\theta(x_i)) ^ y_i (1 - h_\theta(x_i)) ^ {1 - y_i}$
对数似然法，即求 $l(\theta)$ 的最大值：
$l(\theta) = logL(\theta) = \sum \limits_{i = 1} ^m (y_i log h_\theta(x_i) + (1 - y_i) log (1 - h_\theta(x_i)))$
将上述函数转化为求最小值，同时系数乘上一个常数，即求 $J(\theta) = -\frac{1}{m}l(\theta)$ 的最小值，转化为梯度下降问题：
$J(\theta) = -\frac{1}{m}l(\theta)$
在这里插入图片描述

上述过程即求出了偏导的方向，有了更新方向就可以进行参数更新： $\alpha$ 代表学习率
$\theta_j = \theta_j - \alpha \frac{1}{m} \sum \limits_{i = 1} ^ m (h_\theta(x_i) - y_i)x_i^j$

减法是代表用的梯度下降，整体除以m是考虑了所有的m个样本。

多分类问题：

在这里插入图片描述

Softmax回归是逻辑回归的一般化，相关对比参考 https://zhuanlan.zhihu.com/p/98061179

模型评估标准

1 回归模型评估

1.1 平均绝对误差（Mean Absolute Error，MAE）

平均绝对误差就是指预测值与真实值之间平均相差多大
$\frac{1}{m}\sum \limits _{i = 1}^m \lvert f_i - y_i \rvert$

1.2 均方误差（Mean Squared Error，MSE）

观测值与真值偏差的平方和与观测次数的比值
$\frac{1}{m} \sum \limits_{i = 1}^m(f_i - y_i)^2$
这也是线性回归中最常用的损失函数，线性回归过程中尽量让该损失函数最小。那么模型之间的对比也可以用它来比较。

MSE可以评价数据的变化程度，MSE的值越小，说明预测模型描述实验数据具有更好的精确度。

1.3 R-square（决定系数）

$R^2 = 1 - \frac{\sum(Y_{actual} - Y_{predict})^2}{\sum(Y_{actual} - Y_{mean})^2}$

1.4 Adjusted R-Square（校正决定系数）

$R^2_{adjusted} = 1 - \frac{(1 - R^2)(n - 1)}{n - p - 1}$

n为样本数量，p为特征数量

消除了样本数量和特征数量的影响

1.5 交叉验证

我们有一个总的数据集，将总数据集切分，例如，将数据分为训练集（80%）和测试集（20%），训练集用来训练model，测试集用来最终的测试。

训练集还再平均进行切分为3份（标号为1、2、3）。

测试集和训练集的比例自己定。

交叉验证就是在训练集中，采用2份数据来训练，用另一份数据来验证训练出的模型的参数，进行3次。

即：1 + 2来训练，3验证；2 + 3来训练，1来验证；1 + 3来训练，2来验证。

为了让模型的评估效果比较好，最后将3次的参数取平均值。

无论分类还是回归模型，都可以利用交叉验证，进行模型评估

sklearn模块中有交叉验证函数，例如sklearn.cross_validation 中的 train_testsplit 函数

交叉验证主要是为了防止某一部分数据比较简单，导致模型的效果比较高。

2 分类模型评估

2.1 准确率、精确率、召回率、f1_score

准确率（Accuracy）的定义是：对于给定的测试集，分类模型正确分类的样本数与总样本数之比；
精确率（Precision）的定义是：对于给定测试集的某一个类别，分类模型预测正确的比例，或者说：分类模型预测的正样本中有多少是真正的正样本；
召回率（Recall）的定义为：对于给定测试集的某一个类别，样本中的正类有多少被分类模型预测正确；

假设有1000个人，其中990个人正常，有10个人患有癌症，模型旨在预测哪些人是患有癌症的。

如果模型预测1000个人中都是正常的，没有癌症患者，那么可以说模型的精度是 $\frac{990}{1000}=0.99$ 。虽然精度很高，但是都是正样本，没有负样本，模型是无用的，因为一个患者都没有找到。因此无法用精度来评估模型，而是使用recall召回率来评估。
F1_score，在理想情况下，我们希望模型的精确率越高越好，同时召回率也越高越高，但是，现实情况往往事与愿违，在现实情况下，精确率和召回率像是坐在跷跷板上一样，往往出现一个值升高，另一个值降低，那么，有没有一个指标来综合考虑精确率和召回率了，这个指标就是F值。F值的计算公式为：
$\frac{(a ^ 2 + 1) \times P \times R}{a ^ 2 \times (P + R)}$

P: Precision， R: Recall, a：权重因子

当a=1时，F值便是F1值，代表精确率和召回率的权重是一样的，是最常用的一种评价指标。

F1的计算公式为： $\frac{2 \times P \times R}{P + R}$