【Python机器学习】1.2. 线性回归理论：一元线性回归、最小化平方误差和公式(SSE)、梯度下降法

喜欢的话别忘了点赞、收藏加关注哦（关注即可查看全文），对接下来的教程有兴趣的可以关注专栏。谢谢喵！(=^･ω･=)
在这里插入图片描述

1.2.1. 什么是回归分析(Regressive Analysis)?

一些例子

举一些例子吧：

下图是一个每百万人医生数和人均寿命的关系图，其中散点是我们收集到的数据，而拟合出的曲线是我们需要找出的：
请添加图片描述

下图是一个年龄与身高的关系图，其中散点是收集到的数据，我们的目标是找到一条拟合曲线：
请添加图片描述

定义

相信看过上文两个例子之后你对回归分析又了一定的认识，这里我直接给出回归分析的定义：

根据数据，确定两种或两种以上变量间相互依赖的定量关系。

其函数表达式为: y = f(x_1, x_2 , …, x_n)

回归分析的分类

回归分析有很多种。

如果我们以变量数来分类，有：

一元回归：y = f(x)
多元回归：y = f(x_1, x_2 , …, x_n)

如果我们以函数关系来分类，有：

线性回归：y = ax + b
非线性回归：y = ax^2 + bx + c

1.2.2. 线性回归

线性回归指的是回归分析中，变量与因变量间存在线性关系。其函数表达式为：y = ax + b

回归问题求解

问题：面积为110平方米的房子售价150万是否值得投资？

面积(A)	售价§
79	404,976
92	948,367
…	…
108	1,049,007
110	???
118	578,142
…	…

我们要回答这个问题一般来说要分成以下几步去完成：

确定P、A之间的关系：P = f(A)
根据关系预测合理价格：P(A = 110) = f(110)
做出判断

这3步中最核心的问题就是第一步——找关系。

下图是根据表格数据整理出的散点图：
请添加图片描述

我们的目标就是要找到这条黑色的拟合曲线的对应的函数式是怎么写的。

这里我们假设这条拟合曲线是线性函数，也就是y = ax + b，所以我们真正的目标其实就是找到合理的参数a和b的值。

1.2.3. 最小化平方误差和公式

把问题进行以下转换：假设x为变量，y为对应的结果，y’(也就是ax + b)为模型输出的结果。这时候我们的目标就是让y’尽可能地接近y，也就是最小化平方误差和（Sum of Squared Errors, SSE）：
$\textit{minimize} \left\{ \sum_{i=1}^{m} (y'_i - y_i)^2 \right\}$

m：数据样本的数量。
y_i：第i个样本的真实值（ground truth）。
y‘_i：第i个样本的预测值（由模型计算得到）。
(y'_i - y_i)^2：每个样本的误差平方，表示预测值与真实值之间的偏差。
i = 1：i是数据点的索引，i = 1是指索引的起始值为1

我们还需要对这个公式进行一个变换：
$\textit{minimize} \left\{ \frac{1}{2m} \sum_{i=1}^{m} (y'_i - y_i)^2 \right\}$

该公式多了一个1/2m，主要是为了在梯度下降时更方便求导：
$\frac{d}{d\theta} \frac{1}{2m} \sum{i=1}^{m} (y{\prime}_i - y_i)^2$
导数中的2会被消去，使更新公式更简洁。由于m是一个常数，所以这个变换并不会影响最后得出的a和b的值。

一点名词解释：

梯度下降是一种优化算法，用于最小化函数（如机器学习模型的损失函数）。在机器学习和深度学习中，梯度下降用于优化模型参数，使损失函数的值最小化。
求导就是计算函数的斜率，描述一个变量如何随另一个变量的变化而变化。

一个小例子

我们来看一个小例子吧：
![[1.2. 线性回归理论/mat.png]]

黑色散点：代表真实值y
蓝色折线：代表预测值y'_1
红色折线：代表预测值y'_2
可以清楚地看到， y'_1和y'_2的趋势与y的分布情况。 y'_1 接近真实值，而y'_2变化趋势相反。

以下是数据的表格统计：

x	y	y’_1	y’_2
1	1	0.5	4
2	2	1	3
3	3	1.5	2

接下来我们就用上文讲过的SSE公式的变形来算误差：
$J_1 = \frac{1}{2m} \sum_{i=1}^{m} (y'_1 - y)^2 = \frac{1}{2 \times 3} \times \left( (0.5 - 1)^2 + (1 - 2)^2 + (1.5 - 3)^2 \right) = 0.583$
$J_2 = \frac{1}{2m} \sum_{i=1}^{m} (y'_2 - y)^2 = \frac{1}{2 \times 3} \times \left( (4 - 1)^2 + (3 - 2)^2 + (2 - 3)^2 \right) = 1.83$
可以看到，跟图中所展现的关系一样，J_1明显小于J_2，代表y'_1的误差明显小于y'_2。

一点题外话：上面的折线图是用matplotlib生成的哦，你也可以试着使用表格中的数据用Python写出一样的效果。我在下面提供了Python源码，写完之后你可以对照一下：

import matplotlib.pyplot as plt# 数据
x = [1, 2, 3]
y = [1, 2, 3]        # 真实值
y1_pred = [0.5, 1, 1.5]  # 预测值1
y2_pred = [4, 3, 2]  # 预测值2# 创建图表
plt.figure(figsize=(8, 5))# 绘制真实值的散点图
plt.scatter(x, y, color='black', marker='x', label="y (真实值)")# 绘制 y'_1 折线图
plt.plot(x, y1_pred, marker='o', linestyle='-', color='blue', label="y'_1 (预测值1)")# 绘制 y'_2 折线图
plt.plot(x, y2_pred, marker='o', linestyle='-', color='red', label="y'_2 (预测值2)")# 标注
plt.xlabel("x")
plt.ylabel("y")
plt.title("真实值与预测值对比")
plt.legend()
plt.grid(True)# 显示图表
plt.show()

1.2.4. 梯度下降法

OK，让我们回到正题。我们真正要求的是y = ax + b中a和b的值，所以我们还得变换一下SSE公式，让函数的参数变为a和b。其实这一步变化也很简单，就是把原函数中的y'_i替换成ax_i + b即可：
$\frac{1}{2m} \sum_{i=1}^{m} (y'_i - y_i)^2 = \frac{1}{2m} \sum_{i=1}^{m} (a x_i + b - y_i)^2 = g(a, b)$