[机器学习] 监督学习之线性回归与逻辑回归

这里写目录标题

- 一、监督学习概述
- 二、线性回归
- - （一）模型表示
  - （二）损失函数
  - （三）梯度下降算法
  - 导入所需库
  - 生成模拟数据（可替换为真实数据）
  - 初始化参数并进行训练
  - 可视化损失函数随迭代次数的变化情况（可选，用于查看训练效果）
  - 使用训练好的模型进行预测（示例预测新的样本，这里可根据实际需求调整）
- 三、逻辑回归
- - （一）模型表示
  - （二）损失函数
  - （三）梯度下降与参数更新
- 四、模型评估指标
- - （一）回归问题评估指标
  - （二）分类问题评估指标
- 五、过拟合与欠拟合
- 六、正则化

一、监督学习概述

监督学习是利用有标记的数据进行模型训练，使模型能够对未知数据进行预测。训练数据包含输入特征（通常用 (x) 表示）和对应的输出标签（通常用 (y) 表示）。其主要任务可分为回归（预测连续值）和分类（预测离散类别）。

二、线性回归

(超爽中英!) 2024公认最好的【吴恩达机器学习】教程！附课件代码 Machine Learning Specialization

（一）模型表示

单变量线性回归模型： $h_{\theta}(x)=\theta_{0}+\theta_{1}x$ ，其中 $\theta_{0}$ 为截距， $\theta_{1}$ 为斜率。

from sklearn.linear_model import LinearRegression
import numpy as np
import matplotlib.pyplot as plt# 生成模拟数据（这里简单地使用线性关系加一些噪声来模拟）
np.random.seed(0)
x = np.linspace(0, 10, 100).reshape(-1, 1)  # 生成100个在0到10之间均匀分布的x值，并转换为列向量
theta_0_true = 2  # 真实的截距
theta_1_true = 3  # 真实的斜率
y_true = theta_0_true + theta_1_true * x
y = y_true + np.random.normal(0, 2, size=(100, 1))  # 添加一些正态分布的噪声模拟实际观测值# 创建线性回归模型对象并拟合数据
model = LinearRegression()
model.fit(x, y)# 获取拟合的参数
theta_0_fit = model.intercept_[0]
theta_1_fit = model.coef_[0][0]# 定义预测函数（其实可以直接使用model.predict方法进行预测，这里只是为了形式统一展示）
def h_theta(x, theta_0, theta_1):"""根据拟合的参数进行预测"""return theta_0 + theta_1 * x# 使用拟合的模型进行预测
y_pred = h_theta(x, theta_0_fit, theta_1_fit)# 可视化数据和拟合的直线
plt.scatter(x, y, label='Observed Data')
plt.plot(x, y_pred, color='r', label='Fitted Line')
plt.xlabel('x')
plt.ylabel('y')
plt.title('Linear Regression')
plt.legend()
plt.show()

代码中，使用了 sklearn 库中的 LinearRegression 类来拟合线性回归模型，它内部已经实现了高效的最小二乘法计算等逻辑，通过调用 fit 方法传入输入特征 x 和目标值 y 就可以完成模型的拟合，然后可以通过 intercept_ 属性获取截距（对应 theta_0），通过 coef_ 属性获取系数（对应 theta_1）
在这里插入图片描述

多变量线性回归模型： $h_{\theta}(x)=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+\cdots+\theta_{n}x_{n}=\theta^{T}x$ ，这里 $\begin{bmatrix} 1 \\ x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{bmatrix}$ , $\theta = \begin{bmatrix} \theta_{0} \\ \theta_{1} \\ \theta_{2} \\ \vdots \\ \theta_{n} \end{bmatrix}$

（二）损失函数

损失函数衡量了当前模型预测值与真实目标值之间的差异程度。

均方误差损失函数： $J(\theta)=\frac{1}{2m}\sum_{i = 1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^{2}$ ，其中 (m) 为训练样本数量， $x^{(i)}$ 和 $y^{(i)}$ 分别是第 (i) 个训练样本的特征和标签。

def compute_loss(x, y, theta):"""计算均方误差损失函数。参数:x: 特征矩阵，形状为 (m, n+1)，m是样本数量，n是特征数量（包含常数项1对应的列）y: 目标值向量，形状为 (m, 1)theta: 参数向量，形状为 (n+1, 1)返回:loss: 计算得到的均方误差损失值"""m = x.shape[0]predictions = np.dot(x, theta)loss = np.sum((predictions - y) ** 2) / (2 * m)return loss

（三）梯度下降算法

梯度下降算法，在每次迭代中，根据当前参数下预测值与真实值的误差来计算梯度，进而按照学习率alpha更新参数theta，同时记录每次迭代的损失值到loss_history列表中，这样可以后续查看损失函数的收敛情况。

参数更新公式： $\theta_{j}:=\theta_{j}-\alpha\frac{\partial J(\theta)}{\partial\theta_{j}}$

对于单变量线性回归：
$\frac{\partial J(\theta)}{\partial\theta_{0}}=\frac{1}{m}\sum_{i = 1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})$
$\frac{\partial J(\theta)}{\partial\theta_{1}}=\frac{1}{m}\sum_{i = 1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x^{(i)}$

对于多变量线性回归：
$\frac{\partial J(\theta)}{\partial\theta_{j}}=\frac{1}{m}\sum_{i = 1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}$ ， $1,\cdots,n$ ，其中 $\alpha$ 为学习率，控制每次参数更新的步长。

定义梯度下降训练函数（多变量）

def gradient_descent(x, y, theta, alpha, num_iters):"""使用梯度下降算法来更新线性回归的参数theta。参数:x: 特征矩阵，形状为 (m, n+1)，m是样本数量，n是特征数量（包含常数项1对应的列）y: 目标值向量，形状为 (m, 1)theta: 参数向量，初始值，形状为 (n+1, 1)alpha: 学习率，控制每次更新的步长num_iters: 迭代次数返回:theta: 经过多次迭代更新后的参数向量loss_history: 每次迭代对应的损失值历史记录，用于查看训练过程损失变化情况"""m = x.shape[0]loss_history = []for _ in range(num_iters):error = np.dot(x, theta) - ygradient = np.dot(x.T, error) / mtheta -= alpha * gradientloss = compute_loss(x, y, theta)loss_history.append(loss)return theta, loss_history

实践：
以下是使用Python实践多变量线性回归模型（通过梯度下降法训练参数θ）的完整示例代码，包含了数据生成、模型训练以及预测的过程。

导入所需库

import numpy as np
import matplotlib.pyplot as plt

生成模拟数据（可替换为真实数据）

# 设置随机种子，保证结果可复现
np.random.seed(0)
# 样本数量
m = 100
# 特征数量（不包含截距项对应的特征，这里设为2个特征）
n = 2
# 生成特征矩阵，添加一列全为1的列作为截距项对应的特征
x = np.column_stack((np.ones(m), np.random.rand(m, n)))
# 真实的参数（用于生成模拟的目标值，实际中是未知的）
true_theta = np.array([[2], [3], [4]])
# 生成目标值，添加一些随机噪声模拟真实情况
y = np.dot(x, true_theta) + np.random.randn(m, 1) * 0.5

初始化参数并进行训练

# 初始化theta参数，初始化为全0向量（形状要与特征数量对应，包含截距项对应的参数）
theta_initial = np.zeros((n + 1, 1))
# 学习率
alpha = 0.01
# 迭代次数
num_iters = 1000
# 执行梯度下降训练
theta_trained, loss_history = gradient_descent(x, y, theta_initial, alpha, num_iters)

可视化损失函数随迭代次数的变化情况（可选，用于查看训练效果）

plt.plot(loss_history)
plt.xlabel('Iterations')
plt.ylabel('Loss')
plt.title('Loss Function Convergence')
plt.show()

在这里插入图片描述
迭代次数达到一个值后，预测值与真实目标值之间的差异程度出现拐点。后面的迭代没有什么成效了。

使用训练好的模型进行预测（示例预测新的样本，这里可根据实际需求调整）

# 生成新的样本数据（这里简单示例，可按需修改）
new_x = np.array([[1, 0.5, 0.6]])
# 进行预测
prediction = np.dot(new_x, theta_trained)
print("预测结果:", prediction)

预测结果: [[5.78208147]]

在上述代码中：

首先通过numpy库生成了模拟的特征矩阵x和对应的目标值y，模拟了一个多变量线性回归的数据场景，其中真实的参数true_theta是我们自己设定的，但实际应用中是未知的，需要通过训练去估计。
接着定义了计算损失函数（均方误差）的函数compute_loss，它衡量了当前模型预测值与真实目标值之间的差异程度，是评估模型好坏以及指导梯度下降训练的重要指标。
然后定义了gradient_descent函数，它实现了梯度下降算法，在每次迭代中，根据当前参数下预测值与真实值的误差来计算梯度，进而按照学习率alpha更新参数theta，同时记录每次迭代的损失值到loss_history列表中，这样可以后续查看损失函数的收敛情况。
之后初始化了参数theta，设定了学习率和迭代次数，调用gradient_descent函数进行训练，得到训练好的参数theta_trained以及损失值的变化记录loss_history，并通过matplotlib库可视化了损失值随迭代次数的变化，直观查看训练的收敛效果。
最后，使用训练好的模型对新的样本数据进行预测，展示了模型的应用过程。

三、逻辑回归

（一）模型表示

逻辑回归用于二分类问题，模型假设函数： $h_{\theta}(x)=\frac{1}{1 + e^{-\theta^{T}x}}$ ，其输出值表示样本属于正类的概率。

（二）损失函数

对数损失函数： $J(\theta)=-\frac{1}{m}\sum_{i = 1}^{m}[y^{(i)}\ln(h_{\theta}(x^{(i)}))+(1 - y^{(i)})\ln(1 - h_{\theta}(x^{(i)}))]$

（三）梯度下降与参数更新

参数更新同样使用梯度下降算法，其梯度计算为：
$\frac{\partial J(\theta)}{\partial\theta_{j}}=\frac{1}{m}\sum_{i = 1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}$ )，然后按照 $\theta_{j}:=\theta_{j}-\alpha\frac{\partial J(\theta)}{\partial\theta_{j}}$ 更新参数。

四、模型评估指标

（一）回归问题评估指标

均方误差（MSE）： $MSE=\frac{1}{m}\sum_{i = 1}^{m}(y_{pred}^{(i)}-y^{(i)})^{2}$
均方根误差（RMSE）： $RMSE=\sqrt{\frac{1}{m}\sum_{i = 1}^{m}(y_{pred}^{(i)}-y^{(i)})^{2}}$
平均绝对误差（MAE）： $MAE=\frac{1}{m}\sum_{i = 1}^{m}\vert y_{pred}^{(i)}-y^{(i)}\vert$
(R^{2}) 分数： $R^{2}=1-\frac{\sum_{i = 1}^{m}(y_{pred}^{(i)}-y^{(i)})^{2}}{\sum_{i = 1}^{m}(y^{(i)}-\bar{y})^{2}}$ ，其中 $\bar{y}$ 是 $y^{(i)}$ 的均值。

（二）分类问题评估指标

准确率（Accuracy）： $Accuracy=\frac{TP + TN}{TP + TN + FP + FN}$ ，其中 $TP$ （True Positive）为真阳性， $TN$ （True Negative）为真阴性，(FP)（False Positive）为假阳性，(FN)（False Negative）为假阴性。
精确率（Precision）： $Precision=\frac{TP}{TP + FP}$
召回率（Recall）： $Recall=\frac{TP}{TP + FN}$
(F1) 分数： $F1=\frac{2\times Precision\times Recall}{Precision + Recall}$
ROC 曲线与 AUC 值：ROC 曲线以假阳性率（ $FPR=\frac{FP}{TN + FP}$ ）为横轴，真阳性率（ $TPR=\frac{TP}{TP + FN}$ ）为纵轴绘制。AUC（Area Under the Curve）值是 ROC 曲线下的面积，AUC 值越大，模型分类性能越好。

五、过拟合与欠拟合

过拟合：模型过于复杂，在训练数据上表现很好，但在测试数据上表现不佳，泛化能力差，可能是对训练数据中的噪声和细节过度拟合。
欠拟合：模型过于简单，无法捕捉数据中的模式和规律，在训练数据上表现就不理想。

六、正则化

L1 正则化： $J(\theta)=J_{0}(\theta)+\lambda\sum_{j = 1}^{n}\vert\theta_{j}\vert$ ，其中 $J_{0}(\theta)$ 是原始损失函数， $\lambda$ 为正则化参数。L1 正则化可导致部分参数为 0，实现特征选择，使模型稀疏。
L2 正则化（岭回归）： $J(\theta)=J_{0}(\theta)+\lambda\sum_{j = 1}^{n}\theta_{j}^{2}$ 。L2 正则化能防止过拟合，使参数值相对较小，模型更平滑。

正则化后的梯度下降更新公式，对于 L1 正则化：
$\theta_{j}:=\theta_{j}-\alpha\left(\frac{1}{m}\sum_{i = 1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}+\frac{\lambda}{m}\text{sgn}(\theta_{j})\right)$ ， $\text{sgn}(\theta_{j})$ 是 $\theta_{j}$ 的符号函数。

对于 L2 正则化：
$\theta_{j}:=\theta_{j}-\alpha\left(\frac{1}{m}\sum_{i = 1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}+\frac{2\lambda}{m}\theta_{j}\right)$