这里写目录标题
- 一、监督学习概述
- 二、线性回归
- (一)模型表示
- (二)损失函数
- (三)梯度下降算法
- 导入所需库
- 生成模拟数据(可替换为真实数据)
- 初始化参数并进行训练
- 可视化损失函数随迭代次数的变化情况(可选,用于查看训练效果)
- 使用训练好的模型进行预测(示例预测新的样本,这里可根据实际需求调整)
- 三、逻辑回归
- (一)模型表示
- (二)损失函数
- (三)梯度下降与参数更新
- 四、模型评估指标
- (一)回归问题评估指标
- (二)分类问题评估指标
- 五、过拟合与欠拟合
- 六、正则化
一、监督学习概述
监督学习是利用有标记的数据进行模型训练,使模型能够对未知数据进行预测。训练数据包含输入特征(通常用 (x) 表示)和对应的输出标签(通常用 (y) 表示)。其主要任务可分为回归(预测连续值)和分类(预测离散类别)。
二、线性回归
(超爽中英!) 2024公认最好的【吴恩达机器学习】教程!附课件代码 Machine Learning Specialization
(一)模型表示
单变量线性回归模型: h θ ( x ) = θ 0 + θ 1 x h_{\theta}(x)=\theta_{0}+\theta_{1}x hθ(x)=θ0+θ1x,其中 θ 0 \theta_{0} θ0 为截距, θ 1 \theta_{1} θ1 为斜率。
from sklearn.linear_model import LinearRegression
import numpy as np
import matplotlib.pyplot as plt# 生成模拟数据(这里简单地使用线性关系加一些噪声来模拟)
np.random.seed(0)
x = np.linspace(0, 10, 100).reshape(-1, 1) # 生成100个在0到10之间均匀分布的x值,并转换为列向量
theta_0_true = 2 # 真实的截距
theta_1_true = 3 # 真实的斜率
y_true = theta_0_true + theta_1_true * x
y = y_true + np.random.normal(0, 2, size=(100, 1)) # 添加一些正态分布的噪声模拟实际观测值# 创建线性回归模型对象并拟合数据
model = LinearRegression()
model.fit(x, y)# 获取拟合的参数
theta_0_fit = model.intercept_[0]
theta_1_fit = model.coef_[0][0]# 定义预测函数(其实可以直接使用model.predict方法进行预测,这里只是为了形式统一展示)
def h_theta(x, theta_0, theta_1):"""根据拟合的参数进行预测"""return theta_0 + theta_1 * x# 使用拟合的模型进行预测
y_pred = h_theta(x, theta_0_fit, theta_1_fit)# 可视化数据和拟合的直线
plt.scatter(x, y, label='Observed Data')
plt.plot(x, y_pred, color='r', label='Fitted Line')
plt.xlabel('x')
plt.ylabel('y')
plt.title('Linear Regression')
plt.legend()
plt.show()
代码中,使用了 sklearn 库中的 LinearRegression 类来拟合线性回归模型,它内部已经实现了高效的最小二乘法计算等逻辑,通过调用 fit 方法传入输入特征 x 和目标值 y 就可以完成模型的拟合,然后可以通过 intercept_ 属性获取截距(对应 theta_0),通过 coef_ 属性获取系数(对应 theta_1)
多变量线性回归模型: h θ ( x ) = θ 0 + θ 1 x 1 + θ 2 x 2 + ⋯ + θ n x n = θ T x h_{\theta}(x)=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+\cdots+\theta_{n}x_{n}=\theta^{T}x hθ(x)=θ0+θ1x1+θ2x2+⋯+θnxn=θTx,这里 x = [ 1 x 1 x 2 ⋮ x n ] x = \begin{bmatrix} 1 \\ x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{bmatrix} x= 1x1x2⋮xn , θ = [ θ 0 θ 1 θ 2 ⋮ θ n ] \theta = \begin{bmatrix} \theta_{0} \\ \theta_{1} \\ \theta_{2} \\ \vdots \\ \theta_{n} \end{bmatrix} θ= θ0θ1θ2⋮θn
(二)损失函数
损失函数衡量了当前模型预测值与真实目标值之间的差异程度。
均方误差损失函数: J ( θ ) = 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J(\theta)=\frac{1}{2m}\sum_{i = 1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^{2} J(θ)=2m1∑i=1m(hθ(x(i))−y(i))2,其中 (m) 为训练样本数量, x ( i ) x^{(i)} x(i) 和 y ( i ) y^{(i)} y(i) 分别是第 (i) 个训练样本的特征和标签。
def compute_loss(x, y, theta):"""计算均方误差损失函数。参数:x: 特征矩阵,形状为 (m, n+1),m是样本数量,n是特征数量(包含常数项1对应的列)y: 目标值向量,形状为 (m, 1)theta: 参数向量,形状为 (n+1, 1)返回:loss: 计算得到的均方误差损失值"""m = x.shape[0]predictions = np.dot(x, theta)loss = np.sum((predictions - y) ** 2) / (2 * m)return loss
(三)梯度下降算法
梯度下降算法,在每次迭代中,根据当前参数下预测值与真实值的误差来计算梯度,进而按照学习率alpha
更新参数theta
,同时记录每次迭代的损失值到loss_history
列表中,这样可以后续查看损失函数的收敛情况。
参数更新公式: θ j : = θ j − α ∂ J ( θ ) ∂ θ j \theta_{j}:=\theta_{j}-\alpha\frac{\partial J(\theta)}{\partial\theta_{j}} θj:=θj−α∂θj∂J(θ)
对于单变量线性回归:
∂ J ( θ ) ∂ θ 0 = 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) \frac{\partial J(\theta)}{\partial\theta_{0}}=\frac{1}{m}\sum_{i = 1}^{m}(h_{\theta}(x^{(i)})-y^{(i)}) ∂θ0∂J(θ)=m1∑i=1m(hθ(x(i))−y(i))
∂ J ( θ ) ∂ θ 1 = 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x ( i ) \frac{\partial J(\theta)}{\partial\theta_{1}}=\frac{1}{m}\sum_{i = 1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x^{(i)} ∂θ1∂J(θ)=m1∑i=1m(hθ(x(i))−y(i))x(i)
对于多变量线性回归:
∂ J ( θ ) ∂ θ j = 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) \frac{\partial J(\theta)}{\partial\theta_{j}}=\frac{1}{m}\sum_{i = 1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)} ∂θj∂J(θ)=m1∑i=1m(hθ(x(i))−y(i))xj(i), j = 0 , 1 , ⋯ , n j = 0, 1,\cdots,n j=0,1,⋯,n,其中 α \alpha α为学习率,控制每次参数更新的步长。
定义梯度下降训练函数(多变量)
def gradient_descent(x, y, theta, alpha, num_iters):"""使用梯度下降算法来更新线性回归的参数theta。参数:x: 特征矩阵,形状为 (m, n+1),m是样本数量,n是特征数量(包含常数项1对应的列)y: 目标值向量,形状为 (m, 1)theta: 参数向量,初始值,形状为 (n+1, 1)alpha: 学习率,控制每次更新的步长num_iters: 迭代次数返回:theta: 经过多次迭代更新后的参数向量loss_history: 每次迭代对应的损失值历史记录,用于查看训练过程损失变化情况"""m = x.shape[0]loss_history = []for _ in range(num_iters):error = np.dot(x, theta) - ygradient = np.dot(x.T, error) / mtheta -= alpha * gradientloss = compute_loss(x, y, theta)loss_history.append(loss)return theta, loss_history
实践:
以下是使用Python实践多变量线性回归模型(通过梯度下降法训练参数θ
)的完整示例代码,包含了数据生成、模型训练以及预测的过程。
导入所需库
import numpy as np
import matplotlib.pyplot as plt
生成模拟数据(可替换为真实数据)
# 设置随机种子,保证结果可复现
np.random.seed(0)
# 样本数量
m = 100
# 特征数量(不包含截距项对应的特征,这里设为2个特征)
n = 2
# 生成特征矩阵,添加一列全为1的列作为截距项对应的特征
x = np.column_stack((np.ones(m), np.random.rand(m, n)))
# 真实的参数(用于生成模拟的目标值,实际中是未知的)
true_theta = np.array([[2], [3], [4]])
# 生成目标值,添加一些随机噪声模拟真实情况
y = np.dot(x, true_theta) + np.random.randn(m, 1) * 0.5
初始化参数并进行训练
# 初始化theta参数,初始化为全0向量(形状要与特征数量对应,包含截距项对应的参数)
theta_initial = np.zeros((n + 1, 1))
# 学习率
alpha = 0.01
# 迭代次数
num_iters = 1000
# 执行梯度下降训练
theta_trained, loss_history = gradient_descent(x, y, theta_initial, alpha, num_iters)
可视化损失函数随迭代次数的变化情况(可选,用于查看训练效果)
plt.plot(loss_history)
plt.xlabel('Iterations')
plt.ylabel('Loss')
plt.title('Loss Function Convergence')
plt.show()
迭代次数达到一个值后, 预测值与真实目标值之间的差异程度出现拐点。后面的迭代没有什么成效了。
使用训练好的模型进行预测(示例预测新的样本,这里可根据实际需求调整)
# 生成新的样本数据(这里简单示例,可按需修改)
new_x = np.array([[1, 0.5, 0.6]])
# 进行预测
prediction = np.dot(new_x, theta_trained)
print("预测结果:", prediction)
预测结果: [[5.78208147]]
在上述代码中:
- 首先通过
numpy
库生成了模拟的特征矩阵x
和对应的目标值y
,模拟了一个多变量线性回归的数据场景,其中真实的参数true_theta
是我们自己设定的,但实际应用中是未知的,需要通过训练去估计。 - 接着定义了计算损失函数(均方误差)的函数
compute_loss
,它衡量了当前模型预测值与真实目标值之间的差异程度,是评估模型好坏以及指导梯度下降训练的重要指标。 - 然后定义了
gradient_descent
函数,它实现了梯度下降算法,在每次迭代中,根据当前参数下预测值与真实值的误差来计算梯度,进而按照学习率alpha
更新参数theta
,同时记录每次迭代的损失值到loss_history
列表中,这样可以后续查看损失函数的收敛情况。 - 之后初始化了参数
theta
,设定了学习率和迭代次数,调用gradient_descent
函数进行训练,得到训练好的参数theta_trained
以及损失值的变化记录loss_history
,并通过matplotlib
库可视化了损失值随迭代次数的变化,直观查看训练的收敛效果。 - 最后,使用训练好的模型对新的样本数据进行预测,展示了模型的应用过程。
三、逻辑回归
(一)模型表示
逻辑回归用于二分类问题,模型假设函数: h θ ( x ) = 1 1 + e − θ T x h_{\theta}(x)=\frac{1}{1 + e^{-\theta^{T}x}} hθ(x)=1+e−θTx1,其输出值表示样本属于正类的概率。
(二)损失函数
对数损失函数: J ( θ ) = − 1 m ∑ i = 1 m [ y ( i ) ln ( h θ ( x ( i ) ) ) + ( 1 − y ( i ) ) ln ( 1 − h θ ( x ( i ) ) ) ] J(\theta)=-\frac{1}{m}\sum_{i = 1}^{m}[y^{(i)}\ln(h_{\theta}(x^{(i)}))+(1 - y^{(i)})\ln(1 - h_{\theta}(x^{(i)}))] J(θ)=−m1∑i=1m[y(i)ln(hθ(x(i)))+(1−y(i))ln(1−hθ(x(i)))]
(三)梯度下降与参数更新
参数更新同样使用梯度下降算法,其梯度计算为:
∂ J ( θ ) ∂ θ j = 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) \frac{\partial J(\theta)}{\partial\theta_{j}}=\frac{1}{m}\sum_{i = 1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)} ∂θj∂J(θ)=m1∑i=1m(hθ(x(i))−y(i))xj(i)),然后按照 θ j : = θ j − α ∂ J ( θ ) ∂ θ j \theta_{j}:=\theta_{j}-\alpha\frac{\partial J(\theta)}{\partial\theta_{j}} θj:=θj−α∂θj∂J(θ) 更新参数。
四、模型评估指标
(一)回归问题评估指标
- 均方误差(MSE): M S E = 1 m ∑ i = 1 m ( y p r e d ( i ) − y ( i ) ) 2 MSE=\frac{1}{m}\sum_{i = 1}^{m}(y_{pred}^{(i)}-y^{(i)})^{2} MSE=m1∑i=1m(ypred(i)−y(i))2
- 均方根误差(RMSE): R M S E = 1 m ∑ i = 1 m ( y p r e d ( i ) − y ( i ) ) 2 RMSE=\sqrt{\frac{1}{m}\sum_{i = 1}^{m}(y_{pred}^{(i)}-y^{(i)})^{2}} RMSE=m1∑i=1m(ypred(i)−y(i))2
- 平均绝对误差(MAE): M A E = 1 m ∑ i = 1 m ∣ y p r e d ( i ) − y ( i ) ∣ MAE=\frac{1}{m}\sum_{i = 1}^{m}\vert y_{pred}^{(i)}-y^{(i)}\vert MAE=m1∑i=1m∣ypred(i)−y(i)∣
- (R^{2}) 分数: R 2 = 1 − ∑ i = 1 m ( y p r e d ( i ) − y ( i ) ) 2 ∑ i = 1 m ( y ( i ) − y ˉ ) 2 R^{2}=1-\frac{\sum_{i = 1}^{m}(y_{pred}^{(i)}-y^{(i)})^{2}}{\sum_{i = 1}^{m}(y^{(i)}-\bar{y})^{2}} R2=1−∑i=1m(y(i)−yˉ)2∑i=1m(ypred(i)−y(i))2,其中 y ˉ \bar{y} yˉ是 y ( i ) y^{(i)} y(i) 的均值。
(二)分类问题评估指标
- 准确率(Accuracy): A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy=\frac{TP + TN}{TP + TN + FP + FN} Accuracy=TP+TN+FP+FNTP+TN,其中 T P TP TP(True Positive)为真阳性, T N TN TN(True Negative)为真阴性,(FP)(False Positive)为假阳性,(FN)(False Negative)为假阴性。
- 精确率(Precision): P r e c i s i o n = T P T P + F P Precision=\frac{TP}{TP + FP} Precision=TP+FPTP
- 召回率(Recall): R e c a l l = T P T P + F N Recall=\frac{TP}{TP + FN} Recall=TP+FNTP
- (F1) 分数: F 1 = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l F1=\frac{2\times Precision\times Recall}{Precision + Recall} F1=Precision+Recall2×Precision×Recall
- ROC 曲线与 AUC 值:ROC 曲线以假阳性率( F P R = F P T N + F P FPR=\frac{FP}{TN + FP} FPR=TN+FPFP)为横轴,真阳性率( T P R = T P T P + F N TPR=\frac{TP}{TP + FN} TPR=TP+FNTP)为纵轴绘制。AUC(Area Under the Curve)值是 ROC 曲线下的面积,AUC 值越大,模型分类性能越好。
五、过拟合与欠拟合
- 过拟合:模型过于复杂,在训练数据上表现很好,但在测试数据上表现不佳,泛化能力差,可能是对训练数据中的噪声和细节过度拟合。
- 欠拟合:模型过于简单,无法捕捉数据中的模式和规律,在训练数据上表现就不理想。
六、正则化
- L1 正则化: J ( θ ) = J 0 ( θ ) + λ ∑ j = 1 n ∣ θ j ∣ J(\theta)=J_{0}(\theta)+\lambda\sum_{j = 1}^{n}\vert\theta_{j}\vert J(θ)=J0(θ)+λ∑j=1n∣θj∣,其中 J 0 ( θ ) J_{0}(\theta) J0(θ) 是原始损失函数, λ \lambda λ 为正则化参数。L1 正则化可导致部分参数为 0,实现特征选择,使模型稀疏。
- L2 正则化(岭回归): J ( θ ) = J 0 ( θ ) + λ ∑ j = 1 n θ j 2 J(\theta)=J_{0}(\theta)+\lambda\sum_{j = 1}^{n}\theta_{j}^{2} J(θ)=J0(θ)+λ∑j=1nθj2。L2 正则化能防止过拟合,使参数值相对较小,模型更平滑。
正则化后的梯度下降更新公式,对于 L1 正则化:
θ j : = θ j − α ( 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) + λ m sgn ( θ j ) ) \theta_{j}:=\theta_{j}-\alpha\left(\frac{1}{m}\sum_{i = 1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}+\frac{\lambda}{m}\text{sgn}(\theta_{j})\right) θj:=θj−α(m1∑i=1m(hθ(x(i))−y(i))xj(i)+mλsgn(θj)), sgn ( θ j ) \text{sgn}(\theta_{j}) sgn(θj) 是 θ j \theta_{j} θj 的符号函数。
对于 L2 正则化:
θ j : = θ j − α ( 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) + 2 λ m θ j ) \theta_{j}:=\theta_{j}-\alpha\left(\frac{1}{m}\sum_{i = 1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}+\frac{2\lambda}{m}\theta_{j}\right) θj:=θj−α(m1∑i=1m(hθ(x(i))−y(i))xj(i)+m2λθj)