吴恩达机器学习笔记复盘（五）均方误差函数

只讲了线性回归的代价函数。

均方误差（Mean Squared Error, MSE）

均方误差（MSE）基于最小二乘法，通过计算预测值与真实值之间差值的平方的平均值来衡量模型的误差。

原理

假设我们有一组数据集 $\{(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\}$ ，其中 $x_i$ 是第 $i$ 个样本的特征向量， $y_i$ 是对应的真实值，我们的模型对 $x_i$ 的预测值为 $\hat{y}_i$ 。我们的目标是找到一个函数 $f(x)$ （即模型），使得预测值 $\hat{y}_i = f(x_i)$ 尽可能接近真实值 $y_i$ 。为了衡量这种接近程度，我们定义误差函数 $e_i = y_i - \hat{y}_i$ ，它表示第 $i$ 个样本的预测误差。

为了得到一个总体的误差衡量指标，我们考虑将所有样本的误差进行综合。如果直接对误差求和 $\sum_{i = 1}^{n}e_i=\sum_{i = 1}^{n}(y_i - \hat{y}_i)$ ，由于误差有正有负，可能会相互抵消，不能准确反映总体的误差情况。为了避免这种正负抵消的问题，我们对误差进行平方，得到 $e_i^2=(y_i - \hat{y}_i)^2$ 。平方后的误差都是非负的，这样就可以将所有样本的误差平方相加，得到总的误差平方和 $SSE=\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2$ 。然而， $SSE$ 的值会受到样本数量 $n$ 的影响，样本数量越多， $SSE$ 通常会越大，不利于不同数据集或不同模型之间的比较。为了消除样本数量的影响，我们对 $SSE$ 求平均，得到均方误差 $MSE=\frac{1}{n}\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2$ 。通过最小化 $MSE$ ，我们可以找到最优的模型参数，使得模型的预测结果在整体上尽可能接近真实值。

在数学上，可以通过对 $MSE$ 关于模型参数求偏导数，并令偏导数为零，来求解使$MSE$最小的参数值。这就是均方误差的原理及求证过程。为了方面求导，MSE公式会转为 $MSE=\frac{1}{2n}\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2$

简化模型

令fW(X)=WX（即B=0），此时目标是找到使J(W)最小的W值。分别分析不同W取值时的情况：

当W=1时，函数fW(X)是斜率为1的直线，对于训练集中的三个点(1,1)、(2,2)、(3,3)，f(Xi)=Yi，误差为0，代入成本函数J(W)计算得J(1)=0。
当W=0.5时，f(X)是斜率为0.5的直线。分别计算三个训练样本的平方误差并求和得3.5，再乘以2m1（m=3），得出J(0.5)=63.5 。
当W=0时，f(X)是水平线，计算得J(0)=61×14≈2.33 。
当W=−0.5时，f(X)是向下倾斜直线，此时代价更高约为5.25。

这里可以得出第一种情况误差最小。但至今为止这里只是代入验证，并非求解。求解会引入另外一个问题 - 梯度下降。