最小二乘法的实现与线性回归的应用

1. 简介

简单线性回归中，您有一个因变量y和一个自变量X。该模型可以表示为：

$y = m x + b$

其中

$x$ : 自变量
$y$ : 因变量
$m$ : 斜率
$b$ : 截距

最小二乘法是回归分析中用于估计线性回归模型参数的标准方法。它可以最小化误差的平方和，从而找到数据的最佳拟合直线。

在这里，误差是实际值和预测值之间的差异。实际值是观察到的值，而预测值是模型的估计值。

在这里，我们将使用最小二乘法来估计线性回归模型的参数。我们将使用以下公式来计算回归系数：

$\sum_{i=1}^{n}(y_i - (mx_i+b))^2$

根据链式法则，我们可以计算偏导数：

链式法则：

$\frac{\partial}{\partial x}[f(g(x))] = f'(g(x)) \cdot g'(x)$

公示得出，复合函数的导数等于外函数的导数乘以内函数的导数。

设： $u=y_i - (mx_i+b)$

所以：

$\frac{\partial}{\partial x}[f(g(x))] = u^2 \cdot (y_i - (mx_i+b))$

导数规则：

常数： $f (x) = c$ 的导数为0
幂规则： $f(x)=x^n$ 的导数为 $nx^{n-1}$
乘法常数规则： $\cdot g(x)的导数为c \cdot g'(x)$
和差规则： $\pm h(x)$ 的导数为 $\pm h'(x)$
乘法规则： $\cdot h(x)$ 的导数为 $\cdot h(x) + g(x) \cdot h'(x)$
链式法则： $f (x) = g (h (x))$ 的导数为 $\cdot h'(x)$

因为是二次方，所以使用幂规则：（ $u^2$ 的导数为 $2 u$ ）

$\frac{\partial }{\partial m} = 2u \cdot (-x_i)$

$\frac{\partial }{\partial m} = -2x_i \cdot (y_i - (mx_i+b))$

因为0的0次方等于1，所以：

$\frac{\partial }{\partial b} = -2u \cdot 1$

$\frac{\partial b}{\partial b} = -2(y_i - (mx_i+b))$

我们可以通过求导数来找到最小值。我们将导数设置为0，然后解出m和b。

$\frac{\partial ssh}{\partial m} = -2 \sum_{i=1}^{n}x_i(y_i - (mx_i+b)) = 0$

$\frac{\partial ssh}{\partial b} = -2 \sum_{i=1}^{n}(y_i - (mx_i+b)) = 0$

$\sum_{i=1}^{n}x_i(y_i - (mx_i+b)) = 0$

$\sum_{i=1}^{n}(y_i - (mx_i+b)) = 0$

$\sum_{i=1}^{n}x_iy_i - m\sum_{i=1}^{n}x_i^2 - b\sum_{i=1}^{n}x_i = 0$

$\sum_{i=1}^{n}y_i - m\sum_{i=1}^{n}x_i - nb = 0$

接下来，我们将解出m和b。

关于b的方程：

$\sum_{i=1}^{n}y_i - m\sum_{i=1}^{n}x_i$

$\frac{\sum_{i=1}^{n}y_i-m\sum_{i=1}^{n}x_i}{n}$

关于m的方程：

我们已知b的值，所以我们可以将其代入方程中：

$\sum_{i=1}^{n}x_iy_i - m\sum_{i=1}^{n}x_i^2 - \frac{\sum_{i=1}^{n}y_i-m\sum_{i=1}^{n}x_i}{n}\sum_{i=1}^{n}x_i = 0$

乘n消除分母：

$n\sum_{i=1}^{n}x_iy_i - mn\sum_{i=1}^{n}x_i^2 - (\sum_{i=1}^{n}y_i-m\sum_{i=1}^{n}x_i)\sum_{i=1}^{n}x_i = 0$

$n\sum_{i=1}^{n}x_iy_i - mn\sum_{i=1}^{n}x_i^2 - \sum_{i=1}^{n}y_i\sum_{i=1}^{n}x_i + m\sum_{i=1}^{n}x_i\sum_{i=1}^{n}x_i = 0$

$n\sum_{i=1}^{n}x_iy_i - mn\sum_{i=1}^{n}x_i^2 - \sum_{i=1}^{n}y_i\sum_{i=1}^{n}x_i + m(\sum_{i=1}^{n}x_i)^2 = 0$

得出mn的方程：

$mn\sum_{i=1}^{n}x_i^2 - m(\sum_{i=1}^{n}x_i)^2 = n\sum_{i=1}^{n}x_iy_i - \sum_{i=1}^{n}y_i\sum_{i=1}^{n}x_i$

$m(n\sum_{i=1}^{n}x_i^2 - (\sum_{i=1}^{n}x_i)^2) = n\sum_{i=1}^{n}x_iy_i - \sum_{i=1}^{n}y_i\sum_{i=1}^{n}x_i$

$\frac{n\sum_{i=1}^{n}x_iy_i - \sum_{i=1}^{n}y_i\sum_{i=1}^{n}x_i}{n\sum_{i=1}^{n}x_i^2 - (\sum_{i=1}^{n}x_i)^2}$

此时，我们已经得到了m和b的值。分别为：

$\frac{n\sum_{i=1}^{n}x_iy_i - \sum_{i=1}^{n}y_i\sum_{i=1}^{n}x_i}{n\sum_{i=1}^{n}x_i^2 - (\sum_{i=1}^{n}x_i)^2}$

$\frac{\sum_{i=1}^{n}y_i-m\sum_{i=1}^{n}x_i}{n}$

简写为：

$\frac{n(\sum_{}^{}xy) - (\sum_{}^{}x)(\sum_{}^{}y)}{n(\sum_{}^{}x^2) - (\sum_{}^{}x)^2}$

$\frac{\sum_{}^{}y - m(\sum_{}^{}x)}{n}$

我们可以使用这些公式来计算m和b的值。然后，我们可以使用这些值来计算预测值。

2. 代码实现

2.1 导入库

import numpy as np
import matplotlib.pyplot as plt

2.2 生成数据

x = np.array([1, 2])
y = np.array([2, 3])

在这里插入图片描述

2.3 计算m和b的值

n = len(x)
m = (n * np.sum(x * y) - np.sum(x) * np.sum(y)) / (n * np.sum(x ** 2) - np.sum(x) ** 2)
b = (np.sum(y) - m * np.sum(x)) / n
m,b

得出结果：

(1.0, 1.0)

2.4 计算预测值

根据线性回归模型：

$y = m x + b$

因为m和b的值都为1，所以：

$y = x + 1$

假设x为3，那么y的值为：

$y = 3 + 1 = 4$

在这里插入图片描述

3. 其他

你可以记录下来，然后使用这些公式来计算m和b的值。然后，您可以使用这些值来计算预测值。

我们使用的值比较简单，你可以尝试使用更多的值来计算m和b的值。不过，这些值必须是线性相关的。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/137082.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！