【漫话机器学习系列】126.多项式回归（Polynomial Regression）

多项式回归（Polynomial Regression）

1. 什么是多项式回归？

多项式回归（Polynomial Regression）是一种用于建模非线性关系的回归分析技术。它是线性回归的一种扩展形式，允许模型通过增加自变量的高次项来更好地拟合数据。多项式回归的数学公式如下：

$y_i = \beta_0 + \beta_1 x_i + \beta_2 x_i^2 + \dots + \beta_d x_i^d + e_i$

其中：

$y_i$ 是因变量（响应变量）。
$x_i$ 是自变量（解释变量）。
$\beta_0, \beta_1, \dots, \beta_d$ 是回归系数。
d 是多项式的最高阶次。
$e_i$ 是误差项。

2. 为什么使用多项式回归？

在实际数据分析中，许多现象并不是单纯的线性关系，而是呈现一定的非线性趋势。例如：

经济数据中的增长趋势可能是指数增长，而非简单的线性增长。
物理现象中的运动轨迹可能遵循二次或更高次的曲线，而不是直线。
生物数据中的生长模式可能符合某种非线性曲线。

多项式回归的一个关键优势是它可以通过引入 x 的高次项来逼近复杂的非线性关系。

3. 线性回归 vs. 多项式回归

从图片中的图示可以看出：

线性回归（左图）：数据点之间的关系被一个直线拟合，这种方法适用于变量之间的关系大致呈线性分布的情况。但如果数据呈现弯曲趋势，线性回归的拟合效果可能较差。
低阶多项式回归（中图）：通过引入二次项（ $x^2$ ），模型可以拟合简单的曲线，使其更加符合数据点的趋势。
高阶多项式回归（右图）：进一步增加多项式的阶次（如三次、四次），可以更灵活地拟合数据，但过高的阶数可能会导致过拟合（overfitting），即模型在训练数据上表现很好，但在新数据上的泛化能力较差。

4. 过拟合问题

多项式回归的一个潜在问题是过拟合（Overfitting）。当多项式的阶数过高时，模型可能会过于依赖训练数据，导致在新数据上的表现较差。例如：

在训练数据上，模型可能会完全贴合数据点，甚至拟合掉噪声部分。
在测试数据上，由于模型过于复杂，预测结果可能会偏离真实趋势，泛化能力降低。

解决过拟合的方法包括：

选择合适的阶数：使用交叉验证（Cross-validation）选择最佳的多项式阶数。
正则化（Regularization）：使用 L1 或 L2 正则化（如 Ridge 或 Lasso 回归）来约束回归系数，防止模型过度复杂化。
数据增强：增加数据量可以提高模型的泛化能力，减少过拟合的影响。

5. 多项式回归的应用

多项式回归在多个领域都有广泛应用，包括但不限于：

经济学：预测市场趋势，例如股市价格的变化。
工程学：模拟物理系统，如流体力学、机械运动轨迹等。
医学：建模药物剂量与患者反应之间的关系。
人工智能：在机器学习中用于数据拟合，如在 RBF（径向基函数）神经网络中使用高次多项式拟合非线性数据。

6. 代码示例（Python 实现多项式回归）

可以使用 sklearn.preprocessing.PolynomialFeatures 轻松实现多项式回归：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures# 生成模拟数据
np.random.seed(42)
x = np.linspace(-3, 3, 100).reshape(-1, 1)
y = 2 + 3 * x - 2 * x**2 + np.random.randn(100, 1) * 2  # 二次曲线 + 噪声# 线性回归拟合
lin_reg = LinearRegression()
lin_reg.fit(x, y)
y_pred_linear = lin_reg.predict(x)# 多项式回归拟合
poly_features = PolynomialFeatures(degree=2)  # 选择二次多项式
x_poly = poly_features.fit_transform(x)
poly_reg = LinearRegression()
poly_reg.fit(x_poly, y)
y_pred_poly = poly_reg.predict(x_poly)# 画图比较
plt.scatter(x, y, color='blue', label='Data')
plt.plot(x, y_pred_linear, color='red', label='Linear Regression')
plt.plot(x, y_pred_poly, color='green', linestyle='dashed', label='Polynomial Regression')
plt.legend()
plt.xlabel('x')
plt.ylabel('y')
plt.title('Linear vs Polynomial Regression')
plt.show()