【漫话机器学习系列】028.CP

Mallows’ Cp：标准化公式解析与应用

Mallows’ Cp 是一种常用的模型选择工具，用于在一系列候选模型中权衡拟合度和复杂性，帮助我们选择性能最优的模型。本文将基于其标准化公式展开详细解析，并探讨其应用场景、实现方法、优点与局限性。

Mallows’ Cp 标准化公式

公式形式如下：

$C_p = \frac{1}{n} (\text{RSS} + 2d \hat{\sigma}^2)$

符号说明

n：样本总数。
RSS：残差平方和（Residual Sum of Squares），衡量模型的拟合误差。
d：模型的参数个数，包括截距项。
$\hat{\sigma}^2$ ：误差的估计方差，通常由全模型的均方误差 (MSE) 估计。

公式的组成

拟合误差部分：RSS
表示模型对训练数据的拟合程度。拟合误差越低，模型对数据的解释力越强。
复杂度惩罚项： $2d\hat{\sigma}^2$
用于对模型复杂性进行惩罚，防止过多的参数导致过拟合。
标准化项： $\frac{1}{n}$
将 Mallows’ Cp 转换为平均误差形式，使其适合不同样本大小的模型比较。

如何解释 Cp 值

当 $C_p$ 越接近 1 时，模型在拟合能力和复杂性上达到较好的平衡。
若 $C_p > 1$ ，表示模型可能存在过拟合问题，即模型复杂性过高。
若 $C_p < 1$ ，可能表示模型欠拟合，即模型对数据的拟合能力不足。

通过计算 Mallows’ Cp，可以对不同模型的性能进行量化评估，选择 $C_p$ 值最优的模型。

应用场景

线性回归中的变量选择
在进行线性回归分析时，通常需要从多个变量中选择一个最佳子集。Mallows’ Cp 通过综合考虑拟合误差和复杂度，帮助选择能够平衡性能和复杂性的变量组合。
模型性能比较
在多个候选模型之间，通过计算其 Mallows’ Cp 值，可以选择性能最优的模型。

Python 实现

以下代码展示如何使用标准化公式计算 Mallows’ Cp：

def mallows_cp(rss, sigma_squared, d, n):"""计算 Mallows' Cp 的标准化形式参数:- rss: 模型的残差平方和 (Residual Sum of Squares)- sigma_squared: 误差估计方差 (通常是全模型的均方误差)- d: 模型参数个数（包括截距）- n: 样本总数返回:- 标准化后的 Mallows' Cp 值"""cp = (rss + 2 * d * sigma_squared) / nreturn cp# 示例数据
rss = 150      # 残差平方和
sigma_squared = 4  # 全模型的误差估计方差
d = 5          # 参数个数
n = 100        # 样本数量cp_value = mallows_cp(rss, sigma_squared, d, n)
print(f"Mallows' Cp 值: {cp_value}")

输出结果