概率、泛化与过拟合

1. 贝叶斯定理 (Bayes' Rule)

贝叶斯公式，又称贝叶斯定理、贝叶斯法则，最初是用来描述两个事件的条件概率间的关系的公式，后来被人们发现具有很深刻的实际意义和应用价值。该公式的实际内涵是，支持某项属性的事件发生得愈多，则该属性成立的可能性就愈大。

首先，我po一道例题

问题回顾

袋子 1（B1）：2 颗红球，3 颗白球 → (R, R, W, W, W)
袋子 2（B2）：3 颗红球，2 颗绿球 → (R, R, R, G, G)
随机选择一个袋子，然后 不放回地抽取 2 颗球，发现它们都是红球。
问题：在已知抽到 2 颗红球的情况下，选中的袋子是 B1 的概率是多少？

2.熵与 KL 散度 (Entropy and KL-Divergence)

2.1. 熵（Entropy）：不确定性的度量

是什么？ 熵衡量一个事件或概率分布的“不确定性”。不确定性越大，熵越高。
例子：抛硬币时，若硬币公平（正反概率各50%），结果最难预测，此时熵最大；若硬币作弊（如正面90%），结果更容易猜中，熵较低。

直观理解：熵是“平均信息量”。比如，天气预报若每天都是晴天（确定性高），熵低；若阴晴不定（不确定性高），熵高。

2.2. KL散度（Kullback-Leibler Divergence）：分布差异的衡量

是什么？ KL散度衡量两个概率分布 pp（真实分布）和 qq（近似分布）的差异。差异越大，KL散度越大。

直观理解：如果用错误的分布 q 描述真实数据 p，KL散度表示“额外信息成本”。例如：
- 真实分布 p：公平硬币（熵=1比特）。
- 近似分布 q：作弊硬币（正面70%，反面30%）。
- 计算 DKL(p∣∣q)≈0.1258 比特，表示用 q 近似 p 时，每个结果平均多出0.1258比特的“误差”。

2.3. 熵与KL散度的关系

2.4.应用场景

熵：压缩数据（熵越低，越易压缩）、评估系统不确定性。
KL散度：模型训练（如变分自编码器VAE）、分布对比（如生成对抗网络GAN）、信息检索。

2.5.总结

熵：衡量“不确定性”，值越大越难预测。
KL散度：衡量“两个分布的差异”，值越大越不相似。
注意：KL散度不对称，使用时需明确方向（如用 q 近似 p，还是反过来）。

还是先po一道例题

问题回顾

给定两个离散概率分布 p 和 q：

我们需要计算：

构建 Huffman 树（用于数据压缩）
计算熵 H(p)
计算 KL 散度 ，并比较它们的大小

3.二元高斯分布的熵、KL 散度和 Wasserstein 距离

3.1. 二元高斯分布的熵

是什么？

熵衡量分布的“不确定性”或“混乱程度”。对于高斯分布，熵由分布的“分散程度”（协方差矩阵）决定：数据越分散，熵越高。

公式

二元高斯分布的熵公式为：

∣Σ∣是协方差矩阵的行列式，代表分布的“面积”（分散程度）。
直观理解：协方差矩阵的行列式越大（数据分布越广），熵越大。例如：
- 窄而集中的分布（如身高和体重的紧密关联）→ 熵低。
- 宽而分散的分布（如身高和体重几乎不相关）→ 熵高。

例子

假设一个班级学生的身高和体重服从高斯分布：

若身高和体重高度相关（比如高个子通常更重），协方差矩阵的行列式较小 → 熵低。
若身高和体重几乎无关（比如高个子可能重也可能轻），行列式较大 → 熵高。

3.2. KL散度（Kullback-Leibler Divergence）

是什么？

KL散度衡量两个高斯分布的差异。如果分布 PP 和 QQ 的均值和协方差不同，KL散度会量化它们的“不相似性”。

假设：

P 是某地区成年人的身高体重分布（均值170cm/65kg，协方差小）。
Q 是另一个地区的分布（均值175cm/70kg，协方差大）。

KL散度会反映这两个分布的差异。但注意：用 Q 近似 P 的误差，和用 P 近似 Q 的误差是不同的（非对称性）。

3.3. Wasserstein距离

是什么？

Wasserstein距离衡量两个分布之间的“最小搬运成本”。直观上，它回答：“把分布 P 的土堆，搬运成分布 Q 的形状，最少需要多少工作量？”

例子

假设：

P 是一个窄高斯分布（如某品牌手机的用户年龄和收入）。
Q 是一个宽高斯分布（如另一品牌手机的用户年龄和收入）。

Wasserstein距离不仅考虑了两者均值的位置差异，还考虑了分布形状的不同（比如一个集中，一个分散）。

3.4.三者的对比

3.5.直观总结

熵：衡量分布本身的“混乱程度”——协方差矩阵越大，熵越高。
KL散度：衡量两个分布的“信息差异”——均值相差越大或协方差越不匹配，值越大。
Wasserstein距离：衡量两个分布的“几何距离”——既考虑位置差异，也考虑形状差异。

3.6.实际应用

熵：在通信中用于计算信道容量；在数据科学中用于评估特征的不确定性。
KL散度：用于变分推断（VAE）、EM算法，衡量模型分布与真实分布的差异。
Wasserstein距离：在生成对抗网络（WGAN）中替代KL散度，解决梯度消失问题；在最优运输问题中广泛应用。

现在，我来po一道例题

（1）计算熵 H(p) 和 H(q)

（2）计算 KL 散度

（3）计算 Wasserstein 距离

它考虑了两个因素：

均值 (Mean) 的差距：衡量两个分布中心的偏移。
协方差 (Covariance) 的差距：衡量分布形状的不同。

解释：

这意味着高斯分布 q 和 p 在几何空间中的“距离”是 1.624。
这个值表示：
均值偏移影响了 Wasserstein 距离（均值差异平方是 1）。
协方差矩阵的不同也产生贡献（额外贡献了 1.64）。

相比 KL 散度，Wasserstein 距离更加直观，能够反映分布的几何结构差异。

总结

最终 Wasserstein 距离：W2(q,p)=1.624
意义：
如果 W2W_2W2 小，说明两个分布几乎一样。
如果 W2W_2W2 大，说明两个分布在均值或形状上差异较大。
这个距离在**生成对抗网络（GANs）**中用于衡量生成数据与真实数据的相似性。