1. 贝叶斯定理 (Bayes' Rule)
贝叶斯公式,又称贝叶斯定理、贝叶斯法则,最初是用来描述两个事件的条件概率间的关系的公式,后来被人们发现具有很深刻的实际意义和应用价值。该公式的实际内涵是,支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。
首先,我po一道例题
问题回顾
- 袋子 1(B1):2 颗红球,3 颗白球 → (R, R, W, W, W)
- 袋子 2(B2):3 颗红球,2 颗绿球 → (R, R, R, G, G)
- 随机选择一个袋子,然后 不放回地抽取 2 颗球,发现它们都是 红球。
- 问题:在已知抽到 2 颗红球的情况下,选中的袋子是 B1 的概率是多少?
2.熵与 KL 散度 (Entropy and KL-Divergence)
2.1. 熵(Entropy):不确定性的度量
-
是什么? 熵衡量一个事件或概率分布的“不确定性”。不确定性越大,熵越高。
-
例子:抛硬币时,若硬币公平(正反概率各50%),结果最难预测,此时熵最大;若硬币作弊(如正面90%),结果更容易猜中,熵较低。
-
直观理解:熵是“平均信息量”。比如,天气预报若每天都是晴天(确定性高),熵低;若阴晴不定(不确定性高),熵高。
2.2. KL散度(Kullback-Leibler Divergence):分布差异的衡量
-
是什么? KL散度衡量两个概率分布 pp(真实分布)和 qq(近似分布)的差异。差异越大,KL散度越大。
-
直观理解:如果用错误的分布 q 描述真实数据 p,KL散度表示“额外信息成本”。例如:
-
真实分布 p:公平硬币(熵=1比特)。
-
近似分布 q:作弊硬币(正面70%,反面30%)。
-
计算 DKL(p∣∣q)≈0.1258 比特,表示用 q 近似 p 时,每个结果平均多出0.1258比特的“误差”。
-
2.3. 熵与KL散度的关系
2.4.应用场景
-
熵:压缩数据(熵越低,越易压缩)、评估系统不确定性。
-
KL散度:模型训练(如变分自编码器VAE)、分布对比(如生成对抗网络GAN)、信息检索。
2.5.总结
-
熵:衡量“不确定性”,值越大越难预测。
-
KL散度:衡量“两个分布的差异”,值越大越不相似。
-
注意:KL散度不对称,使用时需明确方向(如用 q 近似 p,还是反过来)。
还是先po一道例题
问题回顾
给定两个离散概率分布 p 和 q:
![]()
我们需要计算:
- 构建 Huffman 树(用于数据压缩)
- 计算熵 H(p)
- 计算 KL 散度
,并比较它们的大小
3.二元高斯分布的熵、KL 散度 和 Wasserstein 距离
3.1. 二元高斯分布的熵
是什么?
熵衡量分布的“不确定性”或“混乱程度”。对于高斯分布,熵由分布的“分散程度”(协方差矩阵)决定:数据越分散,熵越高。
公式
二元高斯分布的熵公式为:
-
∣Σ∣是协方差矩阵的行列式,代表分布的“面积”(分散程度)。
-
直观理解:协方差矩阵的行列式越大(数据分布越广),熵越大。例如:
-
窄而集中的分布(如身高和体重的紧密关联)→ 熵低。
-
宽而分散的分布(如身高和体重几乎不相关)→ 熵高。
-
例子
假设一个班级学生的身高和体重服从高斯分布:
-
若身高和体重高度相关(比如高个子通常更重),协方差矩阵的行列式较小 → 熵低。
-
若身高和体重几乎无关(比如高个子可能重也可能轻),行列式较大 → 熵高。
3.2. KL散度(Kullback-Leibler Divergence)
是什么?
KL散度衡量两个高斯分布的差异。如果分布 PP 和 QQ 的均值和协方差不同,KL散度会量化它们的“不相似性”。
假设:
-
P 是某地区成年人的身高体重分布(均值170cm/65kg,协方差小)。
-
Q 是另一个地区的分布(均值175cm/70kg,协方差大)。
KL散度会反映这两个分布的差异。但注意:用 Q 近似 P 的误差,和用 P 近似 Q 的误差是不同的(非对称性)。
3.3. Wasserstein距离
是什么?
Wasserstein距离衡量两个分布之间的“最小搬运成本”。直观上,它回答:“把分布 P 的土堆,搬运成分布 Q 的形状,最少需要多少工作量?”
例子
假设:
-
P 是一个窄高斯分布(如某品牌手机的用户年龄和收入)。
-
Q 是一个宽高斯分布(如另一品牌手机的用户年龄和收入)。
Wasserstein距离不仅考虑了两者均值的位置差异,还考虑了分布形状的不同(比如一个集中,一个分散)。
3.4.三者的对比
3.5.直观总结
-
熵:衡量分布本身的“混乱程度”——协方差矩阵越大,熵越高。
-
KL散度:衡量两个分布的“信息差异”——均值相差越大或协方差越不匹配,值越大。
-
Wasserstein距离:衡量两个分布的“几何距离”——既考虑位置差异,也考虑形状差异。
3.6.实际应用
-
熵:在通信中用于计算信道容量;在数据科学中用于评估特征的不确定性。
-
KL散度:用于变分推断(VAE)、EM算法,衡量模型分布与真实分布的差异。
-
Wasserstein距离:在生成对抗网络(WGAN)中替代KL散度,解决梯度消失问题;在最优运输问题中广泛应用。
现在,我来po一道例题
(1) 计算熵 H(p) 和 H(q)
(2) 计算 KL 散度
(3) 计算 Wasserstein 距离
它考虑了两个因素:
- 均值 (Mean) 的差距:衡量两个分布中心的偏移。
- 协方差 (Covariance) 的差距:衡量分布形状的不同。
解释:
- 这意味着高斯分布 q 和 p 在几何空间中的“距离”是 1.624。
- 这个值表示:
- 均值偏移影响了 Wasserstein 距离(均值差异平方是 1)。
- 协方差矩阵的不同也产生贡献(额外贡献了 1.64)。
- 相比 KL 散度,Wasserstein 距离更加直观,能够反映分布的几何结构差异。
总结
- 最终 Wasserstein 距离:W2(q,p)=1.624
- 意义:
- 如果 W2W_2W2 小,说明两个分布几乎一样。
- 如果 W2W_2W2 大,说明两个分布在均值或形状上差异较大。
- 这个距离在**生成对抗网络(GANs)**中用于衡量生成数据与真实数据的相似性。
假设有两个村庄 p 和 q:
- KL 散度 只关注:p 和 q 在同一个位置上食物分布不同,会导致多少信息损失。
- Wasserstein 距离 关注:如果要把 p 的食物分布变成 q,需要运多少货车,跑多远?
在高斯分布的情况下:
- 如果均值 μ1 和 μ2 相近,W2 会小,表示分布很相似。
- 如果协方差矩阵 Σ1 和 Σ2 形状差别大,W2 会增大,说明分布形状不同。