熵
自信息 I(x) = - log p(x)
对于分布为P(x)的随机变量X,自信息的数学期望 即熵H(X)定义为:
熵越高,随机变量信息越高,反之越少。不同概率分布对应熵如下:P
p() | 熵 | ||
1 | 0 | 0 | 0 |
1/2 | 1/4 | 1/4 | |
1/3 | 1/3 | 1/3 |
概率分布越均匀,熵越大。
联合熵:
对于两个离散随机变量𝑋 和𝑌,假设𝑋 取值集合为𝒳;𝑌 取值集合为𝒴,其联 合概率分布满足为𝑝(𝑥, 𝑦),则𝑋 和𝑌 的联合熵(Joint Entropy):
条件熵:
根据定义也可写成:
交叉熵:
对于分布为𝑝(𝑥)的随机变量,熵𝐻(𝑝)表示其最优编码长度.交叉熵(Cross Entropy)是按照概率分布𝑞的最优编码对真实分布为𝑝的信息进行编码的长度, 定义为:
给定 𝑝 的情况下,如果 𝑞 和 𝑝 越接近,交叉熵越小;如果 𝑞 和 𝑝 越远,交叉 熵就越大..
KL散度:
KL 散度(KL Divergence),也叫相对熵,是用概率分布 𝑞 来近似 𝑝 时所造成的信息损失量.KL 散度是按照概 率分布𝑞的最优编码对真实分布为𝑝的信息进行编码,其平均编码长度(即交叉 熵)𝐻(𝑝, 𝑞) 和 𝑝 的最优平均编码长度(即熵)𝐻(𝑝) 之间的差异.对于离散概率 分布𝑝和𝑞,从𝑞到𝑝的KL散度定义为
KL散度总是非负的,KL(𝑝, 𝑞) ≥ 0,可以衡量两个概率分布之间的距离.KL 散度只有当𝑝 = 𝑞时,KL(𝑝, 𝑞) = 0.如果两个分布越接近,KL散度越小;如果两 个分布越远,KL散度就越大.但KL散度并不是一个真正的度量或距离,一是KL 散度不满足距离的对称性,二是KL散度不满足距离的三角不等式性质.
JS散度:
JS散度(Jensen-Shannon Divergence)是一种对称的衡量两个分布相似度 的度量方式,定义为:,其中,.
JS 散度是 KL 散度一种改进.但两种散度都存在一个问题,即如果两个分布 𝑝, 𝑞没有重叠或者重叠非常少时,KL散度和JS散度都很难衡量两个分布的距离.
Wasserstein距离
Wasserstein 距离(Wasserstein Distance)也用于衡量两个分布之间的距 离.对于两个分布𝑞1 , 𝑞2,距离定义为
其中Γ(𝑞1 , 𝑞2 )是边际分布为𝑞1 和𝑞2 的所有可能的联合分布集合,𝑑(𝑥, 𝑦)为𝑥 和 𝑦的距离,比如ℓ𝑝 距离等.
如果将两个分布看作两个土堆,联合分布 𝛾(𝑥, 𝑦) 看作从土堆 𝑞1 的位置 𝑥 到 土堆𝑞2 的位置𝑦的搬运土的数量,并有
𝑞1 和𝑞2 为𝛾(𝑥, 𝑦)的两个边际分布。𝔼(𝑥,𝑦)∼𝛾(𝑥,𝑦)[𝑑(𝑥, 𝑦) ] 可以理解为在联合分布 𝛾(𝑥, 𝑦) 下把形状为 𝑞1 的土堆 搬运到形状为𝑞2 的土堆所需的工作量,
其中从土堆𝑞1 中的点𝑥 到土堆𝑞2 中的点𝑦 的移动土的数量和距离分别为𝛾(𝑥, 𝑦) 和 .因此,Wasserstein 距离可以理解为搬运土堆的最小工作量,也称 为推土机距离(Earth-Mover’s Distance,EMD).图E.1给出了两个离散变量分 布的Wasserstein距离示例.图E.1c中同颜色方块表示在分布𝑞1 中为相同位置.
Wasserstein 距离相比 KL 散度和 JS 散度的优势在于:即使两个分布没有重 叠或者重叠非常少, Wasserstein距离仍然能反映两个分布的远近. 对于 ℝ𝐷 空间中的两个高斯分布 𝑝 = 𝒩(𝝁1 , 𝚺1 ) 和 𝑞 = 𝒩(𝝁2 , 𝚺2 ),它们的 -Wasserstein距离为
当两个分布的方差为0时,-Wasserstein距离等价于欧氏距离.