熵与信息论

经典信息论的核心概念是香农熵。假设我们得到了一个变量X的值，X的香农熵量化了我们在获悉 X的值时所能得到的平均信息量；另一种观点是将X的看作在我们获悉的值前对其不确定程度的度量。这两种观点是互补的；我们既可以将看作在我们获悉X的值前，对其不确定程度的度量，也可以看作在我们已经得到的值后，对获得信息量的度量。
直觉上，随机变量的信息内容不应该依赖于随机变量取值的标签。例如，有一个随机变量取值为“头”和“尾”的概率分别为 1/4与3/4，另一个随机变量取值为0和1的概率分别为1/4与3/4，我们希望这两个随机变量包含相同的信息量。因此，随机变量的被定义为关于随机变量取值的概率的函数，且不受这些值的标签影响。我们经常将写作概率分布P1...Pn的函数这一概率分布的香农熵定义为

$H(X)\equiv H(p_{1},...p_{n})\equiv -\sum_{x}^{}p_{x}logp_{x}$ （1）

注意到 $\lim_{x\rightarrow 0}xlogx=0$ 。

为什么要用这种方式表示熵呢？对熵的定义给出直观的论证，即熵的定义满足一些公理，这些公理是信息度量被期望拥有的性质。更具体地说，假设有某个源(可能是无线电天线)正在产生某种类型的信息，比如以比特事的形式让我们考虑一个非常简单的模型，对于一个源:我们将它建立为一个产生一串独立同分布随机变量 X1,X2,… 的模型。大多数的真实信息源并不完全是这样的，但这通常是对真实情况的一个很好的近似。香农的问题是我们最少需要多少资源来存储由源产生的这些信息，并使其在之后可以被重构。这个问题的答案被证明就是熵,也就是对每个源的符号我们需要 H(X)个比特,其中H(X)≡ (X1)≡ H(X)≡…..是源模型中每个随机变量的熵。这一结果被称为香农无噪声信道编码定理，我们将在第12章中证明它的经典与量子版本。
我们举一个关于香农无噪声信道编码定理的具体例子，假设有一个信息源每次产生 1,2,3,4四个符号中的一个。在不进行压缩的情况下，每次使用源都需要消耗2比特的空间来存储4种可能的输出。然而，假设源产生符号1的概率是1/2，符号2的概率是1/4，符号3和4的概率是1/8，我们可以利用输出结果的这一偏向来压缩源，实现的方法是用较短的比特串来存储常见的符号例如1，而用较长的比特串来存储少见的符号例如3和4。一种可行的压缩方式是将1编码为比特串0，2为比特串10，3为比特串110，4为比特串111。可以注意到压缩后的串的平均长度就是每次使用源产生的信息量·1+·2+3+3=比特，这比用最普通直接的方式来存储源所需要的比特数要少！令人惊讶的是它恰好等于源的熵，即 H(X)=-1/2l0g(1/2)-1/4l0g(1/4)-1/8log(1/8)-1/8log(1/8)=7/4！此外，可以证明任何尝试更进一步地压缩源的企图都将不可避免地导致信息损失；因此熵量化了可能达到的最优压缩表示。

(定义的直观论证) 假定我们正在尝试量化在一次概率试验中可能发生的事件 E能够提供的信息量，我们通过使用一种取值由事件 E决定的“信息函数”I(E)来完成这件事。假定我们对这一函数有如下假设:
1.I(E)是一个只和事件 E的发生概率有关的函数，因此可以将其写作I=I(p)，p表示取值
为0到1的概率。
2.I是关于概率的平滑函数。
3.当p，q>0时，I(pg)=I(p)+I(q)。(解释:当两个独立事件分别以概率p与q同时发生时所能获得的信息等于每个事件单独发生时所能获得的信息之和。)
证明I(p)= klogp是满足以上假设的函数，其中k是一个常数。由此可以推出一组发生概率分别为p1...pn的互斥事件的平均信息增益等于 $k \sum_{i}^{}p_{i}logp_{i}$ ，而这恰好就等于香农熵乘以一个常数。

二元熵

由于二值随机变量的熵非常有用，因此我们给它一个特殊的名字--二元熵，定义为
$H_{bin}(p)\equiv -plogp-(1-p)log(1-p)$ (2）

其中p与1-p是输出两个值的概率。图 11-1展示了二元熵函数的图像。可以注意到 H(p)= H(1-p)，并且当p=1/2时 H(p)达到最大值1。

二元熵是用来理解熵的更一般性质的极好试验场。当我们混合两个或更多的概率分布时，会如何表现是一个特别令人感兴趣的性质。例如，想象一下Alice拥有两枚硬币，一枚是25 美分硬币，另一枚是I澳元硬币。两枚硬币都被调整过以便具有某种偏向，其中美元正面朝上的概率是PU，澳元正面朝上的概率是PA。假设Alice以q的概率掷美元，以1-q的概率掷澳元，并且告诉 Bob结果是正面朝上还是反面朝上。那么Bob平均能够获得多少信息量?直觉上，Bob得到的信息应该至少与掷美元或掷澳元得到的平均信息量相等。这一直觉用公式可以表达为
$H(qpu+(1-q)p_{A})\geq qH(pu)+(1-q)H(p_{A})$ (3）
大多时候上述不等式是严格的，因为Bob获得的信息不仅包括了硬币的值，也包括关于硬币特性的额外信息。比方说，如果pu=1/3,PA=5/6，并且结果是正面朝上，那么 Bob 就得到了一个相当明显的迹象，即硬币可能是澳元。

对于实值函数
$f(px+(1-p)y)\geq pf(x)+(1-p)f(y)$
容易看出来二值函数是凹的、也可以通过检查图-1从面在视觉上捕提到这一性质，容易观察到的二元熵的图始终位于任意一条切测图的线条之上。作者的话（不要被上述育警式论证的前单所蒙蔽以致陷人虚安的自满之中:量子信息论中许多最深刻的结果都源自于经典或最子嫡的精妙应用。此外，对于量子熵而言，有时候很难证明直观上认为应当具有的回性）