1948年,信息论之父 C. E. Shannon (香农)借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”,并给出了计算信息熵的数学表达式。
信息熵介绍
一元变量信息熵:
式中对数一般取2为底,单位为比特。但是,也可以取其它对数底,采用其它相应的单位,它们间可用换底公式换算。
多元变量信息熵:
从以上定义可以看出,信息熵是随机变量在整个分布空间内的概率函数的离散化加和:
- 对于离散变量,直接采用以上式子进行计算即可;
- 对于连续变量,需要首先通过离散分箱(即数据量化)的方式,将连续分布值离散化为离散值,然后再采用上式计算离散化后的变量熵;
【注意】
- 对于离散变量,信息熵为绝对值概念,反映了该随机变量自身属性;
- 对于连续变量,离散化后求出的信息熵为相对概念,该信息熵值不仅受到变量自身分布的影响,还受到分箱方式的影响;
更多内容,参阅:
信息熵数值计算 - 知乎
信息熵_百度百科