一文看懂信息熵的本质——谈谈自己对信息熵的理解

一、序言

    初次看到信息熵的公式有很多不理解的地方,只知道信息熵如何进行计算,却不懂得公式背后的原理,我通过查阅了一些资料,加深了对信息熵的理解,现在将这些理解分享给大家。如有疑问欢迎评论,若对你有帮助,麻烦点个赞。未经允许、请勿转载。(本文适合只知道信息熵的公式,但是不明白其中原理的人进行阅读)

二、什么是信息熵

    正如我们想要衡量某个物体的质量引入了克这个单位、我们想衡量时间,我们设计一秒钟这么长。香农老人家想要量化一条消息中带有的“信息量”的大小,提出了信息熵。
那么,首先明确一个问题,什么样的消息算作“信息量大”呢?什么样的消息又算作“信息量小呢”?举个例子昨天小明和我说:“今天罗志祥又和周扬青秀恩爱了!”,我就觉得这有啥的,他们天天秀恩爱。也就是说小明的这条消息并不能给我带来很大的信息量。
BUT今天小明和我说:”周扬青怒锤罗志祥!!!罗志祥人设崩塌!!!“,我就会很惊讶,因为这条消息给我的信息量很大。(类似的信息量很大的消息还有:小明告诉我今天太阳会从西边升起)
我们用信息熵来描述一个事件混乱程度的大小(一个事件我们一定知道结果,那么这个事件的混乱程度就是0;一个时间充满随机性,我们猜不到或者很难猜到结果,那么他的混乱度就很大)
引用下面一个在箱子里面摸球的例子,我们来更具体的了解信息熵。
(此例引自:Youtube的一个视频)
在这里插入图片描述
图左侧中有一个装有四个球的封闭箱子(这个箱子里面有三个红球、一个蓝球),现在我们从箱子中随机取出一个球,记录它的颜色后再放回箱子中,重复四次操作。如果你依次取出的序列为右上角所示(第一次取到红色、第二次取到红色、第三次取到红色、第四次取到蓝色),则你可以获得奖金;否则你就输了。大家用初中数学来算一算,我赢得奖金的概率是
P ( x ) = 3 4 ∗ 3 4 ∗ 3 4 ∗ 1 4 = 27 256 P(x)=\frac{3}{4}*\frac{3}{4}*\frac{3}{4}*\frac{1}{4}=\frac{27}{256} Px=43434341=25627
  现在明确了这个游戏的规则,那么我们分析一下如下几个箱子与赢得奖金的情况,分别计算一下获胜概率
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(每个图的左边是这个箱子的红球与蓝球初始条件,右侧是获胜所要求的序列,大家自己算算这个概率和图上写的一样吗?)
在这里插入图片描述
我们来分析一下这三种状态的游戏,第一次由于箱子内全是红球、该箱子的随机性很弱,也就是说还没摸我就知道结果了。这种状态带来的信息量很小;第三个箱子随机性很强,也就是说,对于结果我们充满未知。这个状态的信息量很大。我们算出的这个概率越接近1时候,这个信息熵应该越接近0;算出的这个概率越小的时候,信息熵反而应该越大。我们需要找到这么一个公式来满足这一点。(暂停思考一下,有哪些公式可以满足)
该可以很轻松的想到,用刚才P(winning)的概率取倒数可以吗? 答案是,只考虑刚才的问题,是可以的。但取倒数这个方式还是存在一些问题,比如第三个箱子取0.0625的倒数,算出来的这个信息量为16,如果这个P(winning)概率算出结果很小时,取倒数后就会变得非常大,所以我们认为这个乘法的规则并不是很好(换言之,我们希望曲线平滑一些)。香农发现log函数可以很好的解决这个问题。 因为log(a*b) = log(a)+log(b);而恰巧像抽箱子的独立事件P(AB) = P(A)*P(B)。【原因不止于此,后面我们还会再详细讨论】。
所以香农取了一个-log(x)这么一个函数来表示某一状态的信息量大小,因为x是概率事件取[0,1],所以log(x)是一个递增的恒负的值,取一个负号,-log(x)是一个恒正、递减的函数,正好符合我们的预期。
在这里插入图片描述

表的第四列就是我们用log计算出的结果。而我们刚刚是依次计算的每一个球的结果,为了表示系统的平均信息量。我们除4得到最终的信息熵。
在这里插入图片描述
我们来将这个模型一般化,m个红球n个蓝球,信息熵表示如上图所示。
我们可以再将模型一般化一些,如果这个箱子里有多种不同颜色的球,我们就公式变成了如下的样子:
H ( x ) = − ∑ i = 1 n P ( x i ) ∗ l o g ( P ( x i ) ) H_{(x)}= -\sum_{i=1}^{n}P_{(x_i)}*log(P(x_i))\, H(x)=i=1nP(xi)log(P(xi))
这就是信息熵。也就是说,我们规定拿出一枚硬币,随意投出后,他可能是正面也可能是反面,它的信息熵是单位1(用刚才的方法来算算是不是1)。就像我们在这节开始所提到的,我们知道一个物体是几千克。是因为我们有一个1kg的砝码作为参考。我们能感受到时间流逝了多少秒,是因为我们规定了秒的单位。

三、为什么是log

 这章我们会再用一个例子来讲解,为什么是信息熵为什么要用log?还是以一个游戏为例。在这里插入图片描述
在上述的8个字母中,任取一个字母(我们不知道取的是什么,但我们知道初始的8个字母是什么),现在让你来猜这个字母是什么。
利用我们刚刚学过的信息熵,我们可以知道第一个序列的信息熵很低、第三个最高。我们可以计算出如下结果
在这里插入图片描述
(这个信息熵大家自己算一下,和上面计算的方式完全一样)
重点来了: 下面我们用一种提问的方式,来解决这个问题。你可以像系统提问(比如:这个字符是A吗?),系统会给你回答,你根据回答继续进行提问,直到猜到结果为止。以第二个序列为例;系统选了D,让你来猜。你会这样提问:
Q1:这个字符是A吗? Answer:不是
你就知道,这个答案只能是B,C,D中的一个,你就会继续提问:
Q2:这个字符是B吗? Answer:不是
你就会继续问:
Q3:这个字符是C吗?Answer:不是
好了,你不会再继续问下去了,因为这个答案一定是D。
也就是说通过这种方式,如果答案是A,你会猜1次,答案是B你会猜两次,答案是C或者D,你会猜三次。平均猜测次数为
E ( x ) = 1 4 ∗ 1 + 1 4 ∗ 2 + 1 4 ∗ 3 + 1 4 ∗ 3 = 2.25 次 E(x)=\frac{1}{4}*1+\frac{1}{4}*2+\frac{1}{4}*3+\frac{1}{4}*3=2.25次 Ex=411+412+413+413=2.25
显然,你可以选择一种更精妙的提问方式,来缩减平均猜测的次数
你可以这样进行提问:
Q1:这个字符是A或B吗? Answer:不是
Q2:那么这个字符是C吗? Answer:不是
好了,那么我知道这个字符是D了。也就是通过这种方式,我们不管是哪一个字符,我们只需要问两次就可以解决问题,我们用一种更直观的树来表示,如下图所示
在这里插入图片描述
恰巧,这种提问二选一的过程,恰巧是个抛硬币的过程。由于我们类似的等价于抛了两次硬币,我们可以知道,这个过程的信息熵是2。我们再用信息熵的公式试一试
H ( x ) = 1 4 ∗ l o g ( 4 ) + 1 4 ∗ l o g ( 4 ) + 1 4 ∗ l o g ( 4 ) + 1 4 ∗ l o g ( 4 ) = 2 H(x)=\frac{1}{4}*log(4)+\frac{1}{4}*log(4)+\frac{1}{4}*log(4)+\frac{1}{4}*log(4)=2 Hx=41log(4)+41log(4)+41log(4)+41log(4)=2
(这里我们把符号直接化进log中了)

大家发现没有,log(x)是不是恰巧等于x需要询问的次数呢?!!!这也是这个公式的精妙所在,在离散数学中我们学过,一个树的高度等于log(节点数),这个log(x)恰巧是询问的高度,也就是投硬币的次数!这原来就是使用log的原因
上面的例子中A,B,C,D都是等概率出现的;下面我们将这个过程一般化,看一看当每个随机变量不等概率时的运算过程
在这里插入图片描述

我们看如上的序列,其中A出现的概率要等于BCD之和。所以我们为了让我们的提问次数最小化,我们要尽力讲每次提问的YorN分成等概率,也就是我们要问的第一个问题是:
Q1:这个字符是A吗?
如果不是,我们知道是B,C,D但是B的概率等于C和D之和,我们就再问:
Q2:这个字符是B吗?
如果不是,这时候C和D等概率,我们随便问一个即可:
Q3:这个字符是C吗?
好了,现在得出了结论。
问出A需要1次,B2次,C和D都是三次。
我们用信息熵来计算一下。
H ( x ) = 1 2 ∗ l o g ( 2 ) + 1 4 ∗ l o g ( 4 ) + 1 8 ∗ l o g ( 8 ) + 1 8 ∗ l o g ( 8 ) H(x)=\frac{1}{2}*log(2)+\frac{1}{4}*log(4)+\frac{1}{8}*log(8)+\frac{1}{8}*log(8) Hx=21log(2)+41log(4)+81log(8)+81log(8)
每一个log(x)恰巧对应着他所在的叶子在树的第几层,也就是他需要询问的次数,前面乘上一个概率,是不是发现这个公式提出的非常巧妙!!

同时,在二进制计算机中,一个比特为0或1,其实就代表了一个二元问题的回答。也就是说,在计算机中,对于这个事件进行编码,所需要的平均码长为H(x)个比特。

三、结语

 通过上述过程,相信大家能清楚的理解信息熵。本文并没有一些数学上详细的证明,暂时留个坑以后填。如果大家有什么问题,欢迎在评论区交流,如果觉得有用麻烦点个赞~
如果觉得还没看够,那不妨看看续集~:
KL散度、交叉熵——谈谈自己对信息熵的理解
参考资料:
[1]https://www.youtube.com/watch?v=ErfnhcEV1O8
[2]https://blog.csdn.net/v_JULY_v/article/details/40508465

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/54668.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

传闻中能取代90%人工作的chatGPT,不值得让软测人恐慌

ChatGPT的横空出世,在业界掀起了惊涛骇浪。很多人开始担心,自己的工作岗位是否会在不久的将来被ChatGPT等人工智能技术所取代。 软件测试与先进技术发展密切相关,基于人工智能的AI助手已经得到很多的应用机会,那么未来是否更加可期…

该来的总会来,EDG厂长宣布退役!

眼看LPL的转会期就要结束了,但是现在EDG这个传统战队还是没有太多的消息,只听说花费了50万买了一个青训的选手,而IBOY也被传出,有很大概率离开战队,最主要是厂长也退役了。 其实我们都知道厂长是LPL中年纪最大的选手了…

C语言入门这一篇就够了,厂长推荐学习

C语言入门这一篇就够了,⭐厂长推荐学习 关于作者 作者介绍 🍓 博客主页:作者主页 🍓 简介:JAVA领域优质创作者🥇、一名在校大三学生🎓、在校期间参加各种省赛、国赛,斩获一系列荣誉…

2021年危险化学品生产单位安全生产管理人员最新解析及危险化学品生产单位安全生产管理人员证考试

题库来源:安全生产模拟考试一点通公众号小程序 安全生产模拟考试一点通:危险化学品生产单位安全生产管理人员最新解析参考答案及危险化学品生产单位安全生产管理人员考试试题解析是安全生产模拟考试一点通题库老师及危险化学品生产单位安全生产管理人员…

添加小度在家显示无法连接服务器,小度在家突然连不上网了

有个小伙伴说:‘家里有一台小度在家智能音箱,用了大概一年多了,型号是小度最开始那一款智能音箱,价格不到百十块,使用期间也没啥问题,但是最近想再用的时候,发现一直连不上网了,这要…

在与 SQL Server 建立连接时出现与网络相关的或特定于实例的错误。未找到或无法访问服务器

今早开机发现,打开SQL Server 2008 的 SQL Server Management Studio,输入sa的密码发现,无法登陆数据库?提示以下错误: “在与 SQL Server 建立连接时出现与网络相关的或特定于实例的错误。未找到或无法访问服务器。请验证实例名…

pycharm连接远程mysql_【已解决】用PyCharm的MongoDB插件连接远程MongoDB数据库

折腾: 后,继续去试试,用之前可以正常连接本地的mongo的PyCharm的mongodb插件,去连接远程的mongo数据库 PyCharm中mongo插件中测试连接,失败: 再去测试: 然后在Mongo shell options中的arguments…

37 | 个人成长:学习安全,哪些资源我必须要知道?

安全涉及的知识面非常广,更新速度也很快,前辈们很难有足够的时间和精力来言传身教。这个时候就需要我们具备良好的自学能力,通过持续的学习来掌握新的知识,应对新的变化和挑战。 优质的学习资源是自学的重要基础。今天&#xff0…

Java连接MySQL数据库——含步骤和代码

原文地址为: Java连接MySQL数据库——含步骤和代码 工具:eclipse MySQL5.6 MySQL连接驱动:mysql-connector-java-5.1.27.jar 加载驱动: 1. 在工程目录中创建lib文件夹,将下载好的JDBC放到该文件夹下,如下…

2022广西最新八大员之(安全员)模拟试题题库及答案

百分百题库提供建筑施工八大员之安全员考试试题、建筑施工八大员考试预测题、八大员考试真题、安全员证考试题库等,提供在线做题刷题,在线模拟考试,助你考试轻松过关。 1.安全生产领导小组由总承包企业,专业承包企业和劳务分包企业项目经理、技术负责人和…

2023最新Python国内镜像源,亲测可用

1、镜像源 pip包管理工具可以下载第三方库到本地使用,第三方库的来源地址称之为镜像源,镜像源中存放了大量的开源库供我们下载使用。pip的默认镜像源地址在国外,下载很慢,本文收集了当前国内常用的镜像源,速率由快到慢…

Red Hat下载ISO镜像的方法

目录 一、Red Hat介绍 二、进入Red Hat官方网站 三、步骤 一、Red Hat介绍 Red Hat 是一家全球领先的开源技术解决方案提供商,总部位于美国北卡罗来纳州罗利。该公司成立于1993年,其主要产品是 Red Hat Enterprise Linux (RHEL) 操作系统。Red Hat 还…

seata搭建 1.4.2

1.下载源码 下载服务器端 https://github.com/seata/seata/releases 找到1.4.2的zip下载 2.修改配置文件 解压后需要修改config文件 路径\seata\seata-server-1.4.2\conf 针对自己项目所使用的服务注册和配置文件的中间件决定使用哪一个(当前举例nacos&#x…

已解决——“搜狗输入法如何进行候选页翻页”

搜狗输入法候选翻页 打开搜狗输入法后(不同版本可能页面会有差异): 点击鼠标右键选择更多设置。 选择属性设置,点击按键栏,找到候选键翻页。 效果简述(以逗号句号为例): 打字一…

搜狗拼音带来的俩个烦人的弹窗解决方法

文章目录 1、搜狐的新闻2、提示安装搜狗浏览器清理垃圾解决办法,按ctrl alt 就会关闭了。 1、搜狐的新闻 进入你安装的搜狗拼音的目录下,进入数字的文件夹,把SohuNews 这个选中它,shiftdelete,将它彻底删除。直接del…

和府捞面跨界合作《脱口秀小会》,探索娱乐文化营销

上海2021年8月27日 /美通社/ -- 8月10日晚,新一季《脱口秀大会》正式开播,李诞、杨笠、王建国等知名脱口秀演员及一众新星齐亮相,邀请了来自不同行业、从事不同职业、拥有广泛背景的跨界选手加入,通过跨界选手对日常生活内容的讲述…

搜狗手机输入法 for MeeGo 平台今日独家登场

搜狗手机输入法 for MeeGo 平台今日独家登场!支持拼音、英文九键;内置两款精美皮肤;划动切换键盘模式等众多特性,完美继承搜狗体验!N9输入,依然搜狗~有兴趣的朋友可以试一下 1.1 支持拼音9键,拼…

黑马程序员万人开学季!美女班主任甚至即兴rap了一段脱口秀~

各位黑马同学 你们好 欢迎乘坐黑马号K1024次列车 祝您旅途愉快 8月开学季 传智黑马又迎来一大批“未来的技术侠客” 他们揣着梦想铿锵而来 这个夏天,骄阳似火 但每个学生求知的心情比火更热烈 尽管,大家来黑马之前的身份各有不同 应届大学生、销售、客服…

小狼毫(RIME)输入法入门使用详细教程

官网 https://rime.im 百度云链接 链接永久有效,有window版,mac版,安卓apk,教程小视频 链接:https://pan.baidu.com/s/1a-z1wYwyZ50A6x92lXIgWg 提取码:asdf 下面开始教程,安装就不说了 手…

谁在押注“脱口秀直播带货”?

文/王慧莹 编辑/叶丽丽 “这边给得太多了,我们确实给不了这么多。”10月底,李诞做客罗永浩直播间时调侃直播带货的高收入,并戏称希望跟罗永浩换工作。 如今,李诞的愿望实现了。 12月10日,正值淘宝双12前夕,…