熵的推导与计算

一、信息熵

熵 (entropy) 这一词最初来源于热力学。1948年,克劳德·爱尔伍德·香农将热力学中的熵引入信息论,所以也被称为香农熵 (Shannon entropy),信息熵 (information entropy)。本文只讨论信息熵。首先,我们先来理解一下信息这个概念。信息是一个很抽象的概念,百度百科将它定义为:指音讯、消息、通讯系统传输和处理的对象,泛指人类社会传播的一切内容。那信息可以被量化么?可以的!香农提出的“信息熵”概念解决了这一问题。

一条信息的信息量和它的不确定性有着直接的关系。比如说:我们需要搞清楚一件非常非常不确定的事,或者是我们一无所知的事,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们就不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。

信息量:h(x,y)= h(x)+ h(y)
概率: p(x,y)= p(x)* p(y) 不相关

现在假设一个发送者想传送一个随机变量的值给接收者。那么在这个过程中,他们传输的平均信息量可以通过求 I(x)=−logp(x)关于概率分布 p(x) 的期望得到,即:
在这里插入图片描述

其中负号是用来保证信息量是正数或者零。而 log函数基的选择是任意的(信息论中基常常选择为2,因此信息的单位为比特bits;而机器学习中基常常选择为自然常数,因此单位常常被称为奈特nats)

H(X) 就被称为随机变量 x的熵,它是表示随机变量不确定的度量,是对所有可能发生的事件产生的信息量的期望。从公式可得,随机变量的取值个数越多,状态数也就越多,信息熵就越大,混乱程度就越大。当随机分布为均匀分布时,熵最大,且 0≤H(X)≤logn。稍后将证明。

对信息熵公式的理解:

  • 熵只依赖于随机变量的分布(概率),与随机变量取值无关,所以也可以将 X的熵记作 H§;令0log0=0(因为某个取值概率可能为0)
  • 信息量是大于等于0,肯定不可能是负的
  • 观察两个事件同时发生时获得的信息量应该等于观察到事件各自发生时获得的信息之和:
  • 熵是信息量的数学期望

那么这些定义有着什么样的性质呢?考虑一个随机变量 x。这个随机变量有4种可能的状态,每个状态都是等可能的。为了把 x 的值传给接收者,我们需要传输2比特的消息。H(X)=−4×(1/4)log2(1/4)=2 bits。现在考虑一个具有4种可能的状态 {a,b,c,d} 的随机变量,每个状态各自的概率为 (1/2,1/4,1/8,1/8)。这种情形下的熵为:
在这里插入图片描述

证明0≤H(X)≤logn

利用拉格朗日乘数法求最大值
目标函数
在这里插入图片描述
限定条件:
在这里插入图片描述
构建拉格朗日函数:
在这里插入图片描述
分别对求偏导:
在这里插入图片描述
求得:
在这里插入图片描述

代入目标函数:
在这里插入图片描述
得证

二、联和熵

对服从联合分布为P(x,y)的一对离散随机变量(X,Y),其联合熵H(X,Y)可表示为

在这里插入图片描述

三、条件熵

条件熵 H(Y|X)表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。条件熵 H(Y|X)定义为 X 给定条件下 Y 的条件概率分布的熵对 X 的数学期望:

在这里插入图片描述

条件熵 H(Y|X)相当于联合熵 H(X,Y)减去单独的熵 H(X),即

在这里插入图片描述

证明如下:
在这里插入图片描述

举个例子,比如环境温度是低还是高,和我穿短袖还是外套这两个事件可以组成联合概率分布 H(X,Y),因为两个事件加起来的信息量肯定是大于单一事件的信息量的。假设 H(X)对应着今天环境温度的信息量,由于今天环境温度和今天我穿什么衣服这两个事件并不是独立分布的,所以在已知今天环境温度的情况下,我穿什么衣服的信息量或者说不确定性是被减少了。当已知 H(X) 这个信息量的时候,H(X,Y) 剩下的信息量就是条件熵:H(Y|X)=H(X,Y)−H(X)

因此,可以这样理解,描述 X 和 Y 所需的信息是描述 X 自己所需的信息,加上给定 X的条件下具体化 Y 所需的额外信息。

四、互信息

  • 两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵
  • 度量两个随机变量的“相关性”
  • 互信息就是随机事件X的不确定性或者说熵H(X),以及在知道随机事件Y条件下的不确定性(条件熵)的差异,注意差异是用相对熵(散度来衡量),而相关性用互信息来表示,但同样用相对熵来计算
    在这里插入图片描述在这里插入图片描述
    推导互信息的定义式

在这里插入图片描述

五、相对熵(Relative entropy),也称KL散度 (Kullback–Leibler divergence)

设 p(x)、q(x) 是 离散随机变量 X 中取值的两个概率分布,则 p 对 q 的相对熵是:
在这里插入图片描述
性质:

  • 相对熵可以度量两个随机变量的“距离”
  • 如果 p(x) 和 q(x) 两个分布相同,那么相对熵等于0
  • DKL(p||q)≠DKL(q||p),相对熵具有不对称性。
  • DKL(p||q)≥0

六、交叉熵

现在有关于样本集的两个概率分布 p(x) 和 q(x),其中 p(x) 为真实分布, q(x)非真实分布。如果用真实分布 p(x) 来衡量识别一个样本所需要编码长度的期望(平均编码长度)为:
在这里插入图片描述
如果使用非真实分布 q(x) 来表示来自真实分布 p(x) 的平均编码长度,则是:
在这里插入图片描述

因为用 q(x) 来编码的样本来自于分布 q(x) ,所以 H(p,q) 中的概率是 p(x)。此时就将 H(p,q) 称之为交叉熵。举个例子。考虑一个随机变量 x,真实分布p(x)=(1/2,1/4,1/8,1/8),非真实分布 q(x)=(1/4,1/4,1/4,1/4), 则H§=1.75 bits(最短平均码长),交叉熵:
在这里插入图片描述

七、总结

再化简一下相对熵的公式:
在这里插入图片描述
熵的公式:
在这里插入图片描述
交叉熵的公式:
在这里插入图片描述
所以有:

在这里插入图片描述
(当用非真实分布 q(x) 得到的平均码长比真实分布 p(x) 得到的平均码长多出的比特数就是相对熵)

在机器学习中,我们需要评估y(真实)和y(非真实)之间的差距,使用KL散度刚刚好,即 (也就是P(x),Q(x)),由于KL散度中的前一部分−H(y)不变,故在优化过程中,只需要关注交叉熵就可以了。所以一般在机器学习中直接用用交叉熵做loss,评估模型。

回顾LR中的交叉熵

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/33423.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何更好的分析潜在人脉?聊聊华为云图引擎GES的Cypher子查询

摘要:本文以华为云图引擎 GES 为例,来介绍如何使用图查询语言 Cypher 表达一些需要做数据局部遍历的场景。 本文分享自华为云社区《使用 Cypher 子查询进行图探索 -- 以华为云图引擎 GES 为例》,作者:蜉蝣与海。 在图数据库/图计…

基于面板数据的熵值法介绍与实现

熵值法是一种基于信息熵理论的客观赋值方法。即数据越离散,所含信息量越多,对综合评价影响越大。 目录 一、基于面板数据熵值法介绍二、R语言实现参考文献 一、基于面板数据熵值法介绍 传统的熵值法有个弊端,只能针对于截面数据,…

信息熵的计算

信息熵计算公式: 演示数据: 性别(x)考试成绩(y)男优女优男差女优男优 X的信息熵计算为: p(男) 3/5 0.6 p(女) 2/5 0.4 根据上面的计算公式可得: 列X的信息熵 为: H&…

各种信息熵(Information entropy)的计算方法

一、Jensen不等式 若f为区间I上的凹函数,则Jensen不等式成立: 这里若函数f为凹函数,则有: 凹函数(上凸)如下图所示: 归纳证明: 二、信息论 1.熵(信息不确定性度…

信息与信源熵

0x01 三个定义 信息 指各个事物运动的状态及状态变化的方式。人们从对周围世界的观察得到的数据中获得信息。信息是抽象的意识或知识,它是看不见、摸不到的。当由人脑的思维活动产生的一种想法仍被存储在脑子里时,它就是一种信息。 消息 指包含信息的…

python计算图片的信源熵值(信息熵)

附录: from PIL import Image from matplotlib import pyplot as plt import numpy as np import scipy as cp import math image Image.open(rC:\Users\Administrator\Desktop\IMG.jpg) # 读入和显示图像 imagesnp.asarray(image) plt.subplot(211) plt.imshow(im…

【熵的计算】

熵的计算 什么是熵? 定义: 熵是表示随机变量不确定性的度量 简单理解:熵就是混乱程度,一个集合中类别越多,越混乱,属于哪一个类别越不确定。 熵的计算公式: 简单理解一下公式: …

信息熵计算及代码

实验目的:了解离散信源数学模型和信息熵实验内容:以附件中英文文本文件中的内容为来源,构建26个英文字母(区分大小写)为信源符号的数学模型,要求输出字母的概率和该模型的信息熵。要求:请使用自己熟悉的编程语言,完成信源建模,输出…

信息熵的计算与分析

信息熵的计算与分析 一、[实验目的]二、[实验环境]三、[实验原理]四、[实验内容]五、[实验过程]1、二元信源熵函数曲线2、求解离散单符号信源熵3、计算图像一维图像熵 一、[实验目的] 1、掌握离散信源熵的原理和计算方法。 2、熟悉matlab 软件的基本操作,练习使 用…

【chatgpt】解除PDF的password

无论是Adobe Acrobat Pro还是Pdf xchange editor都是一样的,更改安全性就可以了。 把该加密Pdf导入软件,然后点文件,属性,安全性,改成无安全后确定就行了。 pdf是可携带文件格式,亦称“PDF(portable docum…

免费好用的聊天机器人上线,原Openai前员工们创立的Claude

1.下载slack,注册登录。 2.在claude网站上同意Al与你的slack账号相联接。 3.在slack里就可以直接与AI对话了。 4.网页端Mac、苹果手机、安卓都可以,win没试过,应该也可以。 具体的细致操作网上有,也可以留言讨论。 Anthropic是一家总部位…

国内又款智能AI聊天软件-科大讯飞星火模型

介绍 介绍 中国科大讯飞星火GPT聊天软件是一款基于自然语言处理技术的人工智能聊天机器人。它利用了大量的文本数据,通过深度学习模型进行训练,从而实现与用户的智能对话。讯飞星火GPT聊天软件能够理解用户输入的问题或指令,并根据预设的回答…

启英泰伦推出多种智能语音识别照明解决方案,改装简单,成本低

随着人工智能技术的普及,智能家居设备开始走进千家万户。而智能照明系统成为其不可或缺的一部分,占据着举足轻重的地位。 但是照明系统和其他家居设备不一样的是,开发商交房时已布好电路,或用户直接购买精装房,导致改…

让 ChatGPT 更智能,Tauri 带你实现 AI 对话应用

背景 Tauri 和 Electron 都是用于开发跨平台桌面应用程序的工具,因为最近使用ChatGPT在国内环境的确不够友好,又没有一个比较轻量简洁的工具可用,如是想自己造个轻量点的轮子,力争做到代码轻量,界面美观简洁&#xff…

[AI达人特训营第三期] 使用Lora技术用Dreambooth训练国潮风格模型

★★★ 本文源自AlStudio社区精品项目,【点击此处】查看更多精品内容 >>> DreamBooth 介绍 DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation是一种新的文本生成图像(text2image)的“个性化”(可适应用…

【社群运营】AI智能对话,打造自动化社群

人工智能大背景下,各行各业都在往智能化发展,无论是办公产品,还是生产器械都选择接入了更加智能的AI来提高生产效率。那么,在日常的社群管理工作中,我们又能否跟上这一波热度,让社群自动化高效运营&#xf…

夏杰语音麦克精灵:智能语音交互升级新体验

对于很多人来说,通过语音声控电视、空调等家电已经不再陌生。 “你好小智,我想听音乐”、“你好小智,播放深圳卫视”……近几年,“小智”逐渐被人认识。是的,它是夏杰语音旗下的一款智能精灵——麦克精灵。它不仅可以…

跟着我学 AI丨ChatGPT 详解

随着人工智能的发展,聊天机器人成为了一个备受关注的领域。而ChatGPT作为其中的佼佼者,其功能和技术水平也越来越受到人们的关注。那么,什么是ChatGPT?它又有哪些优点和限制呢? ChatGPT是一款基于自然语言处理技术开发…

小红书内容种草,曝光渠道分析总结

这是一个内容为王的时代,也是一个内容爆炸的时代。想要在以分享特色的小红书平台,实现内容种草,迅速出圈。今天来马文化传媒就从实操的角度,为大家带来小红书内容种草,曝光渠道分析总结的各种干货! 一、什…

小红书达人账号数据分析

文章目录 一、项目背景二、数据预处理1、查看数据2、数据清洗2.1对达人列表进行清洗2.2对涨分榜进行清洗2.3对MCN列表进行清洗2.4对定性变量(分类变量)进行处理 3、表格处理3.1合并达人列表和涨粉榜 三、分析与数据可视化1、对达人列表进行相关性分析2、…