《机器学习数学基础》补充资料:连续正态分布随机变量的熵

《机器学习数学基础》第 416 页给出了连续型随机变量的熵的定义,并且在第 417 页以正态分布为例,给出了符合 N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2) 的随机变量的熵。

注意:在第 4 次印刷以及之前的版本中,此处有误,具体请阅读勘误表说明

1. 推导(7.6.6)式

假设随机变量服从正态分布 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) XN(μ,σ2) (《机器学习数学基础》中是以标准正态分布为例,即 X ∼ N ( 0 , σ 2 ) X\sim N(0,\sigma^2) XN(0,σ2) )。

根据《机器学习数学基础》的(7.6.1)式熵的定义:

H ( X ) = − ∫ f ( x ) log ⁡ f ( x ) d x (7.6.1) H(X)=-\int f(x)\log f(x)\text{d}x\tag{7.6.1} H(X)=f(x)logf(x)dx(7.6.1)

其中, f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=2π σ1e2σ2(xμ)2 ,是概率密度函数。根据均值的定义,(7.6.1)式可以写成:

H ( X ) = − E [ log ⁡ f ( x ) ] H(X)=-E[\log f(x)] H(X)=E[logf(x)]

f ( x ) f(x) f(x) 代入上式,可得:

H ( X ) = − E [ log ⁡ ( 1 2 π σ e − ( x − μ ) 2 2 σ 2 ) ] = − E [ log ⁡ ( 1 2 π σ ) + log ⁡ ( e − ( x − μ ) 2 2 σ 2 ) ] = − E [ log ⁡ ( 1 2 π σ ) ] − E [ log ⁡ ( e − ( x − μ ) 2 2 σ 2 ) ] = 1 2 log ⁡ ( 2 π σ 2 ) − E [ − 1 2 σ 2 ( x − μ ) 2 log ⁡ e ] = 1 2 log ⁡ ( 2 π σ 2 ) + log ⁡ e 2 σ 2 E [ ( x − μ ) 2 ] = 1 2 log ⁡ ( 2 π σ 2 ) + log ⁡ e 2 σ 2 σ 2 ( ∵ E [ ( x − μ ) 2 ] = σ 2 , 参阅 332 页 ( G 2 ) 式 ) = 1 2 log ⁡ ( 2 π σ 2 ) + 1 2 log ⁡ e = 1 2 log ⁡ ( 2 π e σ 2 ) \begin{split} H(X)&=-E\left[\log(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}})\right] \\&=-E\left[\log(\frac{1}{\sqrt{2\pi}\sigma})+\log(e^{-\frac{(x-\mu)^2}{2\sigma^2}})\right] \\&=-E\left[\log(\frac{1}{\sqrt{2\pi}\sigma})\right]-E\left[\log(e^{-\frac{(x-\mu)^2}{2\sigma^2}})\right] \\&=\frac{1}{2}\log(2\pi\sigma^2)-E\left[-\frac{1}{2\sigma^2}(x-\mu)^2\log e\right] \\&=\frac{1}{2}\log(2\pi\sigma^2)+\frac{\log e}{2\sigma^2}E\left[(x-\mu)^2\right] \\&=\frac{1}{2}\log(2\pi\sigma^2)+\frac{\log e}{2\sigma^2}\sigma^2\quad(\because E\left[(x-\mu)^2\right]=\sigma^2,参阅 332 页 (G2)式) \\&=\frac{1}{2}\log(2\pi\sigma^2)+\frac{1}{2}\log e \\&=\frac{1}{2}\log(2\pi e\sigma^2) \end{split} H(X)=E[log(2π σ1e2σ2(xμ)2)]=E[log(2π σ1)+log(e2σ2(xμ)2)]=E[log(2π σ1)]E[log(e2σ2(xμ)2)]=21log(2πσ2)E[2σ21(xμ)2loge]=21log(2πσ2)+2σ2logeE[(xμ)2]=21log(2πσ2)+2σ2logeσ2(E[(xμ)2]=σ2,参阅332(G2))=21log(2πσ2)+21loge=21log(2πeσ2)

从而得到第 417 页(7.6.6)式。

2. 推导多维正态分布的熵

对于服从正态分布的多维随机变量,《机器学习数学基础》中也假设服从标准正态分布,即 X ∼ N ( 0 , Σ ) \pmb{X}\sim N(0,\pmb{\Sigma}) XN(0,Σ) 。此处不失一般性,以 X ∼ N ( μ , Σ ) \pmb{X}\sim N(\mu,\pmb{\Sigma}) XN(μ,Σ) 为例进行推导。

注意:《机器学习数学基础》第 417 页是以二维随机变量为例,书中明确指出:不妨假设 X = [ X 1 X 2 ] \pmb{X}=\begin{bmatrix}\pmb{X}_1\\\pmb{X}_2\end{bmatrix} X=[X1X2] ,因此使用的概率密度函数是第 345 页的(5.5.18)式。

下面的推导,则考虑 n n n 维随机变量,即使用 345 页(5.5.19)式的概率密度函数:

f ( X ) = 1 ( 2 π ) n ∣ Σ ∣ exp ( − 1 2 ( X − μ ) T Σ − 1 ( X − μ ) ) f(\pmb{X})=\frac{1}{\sqrt{(2\pi)^n|\pmb{\Sigma}|}}\text{exp}\left(-\frac{1}{2}(\pmb{X}-\pmb{\mu})^{\text{T}}\pmb{\Sigma}^{-1}(\pmb{X}-\pmb{\mu})\right) f(X)=(2π)nΣ 1exp(21(Xμ)TΣ1(Xμ))

根据熵的定义(第 416 页(7.6.2)式)得:

H ( X ) = − ∫ f ( X ) log ⁡ ( f ( X ) ) d x = − E [ log ⁡ N ( μ , Σ ) ] = − E [ log ⁡ ( ( 2 π ) − n / 2 ∣ Σ ∣ − 1 / 2 exp ( − 1 2 ( X − μ ) T Σ − 1 ( X − μ ) ) ) ] = − E [ − n 2 log ⁡ ( 2 π ) − 1 2 log ⁡ ( ∣ Σ ∣ ) + log ⁡ exp ( − 1 2 ( X − μ ) T Σ − 1 ( X − μ ) ) ] = n 2 log ⁡ ( 2 π ) + 1 2 log ⁡ ( ∣ Σ ∣ ) + log ⁡ e 2 E [ ( X − μ ) T Σ − 1 ( X − μ ) ] \begin{split} H(\pmb{X})&=-\int f(\pmb{X})\log(f(\pmb{X}))\text{d}\pmb{x} \\&=-E\left[\log N(\mu,\pmb{\Sigma})\right] \\&=-E\left[\log\left((2\pi)^{-n/2}|\pmb{\Sigma}|^{-1/2}\text{exp}\left(-\frac{1}{2}(\pmb{X}-\pmb{\mu})^{\text{T}}\pmb{\Sigma}^{-1}(\pmb{X}-\pmb{\mu})\right)\right)\right] \\&=-E\left[-\frac{n}{2}\log(2\pi)-\frac{1}{2}\log(|\pmb{\Sigma}|)+\log\text{exp}\left(-\frac{1}{2}(\pmb{X}-\pmb{\mu})^{\text{T}}\pmb{\Sigma}^{-1}(\pmb{X}-\pmb{\mu})\right)\right] \\&=\frac{n}{2}\log(2\pi)+\frac{1}{2}\log(|\pmb{\Sigma}|)+\frac{\log e}{2}E\left[(\pmb{X}-\pmb{\mu})^{\text{T}}\pmb{\Sigma}^{-1}(\pmb{X}-\pmb{\mu})\right] \end{split} H(X)=f(X)log(f(X))dx=E[logN(μ,Σ)]=E[log((2π)n/2Σ1/2exp(21(Xμ)TΣ1(Xμ)))]=E[2nlog(2π)21log(Σ)+logexp(21(Xμ)TΣ1(Xμ))]=2nlog(2π)+21log(Σ)+2logeE[(Xμ)TΣ1(Xμ)]

下面单独推导: E [ ( X − μ ) T Σ − 1 ( X − μ ) ] E\left[(\pmb{X}-\pmb{\mu})^{\text{T}}\pmb{\Sigma}^{-1}(\pmb{X}-\pmb{\mu})\right] E[(Xμ)TΣ1(Xμ)] 的值:

E [ ( X − μ ) T Σ − 1 ( X − μ ) ] = E [ tr ( ( X − μ ) T Σ − 1 ( X − μ ) ) ] = E [ tr ( Σ − 1 ( X − μ ) ( X − μ ) T ) ] = tr ( Σ − 1 E [ ( X − μ ) ( X − μ ) T ] ) = tr ( Σ − 1 Σ ) = tr ( I n ) = n \begin{split} E\left[(\pmb{X}-\pmb{\mu})^{\text{T}}\pmb{\Sigma}^{-1}(\pmb{X}-\pmb{\mu})\right]&=E\left[\text{tr}\left((\pmb{X}-\pmb{\mu})^{\text{T}}\pmb{\Sigma}^{-1}(\pmb{X}-\pmb{\mu})\right)\right] \\&=E\left[\text{tr}\left(\pmb{\Sigma}^{-1}(\pmb{X}-\pmb{\mu})(\pmb{X}-\pmb{\mu})^{\text{T}}\right)\right] \\&=\text{tr}\left(\pmb{\Sigma^{-1}}E\left[(\pmb{X}-\pmb{\mu})(\pmb{X}-\pmb{\mu})^{\text{T}}\right]\right) \\&=\text{tr}(\pmb{\Sigma}^{-1}\pmb{\Sigma}) \\&=\text{tr}(\pmb{I}_n) \\&=n \end{split} E[(Xμ)TΣ1(Xμ)]=E[tr((Xμ)TΣ1(Xμ))]=E[tr(Σ1(Xμ)(Xμ)T)]=tr(Σ1E[(Xμ)(Xμ)T])=tr(Σ1Σ)=tr(In)=n

所以:

H ( X ) = n 2 log ⁡ ( 2 π ) + 1 2 log ⁡ ( ∣ Σ ∣ ) + log ⁡ e 2 E [ ( X − μ ) T Σ − 1 ( X − μ ) ] = n 2 log ⁡ ( 2 π ) + 1 2 log ⁡ ( ∣ Σ ∣ ) + log ⁡ e 2 n = n 2 ( log ⁡ ( 2 π ) + log ⁡ e ) + 1 2 log ⁡ ( ∣ Σ ∣ ) = n 2 log ⁡ ( 2 π e ) + 1 2 log ⁡ ( ∣ Σ ∣ ) \begin{split} H(\pmb{X})&=\frac{n}{2}\log(2\pi)+\frac{1}{2}\log(|\pmb{\Sigma}|)+\frac{\log e}{2}E\left[(\pmb{X}-\pmb{\mu})^{\text{T}}\pmb{\Sigma}^{-1}(\pmb{X}-\pmb{\mu})\right] \\&=\frac{n}{2}\log(2\pi)+\frac{1}{2}\log(|\pmb{\Sigma}|)+\frac{\log e}{2}n \\&=\frac{n}{2}\left(\log(2\pi)+\log e\right)+\frac{1}{2}\log(|\pmb{\Sigma}|) \\&=\frac{n}{2}\log(2\pi e)+\frac{1}{2}\log(|\pmb{\Sigma}|) \end{split} H(X)=2nlog(2π)+21log(Σ)+2logeE[(Xμ)TΣ1(Xμ)]=2nlog(2π)+21log(Σ)+2logen=2n(log(2π)+loge)+21log(Σ)=2nlog(2πe)+21log(Σ)

n = 2 n=2 n=2 时,即得到《机器学习数学基础》第 417 页推导结果:

H ( X ) = log ⁡ ( 2 π e ) + 1 2 log ⁡ ( ∣ Σ ∣ ) = 1 2 log ⁡ ( ( 2 π e ) 2 ∣ Σ ∣ ) H(\pmb{X})=\log(2\pi e)+\frac{1}{2}\log(|\pmb{\Sigma}|)=\frac{1}{2}\log\left((2\pi e)^2|\pmb{\Sigma|}\right) H(X)=log(2πe)+21log(Σ)=21log((2πe)2Σ∣)

参考资料

[1]. Entropy of the Gaussian[DB/OL]. https://gregorygundersen.com/blog/2020/09/01/gaussian-entropy/ , 2023.6.4

[2]. Entropy and Mutual Information[DB/OL]. https://gtas.unican.es/files/docencia/TICC/apuntes/tema1bwp_0.pdf ,2023.6.4

[3]. Fan Cheng. CS258: Information Theory[DB/OL]. http://qiniu.swarma.org/course/document/lec-7-Differential-Entropy-Part1.pdf , 2023.6.4.

[4]. Keith Conrad. PROBABILITY DISTRIBUTIONS AND MAXIMUM ENTROPY[DB/OL]. https://kconrad.math.uconn.edu/blurbs/analysis/entropypost.pdf, 2023.6.4.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/28375.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ReconDreamer:通过在线恢复构建驾驶场景重建的世界模型

24年11月来自极佳科技、北大、理想汽车和中科院自动化所的论文“ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration”。 ReconDreamer,通过逐步整合世界模型知识来增强驾驶场景重建。具体来说,DriveRestor…

写一个python程序,找出1000以内的质数

这是一道常考的题,大家一定得学会。 解题思路: 需要理解质数的定义。质数是大于1的自然数,除了1和它本身外没有其他因数。所以,我需要生成2到1000之间的所有数,然后检查每个数是否是质数。 def find_primes(n):&quo…

软考-数据库开发工程师-3.1-数据结构-线性结构

第3章内容比较多,内容考试分数占比较大,6分左右 线性表 1、线性表的定义 一个线性表是n个元素的有限序列(n≥0),通常表示为(a1,a2, a3,…an). 2、线性表的顺序存储(顺序表) 是指用一组地址连续的存储单元依次存储线性表中的数据元…

【技术点】RAG

本文非自己原创,只是学习过程中资料的总结合并。具体来自于以下链接 https://cloud.google.com/use-cases/retrieval-augmented-generation 一文读懂:大模型RAG(检索增强生成)含高级方法 RAG基础 定义 RAG(检索增…

Pytorch的一小步,昇腾芯片的一大步

Pytorch的一小步,昇腾芯片的一大步 相信在AI圈的人多多少少都看到了最近的信息:PyTorch最新2.1版本宣布支持华为昇腾芯片! 1、 发生了什么事儿? 在2023年10月4日PyTorch 2.1版本的发布博客上,PyTorch介绍的beta版本…

Varjo XR-4 混合现实驾驶仿真解决方案

企业级虚拟与混合现实解决方案提供商Varjo今日宣布,其XR-4系列设备已与VI-grade的车辆开发平台VI-WorldSim实现兼容。自2025.1版本起,VI-WorldSim将通过虚幻引擎5的OpenXR接口支持Varjo XR-4系列头显。 VI-WorldSim是一个集成式图形环境,可加…

STM32单片机芯片与内部114 DSP-变换运算 实数 复数 FFT IFFT 不限制点数

目录 一、ST 官方汇编 FFT 库(64点, 256 点和 1024 点) 1、cr4_fft_xxx_stm32 2、计算幅频响应 3、计算相频响应 二、复数浮点 FFT、IFFT(支持单精度和双精度) 1、基础支持 2、单精度函数 arm_cfft_f32 3、双精…

【橘子python】在vscode中配置py3

一、简介 这个故事来源于一个奸商,我在某购物平台买了一个pyCharm的那啥码,承诺永不过期,我刚用了不到两个月就拉了。然后再去找商家,发现已经注销跑路了。属实是可恶。 那没办法了,那就用vscode吧,该说不…

LangChain-08 Query SQL DB 通过GPT自动查询SQL

我们需要下载一个 LangChain 官方提供的本地小数据库。 安装依赖 SQL: https://raw.githubusercontent.com/lerocha/chinook-database/master/ChinookDatabase/DataSources/Chinook_Sqlite.sql Shell: pip install --upgrade --quiet langchain-core langchain-community la…

电脑技巧:硬件检测工具 HWiNFO 8.16版本更新功能介绍

目录 一、版本8.16更新说明 二、安装说明 三、使用说明 HWiNFO是一个专业的系统信息检测工具,支持最新的技术和标准,可检查计算机硬件的所有信息。HWiNFO 主要可以显示出处理器、主板及芯片组、PCMCIA接口、BIOS版本、内存等信息,另外HWiN…

【一.大模型认知与核心原理篇】【3. GPT解密:大模型背后的核心技术】

各位科技爱好者,今天咱们要干一票大的——把GPT这个AI界的当红顶流扒个底朝天。你以为ChatGPT会聊天就是它的全部能耐?Too young!这货肚子里藏的可是价值百亿美金的黑科技。咱们不整那些虚头巴脑的概念,直接上手拆解它的技术内脏,让你看看这个每天被调戏的聊天机器人,到底…

VisActor/VTable - 自定义图标

在 VTable 中,我们可以使用自定义图标功能来提高表格的可读性和视觉效果。可以通过 icon 和 headerIcon 来分别分别配置表头及 body 显示的单元格图标: headerIcon 表头单元格图标配置,它可以帮助我们设置表头的图标样式。配置项根据 Column…

transformer稀疏注意力机制的发展

2017年谷歌发表史诗级的论文Attention is All you need提出Transformer,一种全新的神经网络。 存在一个问题训练的时候每个字都要训练,每增加一个token,算力需求是平方的往上翻的,输入10000个token,苏姚计算10000*1000…

不同类型光谱相机的技术差异比较

一、波段数量与连续性 ‌多光谱相机‌ 波段数:通常4-9个离散波段,光谱范围集中于400-1000nm‌。 数据特征:光谱呈阶梯状,无法连续覆盖,适用于中等精度需求场景(如植被分类)‌。 ‌高光谱相机…

Redis——缓存穿透、击穿、雪崩

缓存穿透 什么是缓存穿透 缓存穿透说简单点就是大量请求的 key 根本不存在于缓存中,导致请求直接到了数据库上,根本没有经过缓存这一层。举个例子:某个黑客故意制造我们缓存中不存在的 key 发起大量请求,导致大量请求落到数据库…

张岳教授:语言模型推理与泛化研究 | ICLR 2025 特邀报告与团队专场

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! AITIME 01 ICLR 2025预讲会特邀报告 AITIME 02 ICLR 2025预讲会西湖大学张岳老师实验室专场 01 AI生成文本的自动化检测 Glimpse: Enabling White-Box Methods to Use Proprietary Models for Zero-Shot LLM-Ge…

javaweb自用笔记:Vue

Vue 什么是vue vue案例 1、引入vue.js文件 2、定义vue对象 3、定义vue接管的区域el 4、定义数据模型data 5、定义视图div 6、通过标签v-model来绑定数据模型 7、{{message}}直接将数据模型message展示出来 8、由于vue的双向数据绑定,当视图层标签input里的…

常见webshell工具的流量特征

1、蚁剑 1.1、蚁剑webshell静态特征 蚁剑中php使用assert、eval执行;asp只有eval执行;在jsp使用的是Java类加载(ClassLoader),同时会带有base64编码解码等字符特征。 1.2、蚁剑webshell动态特征 查看流量分析会发现…

C高级linux

#!/bin/bash# 提示用户输入成绩 echo "请输入一个成绩(0 - 100):" read score# 检查输入是否为有效的数字 if ! [[ $score ~ ^[0-9]$ ]]; thenecho "输入无效,请输入一个有效的数字。"exit 1 fi# 检查成绩是否…

牙齿缺陷分割数据集labelme格式2495张4类别

数据集格式:labelme格式(不包含mask文件,仅仅包含jpg图片和对应的json文件) 图片数量(jpg文件个数):2495 标注数量(json文件个数):2495 标注类别数:4 标注类别名称:["Tooth","Caries","C…