熵、交叉熵和散度

自信息 I(x) = - log p(x)

对于分布为P(x)的随机变量X,自信息的数学期望 即熵H(X)定义为:

   H(X) = E_{X}[I(x))]

= E_{X}[-logp(x)]

       =-\sum_{x\in X}^{}p(x)logp(x)

熵越高,随机变量信息越高,反之越少。不同概率分布对应熵如下:P

p(x_{1})p(x_{2})p(x_{3})
1000
1/21/41/4\frac{3}{2}log2
1/31/31/3log3

概率分布越均匀,熵越大。 

 联合熵:

对于两个离散随机变量𝑋 和𝑌,假设𝑋 取值集合为𝒳;𝑌 取值集合为𝒴,其联 合概率分布满足为𝑝(𝑥, 𝑦),则𝑋 和𝑌 的联合熵(Joint Entropy):

H(X,Y)=-\sum_{x\in X}^{} \sum_{y\in Y}^{}p(x,y)logp(x\mid y)

条件熵:

根据定义也可写成: 

 

 

 交叉熵:

 对于分布为𝑝(𝑥)的随机变量,熵𝐻(𝑝)表示其最优编码长度.交叉熵(Cross Entropy)是按照概率分布𝑞的最优编码对真实分布为𝑝的信息进行编码的长度, 定义为:

 给定 𝑝 的情况下,如果 𝑞 和 𝑝 越接近,交叉熵越小;如果 𝑞 和 𝑝 越远,交叉 熵就越大..

KL散度: 

KL 散度(KL Divergence),也叫相对熵,是用概率分布 𝑞 来近似 𝑝 时所造成的信息损失量.KL 散度是按照概 率分布𝑞的最优编码对真实分布为𝑝的信息进行编码,其平均编码长度(即交叉 熵)𝐻(𝑝, 𝑞) 和 𝑝 的最优平均编码长度(即熵)𝐻(𝑝) 之间的差异.对于离散概率 分布𝑝和𝑞,从𝑞到𝑝的KL散度定义为

 

KL散度总是非负的,KL(𝑝, 𝑞) ≥ 0,可以衡量两个概率分布之间的距离.KL 散度只有当𝑝 = 𝑞时,KL(𝑝, 𝑞) = 0.如果两个分布越接近,KL散度越小;如果两 个分布越远,KL散度就越大.但KL散度并不是一个真正的度量或距离,一是KL 散度不满足距离的对称性,二是KL散度不满足距离的三角不等式性质.

JS散度: 

JS散度(Jensen-Shannon Divergence)是一种对称的衡量两个分布相似度 的度量方式,定义为:JS(p,q)=\frac{1}{2}KL(p,m)+\frac{1}{2}KL(q,m),其中,m=\frac{1}{2}(p+q).

JS 散度是 KL 散度一种改进.但两种散度都存在一个问题,即如果两个分布 𝑝, 𝑞没有重叠或者重叠非常少时,KL散度和JS散度都很难衡量两个分布的距离.

Wasserstein距离 

Wasserstein 距离(Wasserstein Distance)也用于衡量两个分布之间的距 离.对于两个分布𝑞1 , 𝑞2,p^{th}Wasserstein距离定义为

 

其中Γ(𝑞1 , 𝑞2 )是边际分布为𝑞1 和𝑞2 的所有可能的联合分布集合,𝑑(𝑥, 𝑦)为𝑥 和 𝑦的距离,比如ℓ𝑝 距离等. 

 如果将两个分布看作两个土堆,联合分布 𝛾(𝑥, 𝑦) 看作从土堆 𝑞1 的位置 𝑥 到 土堆𝑞2 的位置𝑦的搬运土的数量,并有

 𝑞1 和𝑞2 为𝛾(𝑥, 𝑦)的两个边际分布。𝔼(𝑥,𝑦)∼𝛾(𝑥,𝑦)[𝑑(𝑥, 𝑦) ] 可以理解为在联合分布 𝛾(𝑥, 𝑦) 下把形状为 𝑞1 的土堆 搬运到形状为𝑞2 的土堆所需的工作量,

 

其中从土堆𝑞1 中的点𝑥 到土堆𝑞2 中的点𝑦 的移动土的数量和距离分别为𝛾(𝑥, 𝑦) 和 d(x,y)^{p}.因此,Wasserstein 距离可以理解为搬运土堆的最小工作量,也称 为推土机距离(Earth-Mover’s Distance,EMD).图E.1给出了两个离散变量分 布的Wasserstein距离示例.图E.1c中同颜色方块表示在分布𝑞1 中为相同位置. 

 

 

Wasserstein 距离相比 KL 散度和 JS 散度的优势在于:即使两个分布没有重 叠或者重叠非常少,  Wasserstein距离仍然能反映两个分布的远近. 对于 ℝ𝐷 空间中的两个高斯分布 𝑝 = 𝒩(𝝁1 , 𝚺1 ) 和 𝑞 = 𝒩(𝝁2 , 𝚺2 ),它们的 2^{nd}-Wasserstein距离为

 

当两个分布的方差为0时,2^{nd}-Wasserstein距离等价于欧氏距离. 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/39673.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【腾讯轻量应用服务器上部署kafka并通过flink读取kafka数据】

环境准备 经过1个月的摸索,最终选择在腾讯云上搭建一个学习环境。当时选择原因还是新用户有优惠(150左右3年),但现在看1核2g的配置勉强够用,建议后续小伙伴选择时最好是2核4g配置。 由于是单节点安装,需要准备如下资源&#xff1…

【Twitter Storm系列】flume-ng+Kafka+Storm+HDFS 实时系统搭建

技术交流群:59701880 深圳广州hadoop好友会 微信公众号:后续博客的文档都会转到微信公众号中。 一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的FlumeKafkaStorm的实时日志流系统的搭建文档,自己也跟…

学习笔记之信息量、熵、KL散度、交叉熵的一些介绍

文章目录 信息量熵KL散度(相对熵)交叉熵参考 信息量 以前我也一直只是知道信息量的计算公式,也有想过为什么会是这样,但是因为要学的东西太多了,就没怎么深究,直到看了“交叉熵”如何做损失函数&#xff1…

AI产品经理是如何理解机器学习的(附注释)

本期目的:回顾之前敲代码的日常,利用生活场景帮助AI产品经理认识机器学习及学习过程中常用算法和评价指标。 适用读者:AI/数据产品经理。 阅读重点:品,细品,结合班级故事再品。 最近看了很多关于机器学习…

卢伟冰称小米今年库存会回到更健康水位 将加大门店整合调整

雷递网 乐天 3月25日 小米集团(股票代码为:1810)今日发布财报,财报显示,小米集团2022年营收为2800亿元,较上年同期的3283亿元下降14.7%。小米2022年经调净利为85亿元。 小米2022年第四季度营收为660.47亿元…

小米年营收2800亿:经调整利润85亿 电动汽车业务投入31亿

雷递网 雷建平 3月24日 小米集团(股票代码为:1810)今日发布财报,财报显示,小米集团2022年营收为2800亿元,较上年同期的3283亿元下降14.7%。 2022年,小米集团的境外市场收入为1378亿元&#xff0…

什么是低代码开发平台(apaas)?低代码开发平台的价值有哪些

手码6500字,带你快速看懂:什么是低代码开发平台(apaas),低代码有哪些价值,以及低代码平台的使用逻辑和心得。 一、什么是低代码开发平台(apaas)? 低代码开发平台是一种a…

详解如何在ChatGPT内构建一个Python解释器

这篇文章主要为大家详细介绍了如何在ChatGPT内构建一个Python解释器,文中的示例代码讲解详细,具有一定的学习价值,需要的可以参考一下 目录 引用:Art Kulakov 《How to Build a Python Interpreter Inside ChatGPT》 这个灵感来自…

如何画各种“图”?

我们在写文档过程中,多多少少都会画一些图来说明程序的功能,这篇文章就来说明一些常用的"图"怎么画。 1,画图工具 常用的有这么几种 Visio:这是很常用的,基本上的图都可以用这个来画。StarUML&#xff1a…

patreon cg人物插画作品合集分享

1、wlop大神作品4K-8K精选无水印图片http://theme.chengxuz.com/265.html 2、加拿大女画师sakimi chan作品1-98期插画http://theme.chengxuz.com/250.html 3、画师Mirco Cabbia插画作品合集欣赏http://theme.chengxuz.com/306.html 4、画师Sciamano240插画作品分享http://th…

如何画场景插画?场景插画的起稿、构图技巧!

如何画场景插画?绘画初学者如何构图?绘画初学者如何起稿?学习绘画难吗?怎样才能学好绘画?想必这些都是绘画初学者们经常在想的问题吧,就是不知道如何才能绘画好一个场景,不知道如何起稿也不知道…

手把手教你实现手绘风格图形

大家好,我是 漫步,今天分享一篇高难度的图形绘制文章。 Rough.js[1]是一个手绘风格的图形库,提供了一些基本图形的绘制能力,比如:虽然笔者是个糙汉子,但是对这种可爱的东西都没啥抵抗力,这个库的…

Python自动绘制UML类图、函数调用图(Call Graph)

文章目录 1. 引言2. 绘制UML类图2.1 安装graphviz2.2 安装pyreverse2.3 绘制UML类图 3. 绘制函数调用图3.1 安装graphviz3.2 安装pycallgraph3.3 使用示例第一种:从命令行调用第二种:从API调用 小结 1. 引言 在设计软件、分析代码时,我们常常…

房价预测2

学习: https://blog.csdn.net/u012063773/article/details/79349256 https://www.cnblogs.com/massquantity/p/8640991.html https://zhuanlan.zhihu.com/p/39429689 详解stacking过程 之前在房价预测1中对一些异常值进行了drop处理 后来在分割train和test的时候…

深圳二手房房价分析及预测

分析目标: 通过处理后的房价数据,筛选对房价有显著影响的特征变量。确定特征变量,建立深圳房价预测模型并对假设情景进行模拟 数据预处理 import pandas as pd import os file_path"D:\Python数据分析与挖掘实战\深圳二手房价分析\…

波士顿房价预测

目录 前言一、波士顿房价预测实战1-1、数据集介绍&数据集导入&分割数据集1-2、数据标准化1-3、构建网络1-4、K折交叉验证&取出所有的训练损失、训练平均绝对误差、验证损失、验证平均绝对误差1-5、计算平均mae&绘制验证mae分数&绘制验证loss分数1-6、找到最…

房价多特征预测

2019.11.18 首先非常感谢这位作者,写的很棒!你们就不要看我的啦,看他的⬇️⬇️ 学习来自 https://blog.csdn.net/sinat_29957455/article/details/79255675 下面的内容为自己学习笔记: 学习Kaggle~ing 这次给出的特征有点儿多啊…

北京房价预测图说

前言 曾听人说过,中国经济是房地产市场,美国经济是股票市场。中国房地产市场超过400万亿,房地产总值是美国、欧盟、日本总和,但是股市才50万亿,不到美欧日的十分之一。可见房地产对于中国来说地位尤其明显&#xff01…

苹果App Store商店中国区如何改为美国区

苹果App Store商店中国区如何改为美国区 Hello大家好!苹果外区id是每个苹果手机必不可少的啦!不是国外有多好而是国内的大部分软件都有限制,一开始我百度了一下内容太乱太杂了真的都是“bullshit”,下面直接上教程。 第一首先要一个国内的苹…

二手平台淘的明星同款穿搭?上95分看看

作为一个喜欢穿搭的潮流人士,我拥有许多明星同款,但拥有的越多,我的钱包就越扁。 但尽管是在这样的情况下,我依然不能放弃给它们(指衣服鞋子)一个家,所以我知道了95分,认识了95分&a…