GGD证明推导学习

GGD证明推导学习

这篇文章,建议先看相关的论文。这篇是我读证明的感悟,因此,不会论文的主体内容

首先,给出命题:

DGI的sumary向量是一个常数

给定一个图: G = { X ∈ R N × D , A ∈ R N × N } \mathcal{G}=\{\mathbf{X}\in\mathbb{R}^{N\times D},\mathbf{A}\in\mathbb{R}^{N\times N}\} G={XRN×D,ARN×N},以及一个GNN编码器 g g g,我们将其嵌入表示为: H = σ ( g ( G ) ) \mathbf{H}=\sigma(g(\mathcal{G})) H=σ(g(G)) σ \sigma σ是非线性激活函数。通过对summary向量s进行激活函数操作,我们可以得到:ReLU,Prelu,LReLU的值为0.5,sigmoid的值为0.62。及:我们可以得到:

$$s=\mathcal{E}I \tag{1}$$

注:这个是有详细的理论证明的,但是不是我阅读的主要部分。详细证明见论文的A.1

GGD与DGI的联系

既然我们知道dgi的summary向量s为1了,那我们就可以简化整个dgi的流程:

简化DGI

假如设置 s = ϵ I = I \mathbf{s}=\mathbf{\epsilon}\mathbf{I}=\mathbf{I} s=ϵI=I,定义区分器为 D ( ⋅ ) \mathcal{D}(\cdot) D(),我们就可以重写dgi为:

$$\begin{aligned} \mathcal{L}_{DGI}& =\frac1{2N}(\sum_{i=1}^N\log\mathcal{D}(\mathbf{h}_i,\mathbf{s})+\log(1-\mathcal{D}(\tilde{\mathbf{h}}_i,\mathbf{s}))), \\ &=\frac1{2N}(\sum_{i=1}^N\log(\mathbf{h}_i\cdot\mathbf{s})+\log(1-\tilde{\mathbf{h}_i}\cdot\mathbf{s}))), \\ &=\frac1{2N}(\sum_{i=1}^N\log(sum(\mathbf{h}_i))+\log(1-sum(\tilde{\mathbf{h}}_i))), \end{aligned} \tag{2}$$

其中,区分器是: D ( h i , s ) = σ s i g ( h i ⋅ W ⋅ s ) \mathcal{D}(\mathbf{h}_i,\mathbf{s})=\sigma_{sig}(\mathbf{h}_i\cdot\mathbf{W}\cdot\mathbf{s}) D(hi,s)=σsig(hiWs)(这个在代码中,是nn.bilinear(如果代码看到这个,公式就是左侧的区分器)

我们定义 y ^ i = a g g ( h i ) \hat{y}_{i}=agg(\mathbf{h}_{i}) y^i=agg(hi),那么,整个公式可以简化为:

$$\mathcal{L}_{BCE}=-\frac{1}{2N}(\sum_{i=1}^{2N}y_{i}\log\hat{y}_{i}+(1-y_{i})\log(1-\hat{y}_{i})\tag{3}$$

DGI中的引理:定义 { H g } g = 1 ∣ H ∣ \{\mathbf{H}^{g}\}_{g=1}^{|\mathbf{H}|} {Hg}g=1H是一系列从图形中提取到的一系列节点的嵌入, p ( H ) p(\mathbf{H}) p(H) ∣ H ∣ \left|\mathbf{H}\right| H是有限数量的元素。 p ( H g ) = p ( H g ′ ) p(\mathbf{H}^{g})=p(\mathbf{H}^{g\prime}) p(Hg)=p(Hg) R R R是readout函数,其将 H g H^g Hg作为输入,summary向量作为输出, s g \mathbf{s}^{g} sg. s g \mathbf{s}^{g} sg遵循边缘分布 p ( s ) p(\mathbf{s}) p(s)。我们可以得到:联合分布 p ( H , s ) p(\mathbf{H},\mathbf{s}) p(H,s)与边缘分布 p ( H ) p ( s ) ˉ p(\mathbf{H})\bar{p(\mathbf{s})} p(H)p(s)ˉ之间最佳分类器错误率的上界是: E r ∗ = 1 2 ∑ g = 1 ∣ H ∣ p ( s g ) 2 Er^{*}=\frac{1}{2}\sum_{g=1}^{|\mathbf{H}|}p(\mathbf{s}^{g})^{2} Er=21g=1Hp(sg)2

有公式1我们可以得到s是一个常量summary vector E I \mathcal{E}I EI, E \mathcal{E} E是一个常量。我们可以假设 E \mathcal{E} E独立于 p ( H ) p(H) p(H)(实际上,在本文先前的证明中,我们已经证明 E \mathcal{E} E是常数。其肯定独立于 p ( H ) p(H) p(H))。这样,我们就可以退出lemma2:

lemma2 我们假设s是一个summary vector E I \mathcal{E}I EI, E \mathcal{E} E独立于 p ( H ) p(H) p(H),我们可以得到最优分类器的错误率是: E r ∗ = 1 2 Er^{*}=\frac{1}{2} Er=21

其实,很容易理解:现在 E \mathcal{E} E独立于 p ( H ) p(H) p(H),那自然而然, p ( s ) p(\mathbf{s}) p(s)独立于 p ( H ) p(\mathbf{H}) p(H)。这样,预测正确和预测错误都应该为1/2

Theorem 2:给定最佳summary vector s ∗ s^* s,其为联合分布和边缘分布的最佳分类器。 s ∗ = a r q m a x s M I ( H ; s ) \mathbf{s}^{*} = arqmax_{\mathbf{s}}MI(\mathbf{H};\mathbf{s}) s=arqmaxsMI(H;s)

根据理论2,DGI生成最小化分类器D的分类误差可以被使用于最大化MI在输入和readout函数之间的损失。然而,在上述假设下,错误率是一个常数,最小化分类误差是不切实际的。除此之外,由于s是一个常数vector,因此 M I ( H ; s ) = 0 MI(\mathbf{H};\mathbf{s})=0 MI(H;s)=0

这样,DGI的推理是有问题的。区分器的作用不是最大化 M I ( H ; s ) MI(\mathbf{H};\mathbf{s}) MI(H;s),而是:最大化正嵌入和恒定只要s的相似性和最小化负嵌入和s的相似性。这相当于最大化正嵌入和府前路分布之间的JS偏差。我们给出一个定理来证明这一点:

Theorem 3:假设s是一个常数向量,s独立于 p ( H ) p(H) p(H),给定图 G \mathcal{G} G和扰乱图 G ^ \hat{\mathcal{G}} G^. g θ ( ⋅ ) g_{\theta}(\cdot) gθ()是GNN编码器。我们考虑正样本嵌入 g θ ( G ) g_{\theta}(\mathcal{G}) gθ(G) P p o s h P_{pos}^{\mathbf{h}} Pposh g θ ( G ~ ) a s P n e g h g_{\theta}(\tilde{\mathcal{G}}) as P_{neg}^{\mathbf{h}} gθ(G~)asPnegh,优化DGI实质上是优化 P p o s h ^ 和 P n e g h ^ P_{pos}^{\mathbf{\hat{h}}} 和 P_{neg}^{\mathbf{\hat{h}}} Pposh^Pnegh^JS散度,其中 h ^ \hat{h} h^是现行变换后的向量。

证明:首先,我们对DGI进行变换

$$\begin{aligned} \text{L}& =\mathbb{E}_{\mathbf{h}\sim P_{pos}^{\mathbf{h}}}log\mathcal{D}(\mathbf{h},\mathbf{s})+\mathbb{E}_{\mathbf{h}\sim P_{neg}^{\mathbf{h}}}log(1-\mathcal{D}(\mathbf{h},\mathbf{s})), \\ &=\mathbb{E}_{\mathbf{h}\sim P_{pos}^{\mathbf{h}}}log(\mathbf{h}\cdot\mathbf{W}\cdot\mathbf{s})+\mathbb{E}_{\mathbf{h}\sim P_{neg}^{\mathbf{h}}}log(1-\mathbf{h}\cdot\mathbf{W}\cdot\mathbf{s}), \\ &=\mathbb{E}_{\mathbf{h}\sim P_{\infty}^{\mathbf{h}}}log(\mathbf{h}\cdot\mathbf{W}\cdot\epsilon)+\mathbb{E}_{\mathbf{h}\sim P_{\infty}^{\mathbf{h}}}log(1-\mathbf{h}\cdot\mathbf{W}\cdot\epsilon), \end{aligned}$$

h是节点嵌入,W是可学习的权重。在这里,我们将 h ⋅ W \mathbf{h}\cdot\mathbf{W} hW视为 h ^ \hat{h} h^。正样本采样为 P h ^ p o s P^{\hat{\mathbf{h}}_{pos}} Ph^pos,负样本采样为: p h ^ p o s p^{\hat{\mathbf{h}}_{pos}} ph^pos。这样,公式就可以重写为:

$$\mathcal{L}=\mathbb{E}_{\hat{\mathbf{h}}\sim P_{pos}^{\hat{\mathbf{h}}}}log(sum(\epsilon\hat{\mathbf{h}}))+\mathbb{E}_{\hat{\mathbf{h}}\sim P_{neg}^{\hat{\mathbf{h}}}}log(1-sum(\epsilon\hat{\mathbf{h}})),\\=\mathbb{E}_{\hat{\mathbf{h}}\sim P_{pos}^{\hat{\mathbf{h}}}}log(\epsilon\cdot agg(\hat{\mathbf{h}}))+\mathbb{E}_{\hat{\mathbf{h}}\sim P_{neg}^{\hat{\mathbf{h}}}}log(1-\epsilon\cdot agg(\hat{\mathbf{h}})),$$

a g g ( ⋅ ) agg(\cdot) agg()是sum函数

Theorem 3的详细证明:

(理论推导受到了gan的启发)

$$\begin{aligned}\mathcal{L}&=\mathbb{E}_{\mathbf{h}\thicksim P_{pos}}log(agg(\mathbf{h}))+\mathbb{E}_{\mathbf{h}\thicksim P_{neg}}log(1-agg(\mathbf{h})),\\&=\int_\mathbf{h}P_{pos}(\mathbf{h})log(agg(\mathbf{h}))d\mathbf{h}+\int_\mathbf{h}P_{neg}(\mathbf{h})log(1-agg(\mathbf{h}))d\mathbf{h},\end{aligned}$$

agg是aggregation函数。 P p o s P_{pos} Ppos是正样本的分布, P n e g P_{neg} Pneg是负样本的分布。优化损失函数,我们可以得到 a g g ( h ) agg(h) agg(h)的最优解为: P p o s ( h ) P p o s ( h ) + P n e g ( h ) \frac{P_{pos}(\mathbf{h})}{P_{pos}(\mathbf{h})+P_{neg}(\mathbf{h})} Ppos(h)+Pneg(h)Ppos(h)。这是因为 a l o g ( x ) + b l o g ( 1 − x ) alog(x)+blog(1-x) alog(x)+blog(1x) x = a a + b x=\frac a{a+b} x=a+ba处得到最优解。通过取代 a g g ( h ) agg(\mathbf{h}) agg(h)为: P p o s ( h ) P p o s ( h ) + P n e g ( h ) \frac{P_{pos}(\mathbf{h})}{P_{pos}(\mathbf{h})+P_{neg}(\mathbf{h})} Ppos(h)+Pneg(h)Ppos(h),上述公式可以转换为:

$$\mathcal{L}=\mathbb{E}_{\mathbf{h}\thicksim P_{pos}}log(\frac{P_{pos}(\mathbf{h})}{P_{pos}(\mathbf{h})+P_{neg}(\mathbf{h})})+\mathbb{E}_{\mathbf{h}\thicksim P_{neg}}log(1-\frac{P_{pos}(\mathbf{h})}{P_{pos}(\mathbf{h})+P_{neg}(\mathbf{h})}),\\=\mathbb{E}_{\mathbf{h}\thicksim P_{pos}}log(\frac{P_{pos}(\mathbf{h})}{P_{pos}(\mathbf{h})+P_{neg}(\mathbf{h})})+\mathbb{E}_{\mathbf{h}\thicksim P_{neg}}log(\frac{P_{neg}(\mathbf{h})}{P_{pos}(\mathbf{h})+P_{neg}(\mathbf{h})}).$$

我们发现,其和JS散度很相似:

$$JS(P_1\parallel P_2)=\frac12\mathbb{E}_{\mathbf{h}\thicksim P_1}log(\frac{\frac{P_1}{P_1+P_2}}2)+\frac12\mathbb{E}_{\mathbf{h}\thicksim P_2}log(\frac{\frac{P_2}{P_1+P_2}}2).$$

这样,我们可以重写公式为:

$$\begin{aligned}\mathcal{L}&=\mathbb{E}_{\mathbf{h}\sim P_{pos}}log(\frac{\frac{P_{pos}(\mathbf{h})}{P_{pos}(\mathbf{h})+P_{neg}(\mathbf{h})}}2)+\mathbb{E}_{\mathbf{h}\sim P_{neg}}log(\frac{\frac{P_{neg}(\mathbf{h})}{P_{pos}(\mathbf{h})+P_{neg}(\mathbf{h})}}2)-2log2,\\&=2JS(P_{pos}\parallel P_{neg})-2log2,\end{aligned}$$

因此,最优化L相当于优化JS散度 J S ( P p o s ∥ P n e g ) JS(P_{pos}\parallel P_{neg}) JS(PposPneg)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/458971.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

实战应用WPS WebOffice开放平台服务

概述 根据公司的业务需要,主要功能是在线编辑文档,前端的小伙伴进行的技术调研,接入的是WPS WebOffice,这里只阐述技术介入的步骤、流程和遇到的坑进行的一些总结。 实践 WPS WebOffice 开放平台进行认证 在开始之前&#xff…

大数据-193 Apache Tez - DAG 作业计算框架 核心解释 工作原理 配置集成

点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完)HDFS(已更完)MapReduce(已更完&am…

Anki插件Export deck to html的改造

在Anki中进行复习时,每次只能打开一条笔记。如果积累了很多笔记,有时候会有将它们集中输出成一个pdf进行阅读的想法。Anki插件Export deck to html(安装ID:1897277426)就有这个功能。但是,这个插件目前存在…

岛津分子泵软件TMP系列分子泵EI-D系列控制电源 EI Monitor(232和485控制)

岛津分子泵软件TMP系列分子泵EI-D系列控制电源 EI Monitor(232和485控制)

探索Unity:从游戏引擎到元宇宙体验,聚焦内容创作

unity是实时3D互动内容创作和运营平台,包括游戏开发、美术、建筑、汽车设计、影视在内的所有创作者,借助Unity将创意变成现实。提供一整套完善的软件解决方案,可用于创作、运营和变现任何实时互动的2D和3D内容,支持平台包括手机、…

图为大模型一体机新探索,赋能智能家居行业

在21世纪的今天,科技的飞速进步正以前所未有的速度重塑着我们的生活方式。从智能手机到物联网,从大数据到人工智能,每一项技术创新都在为人类带来前所未有的便利与效率。其中,图为AI大模型一体机作为人工智能领域的最新成果&#…

DiskGenius一键修复磁盘损坏

下午外接磁盘和U盘都出现扇区损坏,估计就是在开着电脑,可能是电脑运行的软件还在对磁盘进行读写,不小心按到笔记本关机键,重新开机读写磁盘分区变得异常卡顿,估摸就是这个原因导致扇区损坏。在进行读写时,整…

深度学习:YOLO v1网络架构、损失值及NMS极大值抑制

引言 随着深度学习的发展,物体检测(Object Detection)成为计算机视觉领域的一项重要任务。传统的物体检测方法往往依赖于手工设计的特征和滑窗搜索策略,效率低下且效果有限。近年来,基于深度学习的方法,尤…

leetcode-63-不同陆路径II

题解: 1、设dp[i][j]为到达(i,j)点的路径。当grid[i][j]1时,dp[i][j]0;否则dp[i][j]为到达(i-1,j)的最多路径与到达(i,j-1)的最多路径之和。当(i,j)位于第一行时,dp[i][j]dp[i][j-1]。当(i,j)位于第一列时,dp[i][j]dp[i-1][j]。 2、初始化M…

MATLAB锂电概率分布模型

🎯要点 概率分布等效电路模型结合了路径相关速率能力及状态估计中滞后效应。纠正了充电状态中时间误差累积及避免开路电压中电压滞后现象。使用电流方向和电池容量相关函数描述开路电压,并使用微分方程描述电压滞后现象。模型结构基于一级相变的材料机制…

新华三H3CNE网络工程师认证—OSPF路由协议

OSPF是典型的链路状态路由协议,是目前业内使用非常广泛的IGP协议之一。本博客将对OSPF路由协议进行总结。 OSPF目前针对IPv4协议使用的是OSPFVersion2(RFC2328); 针对IPv6协议使用OSPFVersion3(RFC2740)。如无特殊说明本章后续所指的OSPF均为OSPF Versi…

监督学习之逻辑回归

逻辑回归(Logistic Regression) 逻辑回归是一种用于二分类(binary classification)问题的统计模型。尽管其名称中有“回归”二字,但逻辑回归实际上用于分类任务。它的核心思想是通过将线性回归的输出映射到一个概率值…

【MATLAB源码-第193期】基于matlab的网络覆盖率NOA优化算法仿真对比VFINOA,VFPSO,VFNGO,VFWOA等算法。

操作环境: MATLAB 2022a 1、算法描述 NOA(Network Optimization Algorithm,网络优化算法)是一个针对网络覆盖率优化的算法,它主要通过优化网络中节点的分布和配置来提高网络的整体覆盖性能。网络覆盖率是衡量一个无…

基于STM32G0的USB PD协议学习(3)

0、前言 STM32这个平台资源确实很不错,但是里面的PD代码是一个lib库文件,没有开源。可以做来玩玩,但是如果要满足USB-IF认证需求的话,谨慎!!! 这段时间较为繁忙,断更有点严重... …

植物健康,Spring Boot来保障

5系统详细实现 5.1 系统首页 植物健康系统需要登录才可以看到首页。具体界面的展示如图5.1所示。 图5.1 系统首页界面 5.2 咨询专家 可以在咨询专家栏目发布消息。具体界面如图5.2所示。 图5.2 咨询专家界面 5.3 普通植物检查登记 普通员工可以对普通植物检查登记信息进行添…

Linux之权限(2)

权限(2) 操作:有VS没有 只有文件的拥有者或者root,能修改自己的权限 Linux下能执行真的是一个可执行文件可执行权限 user,group,other和我自己进行身份对比,依次只对比一次 8进制数值表示方法 chmod ax /home/abc.…

基于vue、VantUI、django的程序设计

首先构建vue项目,构建项目点这里 安装 npm install axios axios简介 Axios 是一个基于 promise 的 HTTP 库,用于发起请求和接收响应,实现异步操作 基本使用 axios对象 请求响应拦截 在utils文件夹里新建ajax.js 创建一个axios对象并…

云智慧完成华为原生鸿蒙系统的适配, 透视宝 APM 为用户体验保驾护航

2024 年 10 月 22 日,首个国产移动操作系统 —— 华为原生鸿蒙操作系统 HarmonyOS NEXT 正式面世,成为继 iOS 和 Android 后的全球第三大移动操作系统。HarmonyOS NEXT,从系统内核、数据库根基,到编程语言创新、AI(人工…

【WebGis开发 - Cesium】三维可视化项目教程---图层管理拓展图层透明度控制

目录 引言一、为什么要开发图层透明度控制功能二、开发思路整理1. cesium图层api查询1.1 imageryLayer 透明度1.2 primitive 透明度 三、代码编写1. 修改原有图层管理代码2. 新增页面结构3. 编写图层透明度控制方法 四、总结 引言 本教程主要是围绕Cesium这一开源三维框架开展的…

如何通过sip信令以及抓包文件分析媒体发到哪个地方

前言 问题描述:A的媒体没转发到B,B只能听到回铃音,没有A的说话声音,并且fs这边按正常的信令发送了. 分析流程 分析早期媒体发送到哪一个IP 10.19.0.1发送了一个请求给10.19.0.157这个IP,然而这里的SDP媒体地址&am…