图神经网络(五):GAT

文章目录

    • 一.摘要
    • 二.背景介绍
    • 三.GAT
    • 四.总结
    • 五.附录

一.摘要

我们提出了图注意网络(GAT),一种在图结构数据上运行的新型神经网络架构,利用掩蔽的自我注意层来解决基于图形卷积或其近似的先前方法的缺点。通过堆叠节点能够参与其邻域特征的层,我们能够(隐式)为邻域中的不同节点指定不同的权重,而不需要任何类型的昂贵的矩阵运算(例如求逆)或依赖于对图的了解结构前期。通过这种方式,我们同时解决了基于谱的图神经网络的几个关键挑战,并使我们的模型很容易适用于归纳和转导问题。我们的 GAT 模型在四个已建立的转导和归纳图基准测试中取得或匹配了最先进的结果:Cora、Citeseer 和 Pubmed 引文网络数据集,以及蛋白质相互作用数据集。

二.背景介绍

卷积神经网络 (CNN) 已成功应用于解决图像分类、语义分割或机器翻译等问题。 这些问题的底层数据表示具有类似网格结构。 这些结构通过将它们应用于所有输入位置,有效地重用具有可学习参数的本地滤波器。
然而,许多有趣的任务涉及的数据不能以网格状结构表示,而是位于不规则域中。 3D 网格、社交网络、电信网络、生物网络或大脑连接组就是这种情况。 这样的数据通常可以用图的形式来表示。
文献中有几次尝试扩展神经网络以处理任意结构的图。:早期的工作使用递归神经网络来处理在图域中表示为有向无环图的数据。 2005年Gori和 Scarselli 等人提出的图神经网络 (GNN)作为递归神经网络的推广,可以直接处理例如循环图、有向图和无向图等更通用的图类。 GNN由一个迭代过程组成,该过程传播节点状态直到达到平衡; 然后紧跟一个神经网络,根据每个节点的状态为每个节点生成一个输出。 这个想法后来又被李等人采纳和改进,在传播步骤中使用门控循环单元。
然而,将卷积推广到图域受到越来越多的关注,这个方向的进展通常分为光谱方法和非光谱方法。
一方面,谱方法与图的谱表示一起工作,并已成功应用于上下文中的节点分类。在布鲁纳等人的工作中,卷积运算是通过计算图拉普拉斯算子的特征分解在傅里叶域中定义的,从而导致潜在的密集计算和非空间局部化滤波器。这些问题在随后的工作中得到解决,赫纳夫等人引入了具有平滑系数的光谱滤波器的参数化,以使它们在空间上局部化。再后来,Defferrard 等人提出通过图拉普拉斯算子的切比雪夫展开来近似过滤器,消除了计算拉普拉斯算子的特征向量并产生空间局部化过滤器的需要。最后,Kipf和Welling等人通过限制过滤器在每个节点周围的 1 步邻域内操作来简化之前的方法。然而,在所有上述谱方法中,学习滤波器依赖于取决于图结构的拉普拉斯特征基。因此,在特定结构上训练的模型不能直接应用于具有不同结构的图。
另一方面,我们有非谱方法,它直接在图上定义卷积,对空间近邻组进行操作。这些方法的挑战之一是定义一个与不同大小的邻域一起工作并保持 CNN 的权重共享属性的算子。在某些情况下,这需要为每个节点度学习一个特定的权重矩阵,使用转换矩阵的幂来定义邻域,同时学习每个输入通道和邻域度的权重,或提取和归一化包含固定数量节点的邻域。蒙蒂等人2016 年提出了混合模型 CNN(MoNet),这是一种空间方法,可将 CNN 架构统一推广到图。最近,汉密尔顿等人介绍了GraphSAGE,这是一种以归纳方式计算节点表示的方法。该技术通过对每个节点的固定大小邻域进行采样,然后对其执行特定的聚合器(例如所有采样邻居的特征向量的平均值,或通过循环神经网络馈送它们的结果)来操作。这种方法在多个大规模归纳基准测试中取得了令人印象深刻的性能。
在许多基于序列的任务中,注意力机制几乎已成为事实上的标准。 注意力机制的好处之一是它们允许处理可变大小的输入,专注于输入中最相关的部分以做出决策。 当使用注意力机制来计算单个序列的表示时,它通常被称为自注意力或内部注意力。 与循环神经网络 (RNN) 或卷积一起,自注意力已被证明对机器阅读和学习句子表示等任务很有用。 然而,瓦斯瓦尼等人表明,self-attention 不仅可以改进基于 RNN 或卷积的方法,而且足以构建一个强大的模型,在机器翻译任务上获得最先进的性能。
受最近这项工作的启发,我们引入了一种基于注意力的架构来执行图结构数据的节点分类。这个想法是通过关注其邻居,遵循自注意力策略来计算图中每个节点的隐藏表示。注意力架构有几个有趣的特性:(1)操作是高效的,因为它可以跨节点邻居对并行化; (2) 通过给邻居指定任意权重,可以将其应用于具有不同度数的图节点; (3) 该模型直接适用于归纳学习问题,包括模型必须泛化到完全看不见的图的任务。我们在四个具有挑战性的基准上验证了所提出的方法:Cora、Citeseer 和 Pubmed 引文网络以及归纳蛋白质-蛋白质相互作用数据集,实现或匹配最先进的结果,这些结果突出了基于注意力的模型在处理时的潜力带有任意结构的图。
值得注意的是,与 Kipf和 Atwood等人一样,我们的工作也可以重新表述为MoNet的一个特定实例。此外,我们跨边缘共享神经网络计算的方法让人想起关系网络和 VAIN 的公式,其中对象或代理之间的关系是成对聚合的,通过采用一种共享机制。同样,我们提出的注意力模型可以与 Duan 等人的工作联系起来,它使用邻域注意操作来计算环境中不同对象之间的注意系数。其他相关方法包括局部线性嵌入 (LLE) 和记忆网络:LLE 在每个数据点周围选择固定数量的邻居,并为每个邻居学习一个权重系数,以将每个点重构为其邻居的加权和,第二个优化步骤提取点的特征嵌入;记忆网络也与我们的工作有一些联系,特别是如果我们将节点的邻域解释为记忆,它用于通过关注其值来计算节点特征,然后通过将新特征存储在相同的位置。

三.GAT

在本节中,我们将介绍用于构建任意图注意力网络的构建块层(通过堆叠该层),并直接概述其与神经图处理领域的先前工作相比的理论和实践优势和局限性。
我们将从描述单个图形注意层开始,作为我们实验中使用的所有 GAT 架构中使用的唯一层。 我们使用的特殊注意力设置与 Bahdanau 等人的工作密切相关,但该框架与注意力机制的特定选择无关。
我们层的输入是一组节点特征,$h = {\overrightarrow{h_1},\overrightarrow{h_2}, . . . ,\overrightarrow{h_N} }, \overrightarrow{h_i} ∈ R^F ,其中 N 是节点数, F 是每个节点中的特征数。该层产生一组新的节点特征(可能具有不同的基数 F ′ ), ,其中 N 是节点数,F 是每个节点中的特征数。 该层产生一组新的节点特征(可能具有不同的基数 F'), ,其中N是节点数,F是每个节点中的特征数。该层产生一组新的节点特征(可能具有不同的基数F),h’ = {\overrightarrow{h’_1},\overrightarrow{h’_2}, . . . ,\overrightarrow{h’_N} },\overrightarrow{h’_i} ∈ R^{F’} ,作为其输出。为了获得足够的表达能力将输入特征转化为更高级的特征,至少需要一个可学习的线性变换。为此,作为初始步骤,将由权重矩阵 ,作为其输出。为了获得足够的表达能力将输入特征转化为更高级的特征,至少需要一个可学习的线性变换。 为此,作为初始步骤,将由权重矩阵 ,作为其输出。为了获得足够的表达能力将输入特征转化为更高级的特征,至少需要一个可学习的线性变换。为此,作为初始步骤,将由权重矩阵 W ∈ R^{F’×F} 参数化的共享线性变换应用于每个节点。然后我们在节点上执行自我注意——共享注意机制 a : 参数化的共享线性变换应用于每个节点。 然后我们在节点上执行自我注意——共享注意机制 a : 参数化的共享线性变换应用于每个节点。然后我们在节点上执行自我注意——共享注意机制a: R^{F’}× R^{F’} → R $计算注意系数:
在这里插入图片描述

表示节点 j 的特征对节点 i 的重要性。 在其最一般的表述中,该模型允许每个节点参与每个其他节点,删除所有结构信息。 我们通过执行 masked attention 将图结构注入到机制中——我们只计算节点 j ∈ Ni 的 eij,其中 Ni 是图中节点 i 的某个邻域。 在我们所有的实验中,这些将恰好是 i(包括 i)的一阶邻居。 为了使系数在不同节点之间易于比较,我们使用 softmax 函数在 j 的所有选择中对它们进行归一化:
在这里插入图片描述

在我们的实验中,注意力机制 a 是一个单层前馈神经网络,由权重向量$ \overrightarrow a ∈ R^{2F’} $参数化,并应用 LeakyReLU 非线性(负输入斜率 α = 0.2)。 完全展开后,注意力机制计算的系数(如图 1(左)所示)可以表示为:
在这里插入图片描述

在这里插入图片描述

一旦获得,归一化的注意力系数用于计算与其对应的特征的线性组合,作为每个节点的最终输出特征(在可能应用非线性后,σ):
在这里插入图片描述

为了稳定自注意力的学习过程,我们发现扩展我们的机制以使用类似于 Vaswani 等人的多头注意力是有益的,具体来说,K 个独立的注意力机制执行方程 4 的转换,然后将它们的特征连接起来,得到以下输出特征表示:
在这里插入图片描述

特别是,如果我们在网络的最终(预测)层执行多头注意力,则连接不再有意义——相反,我们采用平均,并延迟应用最终的非线性(通常是用于分类问题的 softmax 或逻辑 sigmoid)直到 然后:
在这里插入图片描述

多头图注意力层的聚合过程如图 1(右)所示。

四.总结

本文提出了图注意力网络 (GAT),一种新颖的卷积式神经网络,它在图结构数据上运行,利用了掩码自注意力层。在这些网络中使用的图注意力层在计算上是高效的(不需要昂贵的矩阵运算,并且可以在图中的所有节点上并行化),允许在处理不同大小的邻域时(隐式)为邻域内的不同节点分配不同的重要性,并且不依赖于预先了解整个图结构,从而解决了以前基于谱的方法的许多理论问题。我们利用注意力的模型已经在四个成熟的节点分类基准中成功实现或匹配了最先进的性能,包括转换和归纳(尤其是用于测试的完全看不见的图表)。

五.附录

论文链接:https://arxiv.org/pdf/1710.10903.pdf
代码链接:https://github.com/PetarV-/GAT

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/68264.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【图神经网络论文整理】(二)—— HOW ATTENTIVE ARE GRAPH ATTENTION NETWORKS?:GATv2

ICLR 2022Shaked Brody(Technion), Eran Yahav(Technion)Uri Alon(Language Technologies InstituteCarnegie Mellon University)论文地址 本文介绍的论文《HOW ATTENTIVE ARE GRAPH ATTENTION…

图神经网络总结(GCN/GAT/GraphSAGE/DeepWalk/TransE)

文章目录 图神经网络1 游走类模型1.1 DeepWalk随机游走DeepWalk计算节点向量的方式: 1.2 Node2VECnode2vec改进后的随机游走方式: 1.3 LINE 2 消息传递类模型2.1 GCN2.2 GAT2.3 GraphSageGraphSAGE 的采样方法:GraphSAGE 的聚合函数&#xff…

Graph Neural Network——图神经网络

本文是跟着李沐老师的论文精度系列进行GNN的学习的,详细链接请见:零基础多图详解图神经网络(GNN/GCN)【论文精读】 该论文的标题为《A Gentle Introduction to Graph Neural Networks》,是对GNN的简介。那么论文的第一…

【图神经网络实战】深入浅出地学习图神经网络GNN(上)

文章目录 一、图神经网络应用领域1.1 芯片设计1.2 场景分析与问题推理1.3 推荐系统1.4 欺诈检测与风控相关1.5 知识图谱1.6 道路交通的流量预测1.7 自动驾驶(无人机等场景)1.8 化学,医疗等场景1.9 物理模型相关 二、图神经网络基本知识2.1 图…

GNN图神经网络综述

什么是GNN GNN是Graph Neural Network的简称,是用于学习包含大量连接的图的联结主义模型。当信息在图的节点之间传播时GNN会捕捉到图的独立性。与标准神经网络不同的是,GNN会保持一种状态,这个状态可以代表来源于人为指定的深度上的信息。 …

图神经网络GNN简介

GNN 1.DL库及数据集1.1 GNN通用DL库1.2 图数据集 2. GCN3. GAT3.1 GAT注意力机制 4. GIN参考文献 如果对图的基础知识,以及对图神经网络要解决的任务还不太熟悉,可以通过 A Gentle Introduction to Graph Neural Networks快速入门。 接下来推荐两篇GNN综…

图神经网络GNN 原理 详解 (一)

图神经网络(GNN) 一.背景 图神经网络的概念首先由 Gori 等人(2005)[16] 提出,并由 Scarselli 等人(2009)[17] 进一步阐明。这些早期的研究以迭代的方式通过循环神经架构传播邻近信息来学习目标节点的表示,直到达到稳定的固定点。该过程所需计算量庞大,而近来也有许多…

图神经网络GNN介绍

目录标题 图神经网络基础图基本模块定义图的邻接矩阵点特征的更新(重构)多层GNN 图卷积GCN模型GCN基本思想网络层数:基本计算 图注意力机制graph attention networkT-GCN序列图神经网络 图相似度 图神经网络基础 图基本模块定义 三个特征&a…

图神经网络(GNN)模型原理及应用综述

从数据结构到算法:图网络方法初探论文《Graph Neural Networks: A Review of Methods and Applications》木牛马论文阅读笔记https://www.cnblogs.com/ydcode/p/11050417.htmlhttps://zhuanlan.zhihu.com/p/102994627?utm_sourcewechat_session 文章目录 图神经网络…

图神经网络GAT最详细讲解(图解版)

前言 大家好,我是阿光。 本专栏整理了《图神经网络》,内包含了不同图神经网络的原理以及相关代码实现,详细讲解图神经网络,理论与实践相结合,如GCN、GraphSAGE、GAT等经典图网络,每一个代码实例都附带有完…

图神经网络(GNN)的简介

近年来,图神经网络(GNN)在社交网络、知识图、推荐系统甚至生命科学等各个领域得到了越来越广泛的应用。GNN在对图节点之间依赖关系进行建模的强大功能,使得与图分析相关的研究领域取得了突破。本文介绍了图神经网络的基本原理,以及两种高级的…

什么是图神经网络GNN?

一、什么是GNN 一句话概括图神经网络(Graphic Nuaral Network,GNN):将一个数据(一个图)输入到网络(GNN)中,会得到一个输出数据(同样是图)&#xf…

图神经网络简介,什么是图神经网络,GNN

目录 什么是图? 二、怎么把一些内容表示成图 2.1 怎么把图片表示成图 2.2 将一句话表示成图 2.3 其他信息转换成图的例子 2.3.1 分子结构表示成图 2.3.2 社会人物关系表示成图 2.3.3 其他可以表示成图的信息 三、哪些类型的问题有图结构数据 3.1 图层面的任务…

ChatGPT 火爆了,为什么不被开发者所欢迎?

可以说,ChatGPT是近几个月最受欢迎的话题之一,毕竟这个聊天机器人比它的前辈们“聪明”了很多,除了聊天之外,还会打草稿和编写代码,在某种程度上也能提高生产力。 记得 ChatGPT 最开始上线不久的时候,看到…

不需要等待列表,也不用魔法上网的Claude,能否比肩ChatGPT?

近期,国外Anthropic公司发布了Claude聊天机器人,堪比ChatGPT的最大竞争对手。一经推出,市场上就经常拿它俩来对比,因为推出Claude产品的Anthropic 公司是由多位前OpenAI前员工组成,两家公司,以及他们推出的…

漫画:骚操作系列(一文让你学会如何用代码判断“24“点)

“24点”是一种数学游戏,正如象棋、围棋一样是一种人们喜闻乐见的娱乐活动。它始于何年何月已无从考究,但它以自己独具的数学魅力和丰富的内涵正逐渐被越来越多的人们所接受。今天就为大家分享一道关于“24点”的算法题目。 话不多说,直接看题…

修改Discuz首页四格列表

优化经典四格版式下的用户界面 CSS,增加了表格间的分割线显示,使页面 UI 更为整齐 效果图: 修改步骤: 1.打开文件:template/default/style/t5/style.css 2.尾部新增样式: .category_newlist {padding: 0…

卡方检验四格表怎么做_SPSS案例实践:2*2四格表卡方检验

在某项调查研究中,所有受访家庭按照家庭收入被分为低收入家庭和中高收入家庭两类,现希望考察不同收入级别的家庭其轿车拥有率是否相同。 SPSS数据如下: 家庭是否拥有轿车是一个二结局的分类变量,要么有要么没有,互斥,所以该问题是一个典型的两个率的差异比较。 01 频数资…

AI漫画生成

文章目录 前言一、漫画生成怎么搞?二、White-box Cartoon Representations1.网络结构2.代码 附 前言 提示:这里可以添加本文要记录的大概内容: 例如:随着人工智能的不断发展,机器学习这门技术也越来越重要&#xff0c…

[四格漫画] 第523话 电脑的买法

翻译至:http://www.atmarkit.co.jp/ait/articles/1610/04/news018.html