Ultra:知识图谱推理的基础模型

一、说明

训练单个通用模型来解决任意数据集始终是 ML 研究人员的梦想,尤其是在基础模型时代。虽然这些梦想已经在图像或自然语言等感知领域实现了,但它们是否可以在推理领域(如图形)中再现仍然是一个开放的挑战。

图片由作者根据 DALL-E 3 的输出编辑而成。

        在这篇博文中,我们证明了这样一个通用推理模型的存在,至少对于知识图谱(KGs)是这样。我们创建了 ULTRA,这是一个单一的预训练推理模型,可推广到任意实体和关系词汇表的新 KG,作为任何 KG 推理问题的默认解决方案。

        这篇文章基于我们最近的论文(预印本),并与 Xinyu Yuan (Mila)、Zhaocheng Zhu (Mila) 和 Bruno Ribeiro ( Purdue / Stanford) 共同撰写。在 Twitter 上关注 MichaelXinyuZhaocheng 和 Bruno,获取更多 Graph ML 内容。

二、大纲

  1. 为什么KG表征学习卡在2018年
  2. 理论:是什么使模型具有归纳性和可转移性?
  3. 理论:多关系图中的等方差
  4. Ultra:KG推理的基础模型
  5. 实验:即使在零样本推理中也最好,缩放行为
  6. 代码、数据、检查点

三、为什么KG表征学习卡在2018年

        自 2018 年以来,预训练微调范式一直伴随着我们,当时 ELMo 和 ULMFit 首次显示出有希望的结果,后来它们被 BERT 和 GPT 巩固。

        在大型语言模型 (LLM) 和更通用的基础模型 (FM) 时代,我们通常有一个单一模型(如 GPT-4 或 Llama-2)在大量数据上进行预训练,并且能够以零样本方式执行各种语言任务(或至少在特定数据集上进行微调)。如今,多模态 FM 甚至在同一模型中支持语言、视觉、音频和其他模态。

        在 Graph ML 中,情况略有不同。 特别是,到 2023 年底,KG 的表征学习是怎么回事?这里的主要任务是边缘级的:

  • 实体预测(或知识图谱完成):给定一个头节点和关系,对图中所有可能成为真尾的节点进行排名。(h,r,?)
  • 关系预测:给定两个节点,预测它们之间的关系类型(h,?,t)

        事实证明,到目前为止,它一直在 2018 年之前的某个地方。关键问题是:

每个 KG 都有自己的一组实体和关系,没有单个预训练模型可以转移到任何图形。

        例如,如果我们看一下Freebase(谷歌知识图谱背后的KG)和维基数据(最大的开源KG),它们具有完全不同的实体集(86M vs 100M)和关系(1500 vs 6000)。目前的KG表示学习方法是否有希望在一个图上训练并转移到另一个图上?

        Freebase和维基数据的不同词汇。图片由作者提供。

        ❌ 经典的转导方法(如 TransE、ComplEx、RotatE 和数百种其他基于嵌入的方法)从训练图中学习一组固定的实体和关系类型,甚至无法支持添加到同一图中的新节点。基于浅层嵌入的方法不会转移(事实上,我们认为除了一些学生项目练习之外,开发此类方法已经没有意义了)。

        🟡 归纳实体方法(如 NodePiece 和 Neural Bellman-Ford Nets)不学习实体嵌入。相反,它们将训练(可见)和新推理(看不见)节点参数化为固定关系的函数。由于他们只学习关系嵌入,因此它确实允许他们转移到具有新节点的图形,但转移到具有不同关系的新图形(例如Freebase到Wikidata)仍然遥不可及。

        相对实体表示支持归纳 GNN。 图片由作者提供。

        如果在推理时同时具有新的实体和关系(全新的图形),该怎么办?如果你不学习实体或关系嵌入,那么理论上是否可能进行转移?那么让我们来看看这个理论。

四、理论:是什么使模型具有归纳性和可转移性?

        让我们更正式地定义设置:

  • KG 是具有任意节点集和关系类型的有向多关系图
  • 图到达时没有特征,也就是说,我们不假设实体和关系的文本描述(或预先计算的特征向量)的存在。
  • 给定一个查询(head、relation、?),我们希望对底层图(推理图)中的所有节点进行排名,并最大限度地提高返回真实尾部的概率。
  • 转导设置:在训练和推理时,节点和实体的集合是相同的。
  • 归纳(实体)设置:关系集必须在训练时固定,但节点在训练和推理时可以不同
  • 归纳(实体和关系)设置:在推理时允许新的看不见的实体和关系

        神经网络学会了什么才能泛化到新数据?主要参考文献——Bronstein、Bruna、Cohen 和 Veličković 所著的《几何深度学习》一书——认为这是一个对称性和不变性的问题。

        基础模型中的可学习不变性是什么?LLM 在固定的标记词汇表(子单词单位、字节,甚至是随机初始化的向量,如 Lexinvariant LLM 中)进行训练,视觉模型学习投影图像补丁的函数,音频模型学习投影音频补丁。

多关系图的可学习不变性是什么?

        首先,我们将介绍标准齐次图中的不变性(等方差)。

        标准(单)排列等变图模型:当早期的 GNN 工作(Scarselli 等人,2008 年,Xu 等人,2018 年,Morris 等人,2018 年)表明,假设顶点 ID 是任意的,图上的归纳任务受益匪浅,因此如果我们重新分配顶点 ID,图模型的预测应该不会改变。这称为节点 ID 上神经网络的排列等方差。这种认识引起了极大的兴奋,并产生了大量新颖的图表示方法,因为只要神经网络与节点 ID 排列等变,我们就可以将其称为图模型。

        单关系图。GNN 与节点排列等变:即使在重新标记节点 ID 后,Michael Jackson 的节点向量也将具有相同的值。图片由作者提供。

        节点 ID 上的排列等方差允许 GNN 以感应方式(零样本)将从训练图中学习到的模式转移到另一个(不同的)测试图。这是等方差的结果,因为神经网络不能使用节点 ID 来生成嵌入,因此它必须使用图结构。这创造了我们所知道的图形中的结构表示(参见 Srinivasan 和 Ribeiro (ICLR 2020))。

五、多关系图中的等方差

        现在,图中的边可能具有不同的关系类型——这些图是否有任何 GNN 理论?

        1️⃣ 在我们之前的工作中,Weisfeiler 和 Leman Go Relational(与 Pablo Barceló、Christopher Morris 和 Miguel Romero Orth,LoG 2022 合作),我们推导出了关系 WL——一种用于多关系图的 WL 表达性层次结构,更侧重于节点级任务。 Huang 等人 (NeurIPS 2023) 的伟大后续工作将该理论扩展到使用关系 WL 将预测、形式化条件消息传递和逻辑表达联系起来。✍️ 让我们记住条件消息传递 - 我们稍后会用到它 - 它可以证明可以提高链路预测性能。

        提议添加由入/出边缘方向引起的全局读出向量类似于 Emanuele Rossi 等人最近关于研究均匀 MPNN 方向性的工作(有关详细信息,请阅读 Medium 上的博客文章)。尽管如此,这些作品并没有设想到甚至在测试时甚至看不到关系的情况。

        2️⃣ 双排列等变(多关系)图模型:最近,Gao et al. 2023 提出了多关系图的双等方差概念。双重等方差迫使神经网络与节点 ID 和关系 ID 的联合排列等变。这确保了神经网络学习节点和关系之间的结构模式,从而允许它归纳(零样本)将学习到的模式转移到另一个具有新节点和新关系的图上。

        多关系图中的双等方差。同时置换节点 ID 和关系 ID 不会更改关系结构。因此,输出节点状态应相同(但有排列)。图片由作者提供。

        ➡️ 在我们的工作中,我们发现了关系交互的不变性,也就是说,即使关系身份不同,它们的基本交互作用也保持不变,并且这些基本交互作用可以通过关系图来捕捉。在关系图中,每个节点都是原始图中的关系类型。如果原始图中具有这些关系类型的边入射(即,它们共享一个头节点或尾节点),则此图中的两个节点将被连接。根据入射率,我们在关系图中区分 4         种边类型

  • Head-to-head (h2h) — 两个关系可以从同一个头实体开始;
  • Tail-to-head (t2h) — 一个关系的尾部实体可以是另一个关系的头部;
  • Head-to-tail (h2t) — 一个关系的头部实体可以是另一个关系的尾部;
  • Tail-to-tail (t2t) — 两个关系可以具有相同的尾部实体。

        原始图中的不同入射模式在关系图中产生不同的交互作用。最右边:示例关系图(为清楚起见,省略了反边)。图片由作者提供

关系图的一些不错的属性:

  • 它可以从任何多关系图(具有简单的稀疏矩阵乘法)构建
  • 这 4 个基本相互作用永远不会改变,因为它们只是编码基本拓扑——在有向图中,总会有头节点和尾节点,而我们关系将具有这些入射模式

从本质上讲,学习关系图上的表示可以转移到任何多关系图上!这是可学习的不变性

事实上,可以证明(我们已经在研究形式证明,这将在即将到来的工作😉中提供)通过关系图中的相互作用来表示关系是一个双等变模型!这意味着学习的关系表示独立于身份,而是依赖于关系、节点以及节点和关系之间的联合交互。

六、Ultra:KG推理的基础模型

        有了所有理论基础的支持,我们现在准备引入 ULTRA。

ULTRA 是一种统一、可学习和可转移的图形表示方法。ULTRA 利用关系图的不变性(和等方差)及其基本交互作用,并应用条件消息传递来获得相对关系表示。也许最酷的事实是

单个预训练的 ULTRA 模型可以在任何可能的多关系图上运行 0 次推理,并在任何图上进行微调。

        换句话说,ULTRA几乎是一个基础模型,可以在任何图形输入上运行推理(具有良好的性能),并在任何感兴趣的目标图形上进行微调。

        ULTRA 的关键组成部分是从关系图构建的相对关系表示。给定一个查询(Michael Jackson,genre,?),我们首先用全一向量初始化关系图中的流派节点(所有其他节点都用零初始化)。运行 GNN,关系图的节点嵌入以流派节点为条件——这意味着每个初始初始化的关系将有自己的关系特征矩阵,这从许多理论和实践方面都非常有帮助!

        ULTRA采用相对关系表示(关系图上的标记技巧),使得每个关系(例如,“流派”)都有自己独特的所有关系表示矩阵。图片由作者提供。

        实际上,给定输入 KG 和 (h, r, ?) 查询,ULTRA 将执行以下操作:

  1. 关系图的构建;
  2. 从在关系图上传递 GNN 的条件消息中获取关系特征(以初始化的查询关系 r 为条件);
  3. 将获得的关系表示用于以初始化头节点 h 为条件的归纳链路预测器 GNN;

步骤 2 和 3 是通过对神经 Bellman-Ford 网络 (NBFNet) 的略微不同的修改来实现的。ULTRA 只学习 4 种基本相互作用(h2t、t2t、t2h、h2h)和 GNN 权重的嵌入——总体上相当小。我们试验的主要模型只有 177k 个参数。

        ULTRA采取的三个主要步骤:(1)建立关系图;(2)运行条件消息传递关系图,得到相对关系表示;(3)在实体级别上将这些表示用于归纳链接预测器GNN。图片由作者提供。

七、实验:即使在零样本推理和微调中也最好

        我们在基于 Freebase、Wikidata 和 Wordnet 的 3 个标准 KG 上预训练了 ULTRA,并在 0+ 个其他不同大小的 KG 上运行了 50 次链路预测,这些 KG 来自 1k — 120k 节点和 2k 边缘 — 1.1M 边缘。

        在具有已知 SOTA 的数据集中取平均值,单个预训练的 ULTRA 模型在 0 次推理模式下比在每个图🚀上专门训练的现有 SOTA 模型更好 微调可将性能进一步提高 10%。特别令人惊讶的是,单个经过训练的 ULTRA 模型可以扩展到如此不同大小的图形(节点大小相差 100 倍,边大小相差 500 倍),而众所周知,GNN 存在大小泛化问题(参见 Yehudai 等人的杰出著作,ICML 2021 和 Zhou 等人的杰出作品,NeurIPS 2022)。

        即使在 0 次推理模式下,单个预训练的 ULTRA 也比在特定图形上端到端训练的监督 SOTA 模式更好(查看 Average 列)。微调可进一步提高性能。图片由作者提供

🙃 事实上,在 57 张经过测试的图表中,我们用完了 KG 来测试 ULTRA。因此,如果您在某个地方隐藏了全新的基准测试,请告诉我们!

八、缩放行为

        我们可以通过在预训练组合中添加更多图表来进一步提高零样本性能,尽管我们在 4+ 图表上训练后确实观察到一定的性能饱和度。

        Scaling Laws 教会预测,在更定性的数据上训练更大的模型会获得更好的性能,因此这绝对在我们的议程上。

零样本性能随着预训练组合中更多样化的图形而提高。图片由作者提供。

九、结论:代码、数据、检查点

        所以KG推理的基础模型终于来了,我们已经超过了2018年的门槛!单个预训练的 ULTRA 模型可以对来自任何域的任何 KG(多关系图)执行链接预测。您实际上只需要一个具有 1 种以上边缘类型的图形即可开始。

📈 实际上,ULTRA 在 0 次模式下已经在各种 KG 基准测试中表现出非常有希望的性能,但您可以通过短暂的微调进一步提高性能。

我们在 GitHub 上提供了所有代码、训练数据和预训练模型检查点,因此您可以立即开始对数据运行 ULTRA!

📜 预印本:arxiv

🛠️ 代码、数据:Githtub 存储库

🍪 检查点:Github 存储库中的 2 个检查点(每个检查点 2 MB)

🌎 项目网址:这里

        作为结束语,KG推理只是推理领域中许多有趣问题的一小部分,而且大多数仍然没有一个通用的解决方案。我们相信KG推理的成功将带来其他推理领域的更多突破(例如,我们最近发现LLM实际上可以学习和运用文本规则)。让我们对推理的未来保持乐观!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/182789.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

力扣206. 反转链表

题目: 给你单链表的头节点 head ,请你反转链表,并返回反转后的链表。 示例1: 输入:head [1,2,3,4,5] 输出:[5,4,3,2,1] 示例 2: 输入:head [1,2] 输出:[2,1] 示例 3:…

微信小程序获取剪切板的内容到输入框中

xml代码 <navigation-bar title"Weixin" back"{{false}}" color"black" background"#FFF"></navigation-bar> <view><input placeholder"请输入内容" name"content" type"text" …

.NET Framework中自带的泛型委托Action

Action<>是.NET Framework中自带的泛型委托&#xff0c;可以接收一个或多个输入参数&#xff0c;但不返回任何参数&#xff0c;可传递至多16种不同类型的参数类型。在Linq的一些方法上使用的比较多。 1、Action泛型委托 .NET Framework为我们提供了多达16个参数的Action…

【Linux】第十站:git和gdb的基本使用

文章目录 一、git的基本操作1.gitee新建仓库注意事项2.git的安装3.git的克隆4.git的add5.git的commit6.git的push7.git log8.git status9. .gitignore 二、Linux调试器---gdb1.背景2.gdb安装、进入与退出3.list/l4.r/run运行程序5. break/b 打断点6.info/i b 查看断点7.delete/…

Linux学习之vim跳转到特定行数

参考的博客&#xff1a;《Vim跳到最后一行的方法》 《oeasy教您玩转vim - 14 - # 行头行尾》 《Linux&#xff1a;vim 中跳到首行和最后一行》 想要跳到特定行的话&#xff0c;可以在命令模式和正常模式进行跳转。要是对于vim的四种模式不太熟的话&#xff0c;可以到博客《Linu…

SRC-用友 ERP-NC NCFindWeb 目录遍历漏洞

漏洞描述 用友ERP-NC 存在目录遍历漏洞&#xff0c;攻击者可以通过目录遍历获取敏感文件信息。 fofa&#xff1a; poc&#xff1a;/NCFindWeb?serviceIPreAlertConfigService&filename 在url处拼接poc后可以看到该站点的目录和文件 访问某个文件 /NCFindWeb?serviceIPre…

UE5——源码阅读——10——引擎预初始化

运行延迟注册委托 初始化堆栈跟踪 检测是否需要覆盖打印时间 检测所必要的插件是否是可用的 获取目标信息 拿到编辑器目标名 检测当前运行的可执行文件是否是正确的 检测项目模块是否有过时和不兼容的 检测插件模块是否有过时和不兼容的 报错误信息 强制通讯 判断是…

代码随想录第四十四天 | 动态规划 完全背包:纯完全背包理论基础(卡码网第52题);应用(注意遍历顺序):组合(518),排列(377)

1、动态规划&#xff1a;完全背包理论基础 有N件物品和一个最多能背重量为W的背包。第i件物品的重量是weight[i]&#xff0c;得到的价值是value[i] 。每件物品都有无限个&#xff08;也就是可以放入背包多次&#xff09;&#xff0c;求解将哪些物品装入背包里物品价值总和最大…

lombok依赖介绍(帮助我们消除冗长代码,如get,set方法)

前言 lombok 是一个 Java 工具库&#xff0c;通过注解的方式&#xff0c;简化 Java 开发。要想使用 lombok 中的注解&#xff0c;我们需要先引入依赖&#xff0c;推荐看idea必装插件EditStarters&#xff08;快速引入依赖&#xff09;&#xff0c;lombok是⼀款在编译期⽣成代码…

从公共业务提取来看架构演进——帐号权限篇

1. 引言 在产品业务多元化的过程中&#xff0c;往往会遇到一些与业务发展不匹配的架构问题&#xff0c;这些问题可能会在业务迭代中以性能差、重复开发等形式表现出来&#xff0c;进而给系统的扩展和维护带来一些挑战。 本文准备以一个帐号权限的业务为例&#xff0c;来讨论下…

arcgis pro模型构建器

如果你不想部署代码包环境来写arcpy代码&#xff0c;还想实现批量或便携封装的操作工具&#xff0c;那么使用模型构建器是最好的选择。1.简介模型构建器 1.1双击打开模型构建器 1.2简单模型构建步骤 先梳理整个操作流程&#xff0c;在纸上绘制在工具箱中找到所需工具拖进来把…

使用Anaconda安装TensorFlow环境以及没有搜到的报错的解决方法

1.在官网下载Anaconda 这一步几乎不会有人报错 下稳定的版本 或者最新的版本都可以 2.TensorFlow分两个版本 一个是用cpu跑 另一个是用gpu跑 显而易见 cpu的计算性能已经比不上现在主流的显卡了 所以有独显的电脑尽量安装gpu版本 CPU版本: 先给出cpu版本的安装方法: 打开A…

maven项目子类项目版本与父类版本不一致

项目的依赖关系 A项目的父pom是spring boot&#xff0c;A依赖pom B&#xff0c;B依赖hibernate B引用的hibernate版本为8.0.1 A引用的hibernate版本为6.2.0 maven helper插件显示无依赖冲突 这就很奇怪&#xff0c;为何依赖版本有问题呢&#xff1f;是在看不出来问题&#xff…

mysql数据库的备份和恢复

目录 一、备份和恢复 1、备份&#xff1a; 2、备份的方法&#xff1a; 2.1物理备份&#xff1a; 2.2、逻辑备份 2.3增量备份&#xff1a; 一、备份和恢复 1、备份&#xff1a; 先备份再恢复 备份&#xff1a;完全备份&#xff0c;增量备份 完全备份&#xff1a;将整个…

hadoop配置

服务规划 gz上传文件&#xff0c;解压文件&#xff0c;创建软连接 cd etc 修改workers文件 配置hadoop-env.sh&#xff0c;这个文件作用主要是Hadoop运行的环境变量 export JAVA_HOME/export/server/jdk export HADOOP_HOME/export/server/hadoop export HADOOP_CONF_DIR$HADOO…

容器核心技术-Cgroups

一、Cgroups Cgroups &#xff08;Control Groups&#xff09; 是 Linux 下用于对一个或一组进程进行资源控制和监控的机制&#xff1b;可以对诸如CPU使用时间、内存、磁盘I&#xff0f;O等进程所需的资源进行限制&#xff1b;不同资源的具体管理工作由相应的Cgroup 子系统&am…

LabVIEW开发多速率实时混合仿真

LabVIEW开发多速率实时混合仿真 混合仿真是一种子结构技术&#xff0c;通过将数值建模的优点与实验测试的优点相结合来模拟感兴趣的结构。模拟结构的其余部分特别令人感兴趣&#xff0c;因此可以进行物理复制&#xff0c;以揭示粘弹性、屈曲、速率相关特性或其他非线性效应的影…

[Linux] GRUB引导 学习笔记(一)

目录 概念 2.1 BIOS 2.2 UEFI 2.3 MBR与GPT 2.3.1 MBR 2.3.2 GPT 2.3.3 总结 2.4 GRUB GRUB2和GRUB Legacy区别 进入GRUB命令行 命令 GRUB工具命令 GRUB2配置 1.主要配置文件 2. 通过/etc/default/grub文件生成grub.cfg 定制GRUB的步骤 概念 BIOS、UEFI、MBR、G…

C++基础——对于C语言缺点的补充(2)

上篇文章中说到&#xff0c;为了解决C语言会出现人为定义的函数和库函数出现重定义的错误&#xff0c;C引入了一个新的概念&#xff0c;即命名空间&#xff0c;通过认为定义命名空间&#xff0c;来解决上述问题。 在本篇文章中&#xff0c;将继续介绍C相对于C语言不足来进行的补…

Fourier分析导论——第4章——Fourier级数的一些应用(E.M. Stein R. Shakarchi)

第 4 章 傅里叶级数的一些应用 Fourier series and analogous expansions intervene very naturally in the general theory of curves and surfaces. In effect, this theory, conceived from the point of view of analysis, deals obviously with the study of arbitra…