人大高瓴发布Think-on-Graph 2.0,基于知识图的大模型推理再升级!

经常参加高考的朋友可能会体会到,比起死记硬背知识点,将知识整理成脉络往往会获得事半功倍的效果。其实对于大模型来说也是如此,哪怕被允许“开卷作答”,即通过检索增强(Retrieval-augmented generation,RAG)技术从知识库中为大模型取回相应知识作为参考,但当面对复杂问题的时候,RAG对大模型的增益效果也不尽如人意。毕竟“难道开卷你们就能考满分了吗?

也正因如此,我们希望为大模型的思考方式注入类似知识框架的方法指导,而已经发展多年趋渐成熟的知识图(Knowledge-Graph,KG)或许将给我们一个解决方案。

论文标题:
Think-on-Graph 2.0: Deep and Interpretable Large Language Model Reasoning with Knowledge Graph-guided Retrieval

论文链接:
https://arxiv.org/pdf/2407.10805.pdf

图片

背景与动机

在当前的大模型(LLMs)研究中,RAG技术的出现为解决知识缺陷和幻觉问题提供了一种有效解决方案,通过动态检索外部信息源中的相关内容,显著提升了LLMs的能力,使它们能够超越静态训练数据知识的限制,应对多样化和复杂的应用场景。

然而,尽管RAG系统在知识预处理、细粒度检索和生成思维链等方面进行了各种复杂的附加处理,LLMs在构建类似人类对复杂任务洞察力方面仍面临挑战,而解决这些任务往往需要有动机的、持续的努力来理解对象、数字、概念和事件之间的联系,以便预测它们的轨迹并有效行动。

此外,大多数严重依赖于文本向量相似度进行检索的RAG系统,在理解各种类型知识之间的长距离关联方面也几个局限性:

  1. 浅层相关性捕获:简单基于向量的匹配可能会错过概念之间的关联,如全球金融危机和2008年衰退之间的关系。

  2. 聚合多样化事实的困难:仅依赖于向量嵌入的检索系统在理解复杂问题中关键点之间的关系时,往往无法准确聚焦,导致信息密度低和长距离知识关联无效。

  3. 处理复杂逻辑的能力不足:简单的基于向量的检索不适合多步推理或跟踪不同信息片段之间的逻辑链接,除非所有这些片段预先被划分和编码,这对于许多潜在的推理类型来说是非常低效的。

因此,为解决这些挑战,本文提出了Think-on-Graph 2.0 (ToG2.0),通过知识图谱引导的知识检索实现深度和可解释的推理。ToG2.0有效地将文档中的非结构化知识与知识图谱中的结构化洞察力结合起来,作为增强复杂问题解决能力的路线图。通过将问题与知识图谱对齐并将其作为导航工具,深化并细化了RAG范式,不仅确保了事实一致性层面的语义相似性,还促进逻辑一致性层面的长距离关联。这种范式使LLM在推理和问题解决时更接近人类:检查当前线索并根据其现有的知识框架关联潜在实体,不断深入主题直到找到答案。

基于知识图谱的检索增强

在RAG系统中,检索数据的粒度是一个重要因素。粗粒度的检索单元理论上可以为问题提供更多相关信息,但它们也可能包含冗余内容,这可能会分散检索器和生成器在下游任务中的注意力。另一方面,细粒度的检索单元虽然可以减轻生成器的负担,但同时也把压力给到了检索器一侧,且很难保证语义完整性和所需知识的完整性。

和语义检索不同,KG提供了动态、明确和结构化的知识表示,这种结构化的知识表示为LLM可访问的知识中引入了可解释性和精确度。近期的研究通过将KG中的相关结构化知识转换为文本提示(Prompt)从外部增强LLM,但也遇到了一些独特的挑战和限制,例如三元组提供的信息缺乏深度和细节。由于KG的不完整性,甚至可能会丢失信息。

下图展示了传统RAG(a)、基于KG的生成(b)和ToG2.0(c)的对比。该示例具体说明了纯语义检索和纯知识图增强框架在复杂QA任务中的局限性,以及本文提出的KG+RAG框架的优点:

图片

ToG2.0

ToG2.0初始化

ToG2.0初始化阶段的关键任务是为特定查询选择适当的起点,这有助于实现更流畅的推理。例如,在查询“腾讯公司的创始人中,谁曾是全国人民代表大会的成员?”时,选择一个广泛或选择不当的起点如“全国人民代表大会的成员”可能会导致陷入在大量无关数据中筛选的陷阱,从而造成耗时且不够集中的探索。有效的起点应聚焦于“腾讯公司的创始人”这样的实体。这一原则在推理任务中至关重要,尤其是在开放领域问答中,问题的高度多样性使得选择合适的起点尤为重要。

因此,给定一个问题,ToG2.0首先执行命名实体识别(NER)和主题修剪(TP),这促使LLM评估及其出现的实体,选择一组适合作为问题起点的主题实体。在复杂推理中,问题与有效的中间线索句子之间的隐含关联往往不被稀疏向量检索模型和密集向量检索模型所识别。为解决这一限制,ToG2.0提示LLM基于当前上下文为每个主题实体制定线索查询问题,这为探索实体关系和上下文的下一步方向提供了指导。

再次以上面的问题为例,基于实体“全国人民代表大会”,LLM可能会生成一个线索查询,建议收集有关他们的政治身份或隶属关系的信息。通过这种方式,ToG2.0能够更有效地引导LLM在KG中进行有针对性的探索,从而提高推理的准确性和效率。

基于图驱动的知识检索推理

ToG2.0的推理过程是通过图驱动的知识检索来实现的,这一过程涉及迭代地利用结构化和非结构化知识进行推理。具体来说,在第次迭代中,给定原始问题第次迭代中的线索查询,主题实体及其前面的三元组路径 (其中),每次迭代包括三个步骤:关系修剪(RP)、实体修剪(EP)和检查与推理(ER)。

  • 关系修剪(RP):基于问题和线索查询 ,ToG2.0提示LLM选择最有可能找到包含有助于解决问题的上下文信息、并与线索查询相匹配的实体。这一步骤通过同时考虑所有主题实体来减少API调用次数,从而加速推理时间,并使LLM能够从更全局的视角进行选择。对于实体,其被选择的关系可表示为,其中是超参数宽度。

  • 实体修剪(EP):给定一个主题实体和一个选定的关系,ToG2.0会识别所有在Wiki知识图谱中相互连接的候选实体节点,并获取它们相关的维基百科页面文档。每个候选实体的文档上下文被分割成适当大小的块,其中是候选实体文档块的数量。随后,ToG2.0使用了一个两阶段的搜索策略:

    • 首先,利用预训练的语言模型对所有候选实体的文档块进行相关性评分。具体地,表示第个实体和第文档块的相关性得分,是当前候选实体所派生的三元组。

    • 随后,候选实体的排名分数通过排名前K的文本块分数的指数衰减加权和计算得到,其中排名为的文本块权重为,其中和都通过超参数设置。最终,选择排名前的候选实体作为下一轮迭代的新主题实体,同时更新相应的三元组路径。

  • 检查与推理(ER):在RP和EP之后,ToG2.0为LLM提供了精心聚合的参考,包括问题,参考查询,三元组路径和前L个文本块()。随后,LLM被提示检查逻辑连贯性和事实证据的完整性。如果LLM认为它可以回答这个问题,迭代就结束了。如果没有,则需要根据问题和收集到的上下文线索为下一轮生成新的线索查询。

图片

实验

数据、评测方法与基线

本文选择了两个多跳知识库问答(KBQA)数据集WebQSP和QALD-10-en,一个多跳复杂文档问答数据集HotpotQA,以及一个事实验证数据集FEVER来测试ToG2.0的性能。对于FEVER数据集,使用的评估指标是准确性(Accuracy),而对于WebQSP、HotpotQA和QALD-10-en数据集,则使用精确匹配(Exact Match, EM)作为评估指标。

此外,本文选择了如下基线方法:

  • 标准提示(Vanilla Prompt):直接回答问题

  • 思维链(Chain-of-Thought, CoT):生成几个中间理由,然后再给出最终答案,以提高LLM处理复杂推理任务的能力。

  • 知识链(Chain-of-Knowledge, CoK):一个异构源增强的LLM框架。

  • Think-on-Graph(ToG):一个基于知识图谱的方法,用于搜索有用的三元组进行推理。

实验结果

在与包括标准提示、思维链、知识链和原始版本ToG方法的比较中,ToG2.0表现出显著的优势。具体来说,ToG2.0在WebQSP、HotpotQA和QALD-10-en数据集上均优于其他基线方法。特别值得注意的是,在HotpotQA数据集上,ToG2.0不仅超越了所有基线方法,还显著超过了当前最先进的基线CoK,性能提升达到了5.51%。与原始的ToG方法相比,ToG2.0在HotpotQA上的性能提升更是达到了14.6%,在WebQSP上提升了4.93%,在QALD-10-en上提升了3.85%,在FEVER上提升了5.84%。

图片

尽管在FEVER数据集上,ToG2.0的准确性略低于CoK,但这一差异可能是由于CoK利用了更多的知识源和额外的LLM自我验证机制。为了降低计算成本和减少推理延迟,本文选择不使用自我验证机制,但同时也指出这可以根据未来应用需求进行调整。

此外,本文还进行了消融研究(Ablation Study),以评估ToG2.0中每个组件的贡献。结果显示,主题修剪(Topic Prune, TP)在WebQSP数据集上的效果尤为明显,这可能是因为WebQSP问题中包含更多一般性实体,这些实体可能会引入更多不必要的噪声。关系修剪(Relation Prune, RC)虽然可能会略微降低性能,因为它增加了LLM在单个提示中理解多个任务的难度,但其好处是显著减少了推理次数和延迟。此外,线索查询在每个数据集上都带来了相对一致的改进,表明适应性查询优化可以帮助LLM更好地理解任务。

图片

本文还额外测试了在能力较弱的LLM(如Llama-2-13B)上应用ToG2.0的效果。结果表明,ToG2.0能够在这些较弱的LLM上带来更大的性能提升,这表明ToG2.0可能更具适应性。较弱的LLM在处理复杂任务时往往会遇到瓶颈,而ToG2.0通过使用知识图谱作为线索来优化推理路径并降低任务复杂度,然后利用实体上下文进一步引导模型关注相关信息,从而提高任务理解和响应准确性。相比之下,像GPT-3.5这样的更强大LLM可能不会表现出同样显著的性能提升,因为它已经接近其性能上限。

结论与展望

ToG2.0通过结合结构化的知识图谱和非结构化的文档信息,集众家之长显著提升了LLMs的推理能力。这就像给一个超级聪明善于总结梳理知识框架的学生,提供了一个装满各种书籍和资料的图书馆,那这个可以预见地,他要还学不好那就奇怪了。

由于ToG2.0具备强大的系统化推理能力增益潜质,未来随着LLM推理和理解能力的同步发展,或许通过ToG2.0或类似技术赋能的LLM被应用于包括医疗咨询、法律分析或教育辅导等在内的更复杂更专业任务,将更快成为现实。

总的来说,结合图的RAG,我个人还是很看好这个方向,尤其从最近github上各种Graph Rag方案的上星速度来看,大家对图如何更好应用于rag上也都表现出了强烈兴趣。但另一方面,图构建本身也是个过程较重,且对准确率很敏感的操作;而之前传统RAG的流行,则得益于其在撞上LLM后呈现出的“简单粗暴,方便好用”效果,因此如何在二者之间进行权衡和改进,或许也将是我们在未来研究中需要思考的问题。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/390015.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HCIP学习作业一 | HCIA复习

要求: R1-R2-R3-R4-R5 RIP 100 运行版本2 R6-R7 RIP 200 运行版本1 1.使用合理IP地址规划网络,各自创建环回接口 2.R1创建环回 172.16.1.1/24 172.16.2.1/24 172.16.3.1/24 3.要求R3使用R2访问R1环回 4.减少路由条目数量,R1-R2之间…

【AD域】搭建AD域服务器

环境 服务器:Windows Server 2016 Standard,版本1607 准备 1、设置主机名 2、配置静态IP地址 3、以本地管理员权限登录服务器 步骤 1、在服务器添加【Active Directory】域服务功能 2、AD域服务器配置

fastjson-小于1.2.47绕过

参考视频&#xff1a;fastjson反序列化漏洞3-<1.2.47绕过_哔哩哔哩_bilibili 分析版本 fastjson1.2.24 JDK 8u141 分析流程 分析fastjson1.2.25更新的源码&#xff0c;用JsonBcel链跟进 先看修改的地方 fastjson1.2.24 if (key JSON.DEFAULT_TYPE_KEY && !…

校园课程助手【4】-使用Elasticsearch实现课程检索

本节将介绍本项目的查询模块&#xff0c;使用Elasticsearch又不是查询接口&#xff0c;具体流程如图所示&#xff08;如果不了解Elasticsearch可以使用sql语句进行查询&#xff09;&#xff1a; 这里是两种方法的异同点&#xff1a; Mysql&#xff1a;擅长事务类型操作&#…

PHP苹果 V X iPhone微商i o s多分开V X语音转发密友朋友圈一键跟圈软件

苹果VX神器&#xff01;iPhone微商必备&#xff1a;ios多开、VX语音转发、密友朋友圈一键跟圈软件大揭秘&#xff01; 一、iOS多开新境界&#xff0c;工作生活两不误&#xff01; 你是不是也烦恼过&#xff0c;想要在工作号和生活号之间自由切换&#xff0c;却因为iPhone的限制…

【C++程序设计】——利用数组处理批量数据(一)

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;开发者-削好皮的Pineapple! &#x1f468;‍&#x1f4bb; hello 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 削好皮的Pineapple! 原创 &#x1f468;‍&#x1f4…

【LeetCode每日一题】盛最多水的容器

思路 标签:双指针&#xff0c;贪心 分析&#xff1a; 首先选两条线为容器的两端&#xff0c;盛水的高度取决于高度小的那条线&#xff0c;此时在两条线中间选一条线&#xff0c;有两种情况&#xff0c;如果区间内某条线比两端高度小的那条线还要小&#xff0c;此时宽度和高度…

PLC控制器-耦合变压器的作用

华强盛电子导读&#xff1a;PLC耦合变压器 &#xff0c;前面199中间2643后面0038完。 耦合变压器在电子电路中扮演着重要的角色&#xff0c;尤其是在模拟电路的构建中。它的主要作用可以从以下几个方面进行详细阐述&#xff1a; 1. **信号耦合**&#xff1a; - 耦合变压器…

C++ : namespace,输入与输出,函数重载,缺省参数

一&#xff0c;命名空间(namespace) 1.1命名空间的作用与定义 我们在学习c的过程中&#xff0c;经常会碰到命名冲突的情况。就拿我们在c语言中的一个string函数来说吧&#xff1a; int strncat 0; int main() {printf("%d", strncat);return 0; } 当我们运行之后&…

大型赛事5G室内无线网络保障方案

大型活动往往才是国家综合实力的重要体现&#xff0c;其无线网络通信保障工作需融合各类新兴的5G业务应用&#xff0c;是一项技术难度高、方案复杂度高的系统工程。尤其在活动人员复杂、现场突发情况多、网络不稳定等情况下&#xff0c;如何形成一套高效、稳定的应急通信解决方…

C++入门级文章

一、一个用于查询C标准库内函数、操作符等的链接 https://legacy.cplusplus.com/reference/ 声明&#xff1a;该文档并非官方文档&#xff0c;但其具有易于查询和使用的优势&#xff0c;足够日常使用。 二、C的第一个程序 1、C语言中的语法在C中仍旧适用&#xff0c;首先我们来…

无人机无刷电机技术详解及选型

1. 技术原理 无人机无刷电机&#xff08;Brushless DC Motor, BLDC&#xff09;是现代无人机动力系统的核心部件&#xff0c;其工作原理基于电磁感应和换向技术&#xff0c;实现了无需物理接触即可持续旋转的高效率动力输出。与传统有刷电机相比&#xff0c;无刷电机通过电子换…

Java入门、进阶、强化、扩展、知识体系完善等知识点学习、性能优化、源码分析专栏分享

场景 作为一名Java开发者&#xff0c;势必经历过从入门到自学、从基础到进阶、从学习到强化的过程。 当经历过几年企业级开发的磨炼&#xff0c;再回头看之前的开发过程、成长阶段发现确实是走了好多的弯路。 作为一名终身学习的信奉者&#xff0c;秉承Java体系需持续学习、…

【C++高阶】:C++11的深度解析上

✨ 心似白云常自在&#xff0c;意如流水任东西 &#x1f30f; &#x1f4c3;个人主页&#xff1a;island1314 &#x1f525;个人专栏&#xff1a;C学习 &#x1f680; 欢迎关注&#xff1a;&#x1f44d;点赞 &#x1f4…

Spring Cache框架(AOP思想)+ Redis实现数据缓存

文章目录 1 简介1.1 基本介绍1.2 为什么要用 Spring Cache&#xff1f; 2 使用方法2.1 依赖导入&#xff08;Maven&#xff09;2.2 常用注解2.3 使用步骤2.4 常用注解说明1&#xff09;EnableCaching2&#xff09;CachePut3&#xff09;Cacheable4&#xff09;CacheEvict 3 注意…

数据库相关概念大全!

一、什么是数据库&#xff1f; 1.数据库 数据库是一种更易于访问、更高效且更有条理的长期存储和处理信息的方式。 2. 优点&#xff0c;作用 数据库存储数据的规范性和系统性以及其检索数据的便捷性使其成为基于 Web 的应用程序中重要的部分。 数据库几乎可以用于所有应用程…

java中InputStream, OutputStream 的用法

java针对文件的操作有两种1.文件系统操作 File类指定的路径可以使一个不存在的路径。2&#xff0c;文件内容操作&#xff0c;流对象。 流也分为两种1)字节流&#xff08;二进制文件&#xff09;&#xff1a;以字节为基本单位读写的使用InputStream&#xff08;&#xff09;和Ou…

FFmpeg源码:av_gcd函数分析

一、引言 公约数&#xff0c;是一个能同时整除几个整数的数。如果一个整数同时是几个整数的约数&#xff0c;称这个整数为它们的“公约数”&#xff1b;公约数中最大的称为最大公约数。对任意的若干个正整数&#xff0c;1总是它们的公约数。 公约数与公倍数相反&#xff0c;就…

DB-Engines Ranking 2024年8月数据库排行

DB-Engines Ranking 2024年8月数据库排行 DB-Engines排名根据数据库管理系统的受欢迎程度进行排名。排名每月更新一次。 2024年8月&#xff0c;共有423个数据库进入排行。 排行榜 前15名趋势图 关系型数据库前 10 名 键值数据库前 10 名 文档数据库前 10 名 时序数据库前 10 …

Google引领LLM竞赛:Gemini 1.5 Pro的创新与突破

在科技领域&#xff0c;语言模型&#xff08;LLM, Large Language Model&#xff09;的发展总是备受瞩目。多年来&#xff0c;Google在这场竞赛中一直处于追赶的状态&#xff0c;但这一次&#xff0c;他们终于站在了领先的位置。Google近日发布了Gemini 1.5 Pro实验版本&#x…