AutoKG:为语言模型打造高效自动化知识图谱

在人工智能领域,大型语言模型(LLMs)如BERT、RoBERTa、T5和PaLM等,以其在自然语言处理(NLP)任务中的卓越性能而著称。然而,这些模型在提供信息时可能会产生“幻觉”,即提供看似合理但与事实不符的预测。同时它们的“黑箱”特性也影响了模型的可解释性和准确性。为了解决这些问题,研究者们提出了将知识图谱(KG)与LLMs结合的方法,以提高模型的准确性和可解释性。

构建知识图谱(KG)的不同步骤。图中的蓝色块代表KG的核心组件,黄色块表示嵌入过程,绿色块关注关键词提取,红色块对应于关键词与语料库之间以及关键词本身之间的关系建立

(Fig. 1)提供了知识图谱(KG)构建流程的可视化表示,这个流程图通过不同颜色的区块展示了构建知识图谱的不同步骤。

  1. 核心组件(蓝色块):这些步骤构成了知识图谱的基础架构。它们可能包括初始化过程、定义知识图谱的数据结构以及设置构建图谱所需的参数。

  2. 嵌入过程(黄色块):在这个阶段,文本块被转换成嵌入向量。这些向量是文本的数值表示,能够捕捉文本的语义信息。嵌入过程通常涉及使用预训练的语言模型将文本编码为固定长度的向量。

  3. 关键词提取(绿色块):此步骤专注于从文本块中提取关键词。如前所述,这涉及到使用无监督聚类算法对文本进行分组,然后利用大型语言模型从每个聚类的文本中识别出代表性的关键词。

  4. 关系建立(红色块):这是知识图谱构建中的关键步骤,它包括两个部分:

    • 关键词与语料库的关系:在这部分,确定关键词与知识库中文本块之间的关系。这可能涉及到分析文本块中出现的关键词频率,以及它们在文本中的上下文。
    • 关键词之间的关系:在这部分,评估并构建关键词之间的联系。这通常基于它们在文本块中的共现情况,以及通过图拉普拉斯学习等算法确定的关联强度。

自动化知识图谱生成

自动化知识图谱生成是本文的核心贡献之一。AutoKG方法不需要训练或微调神经网络,而是利用预训练的LLMs来提取关键词作为节点,并应用图拉普拉斯学习来评估这些关键词之间的边权重。这个过程包括两个主要步骤:关键词提取和图结构构建。

在自动化知识图谱生成的过程中,关键词提取是首要步骤。研究者们运用无监督聚类算法,例如K-means和谱聚类,来处理知识库中的文本块,并将它们分组以进行详细分析。在每个聚类中,他们精心挑选了一些文本块,既包括那些接近聚类中心的,也包括随机选择的,以确保能够捕获全局和中心的信息。

随后,利用预训练的大型语言模型(LLMs)来从这些文本块中提取关键词。这一过程涉及到创建特定的提示,以引导LLMs专注于与主题紧密相关的信息,并避免重复之前已经提取的关键词。这些关键词最终将作为知识图谱中的节点。

使用LLM进行不同任务时提示(prompt)的构建方式,包括任务信息、输入信息、额外要求和输出
在AutoKG中提取关键词的算法

关键词提取完成后,接下来的任务是构建图结构。首先,研究者们创建了一个基于文本块的图,其中文本块作为图中的节点,而边的权重则通过比较文本块嵌入向量的相似度来确定。为了提高效率,他们只考虑每个节点的最近邻节点来构建一个稀疏的权重矩阵。

然后,利用这个基于文本块的图来建立关键词知识图谱。在这个图中,关键词之间的关联不是基于语义的,而是基于整个知识库中的文本块。如果多个文本块同时与两个关键词相关联,那么这两个关键词之间的关联权重就会增加。

确定关键词与文本块之间关联的算法

研究者们还分析了AutoKG方法的效率。构建基于文本块的相似性图的时间复杂度大约是与文本块数量成对数级关系。而聚类算法的时间复杂度则受到预设的最大迭代次数的限制。图拉普拉斯学习的时间复杂度则取决于图拉普拉斯矩阵的稀疏性,如果能够保持图拉普拉斯矩阵的条件数较小,那么对于大型数据集,AutoKG方法的时间复杂度将主要与文本块的数量和聚类的数量成线性关系。

在生成整个知识图谱的过程中,研究者们考虑了几个关键点。例如,尽管关键词是从文本块的聚类中提取的,但在建立关键词和文本块之间的关系时,并不依赖于之前的聚类结果。在构建关键词之间的关系时,并没有将关键词的嵌入向量纳入图拉普拉斯学习过程中,因为这些向量通常与文本块的嵌入向量相距甚远,可能不会对学习过程有太大帮助。研究者们的方法在关键词提取和关系构建方面,相比传统方法具有显著的优势,能够提供更为全面和深入的视角。

在自动化知识图谱生成之后,研究者们提出了一种混合搜索策略,旨在将知识图谱与大型语言模型(LLMs)结合起来,以增强模型对查询的响应能力。这种策略不仅包括直接根据语义相似性搜索文本块,还包括利用知识图谱中的关联信息进行搜索,从而提供更全面的答案。

混合搜索过程分为几个阶段。首先,根据给定的查询,研究者们计算并找到与查询嵌入向量最接近的文本块。接着,他们转向知识图谱,识别与查询最相关的关键词以及与这些关键词直接相关的文本块。最后,通过知识图谱中权重矩阵的引导,找到与已识别关键词关联最强的其他关键词,并搜索与之相关的文本块。

通过混合搜索策略,研究者们能够获得两组结果:一组是与查询直接语义相关的文本块,另一组是通过知识图谱检索得到的、与查询有间接关联的文本块和关键词。这种整合提供了一个更丰富的信息集合,有助于LLMs生成更准确、更全面的响应。

混合搜索策略通过引入知识图谱的复杂关系,增强了LLMs的推理能力。与传统的仅依赖语义相似性搜索的方法相比,混合搜索能够捕捉到不同实体间的复杂联系,从而为模型提供了更丰富的上下文理解,使其能够进行更深层次的分析和推理。

在实际应用中,混合搜索策略需要考虑如何平衡直接搜索和知识图谱搜索的结果,以确保最终的响应既准确又全面。此外,还需要考虑如何适应不同的查询类型和知识库的特定需求,以及如何优化搜索算法以提高效率和减少计算资源的消耗。

混合搜索的结果需要适应性地整合到LLMs的输入中。研究者们采用了一种自适应方法来构建提示,确保在不超过LLMs的最大令牌限制的情况下,将检索到的信息有效地融入到模型的输入中。这种方法允许根据模型的响应长度和复杂性,动态地调整检索到的文本块和关键词的数量。

混合搜索策略

通过混合搜索策略,研究者们展示了一种新的方法,将知识图谱的结构化信息与LLMs的强大文本处理能力相结合,以实现更高级的知识检索和推理任务。这种方法为构建更智能、更准确的AI系统提供了一个有前景的方向。

实验和结果

研究者们通过一个简单的例子阐释了知识图谱(KG)结合混合搜索方法相较于传统基于语义向量相似性搜索方法的优势。在这个例子中,考虑了一个关于个人日常生活的文本库,其中包含了关于Alex一天生活的描述。当被问及“今天早上Alex离开家时下雨了吗?”这个问题时,知识库中并没有直接提及天气的信息。然而,通过混合搜索方法,可以从知识库中检索到与Alex的活动地点相关的间接信息,如咖啡馆外的广场上人们在喝咖啡和聊天,以及公司楼下的洗车店生意兴隆,这些信息暗示了当时并没有下雨。这种类型的搜索能够揭示出文本中隐含的联系,而这是仅依靠语义相似性搜索所无法做到的。

研究者们进一步使用本文的40个参考文献作为知识库,展示了混合搜索方法的应用。这些参考文献经过处理后,形成了一个包含5,261个文本块的知识图谱。通过设置特定的参数,研究者们利用这个知识图谱对特定的查询进行了搜索,如“详细介绍PaLM并告诉我相关的应用”。搜索过程中,系统不仅检索了与查询直接相关的文本块,还通过知识图谱找到了与之相关的关键词,并进一步检索了与这些关键词相关的文本块。这种方法使得系统能够提供更为丰富和详细的回答。

Fig. 2 展示了一个子图,其中只包含关键词节点(绿色),这些节点是通过查询直接检索到的关键词。
Fig. 3 展示了同一个KG的另一个子图,除了包含Fig. 2中的关键词节点外,还包括了额外检索到的文本块(粉色节点)。

在效率分析部分,研究者们从理论和实验两个角度对混合搜索和语义向量相似性搜索进行了比较。理论上,当处理大量文本块时,AutoKG方法的效率是可扩展的,因为它的时间复杂度与文本块的数量成线性关系。实验中,研究者们使用了一个由40个参考文献构成的知识图谱,进行了多次搜索实验,并记录了每次搜索所需的平均时间。结果显示,混合搜索方法和语义向量相似性搜索方法在效率上相当,都接近于线性时间复杂度。这表明AutoKG方法在实际应用中是可行的,并且能够以合理的速度处理大规模的知识库。

通过这些实验和分析,研究者们证明了AutoKG结合混合搜索方法在提供更丰富、更准确信息方面的能力,同时也展示了该方法在处理效率上的优势。这些结果为将AutoKG方法应用于更广泛的知识检索和推理任务提供了有力的支持。

论文链接:https://arxiv.org/abs/2311.14740.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/347538.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue 路由传递参数 query、params

1、to的对象写法,绑定参数 <template> 2 <ul> 3 <li v-for"m in messlist" :key"m.id"> 4 <router-link :to"{ //使用params时&#xff0c;这个路径必须用name及别名......name: xiangqing, path: /bbb/message/deta…

Python酷库之旅-比翼双飞情侣库(01)

目录 一、xlrd库的由来 二、xlrd库优缺点 1、优点 1-1、支持多种Excel文件格式 1-2、高效性 1-3、开源性 1-4、简单易用 1-5、良好的兼容性 2、缺点 2-1、对.xlsx格式支持有限 2-2、功能相对单一 2-3、更新和维护频率低 2-4、依赖外部资源 三、xlrd库的版本说明 …

如何格式化SQL语句(以MySQL和SQLynx为例)

目录 1 SQLynx 格式化MySQL的SQL 语句功能介绍 1.1 主要特点 1.2 使用步骤 1.3 操作示例 2 结论 SQLynx 是一款功能强大的 SQL 集成开发环境&#xff08;IDE&#xff09;&#xff0c;它提供了多种工具和功能来提高用户的生产力和代码质量。其中&#xff0c;SQL 语句的格式…

Mybatis Log Free

安装后重启 在 application.yml 配置 configuration: log-impl: org.apache.ibatis.logging.stdout.StdOutImpl 选择效果

Java---BigInteger和BigDecimal和枚举

1.简介 1.BigInteger可以支持任意长度的整数 2.BigDecimal可以支持任意精度的浮点数 3.用来做精确计算 2.创建方式 new BigInteger(); new BigInteger(参数1,进制)&#xff1a;可以将不同进制转成10进制显示 new BigDecimal(); BigInteger.valueOf(); BigDecimal.valueOf();…

vue30:props详解

1&#xff1a;props类型校验&#xff1a; 2&#xff1a;props类型自定义校验&#xff1a; 3:子组件不能通过prop直接修改父组件的数据

阿里云物联网平台案例教程

1、定义&#xff1a; ​ 物联网&#xff08;简称IOT&#xff09;把任何物体与物联网相连接&#xff0c;进行消息的交换和通信&#xff0c;实现对物品的智能化识别。简单说是&#xff1a;物联网就是把所有的物体连接起来相互作用&#xff0c;形成一个互联互通的网络&#xff0c…

[发布]嵌入式系统远程测控软件-基于Qt

目录 一. 引言二. 软件功能2.1 原理2.2 软件功能2.3 运行环境 三. 软件操作使用3.1 软件界面3.2 软件功能使用详解3.2.1 连接3.2.2 数据监测&#xff08;串口示波器&#xff09;3.2.3 数据修改3.2.4 数据保存 3.3 软件的硬件连接 四. 通信协议——STM32移植篇4.1 通信协议4.2 S…

提升易用性,OceanBase生态管控产品的“从小到大”

2022年&#xff0c;OceanBase发布4.0版本“小鱼”&#xff0c;并首次公开提出了单机分布式一体化这一理念&#xff0c;旨在适应大小不同规模的工作负载&#xff0c;全面满足用户数据库“从小到大”全生命周期的需求。当时&#xff0c;我们所说的“从小到大”主要聚焦于数据库的…

JVM产生FullGC的原因有哪些?

JVM产生FullGC的原因有哪些&#xff1f; 在Java虚拟机&#xff08;JVM&#xff09;中&#xff0c;垃圾回收&#xff08;Garbage Collection&#xff0c;简称GC&#xff09;是一个非常重要的机制。GC的目的是自动管理内存&#xff0c;回收不再使用的对象&#xff0c;防止内存泄…

数据合规怎么做?哪些机构可以做数据合规

企业将数据资源入表的工作是一项复杂而全面的任务 财务部门负责统计数据资源的成本、销售数据等信息,并确保数据资源的会计处理符合会计要求&#xff1b; 数据部门则负责统计数据成本来源、价值实现路径等信息&#xff1b; 法务部门需要确认数据的收集和使用遵循相关的合规要求…

UE5 Sequencer 使用指导 - 学习笔记

https://www.bilibili.com/video/BV1jG411L7r7/?spm_id_from333.337.search-card.all.click&vd_source707ec8983cc32e6e065d5496a7f79ee6 Sequencer 01 1.1 调整视口 调整窗口数量 调整视口类型为Cinematic视口 视口显示网格&#xff0c;或者条件参考线 1.2 关卡动画与…

Redis链表

Redis链表 C语言没有内置链表&#xff0c;Redis自己构建的链表 链表在redis中的实现 typedef struct list {//表头节点listNode *head;//表尾节点listNode *tail;//节点数量unsigned long len;//节点值复制函数void *(*dup) (void *ptr);//节点值释放函数void (*free) (void …

指定cuda版本的torch包安装

文章目录 1.查看自己电脑的cuda版本2.确定安装torch的conda指令2.1进入网站[cuda对应的torch版本](https://pytorch.org/get-started/previous-versions/) 3.检验torch的cuda版本是否可用 1.查看自己电脑的cuda版本 winr输入cmd回车进行电脑终端界面 输入nvidia-smi指令 nvid…

【智能家居控制系统项目】一、项目系统镜像烧录与系统登录

前言 完成本章节将可以获得本项目的系统UI界面功能。本章节主要介绍如何烧录项目系统镜像以及进入系统。配套的视频介绍可以点击跳转到智能家居项目复刻配套视频 1.系统功能页面介绍 完成本章全部步骤&#xff0c;我们将可使用以下项目系统功能界面。 1.1 家居总览界面 主界面…

在自己的电脑上搭建我的世界Java版服务器

很多朋友&#xff0c;喜欢玩Minecraft&#xff0c;也希望搭建一个服务器&#xff0c;用于和小伙伴联机&#xff1b; 并且&#xff0c;拥有服务器后&#xff0c;即使所有玩家都下线&#xff0c;“世界”依旧在运行&#xff0c;玩家可以随时参与其中&#xff0c;说不定一上线&am…

加速下载,告别等待!揭秘IDM下载器的神奇力量!

下载速度慢、断网后重下……在网络资源丰富的今天&#xff0c;如何高效下载成为用户的一大痛点。 而随着互联网的快速发展&#xff0c;下载管理软件应运而生&#xff0c;成为用户高效下载网络资源的重要工具。其中&#xff0c;Internet Download Manager&#xff08;IDM&#x…

【全开源】B2B2C多商家短视频直播种草阶梯拼团电商系统

&#x1f4f1;直播短视频种草多用户电商系统&#xff1a;引领潮流购物新体验 一款基于 FastAdmin Uni-APP 开发的 多终端&#xff08;H5移动端、APP、微信小程序、微信公众号&#xff09;、多用户商城系统拥有多种运营模式B2B2C/B2C&#xff0c;内置独立商家后台、商城装修、…

RPG Maker MZ中被你忽略的干货操作——事件页优先级

文章目录 事件页优先级问题结论问题1答案 事件页优先级问题 结论 事件页2的优先级是大于事件页1的 问题1 事件页1没有条件、自动执行生成图片&#xff0c;效果如下 事件页2&#xff0c;没有条件&#xff0c;自动执行&#xff0c;效果如下 答案 只会执行事件页2&#…

关于LayUI弹出层请求一次其他网页后无法再次点击按钮问题

问题描述 使用layer弹出层去请求另一个页面&#xff0c;关闭弹窗后本页面按钮无法点击也不报错,如下面弹窗代码 layer.open({type: 1,area: [500px, 400px],title: 编辑信息,shade: 0.6,shadeClose: true,maxmin: false,anim: 0,success: function (layero, index) {$.ajax({u…