ChatGPT/GPT-4做知识图谱构建推理怎么样?浙大等最新《大语言模型在知识图谱构建与推理》论文,量化评估LLM在KG表现...

ee01dc14cf9373f1654eaaea279d2e38.jpeg

来源:专知

ChatGPT/GPT-4做知识图谱构建推理怎么样?

ad9c54c7a25f1ffa0cd9eb55be694dd5.jpeg

这篇论文对大型语言模型(LLMs)在知识图谱(KG)构建和推理中的作用进行了详尽的定量和定性评估。我们使用了八个不同的数据集,涵盖了实体、关系和事件提取,链接预测,和问题回答等方面。实证上,我们的发现表明,GPT-4在大多数任务中表现优于ChatGPT,甚至在某些推理和问题回答的数据集中超过了微调模型。此外,我们的综述还扩展到了LLMs在信息提取方面的潜在泛化能力,这在虚拟知识提取任务的介绍和VINE数据集的开发中达到了高潮。依据这些实证发现,我们进一步提出了AutoKG,这是一种使用LLMs进行KG构建和推理的多智能体方法,旨在勾画出这个领域的未来并提供激动人心的进步机会。我们期待我们的研究能为未来的KG的实践提供宝贵的见解。

https://www.zhuanzhi.ai/paper/1eaf180a074880561801fc30abd787ba

1. 引言

知识图谱(KG)是一个由实体、概念和关系组成的语义网络(Cai et al., 2022;Chen et al., 2023;Zhu et al., 2022;Liang et al., 2022),它可以催化各种场景的应用,如推荐系统、搜索引擎和问题回答系统(Zhang et al., 2021)。通常,KG构建(Ye et al., 2022b)包括几个任务,包括命名实体识别(NER)(Chiu和Nichols,2016),关系提取(RE)(Zeng et al., 2015;Chen et al., 2022),事件提取(EE)(Chen et al., 2015;Deng et al., 2020),和实体链接(EL)(Shen et al., 2015)。另一方面,KG推理,通常被称为链接预测(LP),在理解这些构建的KG中起着关键的作用(Zhang et al., 2018;Rossi et al., 2021)。此外,KG可以被用于问题回答(QA)任务(Karpukhin et al., 2020;Zhu et al., 2021),通过对与问题相关的关系子图的推理。

早期,知识图谱的构建和推理主要依赖于监督学习方法。然而,近年来,随着大型语言模型(LLMs)的显著进步,研究人员已经注意到它们在自然语言处理(NLP)领域的卓越能力。尽管有许多关于LLMs的研究(Liu et al., 2023;Shakarian et al., 2023;Lai et al., 2023),但在知识图谱领域系统地探索它们的应用仍然有限。为了解决这个问题,我们的工作研究了LLMs(如ChatGPT和GPT-4,OpenAI,2023)在知识图谱构建、知识图谱推理任务中的潜在应用性。通过理解LLMs的基本能力,我们的研究进一步深入了解了该领域的潜在未来方向。

65350cc870e8c5d57bcbed86a0f6d3b2.jpeg

图1:我们工作的概述。主要有三个部分:1)基础评估:详细说明了我们对大型模型(text-davinci-003,ChatGPT和GPT-4)的评估,无论是在零次还是一次设置中,都使用完全监督的最先进模型的性能数据作为基准;2)虚拟知识提取:检查大型模型在构建的VINE数据集上的虚拟知识能力;3)AutoKG:提出利用多个代理来促进知识图谱的构建和推理。

具体来说,如图1所示,我们首先调研了LLMs在实体、关系和事件提取,链接预测,和问题回答方面的零样本和一次样本性能,以评估它们在知识图谱领域的潜在应用。实证发现表明,尽管LLMs在知识图谱构建任务中的性能有所提升,但仍落后于最先进的(SOTA)模型。然而,LLMs在推理和问题回答任务中表现出相对优越的性能。这表明它们擅长处理复杂问题,理解上下文关系,并利用预训练过程中获取的知识。因此,像GPT-4这样的LLMs作为少次信息提取器的效果有限,但作为推理助手的熟练程度相当高。为了进一步研究LLMs在信息提取任务上的表现,我们设计了一个新的任务,称为“虚拟知识提取”。这个任务旨在判断性能的观察到的改进是来自LLMs内在的广泛知识库,还是来自于指导调整和人类反馈的强化学习(RLHF)(Christiano et al., 2017)所促进的强大泛化能力。在新建的VINE数据集上的实验结果表明,像GPT-4这样的LLMs可以迅速从指令中获取新的知识,并有效地完成相关的提取任务。

在这些实证发现中,我们认为LLMs对指令的极大依赖使得为知识图谱的构建和推理设计合适的提示变得费时费力。为了促进进一步的研究,我们引入了AutoKG的概念,它使用多个LLMs的代理自动进行知识图谱的构建和推理。总的来说,我们的研究做出了以下贡献

    • 我们评估了LLMs,包括GPT-3.5, ChatGPT, GPT-4,通过在八个基准数据集上评估它们在知识图谱构建和推理的零样本和一样本性能,提供了对它们能力的初步理解

    • 我们设计了一个新的虚拟知识提取任务,并构建了VINE数据集。通过评估LLMs在这个数据集上的性能,我们进一步展示了像GPT-4这样的LLMs具有强大的泛化能力。

    • 我们引入了使用交际代理自动进行知识图谱构建和推理的概念,称为AutoKG。利用LLMs的知识库,我们使多个LLMs的代理能够通过迭代对话协助知识图谱的构建和推理过程,为未来的研究提供了新的洞察。

LLMs在知识图谱构建和推理方面的新能力 

最近,LLMs的出现给NLP领域注入了活力。为了探索LLMs在知识图谱领域的潜在应用,我们选择了代表性的模型,即ChatGPT和GPT-4。我们在知识图谱构建和推理领域的八个不同数据集上对它们的性能进行了全面评估。

2.1 评估原则 

在这项研究中,我们对LLMs在各种知识图谱相关任务上进行了系统评估。首先,我们评估了这些模型在zero-shot和one-shotNLP任务中的能力。我们的主要目标是在面对有限数据时检查它们的泛化能力,以及在没有示范的情况下使用预训练知识有效推理的能力。其次,根据评估结果,我们对导致模型在不同任务中表现不同的因素进行了全面分析。我们旨在探究它们在某些任务中表现优越的原因和潜在缺陷。通过比较和总结这些模型的优点和限制,我们希望提供可能指导未来改进的洞察。

62675f02959e19e249c5e0323de8a8a3.jpeg

2.2 知识图谱的构建和推理

2.2.1 设置 

实体、关系和事件提取。DuIE2.0 (Li et al., 2019)代表了业界最大的基于模式的中文关系提取数据集,包括超过210,000个中文句子和48个预定义的关系类别。SciERC (Luan et al., 2018)是一组注释了七种关系的科学摘要。Re-TACRED (Stoica et al., 2021)是TACRED关系提取数据集的显著改进版本,包含超过91,000个分布在40个关系中的句子。MAVEN (Wang et al., 2020)是一个包含4,480份文件和168种事件类型的通用领域事件提取基准。

链接预测 FB15K-237 (Toutanova et al., 2015)广泛用作评估知识图谱嵌入模型在链接预测上的性能的基准,包括237个关系和14,541个实体。ATOMIC 2020 (Hwang et al., 2021a)是一个全面的常识仓库,包含关于实体和事件的133万条推理知识元组。

问答 FreebaseQA (Jiang et al., 2019)是一个基于Freebase知识图谱构建的开放领域QA数据集,专为知识图谱QA任务设计。这个数据集包括从各种来源(如TriviaQA数据集等)收集的问题-答案对。MetaQA (Zhang et al., 2018)数据集,从WikiMovies (Miller et al., 2016)数据集扩展,提供了大量的单跳和多跳问题-答案对,总数超过400,000个。

2.2.2 总体结果 

实体和关系提取 我们在SciERC, Re-TACRED, 和DuIE2.0上进行实验,每个实验涉及到测试/验证集的20个样本,并使用标准的micro F1分数进行评估。在此我们分别在每个数据集上使用PaddleNLP LIC2021 IE2,PL-Marker (Ye et al., 2022a)和EXOBRAIN (Park and Kim, 2021)作为基线。如表1所示,GPT-4在这些学术基准提取数据集上无论是zero-shot还是one-shot都取得了相对良好的性能。与ChatGPT相比,它也有所进步,尽管其性能还没有超过完全监督的小模型。

d0086a1df92b623004a0d4620079aeb4.jpeg

事件提取 我们在MAVEN数据集的20个随机样本上进行事件检测的实验。此外,我们使用Wang等人(2022a)的研究作为先前经过微调的SOTA。同时,即使没有演示,GPT-4也已经取得了值得称赞的结果。在这里,我们使用F-分数作为评估指标。

链接预测任务 链接预测任务包括在两个不同的数据集FB15k-237和ATOMIC2020上进行的实验。前者是包含25个实例的随机样本集,而后者包含23个代表所有可能关系的实例。在各种方法中,最好的微调模型是FB15k-237的C-LMKE (BERT-base) (Wang et al., 2022c)和ATOMIC2020的COMET (BART) (Hwang et al., 2021b)。

问题回答 我们在两个广泛使用的知识库问题回答数据集上进行评估:FreebaseQA和MetaQA。我们从每个数据集中随机抽取20个实例。对于MetaQA,由于它由不同跳数的问题组成,我们根据它们在数据集中的比例进行抽样。我们用于两个数据集的评估指标是AnswerExactMatch。

2f1b2b5f7e06e49780836564bfeda4d7.jpeg

在涵盖知识图谱构建和知识图谱推理的实验中,大型语言模型(LLMs)通常在推理能力上表现优于它们的构建能力。对于知识图谱的构建任务,无论是在 zero-shot 或 one-shot 的情况下,LLMs的表现都没有超过当前最先进模型的表现。这与之前在信息提取任务上进行的实验(Ma等人,2023)保持一致,这些实验表明,大型语言模型通常并不擅长进行少样本的信息提取。相反,在知识图谱推理任务中,所有LLMs在one-shot设置中,以及GPT-4在zero-shot设置中,都达到了最先进(SOTA)的表现。这些发现为增强我们对大型模型的性能和它们在知识图谱领域内的适应性的理解提供了有意义的见解。我们提出了对这种现象的几种可能解释:首先,知识图谱构建任务包括识别和提取实体、关系、事件等,使得它比推理任务更为复杂。相反,推理任务,以链接预测为典型,主要依赖于已有的实体和关系进行推断,使得任务相对直接。其次,我们推测LLMs在推理任务中表现优异可能归因于它们在预训练阶段接触到的相关知识。

3 未来机遇:自动化知识图谱构建和推理

最近,大型语言模型(LLMs)引起了相当大的关注,并在各种复杂任务中展示了精通的能力。然而,像ChatGPT这样的技术的成功,仍然主要依赖于大量的人力输入,以引导对话文本的生成。随着用户逐步精细化任务描述和要求,并与ChatGPT建立对话环境,模型能够提供越来越精确、高质量的回应。然而,从模型开发的角度看,这个过程仍然是劳动密集型和耗时的。因此,研究人员已经开始研究使大型模型能够自主生成指导文本的可能性。例如,AutoGPT可以独立生成提示,并执行像事件分析、营销计划创建、编程和数学操作等任务。同时,Li等人(2023)深入研究了交际代理之间自主合作的可能性,并介绍了一个名为角色扮演的新型合作代理框架。这个框架使用启示性提示,以确保与人类意图的一致性。在此研究基础上,我们进一步询问:是否可行使用交际代理来完成知识图谱的构建和推理任务?

在这个实验中,我们使用了CAMEL(Li等人,2023)中的角色扮演方法。如图6所示,AI助手被指定为顾问,AI用户被指定为知识图谱领域专家。在收到提示和指定的角色分配后,任务指定代理提供详细的描述以具体化概念。在此之后,AI助手和AI用户在多方设置中协作完成指定的任务,直到AI用户确认其完成。实验示例表明,使用多代理方法,与电影《绿皮书》相关的知识图谱被更有效、更全面地构建。这个结果也强调了基于LLM的代理在构建和完成知识图谱方面的优越性。

af85ff5130cc316ace96e31d7dbb7b7c.jpeg

通过结合人工智能和人类专业知识的努力,AutoKG可以快速定制领域特定的知识图谱。该系统允许领域专家与机器学习模型进行交互,从而通过交换专家知识和经验,促进领域特定知识图谱的构建的协作环境。此外,AutoKG可以有效地利用人类专家的领域知识,生成高质量的知识图谱。同时,通过这种人机协作,它可以在处理领域特定任务时,提高大型语言模型的事实准确性。反过来,这个目标预计将增加模型的实用价值。

AutoKG不仅可以加快领域特定知识图谱的定制,而且还可以增强大规模模型的透明度和体现代理的交互。更准确地说,AutoKG有助于深入理解大型语言模型(LLMs)的内部知识结构和运作机制,从而提高模型的透明度。此外,AutoKG可以作为一个合作的人机交互平台,使人类和模型之间能够进行有效的交流和互动。这种互动促进了对模型学习和决策过程的更好理解和指导,从而提高了模型在处理复杂任务时的效率和准确性。尽管我们的方法带来了显著的进步,但它并非没有局限性,然而,这些局限性为进一步的探索和改进提供了机会:

API的使用受到最大Token限制的约束。目前,由于GPT-4 API不可用,正在使用的gpt-3.5-turbo受到最大token限制。这个约束影响了知识图谱的构建,因为如果超过了这个限制,任务可能无法正确执行。现在,AutoKG在促进有效的人机交互方面表现出缺点。在任务完全由机器自主进行的情况下,人类不能及时纠正交流过程中的错误发生。相反,在机器通信的每一步中都涉及到人类,可以显著增加时间和劳动成本。因此,确定人类介入的最佳时机对于知识图谱的高效和有效的构建至关重要。大型语言模型(LLMs)的训练数据是时间敏感的。未来的工作可能需要将来自互联网的检索特性纳入考虑,以弥补当前大型模型在获取最新或领域特定知识方面的不足。

4. 结论

在这篇论文中,我们初步调研了大型语言模型(LLMs),如GPT系列,在知识图谱(KG)构建和推理等任务上的表现。尽管这些模型在这些任务上表现优秀,我们提出了这样一个问题:LLMs在提取任务中的优势是源于它们庞大的知识库,还是源于它们强大的上下文学习能力?为了探索这个问题,我们设计了一个虚拟的知识提取任务,并为实验创建了相应的数据集。结果表明,大型模型确实具有强大的上下文学习能力。此外,我们提出了一种利用多个代理完成KG构建和推理任务的创新方法。这种策略不仅减轻了人工劳动,也弥补了各个领域人类专业知识的匮乏,从而提高了LLMs的表现。尽管这种方法仍有一些局限性,但它为LLMs的未来应用的进步提供了新的视角。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

9527862e53436be5677e6a7ff7946a2b.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/65072.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

10倍速度开发贪吃蛇游戏之AI辅助

今天就来聊聊AI代码辅助神器,即便是零基础也能上手,因为实在是太强了,这以后叫程序员们怎么活啊!话不多说,直接上神器 我用的是cursor,其实目前AI辅助代码不止cursor,还有微软家的copilot X这个根植于gith…

人工智能这么厉害,比如GPT-4,为什么没有看到程序员失业?

目录 一、一次理性的反思 看看网友基于GPT-4生成代码的测试案例: 二、人工智能与程序员相辅相成 三、无独有偶的低代码 1、提升开发价值 2、利于团队升级 四、最后 OpenAI发布了GPT-4,这个远超以往的任何人工智能的模型,在逻辑、推理、…

遇到panic异常,导致程序崩溃。

新上的项目,在运行一段时间后,会出现自动崩溃的情况。从日志没有看出任何错误(使用logger包进行打印的日志)。每次崩溃的前夕,程序一直在正确的运行(崩溃)。前几天程序又出错,恰巧调…

Android中Crash(闪退,崩溃)的一般问题与解决方案

Crash Exception 在Android 中经常会遇到,那么遇到异常我们该如何解决,本文将举例解决部分Android看法中遇到的异常。 NullPointerException 空指针ClassCastException 类型转换异常IndexOutOfBoundsException 下标越界异常ActivityNotFoundException Ac…

快来在win10上提前体验小爱同学吧!

小爱同学发布win10UWP版相信很多人都已经知道了,下面便教大家安装小爱同学! 1.打开win10开发者模式 2.点击安装包并安装 1.点击安装包 2.再点击下图安装即可 部分演示 和小娜一样以浮窗形式弹出小娜支持快捷键和语音唤醒;小爱在红米笔记…

学会这些AI工具,一个人也能开公司!

因公众号更改推送规则,请点“在看”并加“星标”第一时间获取精彩技术分享 点击关注#互联网架构师公众号,领取架构师全套资料 都在这里 0、2T架构师学习资料干货分 上一篇:2T架构师学习资料干货分享 大家好,我是互联网架构师&…

加拿大目前华人数量

加拿大目前华人数量有多少,结果惊人! 2018-09-11 16:56 很多同学和家长选择加拿大,都是为了优质的教育,适宜的生活环境慕名而来,由于在早些年,加拿大已有很多华人到当地移民生活,到现在,不同…

【加拿大签证】加拿大工签/工作许可work permit 办理流程【官方详细完整,加拿大访问学者必看】

加拿大工签办理流程。 魁北克省的访问学者也需要办理工作签证,即需要办理工作许可work permit,其中主要涉及魁北克大学、麦吉尔大学、蒙特利尔大学、康考迪亚大学等相关大学的访问学者。 Work permit: About the process 工作许可流程 大多数外国人在…

【加拿大签证】加拿大签证相片要求 【来自加拿大政府官方最新要求,看这一篇就够了】

加拿大签证相片要求 详情请参阅小册子 brochure (PDF, 494 KB) (PDF, 505.82KB),以取得更多相片范例。 脸部必须对着镜头呈方形,表情要中性,既不皱眉也不微笑,嘴巴要闭上。如果照片不符合规格,您必须提供新的照片&…

CSC联合培养加拿大工签攻略

最近有人问我加拿大签证的事,当时我写了攻略,现在放到博客上吧,希望能帮到大家。 本人申请了CSC联合培养博士项目,听外导说加拿大的工签需要三个月才出签,所以在提交了CSC申请材料后(CSC还没出结果&#x…

【加拿大签证】加拿大访问学者签证所需材料【加拿大访学签证,超详细,看一篇就够了】

1、加拿大签证均无需参加面试,不强制预约但建议您先进行预约再去提交; 2、加拿大不分领区,所有申请人可以在北京、上海、广州和重庆等地中心递交申请; 3、对于60岁以上的申请者使馆可能会抽查要求前往指定的医院进行体检。 加拿大…

加拿大签证办理时解释信Explanation of Letter参考

加拿大签证办理时的解释信,也称肉麻信参考。 Explanation of Letter Mar 8th,2017 Dear Canada Visa Officer, I am the applicant, WANG HONG(王洪). I am writing this letter with great pleasure. I like travelling. During the past …

免费送书 | 从AIGC到AGI:AGI是新一轮的投资机遇吗?

ChatGPT 的“横空出世”让普罗大众对人工智能的突破有了新的认识,人们第一次看到人工智能系统能够完成各种各样的事情,不论是需要常识的闲聊,还是需要专业知识的论文写作,甚至写代码都在话下。ChatGPT 出现后,人们开始…

ChatGPT的底层逻辑,你清楚吗

传说中的扫地僧,在现实中极其罕见。 有些僧,只是在假装扫地;而绝大多数“扫地僧”,并非真正的高僧。 电影《心灵捕手》讲述了这样一个少年天才,清洁工“呆萌”在大学拖地板时,解出了麻省理工学院数学系教…

科研快讯 | 14篇论文被信号处理领域顶级国际会议ICASSP录用

ICASSP 2023 近日,2023年IEEE声学、语音与信号处理国际会议(2023 IEEE International Conference on Acoustics, Speech, and Signal Processing,ICASSP 2023)发布录用通知,清华大学人机语音交互实验室(TH…

2022ChinaVis会议笔记

ChinaVis2022会议记录 7.22课程一、基于OBE理念的可视化教学探索与实践课程二、图布局基础、方法及应用 7.23一、大会特邀报告1二、圆桌论坛1:人文遇见可视化三、专题03交互可视化四、安全可视化五、论文报告2AI4VIS 7.24一、可视化工具与平台二、Multi-dimensional…

【OpenCall】ICASSP2023通用会议理解及生成挑战赛邀请函

ICASSP2023 通用会议理解及生成挑战赛(General Meeting Understanding and Generation Challenge,缩写为 MUG)是ICASSP2023 系列大挑战(SPGC)之一,由魔搭ModelScope社区、阿里巴巴达摩院语音实验室&语言技术实验室,阿里云天池联合浙江大学数字媒体计…

学术会议参会经验分享上(参会前的准备工作)

前前后后参加了两次学术会议,一次是今年三月份在深圳,另一次是在五月份在南宁,并且两次都进行了主题演讲。总的来说,我感觉参加学术会议重要的是自身能力的提升,比如说演讲、PPT制作等更方面的能力。下面我来分享一些我…

杭州内推 | 网易互娱AI Lab招聘NLP算法工程师、图形/图像算法实习生

合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 网易互娱AI Lab 网易互娱AI Lab成立于2017年,是专注于游戏领域的人工智能实验室…

天猫精灵连接蓝牙摸索1 关于阿里巴巴蓝牙MESH芯片TG7100B LINUX 开发环境塔建图文说明

天猫精灵连接蓝牙摸索1 关于阿里巴巴蓝牙MESH芯片TG7100B LINUX 开发环境塔建图文说明 环境搭建好后,再结合我的第二篇博文,可以实现以下效果(点击可以查看第二篇博文): 天猫精灵连接蓝牙摸索2-TG7100B安装好LINUX编译…