【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】
P1
4 知识图谱增强的LLMs
大语言模型(LLMs)在许多自然语言处理任务中取得了令人期待的结果。然而,LLMs因缺乏实用知识和在推理过程中容易产生事实性错误而受到批评。为了解决这个问题,研究人员提出了将知识图谱(KGs)与LLMs结合来增强其能力。在本节中,我们首先介绍知识图谱增强的LLM预训练,其目标是在预训练阶段向LLMs注入知识。接着,我们介绍知识图谱增强的LLM推理,它使LLMs在生成句子时能够考虑最新的知识。最后,我们介绍知识图谱增强的LLM可解释性,旨在通过使用知识图谱来提高LLMs的可解释性。
表2
表2总结了集成知识图谱以增强LLMs的典型方法。E:百科全书类知识图谱,C:常识类知识图谱,D:领域特定类知识图谱。
4.1 知识图谱增强的LLM预训练
现有的大型语言模型(LLMs)大多依赖于在大规模语料库上的无监督训练。虽然这些模型在下游任务上表现出色,但它们通常缺乏与现实世界相关的实际知识。将知识图谱(KGs)整合到LLMs的预训练过程中可以弥补这一不足。该方向的研究可以分为三类:1)将知识图谱整合到训练目标中,2)将知识图谱整合到LLMs的输入中,3)知识图谱的指令微调。
4.1.1 将知识图谱整合到训练目标中
在这一类研究中,核心思想是设计知识感知的训练目标,通过增加知识实体的曝光量或利用知识与输入文本的关联来增强预训练过程。研究方法主要分为以下两类:
1. 暴露更多的知识实体
一些研究通过增加知识实体的曝光量,让语言模型(LLMs)在预训练阶段更好地学习和理解知识。这些方法的核心是通过控制预训练过程中知识实体和词汇的训练策略,提升模型对知识和语义的捕捉能力。
1. GLM [102]:利用知识图谱结构分配掩码概率
- 英文全称:General Language Model
- 中文翻译:通用语言模型
- 核心思想:GLM 通过知识图谱中实体的结构来决定在预训练中如何掩码这些实体。模型根据实体与输入文本的关系,分配不同的掩码概率。
- 具体做法:
- 跳数确定实体重要性:跳数是指实体与输入词之间的图谱距离。知识图谱中与输入词距离(跳数)较近的实体,被认为与输入文本关系更紧密,也更重要。
- 掩码概率:重要的实体会被赋予更高的掩码概率,即它们更频繁地被隐藏,迫使模型在训练中更多地关注这些实体,提升对它们的学习。
- 目的:通过这种机制,模型能够重点学习与输入文本紧密相关的实体及其知识,从而增强模型的知识捕捉能力。
2. E-BERT [103]:平衡词级损失与实体级损失
- 英文全称:Entity-BERT
- 中文翻译:实体BERT
- 核心思想:E-BERT 通过在训练中平衡词汇和实体的学习过程,确保模型能够同时有效地学习词汇和知识实体。
- 具体做法:
- 词级训练损失:指模型在预测文本中的普通词汇时产生的损失,类似于BERT中的标准掩码语言建模任务。
- 实体级训练损失:指模型在识别或预测文本中的知识实体时产生的损失,涉及知识图谱中的实体。
- 动态调整比重:E-BERT 监控每次训练中的词级和实体级损失,并根据它们的值动态调整词与实体的训练比重,确保模型在两者之间取得平衡。
- 目的:通过平衡词汇和实体的学习,E-BERT 让模型不仅能够很好地理解普通词汇的语义,还能深入学习知识图谱中的实体关系和信息。
3. SKEP [124]:引入情感词汇的预训练
- 英文全称:Sentiment Knowledge Enhanced Pre-training
- 中文翻译:情感知识增强的预训练
- 核心思想:SKEP 将情感知识引入LLMs的预训练中,使模型能够更好地理解带有积极和消极情感的词汇及其语义。
- 具体做法:
- 情感词汇识别:通过PMI(Pointwise Mutual Information,点互信息),SKEP 利用预先设定的情感词库,自动识别带有情感倾向的词汇,如表示积极情感的词(“精彩”、“优秀”)和表示消极情感的词(“糟糕”、“失败”)。
- 更高的掩码概率:在掩码语言建模任务中,情感词汇被赋予更高的掩码概率,使模型在训练时更频繁地接触并预测这些情感词汇。
- 目的:通过这种方法,SKEP 让模型更关注情感词汇的学习,使其在情感分析等任务中表现得更加出色。
2. 显式利用知识与文本的关联
另一类研究则更加关注将知识与输入文本的关联显式地整合到训练目标中。它们的共同点是利用知识图谱或其他知识源,让模型在学习语言的同时也学习与知识实体的关联。以下是几种典型方法:
1. ERNIE [35]:词-实体对齐训练目标
- 英文全称:Enhanced Representation through Knowledge Integration
- 中文翻译:通过知识整合增强的表示
- 核心思想:ERNIE提出了一种词-实体对齐训练目标,旨在让模型学会将文本中的词汇与知识图谱中的实体进行对齐。
- 具体做法:在训练时,将输入句子与对应的实体一起输入模型,模型的任务是预测文本中的词与知识图谱中的实体之间的匹配关系。这样,模型不仅理解词汇的语义,还学习了这些词与实体的关联。
- 目的:这种方法让模型在理解文本的同时学习知识图谱中的信息,使其能够在与实体相关的任务中(如实体识别、知识推理)表现得更加出色。
图9的解读
图9是对ERNIE的解释
图9展示了将知识图谱(KG)信息注入LLMs训练目标的过程,使用了文本-知识对齐损失来强化模型的学习。具体来说,图中的内容可以分为以下几个部分:
-
输入文本序列(Text Sequence)
图中的输入文本是:“Bob Dylan wrote Blowin’ in the Wind in 1962”。这句话被拆分为单个词汇:Bob、Dylan、wrote、blowin’、1962,这些词汇输入到LLMs中,生成相应的隐藏表示。 -
隐藏表示(Hidden Representations)
每个输入词汇(如"Bob"、"Dylan"等)通过LLMs后,会生成相应的隐藏表示,图中用h1, h2, h3… 来表示这些隐藏状态。这些表示包含了文本序列中每个词汇的上下文信息。 -
知识图谱表示(Knowledge Graph Representations)
在图的右侧,展示了与文本对应的知识图谱实体。例如,“Bob Dylan” 和 “Blowin’ in the Wind” 是知识图谱中的实体,分别表示为 he1 和 he2,代表这些实体的隐藏表示。 -
文本-知识对齐(Text-Knowledge Alignment)
图中虚线箭头表示的是文本与知识图谱的对齐关系。在训练过程中,模型试图学习文本中的某些词汇(如"Bob Dylan"和"Blowin’ in the Wind")与知识图谱中的实体(同样是"Bob Dylan"和"Blowin’ in the Wind")之间的对应关系。这一过程通过对齐损失来实现,模型会被训练预测文本中的某些词汇与知识图谱中实体之间的关系。 -
对齐目标
最终,模型通过学习文本中的词汇表示(如 h 表示的隐藏状态)与知识图谱实体表示(如 he 表示的隐藏状态)之间的对齐,来增强模型的知识获取能力。这使得LLMs能够不仅通过预训练语料库学习知识,还能够利用外部的知识图谱补充领域知识。
总结:
这张图解释了如何通过文本-知识对齐损失,将知识图谱中的显式知识整合到LLMs的训练中。这种方法不仅利用了文本信息,还引入了结构化的知识图谱数据,以提升LLMs在处理带有实体、关系等特定知识的任务中的表现。
2. KALM [91]:实体嵌入与实体预测任务
- 英文全称:Knowledge-Aware Language Model
- 中文翻译:知识感知的语言模型
- 核心思想:KALM 通过引入实体嵌入来增强模型对输入词汇的表示,同时增加了实体预测任务,以帮助模型学习实体相关的知识。
- 具体做法:
- 实体嵌入:在输入文本的词汇表示中加入实体的嵌入信息,增强模型对实体及其上下文的理解。
- 实体预测任务:除了常规的词级别预测外,KALM 增加了一个实体预测任务,模型需要预测文本中提到的实体。这进一步提升了模型对知识图谱中的实体的学习能力。
- 目的:通过增强输入词汇的实体信息并加入实体预测任务,KALM 提升了模型对知识相关任务的处理能力。
3. KEPLER [40]:知识图谱嵌入与掩码语言模型目标
- 英文全称:Knowledge Embedding Pre-trained Language Representations
- 中文翻译:知识嵌入的预训练语言表示
- 核心思想:KEPLER 结合了知识图谱嵌入训练目标和掩码语言模型(MLM)目标,使用一个共享的Transformer编码器来同时处理语言和知识图谱信息。
- 具体做法:
- 知识图谱嵌入目标:模型学习知识图谱中的实体和关系的嵌入表示,通过优化这些表示,增强模型对实体及其关联的理解。
- 掩码语言模型(MLM)目标:模型同时进行掩码语言建模任务,即随机掩码部分词汇并预测这些被掩码的词。
- 共享的Transformer编码器:这两个任务通过同一个Transformer模型完成,模型能够在语言建模和知识图谱学习之间共享知识。
- 目的:通过同时优化语言理解和知识嵌入,KEPLER 提升了模型在语言和知识图谱相关任务中的表现。
4. Deterministic LLM [104]:确定性知识的学习
- 英文全称:Deterministic Large Language Model
- 中文翻译:确定性大规模语言模型
- 核心思想:Deterministic LLM 专注于捕捉确定性事实知识,例如明确无误的事实(如日期、人物等)。
- 具体做法:
- 掩码确定性实体:模型仅对包含确定性实体的文本部分进行掩码(如名字、日期等),确保这些具有确定性的信息被重点学习。
- 线索对比学习与线索分类任务:模型通过引入对比学习和分类任务,进一步提升模型对这些确定性知识的学习效果。对比学习通过引入类似或不同的知识实例,帮助模型区分细微的知识差异。
- 目的:通过这种方法,模型能够更加精确地学习和捕捉确定性知识,确保在需要处理事实性内容时表现更好。
5. WKLM [106]:实体替换策略
- 英文全称:Weakly Supervised Knowledge-Aware Language Model
- 中文翻译:弱监督的知识感知语言模型
- 核心思想:WKLM通过替换文本中的实体,训练模型识别实体替换的情况,提升模型对实体的敏感性。
- 具体做法:
- 实体替换:将文本中的实体用相同类型的其他实体替换,例如将“苹果公司”替换为“谷歌公司”。
- 区分替换实体:模型随后被训练去区分文本中的实体是否被替换过。这样,模型不仅能理解原始文本,还能学会判断实体的正确性和一致性。
- 目的:这种方法让模型对实体信息更敏感,提升其在实体相关任务中的表现,尤其是在涉及实体识别、纠错等任务中更具优势。
4.1.2 将知识图谱整合到LLM输入中
如图10所示,这一类研究专注于将相关的知识子图整合到LLMs的输入中,以提升LLMs对知识的理解和使用。
图10的解读
图10展示了如何将文本图和知识图谱结合起来,将知识注入LLMs的输入中。通过这种方法,模型能够在处理复杂任务时利用来自图结构的信息,提升其对文本和背景知识的综合理解能力。这种图结构使得模型能够在推理时有效利用显式和隐式的知识,从而提升任务表现。
-
输入文本(Input Text):
输入的文本是:“Mr. Darcy gives Elizabeth a letter”,这句话被分割成词汇和实体,形成两个序列:- 文本序列(Text Sequence):包括文本中的单词,如“Mr. Darcy”、“gives”、“a”、“letter”等。
- 实体序列(Entity Sequence):与文本中的实体相关的词汇,如“Mother”、“Mr. Bennet”等来自知识图谱中的实体。
-
文本图(Text Graph):
图左侧展示了文本中的单词和其之间的连接关系。比如,“Mr. Darcy”、“Elizabeth”、“letter”等词形成了一个文本图,每个词与其他词之间有连接。这种结构帮助模型理解文本中词与词之间的关系。 -
知识图谱(Knowledge Graph):
图右侧展示了知识图谱中的实体及其关系,这些实体补充了文本中没有直接提及但与背景知识相关的信息。例如:- “Mother” 和 “Jane” 是知识图谱中的实体,代表了与输入文本有关联的额外背景信息。
- 实体“Mr. Bennet”出现在知识图谱中,尽管文本中没有提到他,但他作为背景知识的一部分可能对理解文本的语境有所帮助。
-
掩码预测(Mask Prediction):
- 在文本序列中,部分词语(如“letter”)被掩码,模型需要通过上下文信息预测被掩码的词(文本预测任务)。
- 在实体序列中,部分实体(如“Mr. Bennet”)也被掩码,模型需要通过知识图谱中的关系信息预测被掩码的实体(实体预测任务)。
1. 直接引入知识图谱三元组:
- ERNIE 3.0 [101]:通过将知识图谱中的三元组(实体-关系-实体)表示为一系列的token,并将其直接与输入文本连接。然后,模型会随机掩码知识三元组中的关系token或文本中的token,以便更好地将知识与文本表示结合。
- 问题:这种直接将知识图谱与文本连接的方式,使得知识子图中的token与文本中的token相互密集地进行交互,可能会引入“知识噪声(Knowledge Noise)”。即,模型会因为过多的无关知识交互而难以有效学习有用的知识。
2. 通过可见性矩阵减少知识噪声:
- K-BERT [36]:为了解决知识噪声问题,K-BERT引入了可见矩阵(visible matrix)。在这个矩阵中,只有知识实体能够访问知识三元组的信息,而文本中的token只能在自注意力机制中看到彼此。这样做的目的是让知识实体的知识注入更加有针对性,减少了不必要的交互,从而降低了知识噪声。
3. 结合词汇和知识图谱的统一图:
- Colake [107]:进一步减少知识噪声的另一种方法是Colake提出的统一词汇-知识图谱(word-knowledge graph)。这种方法将输入文本中的token构建为一个完全连接的词汇图(word graph),并且与知识实体对齐的token通过图结构与其相邻的实体进行连接。这种结构性连接减少了不必要的交互,同时保留了知识注入的效果。
4. 处理长尾实体和低频知识:
- 上述方法主要处理高频和流行实体,然而长尾实体(low-frequent and long-tail entities)往往被忽视。为了解决这个问题:
- DkLLM [108]:提出了一种新的度量方法来识别长尾实体,并用伪token嵌入来替换这些被选中的长尾实体。这种方式将长尾实体注入到模型的输入中,提升模型对这些低频实体的表示能力。
- Dict-BERT [125]:利用外部词典解决这个问题。具体来说,Dict-BERT通过将稀有词的定义附加到输入文本的末尾,训练语言模型在输入句子中的稀有词表示与词典定义之间进行本地对齐,并让模型学习区分输入文本与定义是否正确映射。这种方式提高了稀有词的表示质量。
总结:
这类研究旨在通过引入知识图谱中的三元组来增强语言模型的知识表达能力,特别是通过不同的方法减少知识噪声,并处理低频和长尾实体,从而使模型在处理复杂知识时更具鲁棒性和准确性。
4.1.3 知识图谱指令微调
1. KGs 指令微调的目的:
- 核心思想:KGs指令微调的目的是通过利用知识图谱中的事实和结构信息来创建指令微调的数据集,帮助LLMs更好地理解知识图谱的结构,并在推理时结合这些知识进行复杂任务。
- 方法优势:通过这种微调,LLMs可以从知识图谱中提取事实性和结构性知识,提升其推理能力,使其不仅能处理事实,还能理解和利用知识图谱中的复杂关系进行推理。
2. 具体方法:
- KP-PLM [109]:该方法首先设计了多个提示模板(prompt templates),将知识图谱中的结构图转换为自然语言文本,然后提出了两个自监督任务,通过这些提示进一步微调LLMs,让模型能够更好地从这些模板中提取知识。
- OntoPrompt [110]:该方法提出了一种本体增强的提示微调(ontology-enhanced prompt-tuning),将实体的知识嵌入到LLMs的上下文中,然后在多个下游任务上对模型进行微调。这种方法帮助模型更好地理解实体的知识背景,并应用到任务中。
- ChatKBQA [111]:该方法微调LLMs,使其能够基于知识图谱结构生成逻辑查询(logical queries),这些查询可以在知识图谱上执行并获得答案。这种方法特别适合处理基于知识图谱的问答任务(KGQA)。
- RoG [112]:为了更好地在图结构上进行推理,RoG 提出了一个计划-检索-推理框架(planning-retrieval-reasoning framework)。该框架通过微调LLMs在知识图谱结构上生成关系路径(relation paths),并以此为依据检索出有效的推理路径,让模型能够进行可信的推理并生成可解释的结果。
3. 方法的局限性:
- 高成本和资源需求:虽然这些方法能够显著提升模型从知识图谱中提取和推理知识的能力,但它们需要对模型进行重新训练,这一过程通常非常耗时,且需要大量的计算资源。
总结:
知识图谱指令微调(KGs Instruction-tuning) 通过设计特定的任务和提示,使得LLMs能够更好地理解和利用知识图谱的结构来执行复杂任务。它不仅增强了模型的事实提取能力,还提升了推理能力,使得模型能够基于知识图谱生成逻辑查询和推理路径,执行复杂的推理任务。然而,这种方法的缺点是需要大量时间和资源进行重新训练,应用成本较高。
4.2 知识图谱增强的LLM推理
前文介绍的将知识图谱(KGs)整合到LLMs中的方法虽然能够有效地将知识融合进模型,但它们存在一个显著的局限性:不能在不重新训练模型的情况下更新已整合的知识。由于现实世界的知识会不断变化,这些方法在面对未见过的知识时往往泛化效果不佳 [126]。
为了解决这个问题,研究者们提出了一些在推理阶段动态注入知识的方法。这些方法的核心思想是将知识空间和文本空间分离开来,在推理时根据需要注入最新的知识。这种方法的一个主要应用领域是问答任务(Question Answering, QA),因为QA任务不仅要求模型捕捉文本的语义,还需要访问最新的现实世界知识。
4.2.1 检索增强的知识融合
检索增强的知识融合(Retrieval-Augmented Knowledge Fusion) 是一种在推理阶段将外部知识注入大型语言模型(LLM)的流行方法。其核心思想是在一个大规模语料库中检索相关知识,然后将这些检索到的知识与LLM进行融合。
如图11所示,RAG(Retrieval-Augmented Generation) [92] 提出将非参数(non-parametric)模块和参数(parametric)模块结合起来,以处理外部知识。具体过程如下:
- 输入文本后,RAG首先在非参数模块中通过最大内积搜索(MIPS) 检索相关的知识图谱(KG),从而获得若干文档。
- 然后,RAG将这些文档视为隐藏变量 ( z ),并将它们作为额外的上下文信息输入到输出生成器中,该生成器基于序列到序列(Seq2Seq)的LLM进行强化生成。
图11
检索外部知识来增强LLM的生成
研究表明,在生成的不同步骤使用不同的检索文档作为条件比仅使用单一文档来指导整个生成过程表现更好。实验结果显示,RAG在开放域问答任务中表现优于仅基于参数或非参数模型的基线模型。
RAG还能生成更具体、多样化且事实性更强的文本,相比其他仅基于参数的模型具有更高的生成质量。
后续研究的改进:
- Story-fragments [127]:通过添加额外模块以识别和融合显著知识实体,提升了长篇故事生成的质量。
- EMAT [115]:通过将外部知识编码为键值存储,并利用快速的最大内积搜索来加速内存查询,进一步提高了系统效率。
- REALM [114]:提出了一种新的知识检索器,帮助模型在预训练阶段从大规模语料库中检索和关注文档,从而在开放域问答任务中显著提升性能。
- KGLM [113]:通过使用当前上下文从知识图谱中选择事实,生成更加符合事实的句子。借助外部知识图谱,KGLM能够使用领域外的词汇或短语来描述事实。
总之,检索增强的知识融合 在注入外部知识以增强LLM生成能力方面取得了显著的成果,尤其在生成具体、多样化、以及符合事实的文本上表现优异。
4.2.2 知识图谱提示
为了在推理阶段更好地将知识图谱(KGs) 的结构传递给LLMs,知识图谱提示(KGs Prompting) 的目标是设计一个巧妙的提示(prompt),将结构化的知识图谱转换为文本序列,并作为上下文输入到LLMs中。通过这种方式,LLMs可以更好地利用知识图谱的结构进行推理。
典型方法:
以下是几种知识图谱提示的典型方法:
-
模板转换:Li等人 [64] 使用预定义的模板将每个三元组(实体、关系、目标实体)转换为一条简短的句子,这样LLMs可以理解并进行推理。例如,一个知识图谱中的三元组可以被转换为一个自然语言句子,便于模型理解。
-
Mindmap [65]:该方法设计了一个知识图谱提示,将图结构转换为思维导图。这种导图结合了知识图谱中的事实和LLMs的隐性知识,帮助LLMs通过整合显性和隐性知识来进行推理。
-
ChatRule [116]:该方法从知识图谱中抽取了多个关系路径,将这些路径转换为文本形式并输入到LLMs中。然后,LLMs根据这些提示生成有意义的逻辑规则,用于推理过程。
-
CoK [117]:提出了知识链提示(chain-of-knowledge prompting),通过一系列的三元组提示,引导LLMs逐步推理,最终得出答案。该方法利用多条知识链来增强模型的推理能力。
优点与挑战:
- 优势:知识图谱提示是一种简单有效的方式,可以将LLMs与知识图谱结合在一起,而无需重新训练模型。通过巧妙设计的提示,可以让LLMs在推理时结合知识图谱中的结构信息,提升推理表现。
- 挑战:提示的设计通常是手动完成的,这需要大量的人力投入。每个知识图谱可能需要根据其特定的结构设计不同的提示模板,因此这一过程可能较为复杂和耗时。
总结:
知识图谱提示通过将结构化的知识图谱转换为自然语言提示,提供了一种无需重新训练LLMs的方式,使得LLMs可以利用知识图谱中的知识进行推理。尽管这种方法在设计提示时需要较多的人工努力,但它为整合LLMs和知识图谱提供了一种灵活而高效的解决方案。
4.3 知识图谱增强的LLM 预训练与推理的对比
在知识图谱增强的LLM预训练与知识图谱增强的LLM推理方法之间,主要有以下几点差异:
1. 知识图谱增强的LLM预训练(Pre-training)
- 方法:预训练方法通过将大规模未标注语料与语义相关的真实世界知识进行融合,训练模型从头开始利用这些知识。这些方法在模型的训练过程中将知识嵌入到模型的表示中,并与语言上下文对齐。
- 效果:在应用于需要大量知识的下游任务时,预训练的LLMs往往能达到最佳性能,因为模型已经显式地学会了如何在上下文中使用知识。
- 局限性:现实世界的知识是动态的,预训练方法一旦完成,模型中的知识是静态的,无法在不重新训练的情况下更新或编辑知识。因此,当面对最新知识或未见知识时,预训练模型的泛化能力可能较差。
2. 知识图谱增强的LLM推理(Inference)
- 方法:推理方法只在推理阶段向LLMs提供知识,并未在模型训练时显式融合这些知识。这意味着模型在执行下游任务时,可能不会完全学会如何利用这些知识,因此性能可能不如预训练方法。
- 优势:推理方法更具灵活性,能够通过改变推理输入来动态更新知识,无需重新训练模型。这使得模型能够更好地处理包含最新知识和开放领域的任务。
总结
- 预训练方法:适用于需要处理时间不敏感的知识或特定领域知识(如常识推理)的场景,因为模型在特定上下文中对知识的利用达到最佳效果。
- 推理方法:适合处理开放领域知识或需要频繁更新知识的应用场景。通过动态调整推理输入,模型能够更好地适应新知识或未见过的领域。
4.4 知识图谱增强的LLM可解释性
尽管大型语言模型(LLMs)在许多自然语言处理任务中取得了显著成功,但它们仍然因缺乏可解释性而受到批评。LLM的可解释性指的是理解和解释大型语言模型的内部工作原理和决策过程 [17]。提高可解释性可以增加模型的可信度,并促进其在如医疗诊断和法律判决等高风险场景中的应用。
知识图谱以结构化方式呈现知识,能够为推理结果提供良好的可解释性。因此,研究人员尝试利用知识图谱来增强LLMs的可解释性,这方面的研究可以大致分为两类:
-
利用知识图谱探测语言模型(Language Model Probing):这一方法通过探测LLMs与知识图谱中的结构化知识之间的关系,来了解模型如何做出决策。这帮助研究人员更好地理解模型的知识表示以及推理过程中的潜在逻辑。
-
利用知识图谱分析语言模型(Language Model Analysis):这一方法通过将知识图谱作为分析工具,用于检查LLMs的决策输出,帮助发现模型中的知识盲点或推理过程中的漏洞。知识图谱的结构化信息能够为模型的输出提供明确的解释路径,有助于深入分析模型如何从输入推导到输出。
4.4.1 知识图谱用于LLM探测
LLM探测的目的是了解大型语言模型中存储的知识。LLMs通过在大规模语料库上进行训练,通常被认为包含大量知识。然而,由于LLMs将知识以隐式的方式存储,使得难以确切了解模型内包含的知识。此外,LLMs还存在幻觉问题 [15],即生成与事实相悖的陈述,这严重影响了LLMs的可靠性。因此,有必要对LLMs中存储的知识进行探测和验证。
LAMA [14] 是首个利用知识图谱探测LLMs中知识的研究工作。正如图12所示,LAMA首先通过预定义的提示模板将知识图谱中的事实转换为填空句,然后使用LLMs预测缺失的实体。预测结果用于评估LLMs中存储的知识。例如,探测LLMs是否知道以下事实:(Obama, profession, president)。首先,将三元组转换为一个填空句:“Obama的职业是 .”,其中总统被掩码。接着,测试LLMs能否正确预测“总统”这一缺失实体。
图12
然而,LAMA忽略了提示模板可能不适合的问题。例如,提示“Obama曾担任”可能比“Obama的职业是”更有利于LLMs预测正确的空白位置。为了解决这个问题,LPAQA [118] 提出了基于挖掘和改写的方法,自动生成高质量且多样化的提示,从而更准确地评估语言模型中包含的知识。此外,Adolphs等人 [128] 通过示例帮助LLMs更好理解查询,并在T-REx数据集上对BERT-large模型进行了实验证明,取得了显著的改进。与手动定义的提示模板不同,Autoprompt [119] 提出了一种自动化方法,利用梯度引导的搜索来创建提示。LLM-facteval [121] 设计了一个系统化框架,自动从知识图谱中生成探测问题,用于评估LLMs中存储的事实性知识。
除了使用百科类和常识类知识图谱探测一般知识外,BioLAMA [129] 和 MedLAMA [120] 利用医学知识图谱来探测LLMs中的医学知识。Alex等人 [130] 探讨了LLMs保留低流行度事实知识的能力。他们从Wikidata知识图谱中选择低点击率的实体相关事实进行评估,结果表明LLMs在处理这类知识时存在困难,并且模型规模的扩大并没有显著提升对长尾知识的记忆能力。
4.4.2 知识图谱用于LLM分析
知识图谱增强的LLM分析旨在回答以下问题:“LLMs是如何生成结果的?”以及“LLMs的功能和结构是如何工作的?”。通过分析LLMs的推理过程,研究者可以利用知识图谱解释模型的推理步骤,使其更具可解释性。
1. 基于知识图谱的推理过程分析
- KagNet [38] 和 QA-GNN [131] 是两个典型的研究,它们利用知识图谱为LLMs的推理步骤提供支持。在推理过程中,知识图谱被用来解释每一步推理的基础。这样,通过从知识图谱中提取图结构,LLMs的推理过程变得更加透明和可解释。 如图13所示:
图13
2. 因果分析
- Shaobo等人 [123] 研究了LLMs如何正确生成结果。他们采用了基于知识图谱的因果分析,定量地衡量了LLMs生成结果时依赖的词语模式。结果表明,LLMs更倾向于依赖位置上靠近的词而非知识依赖的词来生成缺失的事实。因此,他们认为,LLMs在记忆事实性知识方面表现不足,主要原因是依赖关系不准确。
3. 训练过程中的知识揭示
- Swamy等人 [122] 在预训练过程中,通过让LLMs生成知识图谱,揭示了LLMs在训练过程中获得的知识。通过知识图谱中的事实,模型在训练中所学到的知识被显式地展示出来。
4. 知识神经元(Knowledge Neurons)
- Dai等人 [39] 提出了“知识神经元”的概念,旨在探索LLMs如何在其参数中存储隐性知识。研究发现,激活某些知识神经元与知识表达高度相关。通过抑制或增强这些神经元的激活,研究者能够探索每个神经元代表的知识和事实。
未完待续。。。