大型语言模型的幻觉研究｜减轻及避免大模型LLM幻觉（二）

“ 本文及上一篇综述了最近关于语言模型中幻觉问题的研究进展，主要集中在ChatGPT发布后的研究。文章讨论了如何评估、追踪和消除幻觉，并探讨了现有挑战和未来方向。希望本文能为对LLM幻觉问题感兴趣的朋友提供有价值的资源，促进LLM的实际应用。”

—

上一篇《人工智能海洋中的塞壬之歌：大型语言模型LLM中的幻觉研究综述（一）》讲了大模型人工智能的幻觉类别，产生的缘由以及评测标准，这篇继续介绍目前对缓解及避免幻觉所做的研究和努力。

如上篇文章所述，缓解幻觉的产生贯穿于整个大模型预训练、研发和应用三个阶段。

—

预训练阶段的缓解

LLM的知识主要在预训练阶段获取，预训练语料中的噪声数据可能会破坏LLM的参数知识，导致幻觉。

因此，减少不可验证或不可靠数据的预训练语料可能是缓解幻觉的一种直观方法。有研究表明，可以追溯LLM获取的事实知识产生于其训练的数据。‍‍‍

在LLM时代之前，人们通过手动清理训练数据来减少幻觉。Gardent等人和Wang都采用了人工修正的方法，有效地减少了幻觉。同样，在现有的表格到文本数据集中对文本进行人工提炼这一过程也大大减少了事实幻觉。Parikh等人则通过修改维基百科中的句子来构建数据集，也取得了改善结果的效果。

随着LLM时代的到来，由于预训练语料库的规模巨大，手动筛选训练数据变得越来越具有挑战性。

如下图所示，几个常见的大模型预训练使用的语料库的数据量‍‍‍‍‍‍‍‍

Llama2达到了大约两万亿个token的数据规模。因此，与人工整理相比，目前更实用的方法是自动选择可靠数据或过滤掉噪声数据。

GPT-3的预训练数据是通过使用相似性来清理的。

Falcon通过巧妙地启发式规则提取网络中的高质量数据，并证明适当分级的相关语料库可以生成强大的LLM。

Llama2在构建预训练语料库时，从高度可信的来源如维基百科中提取数据。

有些研究在事实性文档的句子前加入主题前缀，使每个句子在预训练时都被看作一个独立的事实，以文档名称作为主题前缀。实践结果表明，这种方法提升了LLM在TruthfulQA评测基准（一种幻觉评测基准）上的表现。

总之，在预训练过程中，降低"晕轮"现象的关键是有效整理预训练语料库。鉴于现有的预训练语料库规模巨大，目前的研究主要采用简单的启发式规则来选择和过滤数据。将来可能的研究方向是设计更为有效的选择或过滤策略。

—

SFT阶段的缓解‍‍

SFT：Self-Supervised Fine-Tuning，自监督微调。常见方法是让模型根据输入数据生成一个相关的任务，然后使用这个任务的输出来训练模型。

当前的LLMs通常会进行监督微调（SFT）的过程，以利用他们从预训练中获得的知识，并学习如何与用户进行交互。SFT的一般步骤是先注释或收集大量的任务指导数据，然后使用最大似然估计（MLE ）对预训练的LLMs进行微调。通过采用精心设计的SFT策略，许多最近的研究声称已经构建了与ChatGPT相媲美的LLMs。

最大似然估计（Maximum Likelihood Estimation，MLE）是统计学中一种常用的参数估计方法。它的基本思想是在给定观测数据的情况下，通过调整模型的参数使得观测数据出现的概率最大化，也就是找到最可能产生观测数据的参数值。

为了减少SFT阶段的幻觉，可以通过筛选训练数据来进行。如上图所示，SFT数据量相对较小（最大为210K），手动和自动筛选都是可行的选项。

一些研究使用人工专家注释的指令调整数据集，或者利用LLMs作为评估器或设计特定规则来自动选择高质量的指令调整数据。

实验结果表明，在幻觉相关的基准测试中，使用经过筛选的指令数据进行微调的LLMs相比使用未筛选数据进行微调的LLMs具有更高的真实性和事实性水平（如Truth-fulQA）。

此外，还有一些研究提出将领域特定的知识集成到SFT数据中，旨在减少由于缺乏相关知识而产生的幻觉。

SFT过程可能会导致LLMs出现幻觉，因为它们通过行为克隆来学习。行为克隆是强化学习中的一个概念，它只是模仿专家的行为而没有学习实现最终目标的策略。

LLMs的SFT过程可以看作是行为克隆的一种特殊情况，它们通过模仿人类的行为来学习交互的格式和风格。但是，尽管LLMs已经将大量知识编码到它们的参数中，但仍有超出它们能力范围的知识存在。因此，通过克隆人类行为来进行SFT可能会导致LLMs出现幻觉。

行为克隆是强化学习中的一个概念，问题在于：行为克隆这种方法只是简单地模仿行为，而没有学习实现最终目标的策略。

LLMs的SFT过程可被视为行为克隆的一个特殊案例，通过克隆SFT过程中的人类行为，在回答问题时，模型往往会以积极的态度回应，而不考虑自己的知识范围。这可能导致模型在回答未学习到的知识相关的问题时产生错误回答。

为了解决这个问题，可以引入一些诚实的样本，即承认无能力回答的回答。通过使用这些诚实的样本（指的是承认自己无能的回答，如"对不起，我不知道"，即我们常说的拒答）进行调优，模型可以学会拒绝回答特定的问题，从而减少错误回答。

为了减少SFT阶段的幻觉，筛选训练数据是一种方法。最近进行的人工检查发现一些常用的合成SFT数据中存在大量幻觉答案，这需要研究人员在构建基于自我指导的SFT数据集时注意。

总结：SFT过程可能会引入幻觉，因为它会强制LLMs回答超出其知识范围的问题。整理训练数据是在SFT阶段减少幻觉的一种方法，可以由人类专家对其进行人工整理。另一个方案则以诚实为导向的SFT作为解决方案。

诚实导向的SFT方法存在两个主要问题：

对于分布外（OOD ：Out-of-Distribution，表示在训练模型时，模型所见过的数据分布之外的数据）的情况具有有限的泛化能力，
诚实样本只反映了注释者的无能和不确定性，而不是LLMs的知识边界。

这些挑战使得在SFT过程中解决这个问题不够理想。

—

RLHF阶段的缓解

RLHF：Reinforcement Learning from Human Feedback，即从人类反馈中进行强化学习。

在 RLHF 中，人类提供了一个评估模型性能的信号，例如奖励信号，以指导模型的训练。这可以使模型在学习过程中更加高效地探索和改进策略。

现在许多研究人员试图通过人类反馈的强化学习来进一步改进监督微调的LLMs。这个过程包括两个步骤：

训练一个奖励模型作为人类偏好的代理，旨在为每个文本分配适当的奖励值；
使用RLHF算法来微调LLMs，以最大化奖励模型的输出。

人类的反馈可以缩小机器生成内容和人类偏好之间的差距，帮助语言模型与期望的标准保持一致。目前常用的标准是“3H”，即有帮助（Help）、诚实（Honest）和无害（Harmless）。诚实就是减少语言模型回答中的幻觉。

现有的大语言模型LLMs已经考虑了这一方面，如InstructGPT、ChatGPT、GPT4（Ope-nAI，2023年b）和Llama2-Chat，在RLHF过程中都考虑到了这一方面。

例如，GPT4使用合成幻觉数据来训练奖励模型并执行RL（强化学习），从而将Truth-fulQA（幻觉基准测试）的准确率从约30%提高到60%。

此外，还可以使用过程监督来检测和减少推理任务中的幻觉，并为每个中间推理步骤提供反馈。

上一节提到：在SFT阶段，行为克隆现象可能导致幻觉。一些研究人员尝试通过将真实样本整合到原始SFT数据中来解决这个问题。然而，这种方法存在一些限制：如不令人满意的分布外（OOD）泛化能力和人类与LLM知识边界之间的不一致。

为了解决这个问题，Schulman（2023）在RLHF阶段设计了一个特殊的奖励函数来缓解幻觉，具体内容见下图。核心思想是鼓励LLM挑战前提、表达不确定性和提供不具信息量的答案。

在强化学习中，大模型LLM会与环境进行交互，以学习一种策略，该策略帮助大模型在特定任务中获得最大的累积奖励。大模型在学习过程中不断尝试不同的行动，并根据环境的反馈来调整它的策略。

“Unhedged/Hedged” 表示LLM用积极或者犹豫的语气提供回答。

“Correct/Wrong”表示回答是正确或者是错误。‍‍‍‍

“Uninformative” 表示“我不知道”这样的安全答案。

从上图的奖励分数可以看到，这个奖励函数对正确的答案都是正向奖励，不管模型是用积极还是犹豫的语气，这个奖励策略鼓励了模型在最大化的探索知识的边界，同时防止了模型回答超过其能力范围的问题。‍‍

这种新的学习方法——基于诚实的强化学习（honesty-oriented RL）可以帮助语言模型自由探索知识边界，提高其对于OOD情况的泛化能力，同时减少人工标注的需求和标注者猜测知识边界的困难。

强化学习可以帮助语言模型在探索知识边界时拒绝回答超出其能力范围的问题，避免编造虚假回答。但是，这种方法也存在挑战，例如可能会出现过度保守的情况，导致帮助性和诚实性之间的平衡失衡。

如上图所示，这是ChatGPT (2023年7月版)过度保守现象的一个真实例子：第一次问答中，用户让ChatGPT 介绍电影《The Only Thing》，随后询问《The Only Thing》是什么类型电影？

但是ChatGPT拒绝回答它已经知道的相当明确的答案：“是一部戏剧电影”。因为在第一次回答中，ChatGPT已经在回答中表明它知识中有这个问题的答案：截图中以红色标注部分。

—

生成推理阶段的缓解

与训练阶段缓解幻觉的方法相比，缓解推理阶段中的幻觉可能更具成本效益和可控性。因此，大多数现有研究都集中在这个方向上：设计解码策略、借助外部知识。‍‍‍‍‍‍‍‍

一、设计解码策略

解码策略决定了我们如何从模型生成的概率分布中选择输出标记。论文提出了三种改进的解码策略：事实核心采样解码，推理-时间干预（ITI）方法，上下文感知解码（CAD）策略。

1. 事实核心采样解码‍‍‍‍

Lee等人对LLMs生成的内容进行了事实性评估，并发现核心采样（即top-p采样）在事实性方面不如贪婪解码。他们认为这种表现可能归因于top-p采样引入的随机性，以增加多样性，但可能会无意中导致幻觉，因为LLMs倾向于捏造信息以生成不同的响应。

Top-p 核心采样是一种生成文本或序列的采样方法，通常应用于自然语言处理任务。p 代表一个介于 0 和 1 之间的概率阈值。

首先，根据模型的输出概率分布对词汇表中的词进行排序，然后选择概率总和最高的词，直到这些词的累积概率超过了阈值 p，形成一个候选词集合。接下来，模型会从候选词集合中进行随机抽样，以生成最终的词语。这个过程可以在每个时间步都进行，以生成完整的序列。

Top-p 核心采样的优点在于能够在保持多样性的同时，避免生成过于散乱或不连贯的输出。通过动态地调整阈值 p，可以在需要多样性时放宽约束，在需要更严格的控制时收紧约束。这种采样方法在自然语言生成任务中经常使用，如文本生成和对话生成，有助于生成器在保持多样性的同时保持输出的合理性。

因此，他们引入了一种名为“事实核心采样”的解码算法，旨在通过利用top-p和贪婪解码的优势，更有效地平衡多样性和事实性。

2. 推理时间干预

Li等人提出了一种新颖的推理时间干预（ITI：Iterative Time Intervention）方法，以提高LLM的真实性。该方法基于LLM具有与事实相关的潜在可解释子结构的假设。ITI方法包括两个步骤：

在LLM的每个注意力头部上拟合一个二元分类器，以识别一组在回答事实性问题时具有更高线性探测准确性的头部，
在推理过程中沿着这些与事实相关的方向移动模型激活。

ITI方法在TruthfulQA基准测试中显著提高了性能。

3. 上下文感知解码CAD

其它研究探讨了检索增强设置下的语言模型问题，发现语言模型在处理下游任务时，有时无法充分关注检索到的知识，特别是当检索到的知识与参数化知识相冲突时。

为了解决这个问题，研究提出了一种上下文感知解码策略，即Context-Aware Decoding，CAD方法，通过对比两种生成概率分布，促使语言模型更多地关注上下文信息，从而减少下游任务中的事实幻觉。实验结果表明，CAD方法有效地提高了语言模型利用检索到的知识的能力。

设计解码策略以缓解LLM在推理过程中的幻觉，因其无需对模型进行大规模的重新训练或调整，通常是一种即插即用的方式。因此，这种方法易于部署，对实际应用具有潜力。

对于这种方法，大多数现有的工作就需要访问令牌级别的输出概率：这意味着我们希望知道在生成文本时，模型对于每个位置上可能的词或符号的预测概率。这对于选择下一个单词或字符至关重要。

然而，受到计算资源和模型设计的限制，大多数现有的大型语言模型（LLM）可能无法提供完整的令牌级别的输出概率信息。相反，它们可能只能返回一个生成的序列，而不提供每个位置上所有词的概率信息。这使得一些需要细粒度控制的任务可能会受到一些限制。

举例来说，像ChatGPT这样的模型通过API返回生成的内容，但是不会提供详细到每个位置上所有可能词的概率分布。

因此，设计解码策略时，研究人员可能需要考虑到模型的输出限制，以便选择适当的策略来生成文本。

二、借助外部知识

使用外部知识作为辅助证据，帮助LLMs提供真实的回答。该方法包括两个步骤：

第一步是获取知识：准确获取与用户指令相关的知识；

第二步是利用知识：利用这些知识来指导回答的生成。

表10:最近关于借助外部知识缓解幻觉的一些研究摘要。QA(问答)、FV(事实验证)和LM(语言建模)。

1. 获取知识‍‍‍‍‍‍‍

LLMs通过广泛的预训练和微调内部化了大量的知识，这可以称为参数知识。然而，不正确或过时的参数知识很容易导致幻觉。为了解决这个问题，研究人员提出从可靠的来源获取可靠的、最新的知识作为LLMs的热修补。这些知识的两个主要来源是可信的来源和人类专家。

两种提高LLM真实性的方法：内部检索和外部工具。

内部检索：现有的工作主要从外部知识库中检索信息，包括大规模非结构化语料库、结构化数据库、维基百科等和整个互联网。检索信息过程通常采用各种稀疏（如BM25）或密集（如基于PLM的方法）检索器。

稀疏检索器（如BM25）：稀疏检索器是一种基于统计和规则的方法，它通过计算查询词与文档之间的相似度来进行信息检索。BM25 是一种常用的稀疏检索模型，它根据查询词和文档之间的词频和文档频率等信息来评估文档的相关性。这种方法通常使用较少的特征或词汇信息来进行检索，因此称为稀疏。

密集检索器（如基于PLM的方法）：密集检索器是一种基于神经网络模型的方法，它使用预训练的大型语言模型（PLM，Pretrained Language Model）来理解和处理查询与文档之间的语义信息。这些方法使用神经网络来建模文本的表示，通常涉及到对大量参数进行训练。因为它们利用了大量的参数和深层的神经网络结构，所以被称为密集方法。

外部工具则包括FacTool和CRITIC等，它们可以提供有价值的证据来增强LLM的真实性。

其中，FacTool针对特定的下游任务，利用不同的工具帮助检测LLM中的幻觉，如用于基于知识的质量保证的搜索引擎API、用于代码生成的代码执行器和用于科学文献审查的谷歌学术API。

而CRITIC则使LLM能够与多个工具交互并自主修订其响应，从而有效提高真实性。

2. 知识利用

知识利用可以在不同阶段应用于缓解LLMs中的幻觉。现有的知识利用方法可以大致分为两类：基于上下文的修正通过利用上下文知识来纠正先前生成的非事实性声明。事后修正则通过构建辅助修复程序来纠正幻觉。

基于上下文的修正：直接将检索到的知识或工具反馈与用户查询连接起来，再输入到LLMs中，是一种有效且易于实现的方法。这种知识也被称为上下文知识。现有研究表明，LLMs具有强大的上下文学习能力，能够提取和利用有价值的信息。

利用外部知识减少LLMs反应中的幻觉的两种不同方法的示意图。从上下文知识中纠正之前产生的非事实性说法。

（注：现在多数开源的知识库+大模型项目都是A思路的实现：用户先将知识上传到系统，系统向量化知识到向量知识库存储起来。提问时，先将问题向量化，然后通过向量计算，将和问题相近的知识片段提取出来，然后将知识和问题都传给大模型，最后由大模型输出回答。）‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

事后修正：即在后处理阶段构建一个辅助修复程序来纠正幻觉。这些修复程序可以是另一个语言模型或特定的小型模型。它们通过与外部知识源交互来收集足够的证据，然后进行修正。这些修复程序可以利用各种外部工具来获取证据。

例如，RARR直接提示LLM从多个视角对需要纠正的内容进行提问。然后，它使用搜索引擎重新搜索相关知识。

最后，基于LLM的修正程序会根据重新获取的证据进行修正。例如：Verify-then-Edit方法旨在根据从维基百科获取的外部知识对推理链进行后编辑，从而提高预测的真实性。

为了获得更好的性能，LLM-Augmenter在将检索到的知识输入修复程序之前，会提示LLM对其进行总结。

使用外部知识来缓解LLMs中的幻觉具有几个优点：

避免了修改LLMs的需要，使其更加便捷。
是一种即插即用且高效的解决方案，可以方便地传输专有知识和实时更新的信息给LLMs。
可以提高LLMs生成结果的可解释性，通过追溯生成结果到源证据。

然而，该方法仍然面临一些问题需要解决：

如何验证从互联网检索到的知识的真实性是一个挑战性问题。
检索器/修复程序的性能和效率对于幻觉缓解至关重要。
检索到的知识可能与LLMs存储的参数化知识冲突，如何充分利用上下文知识是一个未被充分探索的问题。

不确定性‍‍‍‍‍‍‍

不确定性是推理过程中保护和减少幻觉的重要指标。通常，它指的是模型结果的置信度。‍‍‍‍‍‍‍‍‍‍‍

不确定性可以帮助用户确定何时信任LLMs。如果能准确地表征LLMs响应的不确定性，用户可以过滤或纠正具有高不确定性的LLMs的声明。

LLM不确定性估计方法可分为三类，分别是：置信度区间 logit-base 、基于口述的 verbalize-based 和基于一致性 consistency-base的方法。这些方法的示例可见于上图。

置信度基于Logit：这是一种基于对数的方法，它需要获取模型的对数，通常通过计算令牌级概率或熵来确定不确定性。

基于口述：直接要求LLM表达其不确定度，例如使用以下提示："请回答并提供您的置信度分数（从0到100）"。这种方法之所以有效，是因为LLM的语言表达能力和服从指令的能力很强。也可以使用思维链提示来加强这种方法。

基于一致性：这种方法基于这样一个假设：当LLMs犹豫不决并对事实产生幻觉时，他们很可能会对同一问题做出逻辑上不一致的回答。例如：

使用BERTScore、基于QA的指标和n-gram指标进行计算，并将这些方法结合起来能产生最佳结果。

直接利用额外的LLM来判断两个LLM反应在相同语境下是否存在逻辑矛盾，可以采用另一种LLM来修正两个反应中这种自相矛盾的幻觉。

利用现有的程序监督为LLM响应分配一个风险分值，可作为幻觉的指标。

总的来说，利用不确定性来识别和缓解LLM幻觉是一个有效的研究方向，但是也存在一些问题：

基于逻辑回归的方法在现代商业LLM中越来越不适用，因为它们通常是闭源和黑盒的，无法访问其输出的逻辑回归，获取不到模型的对数。
关于基于语言表述的方法，研究者观察到LLMs在表达自信时往往显示出高度的过度自信，也就是说模型自己表述的不确定是高估的。‍
‍
对不同回答一致性的有效测量仍然是一个未解决的问题，有可能多个模型在同一个问题上产生了相同的幻觉。

—

其他方法

除了上面的方法外，研究者还提出一些其他的技术来减少幻觉。

一、多模型互动 Multi-agent interaction‍

多个LLM(代理，agent)独立提出并协作辩论他们的回答以达成一致。这种方法可以减轻单个LLM产生幻觉信息的问题。

例如，通过让多个LLM参与辩论以达成共识，可以减轻这种幻觉。一名LLM提出主张（作为EXAMINEE），另一名LLM就这些主张提出问题并检查其真实性（作为EXAMINER），能以相对较低的成本有效减少幻觉。

二、提示词工程 Prompt engineering

研究发现，LLMs的行为会受到用户提示的影响，可能会出现幻觉。LLM最初会做出准确回应，但在使用不同提示时，LLM开始产生幻觉。因此，可以设计出更有效的提示来缓解幻觉。

为了减轻幻觉，研究人员使用了链式思考提示，但这也可能会带来新的挑战。现在流行的做法是在“系统提示”（即ChatGPT的API中system参数）中明确告诉LLMs不要传播虚假信息。

例如给"Llama2-Chat"的系统提示：如果您不知道问题的答案，请不要分享虚假信息。

三、检查LLM内部状态 Analyzing LLMs' internal states

有研究认为，LLMs可能意识到自己的虚假性，这表明其内部状态可以用于检测幻觉。他们提出了基于语言模型激活的语句准确性预测，通过在每个隐藏层上添加分类器来确定真实性，可以有效地提取这些信息。

实验结果表明，当LLM生成虚假语句时，LLM可能会"知道"，而分类器可以有效地获取此类信息。

一些方法可以在推理过程中干预模型激活，从而减少幻觉。这些研究表明，LLM中的幻觉可能更多是由于生成技术而非底层表示。

四、人工干预循环 Human-in-the-loop

LLM中产生幻觉的一个潜在原因可能是知识与用户问题之间的错位，这种现象在检索增强生成（RAG）中尤为普遍。

为了解决这个问题，引入了MixAlign 框架，这是一个利用LLMs将用户查询与存储的知识对齐的人工干预循环框架，并进一步鼓励用户澄清这种对齐。通过反复调整用户查询，MixAlign不仅减少了幻觉，还提高了生成内容的质量。

五、优化模型架构

优化模型架构可以减少语言模型的幻觉，例如使用多分支解码器、不确定性感知解码器和双向自回归架构等方法。其中，双向自回归架构可以从左到右和从右到左进行语言建模，有效利用双向信息，有助于减少幻觉。

（注：据说国内清华开源的ChatGLM使用了双向自回归架构。）‍

—

总结及展望

论文讨论了在LLMs中调查幻觉时存在的一些未解决的挑战，并提供了未来研究方向的见解。

目前评估LLM中幻觉生成的自动度量存在不准确的问题，需要更深入的探索。生成式幻觉评估和人工注释不完全一致，自动度量的可靠性也因不同领域和LLM而异，导致泛化能力下降。判别式幻觉评估可以相对准确地评估模型的区分能力，但区分能力和生成能力之间的关系仍不清楚。

现有的LLM幻觉研究主要集中在英语上，但世界上存在数千种语言。希望LLM能够统一处理各种语言。一些研究发现，LLM在处理非拉丁语言时性能下降。 Guerreiro等人观察到，多语言LLM在翻译任务中主要在低资源语言中出现幻觉。 ChatGPT等LLM在英语中提供准确答案，但在其他语言中出现幻觉，导致多语言不一致。知识在LLM之间从高资源语言向低资源语言的转移也很有趣。