大语言模型(LLMs)有着强大的摘要生成能力,为信息快速提取和处理提供了便利。从新闻文章的快速概览到学术文献的要点提炼,LLMs 生成的摘要广泛应用于各个场景。然而,准确评估这些摘要的质量却颇具挑战。如何确定一个摘要是否精准、简洁且连贯,成为了研究者和开发者亟待解决的问题。本文将深入探讨评估 LLM(Agent-as-a-Judge:AI系统评估新思路) 摘要的多种方法、面临的挑战以及应对策略。
一、评估 LLM 摘要的重要性
随着 LLMs 在摘要生成任务中的应用日益广泛,评估其生成摘要的质量至关重要。优质的摘要能够帮助用户迅速把握文本核心内容,节省大量阅读时间。在学术研究中,研究者可以通过准确的文献摘要快速筛选相关资料;在商业领域,决策者能够依据精准的行业报告摘要做出明智的决策。相反,低质量的摘要可能会误导用户,导致信息获取错误,甚至影响决策的准确性。准确评估 LLM 摘要(RAG(Retrieval-Augmented Generation)评测:评估LLM中的幻觉现象),不仅有助于用户选择更可靠的摘要工具,还能推动 LLMs 自身的优化与改进,促进自然语言处理技术的发展。
二、评估 LLM 摘要的难点
(一)摘要输出的开放性与主观性
与分类、实体提取等任务不同,摘要的输出具有开放性。一个好的摘要取决于流畅性、连贯性和一致性等定性指标,而这些指标难以进行定量测量。例如,摘要的相关性在很大程度上依赖于具体语境和受众需求。对于专业人士而言,与专业知识紧密相关的内容才是关键;而普通读者可能更关注通俗易懂的信息。这种主观性使得评估标准难以统一,增加了评估的难度。
(二)缺乏高质量的标注数据集
在评估 LLM 摘要时,创建用于对比的金标准数据集十分困难。以检索增强生成(RAG)为例,可以通过合成问答对的方式轻松创建数据集来评估检索器。但对于摘要生成任务,自动生成参考摘要并非易事,往往需要人工标注。虽然已有研究人员整理了一些摘要数据集,但这些数据集可能无法满足特定应用场景的需求,导致评估结果与实际应用存在偏差。
(三)现有评估指标的局限性
学术文献中的许多摘要评估指标并不适用于实际开发场景。一些基于神经网络训练的评估指标,如 Seahorse、Summac 等,模型体积庞大,运行成本高昂,难以大规模应用。而传统的评估指标,如 BLEU 和 ROUGE,主要基于精确的单词或短语匹配,适用于抽取式摘要评估。在面对 LLMs 生成的抽象式摘要时,由于这类摘要可能会对原文进行改写和重新表述,这些传统指标的评估效果不佳。
三、优秀摘要的关键特质
尽管评估 LLM 摘要存在诸多困难,但一个优秀的摘要通常具备以下关键特质:
(一)相关性
摘要应保留原文的重要观点和细节,能够准确反映原文的核心内容。在评估时,可以从精确率和召回率的角度考虑,即摘要中保留了多少原文的事实(召回率),以及摘要中的事实有多少能在原文中得到支持(精确率)。在保持摘要长度一定的情况下,召回率越高越好,但不能为了追求高召回率而使摘要长度与原文相近;同时,精确率应尽可能接近 100%,以避免生成虚假信息。
(二)简洁性
优秀的摘要信息密度高,不会多次重复相同观点,语言简洁明了。在实际评估中,可以通过实体密度这一指标来衡量。研究表明,人工创建的摘要以及人们偏好的 AI 生成摘要,实体密度约为 0.15 个实体 / 词元。偏离这一数值的摘要,无论是密度过高还是过低,都可能存在问题。可以通过计算摘要的实体密度,并与理想值进行比较,对偏离理想值的摘要进行惩罚。还可以使用句子模糊度指标,对模糊、未明确表述关键信息的句子进行惩罚,以确保摘要简洁有效。
(三)连贯性
摘要应结构合理、逻辑清晰,易于理解,而不是简单地堆砌压缩后的事实。在评估连贯性时,可以采用平均余弦相似度的方法,计算每第 n 个句子和第 n+2 个句子之间的平均余弦相似度。该数值越高,表明摘要的连贯性越好。通过这种方式,可以从量化的角度对摘要的连贯性进行评估。
(四)忠实性
摘要不能虚构原文未提及的信息,必须忠实于原文内容。在评估过程中,需要确保摘要中的所有信息都能在原文中找到依据,避免出现虚假信息,这对于保证摘要的可靠性至关重要。
四、DeepEval 框架及其摘要评估指标
DeepEval 是一个用户友好的 LLM 评估框架,在摘要评估方面具有一定的优势。它提供了许多关键 RAG 指标的现成实现,并且拥有灵活的基于思维链的 LLM 评判工具 GEval,方便用户定义自定义标准。其基础设施有助于组织和加速评估过程,能够快速在整个数据集上运行评估。
DeepEval 的摘要评估指标是一种无参考指标,只需输入原文和待评估的生成摘要。该指标实际上评估了两个关键部分:对齐度和覆盖率。在对齐度评估中,评估器 LLM 会从摘要中生成一系列声明,并判断这些声明在从原文提取的事实中得到支持的数量,从而得出对齐度分数;在覆盖率评估中,LLM 会从原文生成一系列评估问题,然后仅依据摘要尝试回答这些问题。若无法找到答案,则提示 “idk”,最后根据回答正确的问题数量得出覆盖率分数。最终的摘要分数为对齐度和覆盖率分数中的最小值。
五、改进 DeepEval 的摘要评估指标
尽管 DeepEval 的摘要评估指标提供了一个良好的起点,但仍存在一些问题,影响了评估的可靠性和有效性。
(一)覆盖率评估问题
当前,覆盖率评估中的问题被限制为是非问题,这种方式存在局限性。一方面,二元的是非问题限制了信息的表达,难以确定细微的定性要点;另一方面,若回答问题的 LLM 虚构了 “是” 的答案,评估器可能会错误地认为回答正确。因为在只有 “是”“否”“idk” 三种可能答案的情况下,虚构 “是” 的答案的可能性较高。此外,问题的表述方式可能会暗示答案为 “是”,进一步增加了虚构答案的风险。
针对这一问题,可以让 LLM 从原文生成开放式问题,即 “复杂问题”,并为每个问题赋予重要性评分。在评估时,使用另一个 LLM 对基于摘要生成的答案与基于原文生成的参考答案进行 0 - 5 分的相似度评分,并给出解释,以此来更准确地评估覆盖率。
(二)对齐度评估问题
在对齐度评估中,从原文提取事实的过程存在缺陷。当前,使用 LLM 从原文提取事实列表时,会导致部分事实被遗漏。而且,LLM 生成的事实列表具有不确定性,这会导致对齐度分数波动较大,无法公平地评判摘要的忠实性。例如,即使摘要中的某个细节在原文中存在,但如果未被提取到事实列表中,也可能被误判为不忠实。
为解决这一问题,可将整个原文输入到评估摘要声明的 LLM 中,而不是仅输入提取的事实列表。这样,在一次 LLM 调用中评估所有声明,既能保证评估的准确性,又不会显著增加令牌成本。
(三)最终分数计算问题
目前,最终分数取对齐度和覆盖率分数中的最小值,这可能会导致问题。由于覆盖率分数通常较低,即使对齐度分数发生较大变化(如从 1 降至 0.8),也可能不会影响最终分数。然而,对齐度分数的下降可能意味着摘要存在严重问题,如虚构声明。
为解决此问题,可以将最终分数改为 F1 分数,类似于机器学习分类中的 F1 分数计算方式,以综合考虑精确率和召回率的重要性。还可以根据实际需求调整精确率和召回率的权重,例如,若非常重视避免虚构信息,则可以提高精确率的权重。
六、综合评估指标体系的构建
在改进 DeepEval 摘要评估指标的基础上,可以进一步构建一个综合评估指标体系。除了上述改进的相关性和忠实性评估指标外,还应纳入简洁性和连贯性评估指标。
(一)简洁性评估指标
-
实体密度
通过计算摘要中实体数量与词元数量的比值,得到实体密度。与理想的实体密度 0.15 进行比较,对偏离该值的摘要进行惩罚。当实体密度过高时,摘要可能过于复杂;实体密度过低,则可能信息不足。
-
句子模糊度
将摘要拆分为句子,使用 LLM 对每个句子进行分类,判断其是否模糊。模糊句子是指未直接提及主要观点、使用模糊表述的句子。最终以模糊句子在总句子中的比例作为句子模糊度分数,该分数越高,说明摘要中模糊信息越多,简洁性越差。
-
重复性
利用 GEval 工具,以 LLM 作为评判器,判断摘要中是否存在不必要的重复信息。若存在重复的事实或主要观点,则认为摘要存在问题。在实际应用中,由于 LLM 的回答可能不稳定,需要进行提示工程优化,以提高评估的准确性。
(二)连贯性评估指标
采用平均余弦相似度方法,计算每第 n 个句子和第 n+2 个句子之间的平均余弦相似度。通过将句子转换为向量,计算向量之间的余弦相似度,进而得到连贯性分数。该分数越高,表明摘要中句子之间的逻辑联系越紧密,连贯性越好。
将这些评估指标整合为自定义指标后,可以在数据集上并行评估,一次性获取所有结果。但需要注意的是,对于一些指标,如连贯性和召回率,目前难以确定其对于摘要的 “最优” 值,只能通过比较不同 AI 生成摘要的分数来判断其优劣。
评估 LLM 摘要生成能力是一个复杂且具有挑战性的任务,需要综合考虑多个方面的因素。从摘要的相关性、简洁性、连贯性和忠实性等特质出发,改进现有评估指标,构建综合评估体系,能够更准确地评估 LLM 摘要的质量。然而,目前的评估方法仍存在一些不足之处,如部分指标缺乏明确的最优值,评估结果可能受到 LLM 本身的不确定性影响等。
未来,随着自然语言处理技术的不断发展,有望出现更先进的评估方法和技术。一方面,可以进一步优化评估指标,结合更多语义理解和上下文信息,提高评估的准确性;另一方面,探索更有效的数据集创建方法,减少人工标注的工作量,提高标注质量。还可以研究如何更好地利用多模态(MiniCPM-o 2.6:开源大型语言模型在多模态任务上超越GPT-4o和Claude 3.5)信息,如图片、音频等,辅助评估摘要质量。