评估大模型(LLM)摘要生成能力:方法、挑战与策略

大语言模型(LLMs)有着强大的摘要生成能力,为信息快速提取和处理提供了便利。从新闻文章的快速概览到学术文献的要点提炼,LLMs 生成的摘要广泛应用于各个场景。然而,准确评估这些摘要的质量却颇具挑战。如何确定一个摘要是否精准、简洁且连贯,成为了研究者和开发者亟待解决的问题。本文将深入探讨评估 LLM(Agent-as-a-Judge:AI系统评估新思路) 摘要的多种方法、面临的挑战以及应对策略。

一、评估 LLM 摘要的重要性

随着 LLMs 在摘要生成任务中的应用日益广泛,评估其生成摘要的质量至关重要。优质的摘要能够帮助用户迅速把握文本核心内容,节省大量阅读时间。在学术研究中,研究者可以通过准确的文献摘要快速筛选相关资料;在商业领域,决策者能够依据精准的行业报告摘要做出明智的决策。相反,低质量的摘要可能会误导用户,导致信息获取错误,甚至影响决策的准确性。准确评估 LLM 摘要(RAG(Retrieval-Augmented Generation)评测:评估LLM中的幻觉现象),不仅有助于用户选择更可靠的摘要工具,还能推动 LLMs 自身的优化与改进,促进自然语言处理技术的发展。

二、评估 LLM 摘要的难点

(一)摘要输出的开放性与主观性

与分类、实体提取等任务不同,摘要的输出具有开放性。一个好的摘要取决于流畅性、连贯性和一致性等定性指标,而这些指标难以进行定量测量。例如,摘要的相关性在很大程度上依赖于具体语境和受众需求。对于专业人士而言,与专业知识紧密相关的内容才是关键;而普通读者可能更关注通俗易懂的信息。这种主观性使得评估标准难以统一,增加了评估的难度。

(二)缺乏高质量的标注数据集

在评估 LLM 摘要时,创建用于对比的金标准数据集十分困难。以检索增强生成(RAG)为例,可以通过合成问答对的方式轻松创建数据集来评估检索器。但对于摘要生成任务,自动生成参考摘要并非易事,往往需要人工标注。虽然已有研究人员整理了一些摘要数据集,但这些数据集可能无法满足特定应用场景的需求,导致评估结果与实际应用存在偏差。

(三)现有评估指标的局限性

学术文献中的许多摘要评估指标并不适用于实际开发场景。一些基于神经网络训练的评估指标,如 Seahorse、Summac 等,模型体积庞大,运行成本高昂,难以大规模应用。而传统的评估指标,如 BLEU 和 ROUGE,主要基于精确的单词或短语匹配,适用于抽取式摘要评估。在面对 LLMs 生成的抽象式摘要时,由于这类摘要可能会对原文进行改写和重新表述,这些传统指标的评估效果不佳。

三、优秀摘要的关键特质

尽管评估 LLM 摘要存在诸多困难,但一个优秀的摘要通常具备以下关键特质:

(一)相关性

摘要应保留原文的重要观点和细节,能够准确反映原文的核心内容。在评估时,可以从精确率和召回率的角度考虑,即摘要中保留了多少原文的事实(召回率),以及摘要中的事实有多少能在原文中得到支持(精确率)。在保持摘要长度一定的情况下,召回率越高越好,但不能为了追求高召回率而使摘要长度与原文相近;同时,精确率应尽可能接近 100%,以避免生成虚假信息。

(二)简洁性

优秀的摘要信息密度高,不会多次重复相同观点,语言简洁明了。在实际评估中,可以通过实体密度这一指标来衡量。研究表明,人工创建的摘要以及人们偏好的 AI 生成摘要,实体密度约为 0.15 个实体 / 词元。偏离这一数值的摘要,无论是密度过高还是过低,都可能存在问题。可以通过计算摘要的实体密度,并与理想值进行比较,对偏离理想值的摘要进行惩罚。还可以使用句子模糊度指标,对模糊、未明确表述关键信息的句子进行惩罚,以确保摘要简洁有效。

(三)连贯性

摘要应结构合理、逻辑清晰,易于理解,而不是简单地堆砌压缩后的事实。在评估连贯性时,可以采用平均余弦相似度的方法,计算每第 n 个句子和第 n+2 个句子之间的平均余弦相似度。该数值越高,表明摘要的连贯性越好。通过这种方式,可以从量化的角度对摘要的连贯性进行评估。

(四)忠实性

摘要不能虚构原文未提及的信息,必须忠实于原文内容。在评估过程中,需要确保摘要中的所有信息都能在原文中找到依据,避免出现虚假信息,这对于保证摘要的可靠性至关重要。

四、DeepEval 框架及其摘要评估指标

DeepEval 是一个用户友好的 LLM 评估框架,在摘要评估方面具有一定的优势。它提供了许多关键 RAG 指标的现成实现,并且拥有灵活的基于思维链的 LLM 评判工具 GEval,方便用户定义自定义标准。其基础设施有助于组织和加速评估过程,能够快速在整个数据集上运行评估。

DeepEval 的摘要评估指标是一种无参考指标,只需输入原文和待评估的生成摘要。该指标实际上评估了两个关键部分:对齐度和覆盖率。在对齐度评估中,评估器 LLM 会从摘要中生成一系列声明,并判断这些声明在从原文提取的事实中得到支持的数量,从而得出对齐度分数;在覆盖率评估中,LLM 会从原文生成一系列评估问题,然后仅依据摘要尝试回答这些问题。若无法找到答案,则提示 “idk”,最后根据回答正确的问题数量得出覆盖率分数。最终的摘要分数为对齐度和覆盖率分数中的最小值。

五、改进 DeepEval 的摘要评估指标

尽管 DeepEval 的摘要评估指标提供了一个良好的起点,但仍存在一些问题,影响了评估的可靠性和有效性。

(一)覆盖率评估问题

当前,覆盖率评估中的问题被限制为是非问题,这种方式存在局限性。一方面,二元的是非问题限制了信息的表达,难以确定细微的定性要点;另一方面,若回答问题的 LLM 虚构了 “是” 的答案,评估器可能会错误地认为回答正确。因为在只有 “是”“否”“idk” 三种可能答案的情况下,虚构 “是” 的答案的可能性较高。此外,问题的表述方式可能会暗示答案为 “是”,进一步增加了虚构答案的风险。

针对这一问题,可以让 LLM 从原文生成开放式问题,即 “复杂问题”,并为每个问题赋予重要性评分。在评估时,使用另一个 LLM 对基于摘要生成的答案与基于原文生成的参考答案进行 0 - 5 分的相似度评分,并给出解释,以此来更准确地评估覆盖率。

(二)对齐度评估问题

在对齐度评估中,从原文提取事实的过程存在缺陷。当前,使用 LLM 从原文提取事实列表时,会导致部分事实被遗漏。而且,LLM 生成的事实列表具有不确定性,这会导致对齐度分数波动较大,无法公平地评判摘要的忠实性。例如,即使摘要中的某个细节在原文中存在,但如果未被提取到事实列表中,也可能被误判为不忠实。

为解决这一问题,可将整个原文输入到评估摘要声明的 LLM 中,而不是仅输入提取的事实列表。这样,在一次 LLM 调用中评估所有声明,既能保证评估的准确性,又不会显著增加令牌成本。

(三)最终分数计算问题

目前,最终分数取对齐度和覆盖率分数中的最小值,这可能会导致问题。由于覆盖率分数通常较低,即使对齐度分数发生较大变化(如从 1 降至 0.8),也可能不会影响最终分数。然而,对齐度分数的下降可能意味着摘要存在严重问题,如虚构声明。

为解决此问题,可以将最终分数改为 F1 分数,类似于机器学习分类中的 F1 分数计算方式,以综合考虑精确率和召回率的重要性。还可以根据实际需求调整精确率和召回率的权重,例如,若非常重视避免虚构信息,则可以提高精确率的权重。

六、综合评估指标体系的构建

在改进 DeepEval 摘要评估指标的基础上,可以进一步构建一个综合评估指标体系。除了上述改进的相关性和忠实性评估指标外,还应纳入简洁性和连贯性评估指标。

(一)简洁性评估指标

  1. 实体密度

    通过计算摘要中实体数量与词元数量的比值,得到实体密度。与理想的实体密度 0.15 进行比较,对偏离该值的摘要进行惩罚。当实体密度过高时,摘要可能过于复杂;实体密度过低,则可能信息不足。

  2. 句子模糊度

    将摘要拆分为句子,使用 LLM 对每个句子进行分类,判断其是否模糊。模糊句子是指未直接提及主要观点、使用模糊表述的句子。最终以模糊句子在总句子中的比例作为句子模糊度分数,该分数越高,说明摘要中模糊信息越多,简洁性越差。

  3. 重复性

    利用 GEval 工具,以 LLM 作为评判器,判断摘要中是否存在不必要的重复信息。若存在重复的事实或主要观点,则认为摘要存在问题。在实际应用中,由于 LLM 的回答可能不稳定,需要进行提示工程优化,以提高评估的准确性。

(二)连贯性评估指标

采用平均余弦相似度方法,计算每第 n 个句子和第 n+2 个句子之间的平均余弦相似度。通过将句子转换为向量,计算向量之间的余弦相似度,进而得到连贯性分数。该分数越高,表明摘要中句子之间的逻辑联系越紧密,连贯性越好。

将这些评估指标整合为自定义指标后,可以在数据集上并行评估,一次性获取所有结果。但需要注意的是,对于一些指标,如连贯性和召回率,目前难以确定其对于摘要的 “最优” 值,只能通过比较不同 AI 生成摘要的分数来判断其优劣。

评估 LLM 摘要生成能力是一个复杂且具有挑战性的任务,需要综合考虑多个方面的因素。从摘要的相关性、简洁性、连贯性和忠实性等特质出发,改进现有评估指标,构建综合评估体系,能够更准确地评估 LLM 摘要的质量。然而,目前的评估方法仍存在一些不足之处,如部分指标缺乏明确的最优值,评估结果可能受到 LLM 本身的不确定性影响等。

未来,随着自然语言处理技术的不断发展,有望出现更先进的评估方法和技术。一方面,可以进一步优化评估指标,结合更多语义理解和上下文信息,提高评估的准确性;另一方面,探索更有效的数据集创建方法,减少人工标注的工作量,提高标注质量。还可以研究如何更好地利用多模态(MiniCPM-o 2.6:开源大型语言模型在多模态任务上超越GPT-4o和Claude 3.5)信息,如图片、音频等,辅助评估摘要质量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/14470.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

dmd-50

dmd-50 一、查壳 无壳,64位 二、IDA分析 main 下面的内容中数据经过R键转换,你就会知道v41的内容,以及是当v41成立时key是有效的。 v41870438d5b6e29db0898bc4f0225935c0 结合上面的函数知道:v41经过MD5解密后是key 注意是…

关于图像锐化的一份介绍

在这篇文章中,我将介绍有关图像锐化有关的知识,具体包括锐化的简单介绍、一阶锐化与二阶锐化等方面内容。 一、锐化 1.1 概念 锐化(sharpening)就是指将图象中灰度差增大的方法,一次来增强物体的轮廓与边缘。因为发…

全程Kali linux---CTFshow misc入门(38-50)

第三十八题: ctfshow{48b722b570c603ef58cc0b83bbf7680d} 第三十九题: 37换成1,36换成0,就得到长度为287的二进制字符串,因为不能被8整除所以,考虑每7位转换一个字符,得到flag。 ctfshow{5281…

vue3学习四

七 标签ref属性 设置标签ref属性&#xff0c;类似于设置标签id。 普通标签 <template name"test4"> <p ref"title" id"title" click"showinfo">VIEW4</p> <View3/><script lang"ts" setup>…

STM32 软件SPI读写W25Q64

接线图 功能函数 //写SS函数 void My_W_SS(uint8_t BitValue) {GPIO_WriteBit(GPIOA, GPIO_Pin_4, (BitAction)BitValue); }//写SCK函数 void My_W_SCK(uint8_t BitValue) {GPIO_WriteBit(GPIOA, GPIO_Pin_5, (BitAction)BitValue); }//写MOSI函数 void My_W_MOSI(uint8_t Bit…

pytest-xdist 进行多进程并发测试

在自动化测试中&#xff0c;运行时间过长往往是令人头疼的问题。你是否遇到过执行 Pytest 测试用例时&#xff0c;整个测试流程缓慢得让人抓狂&#xff1f;别担心&#xff0c;pytest-xdist 正是解决这一问题的利器&#xff01;它支持多进程并发执行&#xff0c;能够显著加快测试…

CLion2024.3.2版中引入vector头文件报错

报错如下&#xff1a; 在MacBook端的CLion中引入#include <vector>报 vector file not found&#xff08;引入map、set等也看参考此方案&#xff09;&#xff0c;首先可以在Settings -> Build,Execution,Deployment -> Toolchains中修改C compiler和C compiler的路…

【RocketMQ 存储】- 同步刷盘和异步刷盘

文章目录 1. 前言2. 概述3. submitFlushRequest 提交刷盘请求4. FlushDiskWatcher 同步刷盘监视器5. 同步刷盘但是不需要等待刷盘结果6. 小结 本文章基于 RocketMQ 4.9.3 1. 前言 RocketMQ 存储部分系列文章&#xff1a; 【RocketMQ 存储】- RocketMQ存储类 MappedFile【Rock…

了解传输层TCP协议

目录 一、TCP协议段格式 二、TCP原理 1.确认应答 2.超时重传 3.连接管理 建立连接 断开连接 4.滑动窗口 5.流量控制 6.拥塞控制 7.延时应答 8.捎带应答 9.面向字节流 10.TCP异常情况 TCP&#xff0c;即Transmission Control Protocol&#xff0c;传输控制协议。人如…

第 26 场 蓝桥入门赛

3.电子舞龙【算法赛】 - 蓝桥云课 问题描述 话说这年头&#xff0c;连舞龙都得电子化&#xff01;这不&#xff0c;蓝桥村的老程序员王大爷突发奇想&#xff0c;用LED灯带和一堆传感器鼓捣出了一条“电子舞龙”&#xff0c;它能根据程序指令在村里的广场上“翩翩起舞”。 广…

老游戏回顾:TL2

TL2是一部ARPG游戏&#xff0c;是TL的续作游戏&#xff0c;由位于美国西雅图的Runic Games开发&#xff0c;游戏于2012年9月20日上市&#xff0c;简体中文版于2013年4月10日在国内上市。 2有非常独特的艺术风格&#xff0c;这些在1中就已经形成&#xff0c;经过升级将使这款游…

前端实现 GIF 图片循环播放

前言 使用 img 加载 GIF 图片&#xff0c;内容只会播放一次&#xff0c;之后就会自动暂停&#xff1b; 通过定时器在一段时间后重新加载图片的方式&#xff0c;会导致浏览器内存不断增大&#xff0c;并且可能会有闪烁、卡顿的问题&#xff1b; ImageDecoder WebCodecs API 的…

1-2 面向对象编程方法

1.0 面向对象编程思维 在面向对象风格中&#xff0c;结构体被看做数据&#xff08;data&#xff09;&#xff0c;而操作数据的函数称作方法&#xff08;method&#xff09;。目前函数 和数据是分离的&#xff0c;函数并不直接操作数据&#xff0c;我们需要拿到函数返回的结果&a…

LVGL4种输入设备详解(触摸、键盘、实体按键、编码器)

lvgl有触摸、键盘、实体按键、编码器四种输入设备 先来分析一下这四种输入设备有什么区别 &#xff08;1&#xff09;LV_INDEV_TYPE_POINTER 主要用于触摸屏 用到哪个输入设备保留哪个其他的也是&#xff0c;保留触摸屏输入的任务注册&#xff0c;其它几种种输入任务的注册&…

让文物“活”起来,以3D数字化技术传承文物历史文化!

文物&#xff0c;作为不可再生的宝贵资源&#xff0c;其任何毁损都是无法逆转的损失。然而&#xff0c;当前文物保护与修复领域仍大量依赖传统技术&#xff0c;同时&#xff0c;文物管理机构和专业团队的力量相对薄弱&#xff0c;亟需引入数字化管理手段以应对挑战。 积木易搭…

如何通过 ESPN API 获取 NBA 球队的赛程表

对于 NBA 爱好者和开发者来说&#xff0c;通过 API 获取球队赛程表是一项非常实用的功能&#xff0c;尤其是如果你正在构建一个应用或网站&#xff0c;需要自动化获取比赛安排的情况下。今天&#xff0c;我将为大家介绍如何通过 ESPN 提供的 API 获取 NBA 球队的赛程表。 1. ES…

LM Studio 部署本地大语言模型

一、下载安装 1.搜索&#xff1a;lm studio LM Studio - Discover, download, and run local LLMs 2.下载 3.安装 4.更改成中文 二、下载模型(软件内下载) 1.选择使用代理&#xff0c;否则无法下载 2.更改模型下载目录 默认下载位置 C:\Users\用户名\.lmstudio\models 3.搜…

【开源免费】基于SpringBoot+Vue.JS智能学习平台系统(JAVA毕业设计)

本文项目编号 T 181 &#xff0c;文末自助获取源码 \color{red}{T181&#xff0c;文末自助获取源码} T181&#xff0c;文末自助获取源码 目录 一、系统介绍二、数据库设计三、配套教程3.1 启动教程3.2 讲解视频3.3 二次开发教程 四、功能截图五、文案资料5.1 选题背景5.2 国内…

【R语言】环境空间

一、环境空间的特点 环境空间是一种特殊类型的变量&#xff0c;它可以像其它变量一样被分配和操作&#xff0c;还可以以参数的形式传递给函数。 R语言中环境空间具有如下3个特点&#xff1a; 1、对象名称唯一性 此特点指的是在不同的环境空间中可以有同名的变量出现&#x…

黑马 Linux零基础快速入门到精通 笔记

初识Linux Linux简介 提及操作系统&#xff0c;我们可能最先想到的是windows和mac&#xff0c;这两者都属于个人桌面操作系统领域&#xff0c;而Linux则属于服务器操作系统领域。无论是后端软件、大数据系统、网页服务等等都需要运行在Linux操作系统上。 Linux是一个开源的操作…