理解 RAG 第四部分:RAGA 和其他评估框架

检索增强生成(RAG) 在扩展独立大型语言模型(LLM)的限制和克服其诸多局限性方面发挥了关键作用。通过整合检索器,RAG 提高了响应相关性和事实准确性:它只需实时利用外部知识源(如矢量文档库),并在原始用户查询或提示中添加相关上下文信息,然后将其传递给 LLM 进行输出生成过程。

对于那些深入研究 RAG 领域的人来说,一个自然的问题出现了:我们如何评估这些远非简单的系统?

为此,存在几个框架,例如DeepEval,它提供了超过 14 种评估指标来评估幻觉和真实性等标准;MLflow LLM Evaluate以其模块化和简单性而闻名,支持在自定义管道内进行评估;RAGAs专注于定义 RAG 管道,提供真实性和上下文相关性等指标来计算综合的 RAGAs 质量得分。

以下是这三个框架的摘要:

了解 RAGA

RAGA(检索增强生成评估的缩写)被认为是评估 LLM 应用程序的最佳工具包之一。它以最简单的方式成功评估了(即检索器和生成器)的性能——既可以单独评估,也可以作为单个管道联合评估。

RAGA 的核心要素是其指标驱动开发(MDD) 方法,该方法依靠数据做出明智的系统决策。MDD 需要持续监控一段时间内的重要指标,从而清晰地了解应用程序的性能。除了允许开发人员评估他们的 LLM/RAG 应用程序并进行指标辅助实验外,MDD 方法还与应用程序可重复性非常契合。

RAGA 组件

  • 提示对象:定义提示的结构和内容的组件,用于引出语言模型生成的响应。通过遵循一致且清晰的提示,它有助于准确的评估。
  • 评估样本:封装用户查询、生成的响应以及参考响应或基本事实的单个数据实例(类似于 ROUGE、BLEU 和 METEOR 等 LLM 指标)。它是评估 RAG 系统性能的基本单元。
  • 评估数据集:一组评估样本,用于基于各种指标更系统地评估整个 RAG 系统的性能。旨在全面评估系统的有效性和可靠性。

RAGA 指标

RAGAs 提供了配置 RAG 系统指标的功能,通过定义检索器和生成器的特定指标,并将它们混合成整体 RAGAs 分数,如以下直观示例所示:

RAGA 评分

 图片来源:RAGAs 文档

让我们来了解一下事物检索和生成方面的一些最常见的指标。

检索性能指标:

  • 上下文召回率:召回率衡量从知识库中检索到的相关文档在真实 top-k 结果中所占的比例,即检索到多少与回答提示最相关的文档?它的计算方法是将检索到的相关文档数量除以相关文档总数。
  • 上下文精度:在检索到的文档中,有多少文档与提示相关,而不是噪音?上下文精度回答了这个问题,其计算方法是将相关检索到的文档数除以检索到的文档总数。

生成性能指标:

  • 忠实度:它评估生成的响应是否与检索到的证据相符,换句话说,就是响应的事实准确性。这通常通过比较响应和检索到的文档来完成。
  • 语境相关性:此指标决定了生成的响应与查询的相关性。它通常基于人工判​​断或通过自动语义相似性评分(例如余弦相似性)计算得出。

作为连接 RAG 系统两个方面(检索和生成)的示例指标,我们有:

  • 上下文利用率:这评估了 RAG 系统如何有效地利用检索到的上下文来生成其响应。即使检索器获取了出色的上下文(高精度和召回率),生成器性能较差也可能无法有效地使用它,因此提出了上下文利用率来捕捉这种细微差别。

在 RAGAs 框架中,各个指标组合起来计算出一个整体 RAGAs 分数,该分数全面量化了 RAG 系统的性能。计算此分数的过程包括选择相关指标并计算它们,将它们标准化为在同一范围内移动(通常为 0-1),并计算指标的加权平均值。权重是根据每个用例的优先级分配的,例如,对于需要高度事实准确性的系统,您可能希望优先考虑忠实度而不是召回率。

您可以在此处找到更多有关 RAGA 指标及其通过 Python 示例进行计算的信息。

总结

 
本文介绍并概述了 RAGA:这是一种流行的评估框架,用于从信息检索和文本生成的角度系统地衡量 RAG 系统性能的多个方面。了解此框架的关键元素是掌握其实际用途以利用高性能 RAG 应用程序的第一步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/36851.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于视觉的核桃分级与套膜装置研究(大纲)

基于视觉的核桃分级与套膜装置研究:从设计到实现的完整指南 (SolidWorks、OpenCV、STM32开发实践) 🌟 项目背景与目标 1.1 为什么选择视觉分级与套膜? 产业痛点: 中国核桃年产量全球第一,但…

蓝桥杯2023年第十四届省赛真题-子矩阵

题目来自DOTCPP: 暴力思路(两个测试点超时): 题目要求我们求出子矩阵的最大值和最小值的乘积,我们可以枚举矩阵中的所有点,以这个点为其子矩阵的左上顶点,然后判断一下能不能构成子矩阵。如果可…

系统思考—啤酒游戏经营决策沙盘模拟

再次感谢文华学院的邀请,为经纬集团管理层带来 《啤酒游戏经营决策沙盘》! 很多朋友问:“最近是不是啤酒游戏上的少了?” 其实,真正的关键不是游戏本身,而是——如何让大家真正看见复杂系统中的隐性结构。 …

Linux 驱动开发笔记--1.驱动开发的引入

1.引入 Linux内核的整体架构本就非常庞大,其包含的组件也非常多。而我们怎样把需要的部分都包含在内核中呢? 一种方法是把所有需要的功能都编译到Linux内核中。这会导致两个问题,一是生成的内核会很大,二是如果我们要在现有的内核中新增或删…

跨域问题确认及处理

背景如下: 近期在做的项目中,有个奇怪的需求,需要在JSP项目中嵌套一个VUE项目,原因是:JSP项目是在运且不大方便重构的一个项目,新需求又想为了未来着想做一套单独的项目,无奈只能嵌套。 当项目开…

Qwen2.5-VL 开源视觉大模型,模型体验、下载、推理、微调、部署实战

一、Qwen2.5-VL 简介 Qwen2.5-VL,Qwen 模型家族的旗舰视觉语言模型,比 Qwen2-VL 实现了巨大的飞跃。 欢迎访问 Qwen Chat (Qwen Chat)并选择 Qwen2.5-VL-72B-Instruct 进行体验。 1. 主要增强功能 1)直观地理解事物&…

实时监控、数据分析!Web-Check构建你的网站健康检测系统实操方案

文章目录 前言1.关于Web-Check2.功能特点3.安装Docker4.创建并启动Web-Check容器5.本地访问测试6.公网远程访问本地Web-Check7.内网穿透工具安装8.创建远程连接公网地址9.使用固定公网地址远程访问 前言 在数字化运维领域,网站稳定性保障始终是开发者和运维团队的核…

为什么在外置容器时要保证打包方式是war包?

目录 1. 符合Java EE标准 2. 打包结构清晰 3. 便于部署 4. 支持热部署 5. 与Spring Boot的对比 示例:将Spring Boot应用打包为WAR文件 在传统的Java Web应用开发中,当使用外置容器(如Tomcat、Jetty等)部署应用时&#xff0c…

【大语言模型_8】vllm启动的模型通过fastapi封装增加api-key验证

背景: vllm推理框架启动模型不具备api-key验证。需借助fastapi可以实现该功能 代码实现: rom fastapi import FastAPI, Header, HTTPException, Request,Response import httpx import logging# 创建 FastAPI 应用 app FastAPI() logging.basicConfig(…

【Linux】快速上手Makeflie CMake

🦄个人主页:修修修也 🎏所属专栏:Linux ⚙️操作环境:Xshell (操作系统:Ubuntu 22.04 server 64bit) 目录 快速上手Makefile 基本结构 变量 自动变量 常用目标 快速上手CMake CMake与Makefile的关系 CMake的使用步骤 常用命令 (1) 基本配置 (2) 变量与选…

智能蔬菜收获移动平台设计(大纲)

智能蔬菜收获移动平台设计 基于视觉识别与机械臂协同的自动化采摘系统 第一章 绪论 1.1 研究背景与意义 农业自动化需求: 人力成本高、采摘效率低(尤其在温室、大棚等复杂环境)传统机械采摘易造成蔬菜损伤,缺乏柔性化能力 技…

Java 实现排序算法 TopK 问题

1. 低级排序 &#xff08;1&#xff09;冒泡排序&#xff08;Bubble Sort&#xff09; 思路&#xff1a; 每次从左到右冒泡&#xff0c;把最大的数推到最后。 public class BubbleSort {public static void bubbleSort(int[] arr) {int n arr.length;for (int i 0; i <…

函数的介绍

1.函数的概念 在C语言中也有函数的概念&#xff0c;有些翻译为&#xff1a;子程序&#xff0c;这种翻译更为准确。C语言的函数就是一个完成某项特定的任务的一小段代码。这段代码是有特殊的写法和调用方法的。 C语言的程序其实是有无数个小的函数组合而成的&#xff0c;也可以…

MES汽车零部件制造生产监控看板大屏

废话不多说&#xff0c;直接上效果 预览效果请在大的显示器查看&#xff0c;笔记本可能有点变形 MES汽车零部件制造生产监控看板大屏 纯html写的项目结构如下 主要代码分享 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UT…

JS—原型与原型链:2分钟掌握原型链

个人博客&#xff1a;haichenyi.com。感谢关注 一. 目录 一–目录二–原型三–原型链 二. 原型 什么是原型&#xff1f; 每个JavaScript对象都有一个原型&#xff0c;这个原型也是一个对象。比方说 function Person(name) {this.name name; } let person new Person(&quo…

TCP 协议

文章目录 TCP 协议简介数据包格式TCP的特性连接机制确认与重传缓冲机制全双工通信流量控制差错控制拥塞控制 端口号三次握手数据传输四次挥手抓包参考 本文为笔者学习以太网对网上资料归纳整理所做的笔记&#xff0c;文末均附有参考链接&#xff0c;如侵权&#xff0c;请联系删…

二分查找的应用

什么时候用二分查找&#xff1f; 数据具有二段性的时候 第一题&#xff1a; 题解代码&#xff1a; class Solution { public:int search(vector<int>& nums, int target) {int left 0,right nums.size()-1;while(left<right){int mid left (right-left)/2;//中…

cmake 之 CMakeLists.txt 中的函数是从哪里来的

我们都知道&#xff0c;cmake会解释执行 CMakeLists.txt 以及其他 *.cmake 脚本&#xff0c; 这里先给出一个“先验” 的知识点&#xff1a; 任何一个独立脚本或脚本函数命令的执行&#xff0c;都是通过 CPP 函数 RunListFile(...) 调用的 void cmMakefile::RunListFile(cmL…

QT 实现信号源实时采集功能支持频谱图,瀑布图显示

利用QT实现信号源实时采集功能&#xff0c;先看效果 支持双光标显示 &#xff0c;功率测量&#xff0c;带宽测量&#xff0c;载噪比测量&#xff0c;波形框选&#xff0c;水平移动等功能&#xff0c;下载链接 https://download.csdn.net/download/ZuoYueXian/90501632 实现方…

【Kafka】深入了解Kafka

集群的成员关系 Kafka使用Zookeeper维护集群的成员信息。 每一个broker都有一个唯一的标识&#xff0c;这个标识可以在配置文件中指定&#xff0c;也可以自动生成。当broker在启动时通过创建Zookeeper的临时节点把自己的ID注册到Zookeeper中。broker、控制器和其他一些动态系…