【AI论文】ViDoRAG：通过动态迭代推理代理实现视觉文档检索增强生成

摘要：理解富含视觉信息的文档中的信息，对于传统的检索增强生成（Retrieval-Augmented Generation，RAG）方法来说，仍然是一个重大挑战。现有的基准测试主要集中在基于图像的问答（Question Answering，QA）上，忽视了在密集视觉文档中进行高效检索、理解和推理的根本挑战。为了弥补这一空白，我们推出了ViDoSeek，这是一个新颖的数据集，旨在评估RAG方法在需要复杂推理的富含视觉信息的文档上的性能。基于该数据集，我们发现了当前RAG方法的关键局限性：（i）纯视觉检索方法难以有效整合文本和视觉特征，以及（ii）以往的方法往往分配的推理标记不足，限制了其有效性。为了应对这些挑战，我们提出了ViDoRAG，这是一个专为视觉文档中的复杂推理量身定制的多代理RAG框架。ViDoRAG采用基于高斯混合模型（Gaussian Mixture Model，GMM）的混合策略，以有效处理多模态检索。为了进一步激发模型的推理能力，我们引入了一种迭代代理工作流程，包括探索、总结和反思，为调查RAG领域的测试时扩展提供了一个框架。在ViDoSeek上进行的广泛实验验证了我们的方法的有效性和泛化性。值得注意的是，在竞争激烈的ViDoSeek基准测试中，ViDoRAG的表现超过了现有方法10%以上。Huggingface链接：Paper page，论文链接：2502.18017

一、引言

随着信息表达方式的日益多样化，富含视觉信息的文档（如包含图表、表格、布局等元素的幻灯片）在教育、金融、法律等多个领域得到了广泛应用。这些视觉元素使得信息更加易于理解，但同时也为信息的检索、理解和推理带来了挑战。传统的检索增强生成（Retrieval-Augmented Generation，RAG）方法在处理这类文档时显得力不从心。现有基准测试主要集中在基于图像的问答（Question Answering，QA）上，缺乏对大规模视觉文档高效检索、理解和推理能力的评估。

针对这一问题，本文提出了ViDoSeek数据集，旨在评估RAG方法在需要复杂推理的富含视觉信息的文档上的性能。同时，基于该数据集，本文识别了当前RAG方法的关键局限性，并提出了一种新颖的多代理RAG框架——ViDoRAG，以应对这些挑战。

二、背景与相关工作

1. 视觉文档QA基准测试

视觉文档问答（Visual Document Question Answering）专注于基于文档中的视觉内容来回答问题。虽然现有研究主要集中在从单个图像中回答问题，但随着现代模型上下文长度的增加，多页文档问答也开始受到关注。然而，先前的数据集并不适合涉及大规模文档集合的RAG任务。

2. 检索增强生成

随着大型模型的发展，RAG通过使模型能够利用外部知识来解决问题，从而增强了模型的能力。在以往的研究中，检索通常通过光学字符识别（OCR）技术提取文本进行。近年来，多模态嵌入的兴起极大地改善了图像检索任务。此外，还有工作专注于RAG中的上下文学习。本文的工作在这些发展的基础上，结合了多模态混合检索和粗到细的多代理生成框架，将各种嵌入和生成模型无缝集成到一个可扩展的框架中。

三、ViDoSeek数据集

为了更好地评估RAG系统，本文构建了一个新颖的数据集ViDoSeek，它专为大规模文档集合中的问答设计。

1. 数据集构建流程

ViDoSeek数据集的构建流程包括四个步骤：

文档收集：收集包含25到50页的英文幻灯片，涵盖经济学、技术、文学和地理等12个领域，并筛选出同时包含文本、图表、表格和二维布局（如流程图、图表等）的幻灯片。
查询创建：由专家根据文档内容构建查询，确保每个查询在文档集合中具有唯一答案，并鼓励构建多种形式、不同来源和推理类型的查询，以更好地反映现实世界场景。
质量审查：由于大规模检索和生成任务中仅依赖人工注释具有挑战性，本文提出了一个自动识别问题查询的审查模块。
多模态精炼：对于质量审查中未达标的查询，使用基于视觉语言模型（VLM）的代理进行精炼，确保查询满足特定要求。

2. 数据集分析

ViDoSeek数据集包含约1200个问题，涵盖文本、图表、表格和布局四种关键内容类型，其中布局类型占比最大且最具挑战性。此外，查询被分为单跳和多跳两种推理类型。与现有数据集相比，ViDoSeek提供了更大规模的文档集合和更复杂的推理要求，从而更准确地反映了现实世界场景，有助于对RAG系统进行更稳健和可扩展的评估。