摘要:理解富含视觉信息的文档中的信息,对于传统的检索增强生成(Retrieval-Augmented Generation,RAG)方法来说,仍然是一个重大挑战。现有的基准测试主要集中在基于图像的问答(Question Answering,QA)上,忽视了在密集视觉文档中进行高效检索、理解和推理的根本挑战。为了弥补这一空白,我们推出了ViDoSeek,这是一个新颖的数据集,旨在评估RAG方法在需要复杂推理的富含视觉信息的文档上的性能。基于该数据集,我们发现了当前RAG方法的关键局限性:(i)纯视觉检索方法难以有效整合文本和视觉特征,以及(ii)以往的方法往往分配的推理标记不足,限制了其有效性。为了应对这些挑战,我们提出了ViDoRAG,这是一个专为视觉文档中的复杂推理量身定制的多代理RAG框架。ViDoRAG采用基于高斯混合模型(Gaussian Mixture Model,GMM)的混合策略,以有效处理多模态检索。为了进一步激发模型的推理能力,我们引入了一种迭代代理工作流程,包括探索、总结和反思,为调查RAG领域的测试时扩展提供了一个框架。在ViDoSeek上进行的广泛实验验证了我们的方法的有效性和泛化性。值得注意的是,在竞争激烈的ViDoSeek基准测试中,ViDoRAG的表现超过了现有方法10%以上。Huggingface链接:Paper page,论文链接:2502.18017
一、引言
随着信息表达方式的日益多样化,富含视觉信息的文档(如包含图表、表格、布局等元素的幻灯片)在教育、金融、法律等多个领域得到了广泛应用。这些视觉元素使得信息更加易于理解,但同时也为信息的检索、理解和推理带来了挑战。传统的检索增强生成(Retrieval-Augmented Generation,RAG)方法在处理这类文档时显得力不从心。现有基准测试主要集中在基于图像的问答(Question Answering,QA)上,缺乏对大规模视觉文档高效检索、理解和推理能力的评估。
针对这一问题,本文提出了ViDoSeek数据集,旨在评估RAG方法在需要复杂推理的富含视觉信息的文档上的性能。同时,基于该数据集,本文识别了当前RAG方法的关键局限性,并提出了一种新颖的多代理RAG框架——ViDoRAG,以应对这些挑战。
二、背景与相关工作
1. 视觉文档QA基准测试
视觉文档问答(Visual Document Question Answering)专注于基于文档中的视觉内容来回答问题。虽然现有研究主要集中在从单个图像中回答问题,但随着现代模型上下文长度的增加,多页文档问答也开始受到关注。然而,先前的数据集并不适合涉及大规模文档集合的RAG任务。
2. 检索增强生成
随着大型模型的发展,RAG通过使模型能够利用外部知识来解决问题,从而增强了模型的能力。在以往的研究中,检索通常通过光学字符识别(OCR)技术提取文本进行。近年来,多模态嵌入的兴起极大地改善了图像检索任务。此外,还有工作专注于RAG中的上下文学习。本文的工作在这些发展的基础上,结合了多模态混合检索和粗到细的多代理生成框架,将各种嵌入和生成模型无缝集成到一个可扩展的框架中。
三、ViDoSeek数据集
为了更好地评估RAG系统,本文构建了一个新颖的数据集ViDoSeek,它专为大规模文档集合中的问答设计。
1. 数据集构建流程
ViDoSeek数据集的构建流程包括四个步骤:
- 文档收集:收集包含25到50页的英文幻灯片,涵盖经济学、技术、文学和地理等12个领域,并筛选出同时包含文本、图表、表格和二维布局(如流程图、图表等)的幻灯片。
- 查询创建:由专家根据文档内容构建查询,确保每个查询在文档集合中具有唯一答案,并鼓励构建多种形式、不同来源和推理类型的查询,以更好地反映现实世界场景。
- 质量审查:由于大规模检索和生成任务中仅依赖人工注释具有挑战性,本文提出了一个自动识别问题查询的审查模块。
- 多模态精炼:对于质量审查中未达标的查询,使用基于视觉语言模型(VLM)的代理进行精炼,确保查询满足特定要求。
2. 数据集分析
ViDoSeek数据集包含约1200个问题,涵盖文本、图表、表格和布局四种关键内容类型,其中布局类型占比最大且最具挑战性。此外,查询被分为单跳和多跳两种推理类型。与现有数据集相比,ViDoSeek提供了更大规模的文档集合和更复杂的推理要求,从而更准确地反映了现实世界场景,有助于对RAG系统进行更稳健和可扩展的评估。
四、ViDoRAG框架
为了应对传统RAG方法的局限性,本文提出了ViDoRAG框架,它采用多代理、粗到细的推理过程和多模态检索策略。
1. 多模态混合检索
ViDoRAG通过文本和视觉两条管道进行信息检索,并利用高斯混合模型(GMM)动态确定每个模态的最优top-K值,从而合并两个管道的检索结果。这种方法避免了静态超参数K的局限性,提高了检索效率和生成质量。
- 自适应召回与GMM:通过计算查询与文档集合之间的相似度分布,并利用GMM估计每个模态的高相似度分布先验概率,从而动态确定K值。这种方法确保了只检索最相关的文档,减少了不必要的计算。
- 文本和视觉混合检索:将文本和视觉检索结果进行合并,并通过排序操作保持连续页面的相关性。
2. 多代理迭代推理生成
在生成过程中,ViDoRAG引入了一个由三个代理组成的框架:寻求者代理(Seeker Agent)、检查者代理(Inspector Agent)和回答者代理(Answer Agent)。这些代理以粗到细的方式从多尺度视角提取线索、进行反思并给出答案。
- 寻求者代理:负责从粗略视角选择相关图像,并根据检查者的反馈进行细化。通过定义动作空间为图像选择,并整合检查者的反馈来优化图像选择和内存管理。
- 检查者代理:对图像进行细粒度审查并提供反馈或初步答案。如果当前信息足以回答问题,则提供初步答案和参考图像;否则,提供反馈以指导寻求者更好地选择图像。
- 回答者代理:确保答案的一致性并给出最终答案。通过验证检查者的初步答案与参考图像的一致性来合成最终答案。
五、实验与结果
1. 实验设置
本文在ViDoSeek数据集上进行了广泛实验,以评估ViDoRAG框架的有效性。实验采用了模型评估方法,使用GPT-4o对参考答案与最终答案进行比较并打分,以准确率作为评价指标。同时,还报告了不同检索器的召回性能。
2. 主要结果
实验结果表明,ViDoRAG框架在ViDoSeek基准测试上显著优于现有方法,准确率提高了10%以上。无论是封闭源模型还是开放源模型,ViDoRAG都表现出了良好的性能。特别是在开放源模型中,如Qwen2.5-VL-7B,ViDoRAG显著提升了其指令遵循和推理能力。
此外,实验还分析了不同检索器和生成方法对性能的影响。结果显示,动态检索和混合检索策略的结合能够全面提升端到端性能。同时,尽管多代理框架由于迭代交互而引入了额外的计算开销,但由于生成答案质量的提高,延迟与准确性的权衡对于复杂的RAG任务是有益的。
3. 检索评价
在检索性能方面,ViDoRAG的动态检索策略在保持较高召回率的同时,显著缩短了生成上下文长度,从而提高了生成效率。与静态检索方法相比,动态检索能够更好地平衡延迟和准确性。
4. 生成策略与模态分析
实验还分析了不同模态和生成策略对性能的影响。结果显示,基于视觉的管道在所有类型查询上均优于基于文本的管道,即使在涉及文本内容的查询中也是如此。这表明视觉信息对于模型识别信息之间的内在联系至关重要。
5. 测试时扩展性能
实验还评估了ViDoRAG在测试时的扩展性能。结果显示,性能较强的模型需要较少的推理迭代次数,而较弱的模型则需要更多时间来处理和得出结论。这表明通过预定义任务和将复杂任务分解为更简单的任务是一种有效的扩展推理方法。
六、结论与未来工作
本文提出了ViDoRAG框架,一个专为富含视觉信息的文档设计的多代理RAG框架。通过粗到细的推理过程和多模态检索策略,ViDoRAG显著提高了在大规模文档集合中进行复杂推理的能力。实验结果表明,ViDoRAG在ViDoSeek基准测试上表现优异,准确率提高了10%以上。
然而,本文的工作也存在一些局限性,如查询构建中的潜在偏见、ViDoRAG框架的计算开销以及模型幻觉问题。未来工作将集中在进一步优化框架效率、减少潜在偏见、提高计算效率以及解决模型幻觉问题上,以进一步提升ViDoRAG的鲁棒性和适用性。
七、伦理考虑
本文的数据集构建过程中尊重版权和知识产权权利,且数据集中不包含任何私人或敏感信息。此外,所有内容均来自公开可用的来源。