今天给大家介绍一篇论文,VISRAG: VISION-BASED RETRIEVAL-AUGMENTED GENERATION ON MULTI-MODALITY DOCUMENTS [pdf],一种直接的视觉RAG。
-
Source(来源):ICLR2025
-
Summary: (文献方向归纳 )多模态RAG
-
Motivate :VISION+RAG,基于视觉的检索生成方法,旨在解决传统基于文本的检索增强生成系统无法利用多模态文档中的视觉信息问题。
-
Method:和传统基于文本的RAG一样,VISRAG也分为检索阶段和生成阶段,分别叫做VisRAG-Ret和VisRAG-Gen。
-
VisRAG-Ret
VisRAG-Ret使用VLM直接对文档页面进行编码,而不是先解析文档获取文本。因此RAG数据库里面存储的是VLM对各个页面编码的向量。具体来说,文档页面作为图像输入VLM,产生一系列隐藏状态,最终嵌入通过对最后一层VLM隐藏状态进行加权平均池化得到。在用户查询时,同样用这个VLM对用户的Query进行编码,并在RAG数据库中进行查找。
-
VisRAG-Gen。
VisRAG-Gen根据用户查询的和检索到的页面使用VLM生成答案,但是检索到的页面可能有多个,论文里面提出了以下机制来处理多个检索到的页面:- 页面拼接:将所有检索到的页面拼接成一个单一图像,以适应大多数只能接受单张图像的VLM。
- 加权选择:让VLM为每个页面生成答案,并根据多个VLM输出的加权概率选择最终答案。
- 多图像输入的VLM:一些最新的VLM,如MiniCPM-V 2.6和Qwen-VL 2,可以处理多个图像作为输入。
-
总结:这篇论文的做法比较简单,但简单不代表新颖性,VisRAG 的新颖设计突出了直接利用 VLM 而无需中间解析,可以重新定义 RAG 系统的边界。整体思路也很新颖,为多模态RAG提供了一种新的范式。但是,仍有几个疑问:
- 一个是预处理阶段的耗时。因为是要使用VLM对每一个页面进行编码,相较于文本的RAG,编码的时间大大提升。检索的时间应该相差无几,因为都是基于向量做的相似度计算。
- 另外一个是VLM对于图像的编码和query的编码相关的准确性。 RAG知识库是VLM对文档页面进行编码的,检索的时候,是对query进行编码然后在RAG知识库里面做检索的。因此检索的结果的好坏高度依赖VLM对query编码的好坏。虽然论文中使用了图像文本对进行微调,但是还是有这方面的顾虑。