本文介绍了一种名为DocFormerv2的多模态Transformer模型,它专为视觉文档理解(VDU)而设计。该模型可以处理视觉、语言和空间特征,利用编码器-解码器架构,并通过不对称地使用新颖的无监督任务进行预训练,以促进不同模态间局部特征的对齐。实验结果表明,DocFormerv2在包括表格事实验证、信息抽取和文档VQA在内的多个基准测试中表现优异,甚至在某些任务上超过了规模更大的模型。此外,详尽的消融研究表明,其预训练过程使得DocFormerv2在VDU领域内比现有技术更好地理解多种模态的信息。
1 DocFormer2
(1)模型架构:
DocFormerv2是一个多模态Transformer模型,专门用于视觉文档理解(Visual Document Understanding, VDU)。
它是一个编码器-解码器结构的Transformer,能够接收视觉、语言和空间特征作为输入。
(2)预训练策略:
DocFormerv2采用了非对称的无监督任务来进行预训练,即编码器部分使用两个新颖的文档任务,而自回归解码器则使用另一个任务。
预训练任务旨在确保模型能够鼓励多模态间的局部特征对齐。
(3)性能表现:
在九个不同的数据集上评估,DocFormerv2显示了优于强大基线的表现,例如在TabFact、InfoVQA、FUNSD等任务上分别提升了4.3%、1.4%、1%的性能。
对于涉及场景文本的三个视觉问答任务(VQA),DocFormerv2不仅超越了先前同样大小的模型,甚至在某些任务上还优于更大规模的模型,如GIT2、PaLi和Flamingo。
2 结语
文章介绍了DocFormerv2,一种用于视觉文档理解的多模态Transformer模型,通过结合视觉、语言和空间特征,并采用精心设计的无监督任务进行预训练,以实现对多模态信息的更好理解,在多个数据集上展示了最先进的性能。
论文题目: DocFormerv2: Local Features for Document Understanding
论文链接: https://arxiv.org/abs/2306.01733
PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!