https://arxiv.org/pdf/2103.14470https://arxiv.org/pdf/2103.14470
1.概述
- 背景:传统的关键信息提取方法依赖于模板匹配,这使它们难以泛化到未见过的模板,且对文本识别错误不够鲁棒。
- SDMG-R方法:提出一种端到端的双模态图推理方法,通过构建双模态图(视觉和文本特征),并在图节点之间迭代传递信息以推理分类。
其具体流程为:
- 图模型:将文档图像建模为图,图的节点代表检测到的文本区域,节点间的边表示空间关系。
- 特征学习:每个节点通过循环神经网络(RNN)和卷积神经网络(CNN)学习文本和视觉特征。
- 信息传播:节点特征通过图边迭代传播ÿ