【文档智能】DLAFormer:端到端的解决版式分析、阅读顺序方法

前言

前面文章介绍到,文档智能中版式分析(DLA)(《【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路》)、阅读顺序(《【文档智能】符合人类阅读顺序的文档模型-LayoutReader及非官方权重开源》)都是文档的智能结构识别和解析中非常重要的部分。传统的pipline的形式,首先通过版式分析的方法识别出文档中各个信息区块的位置信息及类别信息,然后通过使用阅读顺序的方法,复原出原始文档中各个区块的阅读顺序。本文介绍一种端到端的解决文档版式分析、阅读顺序的方法-DLAFormer,DLAFormer通过将各种DLA子任务视为关系预测问题,并将这些关系预测标签整合到一个统一的标签空间中,允许使用统一的关系预测模块同时处理多个任务。该方法将所有这些子任务集成到一个单一的模型中。

一、概念

1.1 文档图像(版面)组成


文档版面通常包含以下元素信息:

  • 文本区域:页眉、页脚、标题、段落、页码、脚注、图片标题、表格标题等
  • 表格
  • 公式
  • 图片

1.2 信息区块间的关系类型

文档中存在多种逻辑关系,最常见的是阅读顺序关系。文章定义了三种不同类型的关系:

  • 内部区域关系(Intra-region relationship):在同一个文本区域内,所有相邻文本行之间建立内部区域关系。如果文本区域只包含一行文本,则该文本行的关系被指定为自引用。

    内部区域关系

  • 区域间关系(Inter-region relationship):构建所有表现出逻辑联系的区域对之间的区域间关系。例如,两个相邻段落之间或一个表格与其相应的标题或脚注之间的关系。

  • 逻辑角色关系(Logical role relationship):定义了各种逻辑角色单元,包括标题、小节标题、段落等。由于每个文本区域都被分配了一个逻辑角色,因此在文本区域中的每行文本与其相应的逻辑角色单元之间建立逻辑角色关系。

1.3 问题转化

通过定义信息区块间的关系类型,将DLA的各个子任务(如:文本区域检测、区块分类和阅读顺序预测)转化为关系预测问题。这些不同的关系预测任务的标签被合并到一个统一的标签空间中,使得可以使用统一的模型同时处理这些任务。

二、模型架构

模型架构

DLAFormer是一个基于Transformer的端到端方法,用于文档布局分析。它遵循DETR模型架构,包含以下几个主要组件:

  • Backbone网络:用于从文档图像中提取多尺度特征。
  • Transformer Encoder:处理输入特征并生成位置编码。
  • Transformer Decoder:使用参考框和类别标签来处理潜在的图形对象提议。
  • 统一关系预测头:用于同时处理多种关系预测任务。
  • 粗到细检测头:用于精确识别文档图像中的图形页面对象。

2.1 Type-wise Query Selection

在传统的DETR及其变体中,解码器的查询通常是静态的嵌入向量,它们在训练过程中学习,但不包含来自编码器的多尺度特征。这可能导致解码器在处理特定图像时缺乏对特征的适应性。为了解决这个问题,DLAFormer提出了类型感知查询选择策略。该策略利用潜在的类别信息来初始化内容查询,从而使查询能够适应不同类型图形对象的视觉特征。

  • 使用多类别分类器替代辅助检测头中的二分类器,以识别每个选定特征的类别。
  • 初始化查询
    • 位置查询:使用预测的参考框来初始化位置查询。这通常通过将参考框应用于正弦位置编码来实现。
    • 内容查询:根据预测的类别,为每个查询选择相应的特征,这些特征是可学习的,并且与类别相关联。这样,每个查询的内容向量就会根据其类别进行初始化,增强了查询对特定类别特征的捕捉能力。

在DLAFormer中,类型感知查询选择策略通过一个辅助的检测头来实现,该检测头在训练过程中与主模型一起优化。通过这种方式,模型能够学习如何根据编码器特征的类别信息来初始化解码器查询,进而提高模型对文档布局的理解和分析能力。

2.2 Type-wise Query Initialization Module

该模块的目的是标准化不同查询之间的逻辑关系建模,确保解码器输入的统一性。通过为每种类型的查询分配特定的可学习特征来增强模型对不同区域特征的适应性。接收以下三个组件作为输入:

  • 图像目标检测的候选框和类别。
  • 提取的文本行的边界框。
  • 预定义的逻辑角色类型。

该模块为每种类型的查询分配了可学习的特征,并根据类别选择相应的特征来初始化内容查询。

2.3 Unified Relation Prediction Head

统一关系预测头的主要目标是同时处理多种类型的关系预测任务,包括内部区域关系、区域间关系和逻辑角色关系。这种统一处理方式有助于提高模型的效率和效果。关系预测头包含两个模块:

  • 关系预测模块:

    • 文本行查询:文档中的文本行。
    • 区块查询:文档中的图形对象,如表格、图表等。
    • 逻辑角色查询:文档中的逻辑结构单元,如标题、段落、小节等。

    该模块计算文本行/区块查询与逻辑角色查询之间的逻辑关系得分。使用两个全连接层( F C q r FC^{r}_q FCqr F C k r FC^{r}_k FCkr)来映射查询的特征,并通过点积操作计算关系得分。

  • 关系分类模块:

    使用BiLinear分类器来计算不同关系类型上的概率分布。

三、实验

3.1 版式分析

3.2 阅读顺序

总结

DLAFormer的方法挺有趣的,将多个子任务集成到单一模型中,通过统一的关系预测框架来解决文档版式分析和阅读顺序的问题。

参考文献

DLAFormer: An End-to-End Transformer For Document Layout Analysis,https://arxiv.org/abs/2405.11757

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/363846.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Camera Raw:编辑 - 曲线

Camera Raw “编辑”模块中的曲线 Curve面板提供了曲线这一强大的工具,通过精确控制亮度和对比度,以及调整红、绿、蓝通道的曲线,可以显著提升图像的视觉效果和色彩表现。这些调整工具为摄影师和图像编辑者提供了丰富的创意可能性&#xff0c…

SmartEDA革新来袭:融合Multisim与Proteus精髓,引领电子设计新纪元!

在电子设计领域,每一次技术的革新都如同春风化雨,滋润着设计师们的心田。今天,我们迎来了一个划时代的电子设计自动化(EDA)工具——SmartEDA,它不仅融合了业界知名的Multisim和Proteus的精华,更…

AIGC->基于扩散模型的图像生成算法 (课程大纲)

https://edu.csdn.net/course/detail/39618?spm=1001.2014.3001.5507https://edu.csdn.net/course/detail/39618?spm=1001.2014.3001.5507 课程特色是围绕着工作中AIGC文生图的具体用途来对文生图领域进行一个高屋建瓴式的分析,结合具体的应用,尤其是产业界的具体实用场景,…

Pycharm一些问题解决办法

研究生期间遇到关于Pycharm一些问题报错以及解决办法的汇总 ModuleNotFoundError: No module named sklearn’ 安装机器学习库,需要注意报错的sklearn是scikit-learn缩写。 pip install scikit-learnPyCharm 导包提示 unresolved reference 描述:模块…

RedHat9 | podman容器

1、容器技术介绍 传统问题 应用程序和依赖需要一起安装在物理主机或虚拟机上的操作系统应用程序版本比当前操作系统安装的版本更低或更新两个应用程序可能需要某一软件的不同版本,彼此版本之间不兼容 解决方式 将应用程序打包并部署为容器容器是与系统的其他部分…

[C#][opencvsharp]C#使用opencvsharp进行年龄和性别预测支持视频图片检测

使用 OpenCVSharp 来调用 age_net.caffemodel 和 gender_net.caffemodel 来进行性别和年龄预测涉及几个步骤。以下是一个简化的流程和示例文案: 1. 准备工作 确保你已经安装了 OpenCVSharp 和相关的依赖项。确保你有 age_net.prototxt、age_net.caffemodel、gende…

合并排序的数组

题目链接 合并排序的数组 题目描述 注意点 A的末端有足够的缓冲空间容纳BA和B都是排序的 解答思路 最初想到的是双指针,从小到大找到合并B时应该A相应位置应该插入的元素,因为在插入的过程中B的元素会替换A原有位置的元素,所以需要先将A…

基于Vue,mysql,JavaEE的简单投票与投票管理系统

项目介绍 ​ 本项目,基于Vue2.6,mysql,JavaEE 实现简单的投票与投票管理系统 项目地址 VotingSystem: 投票系统1.0 管理员和普通用户 (gitee.com) 有问题请评论私聊哦 项目分类 数据库 创建投票人,被投票人,投票关系(追踪谁…

Qt源码分析:窗体绘制与响应

作为一套开源的UI代码库,窗体绘制与响应自然是最为基本的功能。在前面的博文中,已就Qt中的元对象系统(反射机制)、事件循环等基础内容进行了分析,并捎带阐述了窗体响应相关的内容。因此,本文着重分析Qt中窗体绘制相关的内容。 注…

动手学深度学习(Pytorch版)代码实践 -卷积神经网络-28批量规范化

28批量规范化 """可持续加速深层网络的收敛速度""" import torch from torch import nn import liliPytorch as lp import matplotlib.pyplot as pltdef batch_norm(X, gamma, beta, moving_mean, moving_var, eps, momentum):""&quo…

算法题 — 接雨水

给定 n 给非负整数,表示每个宽度为 1 的柱子的高度图,计算按照此排列的柱子,下雨之后能能接到多少雨水。 输入:height [0, 1, 0, 2, 1, 0, 1, 3, 2, 1, 2, 1] 输出:6 解释:上面是由数组 [0, 1, 0, 2, 1,…

算法基础--------【图论】

图论(待完善) DFS:和回溯差不多 BFS:进while进行层序遍历 定义: 图论(Graph Theory)是研究图及其相关问题的数学理论。图由节点(顶点)和连接这些节点的边组成。图论的研究范围广泛,涉及路径、…

【日记】现在的孩子真是不怕大人呢(1975 字)

正文 时间太晚了,而且想写的内容有点多,就不写在日记本上了。 不过说内容多,其实也只有两件事情。其他的就一笔带过吧。一件关于灵,另一件事关于遇见的孩子。 首先说说工作,今天真的如昨天预料的那样,特别忙…

基于Pico和MicroPython点亮ws2812彩色灯带

基于Pico和MicroPython点亮ws2812彩色灯带 文章目录 基于Pico和MicroPython点亮ws2812彩色灯带IntroductionPracticeConclusion Introduction 点亮发光的LED灯是简单有趣的实验,点亮多个ws2812小灯串联起来的灯带,可对多个彩色小灯进行编程,…

软件测试之接口测试(Postman/Jmeter)

🍅 视频学习:文末有免费的配套视频可观看 🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 一、什么是接口测试 通常做的接口测试指的是系统对外的接口,比如你需要从别的系统来…

cartographer从入门到精通(一):cartographer介绍

一、cartographer重要文档 有关cartographer的资料有2个比较重要的网站,我们的介绍也是基于这两个网站,其中会加入自己的一些理解,后续也有一些对代码的修改,来实现我们想完善的功能。 1-Cartographer 2-Cartographer ROS 第1个…

融资担保行业数字化转型探索与实践

融资担保行业数字化转型探索与实践 随着全球经济的快速发展和科技的不断进步,数字化转型已成为各行各业提升竞争力和实现可持续发展的必然选择。融资担保行业作为金融体系中的重要组成部分,也在积极探索和实践数字化转型,以更好地服务中小微企…

小时候的子弹击中了现在的我-hive进阶:案例解析(第18天)

系列文章目录 一、Hive表操作 二、数据导入和导出 三、分区表 四、官方文档(了解) 五、分桶表(熟悉) 六、复杂类型(熟悉) 七、Hive乱码解决(操作。可以不做,不影响) 八、…

图像大模型中的注意力和因果掩码

AIM — 图像领域中 LLM 的对应物。尽管 iGPT 已经存在 2 年多了,但自回归尚未得到充分探索。在本文中,作者表明,当使用 AIM 对网络进行预训练时,一组图像数据集上的下游任务的平均准确率会随着数据和参数的增加而线性增加。 要运…

已解决javax.xml.bind.MarshalException:在RMI中,参数或返回值无法被编组的正确解决方法,亲测有效!!!

已解决javax.xml.bind.MarshalException:在RMI中,参数或返回值无法被编组的正确解决方法,亲测有效!!! 目录 问题分析 出现问题的场景 服务器端代码 客户端代码 报错原因 解决思路 解决方法 1. 实现…