【文档智能多模态】英伟达ECLAIR-端到端的文档布局提取,并集成阅读顺序方法

笔者在前期一个系列分享了各种文档智能相关的技术方法,可以参考《文档智能系列栏目》,涵盖各种常见方法。
文档智能结构化pipline链路

下面直接看看这个端到端的文档智能结构化方法,供参考。

方法

一、架构

红色三部分组成的模型结构

ECLAIR 采用了一个较大的视觉编码器(657M 参数-ViT-H/16)和一个较轻量级的解码器(279M 参数-mBART)组成端到端的模型,主要为了在推理时提高效率。ECLAIR 包括以下几个组件:

视觉编码器(Vision Encoder)

ECLAIR 的视觉编码器是从 RADIO 模型初始化的,该模型基于 ViT-H/16 架构

  • 输入:视觉编码器的输入是一张图像,表示为 I ∈ R 3 × H × W I \in R^{3 \times H \times W} IR3×H×W,其中 H H H W W W 分别是图像的高度和宽度,3 表示 RGB 通道。
  • 输出:编码器将图像映射到一个潜在表示 Z ∈ R N × d Z \in R^{N \times d} ZRN×d,其中 N N N 是序列长度, d d d 是隐藏维度。

通过视觉编码器,图像被转换为一个序列化的特征向量。

颈部(Neck)

这部分主要是做降维操作,通常使用卷积或其他变换来压缩特征表示,以便更好地适应解码器的输入要求。

解码器(Decoder)

ECLAIR 使用 mBART 解码器,这是一个多语言的 Transformer 解码器。

  • 输入:解码器通过条件化于编码器的潜在表示 N ( Z ) \mathcal{N}(Z) N(Z) 和上下文 $ t_{<i} $ 来预测文本标记 T = { t P + 1 , t P + 2 , … , t L } T = \{t_{P+1}, t_{P+2} , \ldots, t_{L}\} T={tP+1,tP+2,,tL}。这里的 Z = E ( I ) Z = \mathcal{E}(I) Z=E(I) 是编码器的输出,$ {t_{1}, t_{2}, \ldots, t_{P}} $ 是提示标记, L L L 是提示增强后的序列长度。

  • 输出:解码器预测文本标记,这些标记可以是格式化的文本、边界框和语义类别。

二、提示设计

Prompt机制是用于指导模型输出特定类型信息的关键组成部分。用户可以通过提示指定模型输出的格式和内容,实现灵活的输出控制。

ECLAIR的提示是一个三元组(文章中附上了数据合成的方法,感兴趣可以看看,这里不在展开),包含三个选项,每个选项可以有八种可能的组合(忽略没有输出的情况以及请求语义类别但没有相应边界框的情况)。

提示的组成
  1. 输出格式

    • <structured_text>:以 Markdown 格式输出文本,内联公式以 LaTeX 格式表示。
    • <plain_text>:以纯文本格式输出所有内容。
    • <no_text>:不输出文本。
  2. 边界框

    • < bbox > :输出文本块的边界框坐标。
    • <no_bbox>:不输出边界框。
  3. 语义类别

    • < classes >:输出每个文本块的语义类别。
    • < no_classes >:不输出语义类别。
提示的组合

通过不同的组合,ECLAIR 可以生成多种类型的输出。例如:

  • 最大信息提示(MIP):同时输出结构化文本、边界框和语义类别。这是最详细的输出形式。
  • 仅文本提示:只输出结构化文本或纯文本,不输出边界框和语义类别。
  • 仅边界框提示:输出边界框和相应的文本,但不输出语义类别。
  • 最小信息提示:只输出文本,不输出边界框和语义类别。
提示的使用

在训练过程中,ECLAIR 在预训练阶段使用最大信息提示进行训练,以确保模型能够处理所有可能的输出类型。在微调阶段,可以通过减少信息密度来适应具有部分标注的数据集。这种方法允许模型利用多样化的视觉数据进行训练,即使这些数据集的标注不完全。

实验效果

参考文献

ECLAIR – Extracting Content and Layout with Integrated Reading Order for Documents,https://arxiv.org/pdf/2502.04223v1

注:代码未开源,基准评价数据集也未开放。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15658.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解锁Netty:Channel更替与HashMap管理的奇妙联动

个人CSDN博客主页&#xff1a; java之路-CSDN博客 ( 期待您的关注 ) 目录 Netty 的 Channel 机制探秘 HashMap 在 Netty 中的角色 创建新 Channel 时的操作步骤 新 Channel 的创建流程 确定老 Channel 的标识 移除老 Channel 的具体方法 从 HashMap 中移除 关闭和回收老…

小白零基础如何搭建CNN

1.卷积层 在PyTorch中针对卷积操作的对象和使用的场景不同&#xff0c;如有1维卷积、2维卷积、 3维卷积与转置卷积&#xff08;可以简单理解为卷积操作的逆操作&#xff09;&#xff0c;但它们的使用方法比较相似&#xff0c;都可以从torch.nn模块中调用&#xff0c;需要调用的…

12.翻转、对称二叉树,二叉树的深度

反转二叉树 递归写法 很简单 class Solution { public:TreeNode* invertTree(TreeNode* root) {if(rootnullptr)return root;TreeNode* tmp;tmproot->left;root->leftroot->right;root->righttmp;invertTree(root->left);invertTree(root->right);return …

算法之 博弈问题

文章目录 巴什博弈292.Nim 游戏 尼姆博弈斐波那契博弈其他博弈1025.除数博弈 博弈问题&#xff0c;就是双方之间的PK,关注的重点是 谁先&#xff1f;以及A,B各自赢的条件 一般有数学问题&#xff0c;动态规划&#xff0c;搜索进行求解 巴什博弈 下面的这题Nim 游戏&#xff0c;…

Linux 安装 Ollama

1、下载地址 Download Ollama on Linux 2、有网络直接执行 curl -fsSL https://ollama.com/install.sh | sh 命令 3、下载慢的解决方法 1、curl -fsSL https://ollama.com/install.sh -o ollama_install.sh 2、sed -i s|https://ollama.com/download/ollama-linux|https://…

DDR原理详解

DDR原理详解 存储器主要分为只读存储器 ROM 和随机存取存储器 RAM两大类。 ROM&#xff1a;只读存储器 ROM 所存数据&#xff0c;一般是装入整机前事先写好的,整机工作过程中只能读出&#xff0c;ROM所存数据稳定&#xff0c;断电后所存数据也不会改变。 RAM&#xff1a;随机…

推荐一款 免费的SSL,自动续期

支持自动续期 、泛域名 、可视化所有证书时效性 、可配置CDN 的一款工具。免费5个泛域名和1个自动更新。 链接 支持&#xff1a;nginx、通配符证书、七牛云、腾讯云、阿里云、CDN、OSS、LB&#xff08;负载均衡&#xff09; 执行自动部署脚本 提示系统过缺少crontab 安装cro…

手写一个C++ Android Binder服务及源码分析

手写一个C Android Binder服务及源码分析 前言一、 基于C语言编写Android Binder跨进程通信Demo总结及改进二、C语言编写自己的Binder服务Demo1. binder服务demo功能介绍2. binder服务demo代码结构图3. binder服务demo代码实现3.1 IHelloService.h代码实现3.2 BnHelloService.c…

将 AMD Zynq™ RFSoC 扩展到毫米波领域

目录 将 AMD Zynq™ RFSoC 扩展到毫米波领域Avnet XRF RFSoC 系统级模块适用于 MATLAB 的 Avnet RFSoC Explorer 工具箱5G mmWave PAAM 开发平台突破性的宽带毫米波波束成形特征&#xff1a;OTBF103 Mathworks Simulink 模型优化毫米波应用中的射频信号路径 用于宽带毫米波上/下…

征程 6 相比征程 5 对算子支持扩展的具体案例讲解

引言 征程 6 相比于征程 5&#xff0c;在整体架构上得到了升级&#xff0c;相对应的&#xff0c;算法工具链的算子支持也得到了扩充&#xff0c;无论是算子支持的数量&#xff0c;还是 BPU 约束条件&#xff0c;征程 6 都有明显的加强&#xff0c;这就使得过去在征程 5 上无法…

蓝桥杯C语言组:博弈问题

概述 在编程的世界里&#xff0c;博弈问题就像是一场智力的“斗地主”&#xff0c;双方&#xff08;或者多方&#xff09;使出浑身解数&#xff0c;只为赢得最后的胜利。而蓝桥杯C语言比赛中的博弈问题&#xff0c;更是让无数参赛者又爱又恨的存在。它们就像是隐藏在代码森林中…

BS架构(笔记整理)

楔子.基本概念 1.在网络架构中&#xff1a; 服务器通常是集中式计算资源&#xff0c;负责处理和存储数据&#xff1b;客户机是请求这些服务的终端设备&#xff0c;可能是个人电脑或移动设备&#xff1b;浏览器则是客户机上用来与服务器交互的工具&#xff0c;负责展示网页内容…

【动态规划篇】:动态规划解决路径难题--思路,技巧与实例

✨感谢您阅读本篇文章&#xff0c;文章内容是个人学习笔记的整理&#xff0c;如果哪里有误的话还请您指正噢✨ ✨ 个人主页&#xff1a;余辉zmh–CSDN博客 ✨ 文章所属专栏&#xff1a;动态规划篇–CSDN博客 文章目录 一.动态规划中的路径问题1.核心思路2.注意事项 二.例题讲解…

【Linux】深入理解linux权限

&#x1f31f;&#x1f31f;作者主页&#xff1a;ephemerals__ &#x1f31f;&#x1f31f;所属专栏&#xff1a;Linux 目录 前言 一、权限是什么 二、用户和身份角色 三、文件属性 1. 文件属性表示 2. 文件类型 3. 文件的权限属性 四、修改文件的权限属性和角色 1. …

嵌入式linux系统中VIM编辑工具用法与GCC参数详解

大家好,今天主要给大家分享一下,如何使用linux系统中的VIM编辑工具和GCC的参数详解。 第一:安装VIM 命令:sudo apt get install vim 第二:工作模式 普通模式:打开一个文件时的默认模式,按ESC返回普通模式 插入模式:i/o/a进入插入模式,不同在于在光标前后插入 可视…

【前端开发】HTML+CSS+JavaScript前端三剑客的基础知识体系了解

前言 &#x1f31f;&#x1f31f;本期讲解关于HTMLCSSJavaScript的基础知识&#xff0c;小编带领大家简单过一遍~~~ &#x1f308;感兴趣的小伙伴看一看小编主页&#xff1a;GGBondlctrl-CSDN博客 &#x1f525; 你的点赞就是小编不断更新的最大动力 …

蓝桥杯---数青蛙(leetcode第1419题)

文章目录 1.题目重述2.例子分析3.思路分析4.思路总结5.代码解释 1.题目重述 这个题目算是模拟这个专题里面的一类比较难的题目了&#xff0c;他主要是使用crock这个单词作为一个整体&#xff0c;让我们确定&#xff1a;给你一个字符串&#xff0c;至少需要多少个青蛙进行完成鸣…

WidowX-250s 机械臂学习记录

官网教程&#xff1a;Python Demos — Interbotix X-Series Arms Documentation 系统&#xff1a;Ubuntu20.04&#xff0c;ROS1 相关的硬件编译配置跳过 Python Demos 这些演示展示了使用 Interbotix Python Arm 模块的各种方法&#xff08;点击链接查看完整的代码文档&…

【CubeMX-HAL库】STM32F407—无刷电机学习笔记

目录 简介&#xff1a; 学习资料&#xff1a; 跳转目录&#xff1a; 一、工程创建 二、板载LED 三、用户按键 四、蜂鸣器 1.完整IO控制代码 五、TFT彩屏驱动 六、ADC多通道 1.通道确认 2.CubeMX配置 ①开启对应的ADC通道 ②选择规则组通道 ③开启DMA ④开启ADC…

集成右键的好用软件,支持多线程操作!

今天给大家分享一个超级实用的小工具&#xff0c;真的能帮上大忙呢&#xff01;这个软件是吾爱大神无知灰灰精心制作的&#xff0c;简直就是图片转换界的“小能手”。 它能一键把webp格式的图片转换成png格式&#xff0c;而且速度超快&#xff0c;完全不输那些付费的软件&#…