【文档智能多模态】英伟达ECLAIR-端到端的文档布局提取，并集成阅读顺序方法

笔者在前期一个系列分享了各种文档智能相关的技术方法，可以参考《文档智能系列栏目》，涵盖各种常见方法。
文档智能结构化pipline链路

下面直接看看这个端到端的文档智能结构化方法，供参考。

红色三部分组成的模型结构

ECLAIR 采用了一个较大的视觉编码器（657M 参数-ViT-H/16）和一个较轻量级的解码器（279M 参数-mBART）组成端到端的模型，主要为了在推理时提高效率。ECLAIR 包括以下几个组件：

ECLAIR 的视觉编码器是从 RADIO 模型初始化的，该模型基于 ViT-H/16 架构。

输入：视觉编码器的输入是一张图像，表示为 $\in R^{3 \times H \times W}$ ，其中 $H$ 和 $W$ 分别是图像的高度和宽度，3 表示 RGB 通道。
输出：编码器将图像映射到一个潜在表示 $\in R^{N \times d}$ ，其中 $N$ 是序列长度， $d$ 是隐藏维度。

通过视觉编码器，图像被转换为一个序列化的特征向量。

这部分主要是做降维操作，通常使用卷积或其他变换来压缩特征表示，以便更好地适应解码器的输入要求。

ECLAIR 使用 mBART 解码器，这是一个多语言的 Transformer 解码器。

输入：解码器通过条件化于编码器的潜在表示 $\mathcal{N}(Z)$ 和上下文 $ t_{<i} $ 来预测文本标记 $\{t_{P+1}, t_{P+2} , \ldots, t_{L}\}$ 。这里的 $\mathcal{E}(I)$ 是编码器的输出，$ {t_{1}, t_{2}, \ldots, t_{P}} $ 是提示标记， $L$ 是提示增强后的序列长度。
输出：解码器预测文本标记，这些标记可以是格式化的文本、边界框和语义类别。

Prompt机制是用于指导模型输出特定类型信息的关键组成部分。用户可以通过提示指定模型输出的格式和内容，实现灵活的输出控制。

ECLAIR的提示是一个三元组（文章中附上了数据合成的方法，感兴趣可以看看，这里不在展开），包含三个选项，每个选项可以有八种可能的组合（忽略没有输出的情况以及请求语义类别但没有相应边界框的情况）。

输出格式：
- <structured_text>：以 Markdown 格式输出文本，内联公式以 LaTeX 格式表示。
- <plain_text>：以纯文本格式输出所有内容。
- <no_text>：不输出文本。
边界框：
- < bbox > ：输出文本块的边界框坐标。
- <no_bbox>：不输出边界框。
语义类别：
- < classes >：输出每个文本块的语义类别。
- < no_classes >：不输出语义类别。