【前沿技术杂谈:多模态文档基础模型】使用多模态文档基础模型彻底改变文档 AI

【前沿技术杂谈:多模态文档基础模型】使用多模态文档基础模型彻底改变文档 AI

    • 从文本到多模态模型:文档 AI 逐渐发展新技能。
    • 行业领先的型号
    • Document AI 的下一步:开发通用和统一框架

您是否曾经被包含不同信息(如应付账款、日期、商品数量、单价和金额)的发票所淹没?在处理重要的商业合同时,您是否担心小数点后点错误,造成无法估量的经济损失?您是否在寻找顶尖人才时阅读过大量简历?商务人士必须处理所有这些任务和各种各样的文件,包括保险单、业务报告、电子邮件和运输订单。

在数字时代,公司通常必须将所有这些文档以及各种图表和图像数字化,以简化其程序。然而,手动数字化文档是一种低效的做法,因为许多扫描文档的质量参差不齐,而网页和电子文档可能具有不同的布局。我们如何有效地提取、组织和分析这些不同文档中的信息?答案是文档人工智能技术,它将员工和公司从这种重复而乏味的工作中解放出来。

在这里插入图片描述

具有不同布局和格式的业务文档的扫描图像

文档AI主要是指利用AI技术,以丰富的排版格式从网页、数字文档或扫描文档中自动提取、分类和理解信息。它是自然语言处理(NLP)和计算机视觉(CV)交叉的重要研究领域。深度学习技术的激增极大地推动了文档人工智能的发展,在视觉信息提取和文档布局分析,以及文档视觉问答和文档图像分类等方面都有显著的性能提升。Document AI 在帮助企业节省运营成本、提高员工效率和减少人为错误方面也发挥着重要作用。

从文本到多模态模型:文档 AI 逐渐发展新技能。

Microsoft Research Asia的Document AI系列研究始于2019年。在对深度学习的深入研究中,研究人员希望从公开可用的文档中提取有用的信息,以建立一个可以支持深度学习模型预训练任务的知识库。然而,由于现实世界的文档不包含结构化数据,因此从杂乱的文档中提取结构化文本信息是研究人员必须解决的第一个问题。

为了解决这个问题,Microsoft Research Asia提出了UniLM,这是一种统一的预训练语言模型,可以读取文档并自动生成内容。UniLM模型在自然语言理解和生成任务方面取得了很好的成果。此外,研究人员还为该系统提供了通过开发跨语言预训练模型(InfoXLM)将英语NLP任务扩展到多种语言的功能。在现实世界中,文档不仅包含文本信息,还包含布局和样式信息(例如,字体、颜色和下划线)。因此,仅处理文本信息的模型无法应用于需要多模态程序的实际场景。

2019年底,Microsoft亚洲研究院推出了LayoutLM,这是一个结合了NLP和CV技术的通用预训练文档基础模型。这是第一个可以在文档级预训练的单个框架中同时学习文本和布局信息的模型。LayoutLM 对来自 IIT-CDIP Test Collection 1.0 数据集的大约 1100 万张扫描文档图像进行了预训练。它还可以通过大规模使用未标记的扫描文档图像以自我监督的方式轻松训练,在表单和收据理解以及图像分类任务方面优于其他模型。 在一个名为LayoutLMv2的更新模型中,研究人员随后将视觉信息纳入预训练过程,以提高其图像理解能力。这个新模型成功地将文档文本、布局和视觉信息统一到一个可以学习跨模态交互的端到端框架中。

在这里插入图片描述

记录Microsoft亚洲研究院的AI研究进展

此外,研究人员还开发了 LayoutXLM,这是一种基于 LayoutLMv2 的多模态预训练模型,但可以执行多语言文档理解,以满足使用各种语言的不同用户的需求。LayoutXLM 模型不仅集成了来自多语言文档的文本和视觉信息,还利用了它们的局部不变性。LayoutXLM 可以处理近 200 种语言的文档。为了准确评估预训练模型在多语言文档理解方面的性能,研究人员还创建了多语言表单理解基准数据集XFUND,该数据集涵盖七种语言(即中文、日语、西班牙语、法语、意大利语、德语和葡萄牙语)。

与包含扫描文档图像和数字生成的 PDF 文件的固定布局文档不同,许多基于标记语言的文档(如基于 HTML 的网页和基于 XML 的 Office 文档)通常是实时呈现的。出于这个原因,研究人员开发了 MarkupLM 模型来处理基于标记语言的文档的源代码,并在没有额外计算资源的情况下理解它们。实验结果表明,MarkupLM明显优于以往基于固定布局的方法,具有较强的实用性。

Microsoft Research Asia继续迭代Document AI技术,使其能够处理不同类型的数据,包括文本,布局和图像信息。今年,Microsoft Research Asia发布了LayoutLMv3,这是最新的多模态预训练模型,可以实现统一的蒙版文本和图像建模。LayoutLMv3 是第一个通过屏蔽文本和图像的预测来缓解文本和图像多模态表示学习之间的差异的模型。此外,LayoutLMv3 经过预训练以实现词块对齐,这意味着它可以通过预测单词的相应图像块是否被屏蔽来学习跨模态对齐。在模型架构方面,LayoutLMv3 不依赖预训练的 CNN 骨干来提取视觉特征。但是,它直接利用文档图像补丁,从而大大节省了参数,消除了区域注释,并避免了复杂的文档预处理。这些简单统一的架构和训练目标使 LayoutLMv3 成为通用预训练模型,适用于以文本为中心和以图像为中心的文档 AI 任务。

Microsoft Research Asia合伙人研究经理Furu Wei表示:“Layout(X)LM系列模型在我们推动基础模型的’大融合’和跨任务、语言和模态的大规模自监督预训练的基础研究中发挥着至关重要的作用。

在这里插入图片描述

LayoutLMv3 的体系结构和预训练目标

“我们看到了一种不同模式大融合的研究趋势,来自不同领域的科学家正在研究统一模型,包括NLP、CV等。LayoutLM的前两个版本专注于语言处理,而LayoutLMv3的优势在于它可以处理NLP和CV模式的任务,在计算机视觉领域取得了重大突破,“Microsoft亚洲研究院首席研究经理崔磊说。

GitHub 链接: https://github.com/microsoft/unilm

行业领先的型号

Layout(X)LM 系列模型在利用大规模未标记数据以及将文本和图像与多模态、多页面和多语言内容集成方面处于领先地位。特别是 LayoutLMv3 的通用性和优越性,使其成为文档 AI 行业研究的标杆模型。例如,Layout(X)LM 系列模型已被许多领先公司的许多 Document AI 产品采用,尤其是在机器人流程自动化 (RPA) 领域。

“Microsoft Research Asia不仅在建模创新和基准数据集方面取得了显著成果,而且还开发了许多应用程序,允许用户仅使用一个模型架构执行多项任务。学术界和工业界的许多同事都在使用 Layout(X)LM 进行有意义的科学探索并推进文档 AI,“崔磊说。

Microsoft 在该领域处于领先地位,一系列 Microsoft Research Asia 的文档 AI 模型现已用于许多与 Microsoft 相关的产品,例如 Azure 表单识别器、AI Builder 和 Microsoft Syntex。“我们很高兴能与Microsoft亚洲研究院的这些顶尖研究人员合作。文档基础模型大大提高了我们的开发和应用效率,并为文档AI的普及做出了贡献。我们期待未来在这一领域取得更多令人兴奋的进展,“Microsoft Azure AI的合作伙伴工程经理Cha Zhang说。

Document AI 的下一步:开发通用和统一框架

随着时间的推移,文档人工智能的技术进步使其在金融、医疗保健、能源、政府服务和物流等各个行业的应用,为这些行业的人们节省了大量时间,因为他们现在可以避免手动处理。例如,在金融行业,Document AI实现了财务报表分析、智能决策分析、发票和订单的自动化信息提取;在医疗保健行业,它促进了病例数字化,分析了医学文献和病例的相关性,并提出了潜在的治疗方案。

然而,Microsoft Research Asia不会固步自封,崔磊表示。其研究人员正计划在三个方面进一步推进Document AI的基础研究:增加模型规模、扩大训练数据和统一框架。“NLP 中的 GPT-3 表明,大型语言模型可以显着提高性能。当前 Document AI 模型的训练数据不到 Web 规模数据的十分之一,因此仍有改进的余地。在未来的研究中,我们将专注于扩大数据和模型的规模,以实现跨文档AI框架的统一。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/254642.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

k8s-常用工作负载控制器(更高级管理Pod)

一、工作负载控制器是什么? 二、Deploymennt控制器:介绍与部署应用 部署 三、Deployment控制器:滚动升级、零停机 方式一: 通个加入健康检查可以,看到,nginx容器逐个被替代,最终每个都升级完成&…

【k8s系列】(202402) 证书apiserver_client_certificate_expiration_seconds

apiserver_client_certificate_expiration_second证书定义的位置:kubernetes/staging/src/k8s.io/apiserver/pkg/authentication/request/x509/x509.go at 244fbf94fd736e94071a77a8b7c91d81163249d4 kubernetes/kubernetes (github.com) apiserver_client_certi…

【51单片机】外部中断和定时器中断

目录 中断系统中断介绍中断概念 中断结构及相关寄存器中断结构中断相关寄存器 外部中断实验外部中断配置软件设计实验现象 定时器中断定时器介绍51 单片机定时器原理51 单片机定时/计数器结构51 单片机定时/计数器的工作方式 定时器配置硬件设计软件设计实验现象 中断系统 本章…

【http】2、http request header Origin 属性、跨域 CORS、同源、nginx 反向代理、预检请求

文章目录 一、Origin 含义二、跨源资源共享:**Cross-Origin Resource Sharing** CORS2.1 跨域的定义2.2 功能概述2.3 场景示例2.3.1 简单请求2.3.2 Preflighted requests:预检请求 2.4 header2.4.1 http request header2.4.1.1 Origin2.4.1.2 Access-Con…

[每周一更]-(第86期):PostgreSQL入门学习和对比MySQL

入门学习PostgreSQL可以遵循以下步骤: 安装 PostgreSQL: 首先,你需要在你的计算机上安装 PostgreSQL。你可以从 PostgreSQL 官方网站 下载适合你操作系统的安装包,并按照官方文档的指导进行安装。 学习 SQL: PostgreS…

【分布式】雪花算法学习笔记

雪花算法学习笔记 来源 https://pdai.tech/md/algorithm/alg-domain-id-snowflake.html概述 雪花算法是推特开源的分布式ID生成算法,以划分命名空间的方式将64位分割成多个部分,每一个部分代表不同的含义,这种就是将64位划分成不同的段&…

按键扫描16Hz-单片机通用模板

按键扫描16Hz-单片机通用模板 一、按键扫描的原理1、直接检测高低电平类型2、矩阵扫描类型3、ADC检测类型二、key.c的实现1、void keyScan(void) 按键扫描函数①void FHiKey(void) 按键按下功能②void FSameKey(void) 按键长按功能③void FLowKey(void) 按键释放功能三、key.h的…

pycharm像jupyter一样在控制台查看后台变量

更新下:这个一劳永逸不用一个一个改 https://blog.csdn.net/Onlyone_1314/article/details/109347481 右上角运行

力扣刷题之旅:进阶篇(三)

力扣(LeetCode)是一个在线编程平台,主要用于帮助程序员提升算法和数据结构方面的能力。以下是一些力扣上的入门题目,以及它们的解题代码。 --点击进入刷题地址 一、动态规划(DP) 首先,让我们来…

【芯片设计- RTL 数字逻辑设计入门 14 -- 使用子模块实现三输入数的大小比较】

文章目录 三输入数的大小比较问题分析verilog codeTestBench Code综合图仿真波形图 三输入数的大小比较 在数字芯片设计中,通常把完成特定功能且相对独立的代码编写成子模块,在需要的时候再在主模块中例化使用,以提高代码的可复用性和设计的层…

PHP框架详解 - symfony框架

首先说一下为什么要写symfony框架,这个框架也属于PHP的一个框架,小编接触也是3年前,原因是小编接触Golang,发现symfony框架有PHP框架的东西也有Golang的东西,所以决定总结一下,有需要的同学可以参看小编的G…

【iOS分类、关联对象】如何使用关联对象给分类实现一个weak的属性

如何使用关联对象给分类实现一个weak的属性 通过关联对象objc_setAssociatedObject中的策略policy可知,并不支持使用weak修饰对象属性: typedef OBJC_ENUM(uintptr_t, objc_AssociationPolicy) {OBJC_ASSOCIATION_ASSIGN 0, //assignOBJC_ASSOCIATION…

蓝桥杯每日一练(python)B组

###来源于dotcpp的蓝桥杯真题 题目 2735: 蓝桥杯2022年第十三届决赛真题-取模&#xff08;Python组&#xff09; 给定 n, m &#xff0c;问是否存在两个不同的数 x, y 使得 1 ≤ x < y ≤ m 且 n mod x n mod y 。 输入格式&#xff1a; 输入包含多组独立的询问。 第一…

【Git】Windows下通过Docker安装GitLab

私有仓库 前言基本思路拉取镜像创建挂载目录创建容器容器启动成功登录仓库设置中文更改密码人员审核配置邮箱 前言 由于某云存在人数限制&#xff0c;这个其实很好理解&#xff0c;毕竟使用的是云服务器&#xff0c;人家也是要交钱的。把代码完全放在别人的服务器上面&#xf…

每日五道java面试题之java基础篇(二)

第一题. 为什么说 Java 语⾔“编译与解释并存”&#xff1f; ⾼级编程语⾔按照程序的执⾏⽅式分为编译型和解释型两种。 简单来说&#xff0c;编译型语⾔是指编译器针对特定的操作系统将源代码⼀次性翻译成可被该平台执⾏的机器码&#xff1b;解释型语⾔是指解释器对源程序逐…

初识文件包含漏洞

目录 什么是文件包含漏洞&#xff1f; 文件包含的环境要求 常见的文件包含函数 PHP伪协议 file://协议 php://协议 php://filter php://input zip://、bzip2://、zlib://协议 zip:// bzip2:// zlib:// data://协议 文件包含漏洞演示 案例1&#xff1a;php://inp…

Linux下库函数、静态库与动态库

库函数 什么是库 库是二进制文件, 是源代码文件的另一种表现形式, 是加了密的源代码; 是一些功能相近或者是相似的函数的集合体. 使用库有什么好处 提高代码的可重用性, 而且还可以提高程序的健壮性;可以减少开发者的代码开发量, 缩短开发周期. 库制作完成后, 如何给用户…

Java编程构建高效二手交易平台

✍✍计算机编程指导师 ⭐⭐个人介绍&#xff1a;自己非常喜欢研究技术问题&#xff01;专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目&#xff1a;有源码或者技术上的问题欢迎在评论区一起讨论交流&#xff01; ⚡⚡ Java实战 |…

Python爬虫实战:抓取猫眼电影排行榜top100#4

爬虫专栏系列&#xff1a;http://t.csdnimg.cn/Oiun0 抓取猫眼电影排行 本节中&#xff0c;我们利用 requests 库和正则表达式来抓取猫眼电影 TOP100 的相关内容。requests 比 urllib 使用更加方便&#xff0c;而且目前我们还没有系统学习 HTML 解析库&#xff0c;所以这里就…

CTFshow web(php命令执行 45-49)

基础知识&#xff1a; 1.绕过cat使用&#xff1a; tac more less head tac tail nl od(二进制查看) vi vim sort uniq rev 2.绕过空格用&#xff1a; %09 <> ${IFS} $IFS$ {cat,fl*} %20 注&#xff1a; %09 ##&#xff08;Tab&#xff09; %20 ##&#xff08;spa…