探索智能应用的基石:多模态大模型赋能文档图像处理

在这里插入图片描述

目录

  • 0 写在前面
  • 1 文档图像分析新重点
  • 2 token荒:电子文档助力大模型
  • 3 大模型赋能智能文档分析
  • 4 文档图像大模型应用可能性
    • 4.1 专有大模型
    • 4.2 多模态模型
    • 4.3 设计思路
  • 总结

0 写在前面

中国智能产业高峰论坛(CIIS@2023)旨在为政企研学各界学者专家提供同台交流的机会,在成果分享、观点碰撞、经验互鉴中,共促智能科技引领行业创新变革、驱动数字经济快速发展。本次高峰论坛聚焦大模型、元宇宙、行业智能化、数字安全、智慧教育等热门议题,吸引了政府机构、高等院校、科研院所、科技企业等产业各方代表参会交流。此次论坛围绕当前人工智能产业领域的热点话题、核心技术以及社会关注的问题,研究探讨人工智能发展趋势及面临的机遇与挑战,是一次沟通交流、开阔眼界的难得机会。

合合信息作为文档图像处理领域的代表性科技企业,在本次高峰论坛中分享了关于文档图像处理与大语言模型相结合的应用前景,让我们一起看看吧!

1 文档图像分析新重点

随着信息技术的发展和应用场景的不断扩大,人们需要处理和利用大量的文档信息。而传统的手动处理方法效率低下,无法满足现代生活和工作的需求。文档图像智能分析与处理就是一个重要且极具挑战性的研究问题。合合信息的丁凯博士指出:

虽然文档图像分析已经有了将近一百年的历史,但是到目前为止仍有大量的问题没有得到很好地解决

例如文档的多样性和复杂性问题:文档类型和格式繁多,包括报告、合同、发票、证明、证件等等。不同类型的文档有不同的格式和布局,难以用统一的方法处理。而且智能文档处理受到图像质量、文字字体、文字大小、文字颜色等噪声因素的影响,容易出现误识别。此外,还有图像质量不一、文档获取繁琐等等。

在这里插入图片描述

在传统方法中,针对这些问题已经有了相应的解决方案。随着大语言模型的快速发展,能否和这些传统方法相结合,发挥出更强大的优势,注入更鲜活的生命力呢?丁凯博士对此进行了进一步的探讨和分析,相信对这个领域感兴趣的同学一定有所收获!

在这里插入图片描述

2 token荒:电子文档助力大模型

通用大语言模型(Large Language Model, LLM)就是AIGC技术中的核心模型之一。如今以Transformer架构和注意力机制为基础的大语言模型,使用大规模数据集进行训练,以学习语言的语法、语义和上下文,并能够生成连贯、具有逻辑性的文本回复

从2018年GPT约1.2亿的参数量,到2019年GPT2的15亿参数,再到2022年InstructGPT超1750亿的规模,在信息时代的浪潮中,大语言模型正以惊人的速度和无限的创造力引领着人工智能的新纪元

在这里插入图片描述

图源网络,侵删

在信息时代的浪潮中,大语言模型正以惊人的速度和无限的创造力引领着人工智能的新纪元。大语言模型不仅能够理解和分析人类语言,还能够生成高质量、富有创意的文本。从写作助手到内容创作,从自动化客服到医疗诊断,它们正在推动各行各业的创新。 这些模型不断通过海量数据进行自我学习,不断提升自己的表现。它们能够从多个领域的知识中吸取灵感,生成创新性的想法和解决方案

虽然大语言模型正在改变人工智能发展的范式,但丁凯博士指出了阻碍大语言模型进步的瓶颈问题——token荒,有机构预测,到2026年全世界可以用于做大模型训练的高质量语料将被耗尽。

在这里插入图片描述

图源网络,侵删

在这种情况下,电子文档对大语言模型训练就产生了重要意义。首先,电子文档作为海量的语言数据源,提供了丰富多样的文本内容。这些文档涵盖了各种领域的知识、专业术语、实际应用场景等。将电子文档作为语料库,可以使得大语言模型在训练过程中接触到更广泛、多样化的语言表达,提高其语言理解和生成能力;其次,电子文档通常被精心编写、编辑和组织,具有较高的语言质量和结构性。这些文档中的标注、标题、章节、段落等信息可以为大语言模型提供更可靠的上下文提示和语言规则,帮助模型更好地理解和生成文本。此外,通过使用电子文档进行训练,大语言模型能够学习到不同的语境和用法,更好地理解和应对各种现实世界的语言任务和挑战。所以,合理地将电子文档与大语言模型相结合,能够更好地应对token荒问题,并推动语言模型技术的发展

考虑到电子文档中存在大量的扫描件,因此文档图像处理技术的发展与大语言模型的进步密切相关

3 大模型赋能智能文档分析

针对大语言模型助力智能文档分析,丁凯博士举了两个例子:多模态GPT4处理文档图像以及多模态Google Bard处理文档图像。从结果来看,大模型能够识别文档图像中的关键信息、主题、实体等,并抽取文档中的重要段落、关键句子和核心观点。这种对语言的理解,赋予了智能文档处理系统强大的问题解答能力。用户可以通过提问来获取关于文档内容、特定领域知识或技术问题的准确答案

在这里插入图片描述

在这里插入图片描述
GPT4和Google Bard都能在测试样例上很好地完成任务,例如解答数学题、进行图像到表格的转换等。这对于现有的文档处理技术来说并不容易,因为传统文档图像处理主要关注于对文档图像的识别、提取和分析,但对于文本内容的语义理解和生成能力有限。而多模态大模型通过深度学习技术,能够理解和生成自然语言文本,具备更强大的语义理解和生成能力。它能够更好地理解文档中的语言内容、上下文和逻辑,从而实现更高级别的文档处理任务。另一个方面,大语言模型通过在大规模语料库上进行训练,能够掌握丰富的背景知识和语言模式。与此相比,传统文档图像处理往往只能基于特定规则或固定模板进行处理,缺乏上下文感知和灵活性。因此,大语言模型能够更好地理解文档内容的复杂性和多样性,适应不同领域和应用场景的需求

然而,目前多模态大模型赋能智能文档分析仍有很大的局限性。丁凯博士提到显著文本(Salient Text)密集文本(Dense Text)的概念,这两种文本描述了文档图像中的不同类型信息:

  • 显著文本:指的是在文档图像中相对于背景而言较为显著、突出的文本区域。这些文本通常具有明显的颜色、对比度或其他视觉特征,与周围的背景有较大的差异,引起人们注意。例如,在一份页面扫描的文档中,显著文本可能是标题、副标题、重要段落或引导性信息等;
  • 密集文本:指的是文档图像中布满、大量存在的文本区域。这些文本通常由连续的文字块组成,没有明显的分隔或边界。例如,在报纸、杂志、书籍等文档的页面图像中,正文内容通常会形成密集的文本区域

目前多模态大模型在密集文本处理方面几乎不能使用,一个很重要的原因是:多模态大模型主要基于文本进行语义理解,对于视觉感知和图像特征的提取能力有限。在处理密集文本时,相邻的文本可能会重叠、相互遮挡或无明显的边界,这需要对视觉特征进行准确地提取和分析,大语言模型的主要优势是在自然语言文本处理方面,而不是直接处理视觉信息。因此,在图像文档处理方面,由于视觉感知限制和文字识别困难,大语言模型并不适合直接应用于该领域。在处理密集文本时,需要借助于文本检测、分割和OCR等专门的技术和算法来实现准确的文本识别和提取

4 文档图像大模型应用可能性

接着,丁凯博士对现有的文档图像大模型进行了综述,为我们把握了当前领域的前沿发展方向。现有模型主要分为两类:文档图像专有大模型以及多模态模型

4.1 专有大模型

微软的LayoutLM系列模型是基于Transformer架构的大型预训练模型,专门用于文档布局分析和文本识别任务。LayoutLM结合了自然语言处理和计算机视觉技术,使其能够同时处理文本和图像信息。它通过对文档图像的布局进行建模,识别文本框、文字位置和语义信息,并将它们融合在一起进行训练和推理。而且,通过微调,LayoutLM可以在不同的领域和任务上进行跨域迁移学习,适应更多下游任务

在这里插入图片描述

LiLT是合合信息联合华南理工大学共同研究的一种多模态信息抽取框架。采用了解耦联合建模的方法,将视觉和语言信息分别送入对应的模型中进行处理。通过双向互补注意力模块(BiCAM),使视觉和文本这两个模态之间的权重可以自适应地调整,提高了模型的泛化能力和适应性,更好地融合了两者的信息。该框架在多语言小样本、零样本场景下表现出优越的性能

在这里插入图片描述
然而,文档图像专有大模型由于大多是预训练模型,其迁移能力可能受限于特定领域和任务。端到端的多模态模型往往可以更好地适应不同领域和任务的需求,具有更大的迁移能力。

4.2 多模态模型

多模态文档图像处理大模型BLIP2设计了以下三个组件:

  • 图像编码器:使用诸如ViT的预训练图像编码器,将图像块转换为具有空间位置信息的向量表征,从而将图像的视觉特征编码为一系列更高维度的语义向量表示;
  • LLM解码器:采用诸如OPTFlanT5的LLM解码器处理文本任务,这些解码器在大规模语言数据上进行预训练,能够理解文本的语义和结构,并生成与输入文本相关的输出;
  • Q-Former连接Q-Former是一种轻量级的Transformer架构,在BLIP2中可以看作是一个将图像信息和文本信息进行多层次注意力机制融合的模块。它的主要作用是将图像的视觉特征和文本的语义信息进行融合,通过自适应地调整权重来促进两者之间的交互与对齐;

BLIP2的设计充分利用了图像和文本的互补性,使得BLIP2能够同时处理文档图像中的视觉和语义信息,从而在多模态文档图像处理任务中取得出色的性能表现。同时,通过训练Q-Former部分,BLIP2大大减少了整个模型的复杂性和计算成本,提高了模型的可训练性和实用性

在这里插入图片描述
除此之外,还有众多的多模态大模型用于处理文档图像问题。例如Google DeepMindFlamingo增加了门控注意力层引入视觉信息; 微软的LLaVA CLIPViT-LLLaMA采用全连接层连接,使用GPT-4Self-Instruct2生成高质量的158k instruction following数据;MiniGPT-4采用ViT+Q-Former构建视觉通路、采用Vicuna构建语言通路,再使用全连接层衔接两大模态

在这里插入图片描述

然而,目前多模态大模型用于OCR领域仍然具有局限性。细粒度文本通常指的是文字较小、笔画细致、字形复杂的文本,如签名、古汉字、特殊符号等。这类文本在OCR领域中往往是非常具有挑战性的,因为它们往往涉及到字形和结构上的细微差异,很难直接从图像中提取出精确的文字信息。此外,在真实场景下,这些细粒度文本可能会受到光照、噪声、变形等各种干扰,这也增加了文字识别的难度。多模态大模型中的视觉编码器通常基于卷积神经网络或Transformer等模型,在处理图像时会受到分辨率的限制;另一方面,由于训练数据集中缺少针对细粒度文本的标注数据,模型很难从数据中学到有效的细粒度文本特征表示。因此,现有多模态大模型对显著文本的处理较好,但是对于细粒度文本的处理很差,要克服这些局限性,需要开展更深入的研究和探索

4.3 设计思路

丁凯博士给出了文档图像大模型的设计思路,主要是将文档图像识别分析的多种任务,通过序列预测的方式进行处理。具体来说,将每个任务所涉及的元素定义为一个序列,并设计相应的prompt来引导模型完成不同的OCR任务。例如,对于文本识别任务,可以使用prompt "识别文本: " 并将待处理的文本序列作为输入;对于段落分析任务,则可使用prompt "分析段落:"并将段落序列作为输入等等。这种方式可以保持一致的输入格式,方便模型进行多任务的处理。

此外,这个设计思路还支持篇章级的文档图像识别分析,可以输出Markdown/HTML/Text等标准格式,这样可以更好地适应用户的需求。同时,将文档理解相关的工作交给大语言模型,这意味着模型可以自动进行篇章级的文档理解和分析,从而提高了文档图像处理的效率和准确性。

在这里插入图片描述

总的来说,这种设计思路充分利用了序列预测的优势,在保持输入格式的统一性的同时,能够更好地解决文档图像处理中的多样化任务需求,并且通过与LLM的结合,实现了更高层次的文档理解和分析,为文档图像处理领域带来了更多可能性。

总结

看到智能文档处理与前沿技术结合的可能性,我感到非常兴奋。我相信前沿技术的相互碰撞将为用户带来更智能化、高效率和个性化的文档处理体验。未来随着技术的不断进步,这种结合将在商业、教育、科研等领域发挥越来越重要的作用。让我们拭目以待,期待合合信息在模式识别、深度学习、图像处理、自然语言处理等领域的深耕厚积薄发,用技术方案惠及更多的人!

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/137966.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【微信小程序】scroll-view的基本使用

| scss里面的.item:nth-child(1) index.wxml <view class"scroll"> <scroll-view scroll-x><navigator url"" wx:for"{{6}}" wx:key"index" class"item"><image class"pic" src"/sta…

maven清理本地仓库。删除_remote.repositories文件和删除失败的jar包

1.图预览 .bat文件要和仓库在同一平级目录 REPOSITORY_PATH要改成你自己仓库的地址 2、删除.lastUpdated文件(失败的jar包) 使用.bat文件 注明&#xff1a;REPOSITORY_PATHD:\software\Java\maven\repository 改成你仓库的地址 set REPOSITORY_PATHD:\software\Java\maven\rep…

并发编程——JUC并发工具

文章目录 前言CountDownLatchCountDownLatch应用CountDownLatch核心源码 SemaphoreSemaphore应用Semaphore核心源码 CyclicBarrierCyclicBarrier应用CyclicBarrier核心源码 总结 前言 JUC 是Java并发编程工具类库&#xff0c;提供了一些常用的并发工具&#xff0c;例如锁、信号…

月木学途开发 5.轮播图模块

概述 效果图 数据库设计 轮播图表 DROP TABLE IF EXISTS banner; CREATE TABLE banner (bannerId int(11) NOT NULL AUTO_INCREMENT,bannerUrl longtext,bannerDesc varchar(255) DEFAULT NULL,bannerTypeId int(11) DEFAULT NULL,PRIMARY KEY (bannerId) ) ENGINEInnoDB AU…

一文看懂这些海外社媒平台属性,跨境外贸必看

随着社交媒体平台的普遍使用&#xff0c;在平台上营销品牌形象、投放广告已经成为销售转化的强大动力&#xff0c;我们普遍熟络的都是国内平台&#xff0c;那么对于跨境外贸的小伙伴来说&#xff0c;熟悉海外社媒平台更加重要&#xff01; 当然仅仅用一个社交媒体平台获得流量的…

【办公小神器】:快速批量转换Word、Excel、PPT为PDF脚本!

文章目录 ✨哔哩吧啦✨脚本使用教程✨温馨小提示设置&#x1f4da;资源领取 专栏Python零基础入门篇&#x1f525;Python网络蜘蛛&#x1f525;Python数据分析Django基础入门宝典&#x1f525;小玩意儿&#x1f525;Web前端学习tkinter学习笔记Excel自动化处理 ✨哔哩吧啦 前…

SpringBoot+MyBatisPlus+MySQL不能储存(保存)emoji表情问题解决

1.之前在学习过程中不知道utf8和utf8mb4的区别&#xff0c;也没过多去了解&#xff0c;直到最近设置的数据库编码全是utf8后发现问题所在了&#xff0c;居然不能储存表情包&#xff01;&#xff01;&#xff01;整个人直接傻了&#xff0c;后面知道了utf8是3字节不能储存表情&a…

计算机视觉与深度学习-全连接神经网络-训练过程-模型正则与超参数调优- [北邮鲁鹏]

目录标题 神经网络中的超参数学习率超参数优化方法网格搜索法随机搜索法 超参数搜索策略粗搜索精搜索 超参数的标尺空间 神经网络中的超参数 超参数 网络结构&#xff1a;隐层神经元个数&#xff0c;网络层数&#xff0c;非线性单元选择等优化相关&#xff1a;学习率、dorpou…

Kubernetes(k8s)上搭建一主两从的mysql8集群

Kubernetes上搭建一主两从的mysql8集群 环境准备搭建nfs服务器安装NFS暴露nfs目录开启nfs服务器 安装MySQL集群创建命名空间创建MySQL密码的Secret安装MySQL主节点创建pv和pvc主节点的配置文件部署mysql主节点 安装第一个MySQL Slave节点创建pv和pvc第一个从节点配置文件部署my…

高质量AI数据服务铺路架桥,云测数据引领行业大模型训练新范式

大模型发展风起云涌&#xff0c;使得AI应用又成为了市场热点。但这场创新运动和上一轮AI热潮的背景不同&#xff0c;如今行业不缺技术、也不乏商业模式健康的玩家&#xff0c;最稀缺的资源&#xff0c;已然变成了高质量数据。大模型的模型从何而来&#xff1f;本质上&#xff0…

计算机竞赛 深度学习+opencv+python实现昆虫识别 -图像识别 昆虫识别

文章目录 0 前言1 课题背景2 具体实现3 数据收集和处理3 卷积神经网络2.1卷积层2.2 池化层2.3 激活函数&#xff1a;2.4 全连接层2.5 使用tensorflow中keras模块实现卷积神经网络 4 MobileNetV2网络5 损失函数softmax 交叉熵5.1 softmax函数5.2 交叉熵损失函数 6 优化器SGD7 学…

iOS“超级签名”绕过App Store作弊解决方案

一直以来&#xff0c;iOS端游戏作弊问题都是游戏行业的一大痛点。在当下游戏多端互通的潮流下&#xff0c;游戏作为一个整体&#xff0c;无论哪一端出现安全问题&#xff0c;都会造成更加严重的影响。因此&#xff0c;iOS端游戏安全保护也同样十分重要。 iOS独特的闭源生态&am…

ATFX汇市:美联储宣布维持利率不变,鲍威尔继续发表鹰派言论

ATFX汇市&#xff1a;今日凌晨02:00&#xff0c;美联储公布9月利率决议结果&#xff0c;宣布维持5.25%5.5%的联邦基金利率区间不变。2:002:05&#xff0c;美元指数从最低104.75飙涨至最高105.21&#xff0c;对应EURUSD的汇率从最高1.0727下跌至最低1.0674&#xff0c;跌幅53基点…

基础组件(线程池、内存池、异步请求池、Mysql连接池)

文章目录 1、概述2、线程池2、异步请求池3、内存池 1、概述 池化技术&#xff0c;减少了资源创建次数&#xff0c;提高了程序响应性能&#xff0c;特别是在高并发场景下&#xff0c;当程序7*24小时运行&#xff0c;创建资源可能会出现耗时较长和失败等问题&#xff0c;池化技术…

小谈设计模式(5)—开放封闭原则

小谈设计模式&#xff08;5&#xff09;—开放封闭原则 专栏介绍专栏地址专栏介绍 开放封闭原则核心思想关键词概括扩展封闭 解释抽象和接口多态 代码示例代码解释 优缺点优点可扩展性可维护性可复用性高内聚低耦合 缺点抽象设计的复杂性需要预留扩展点可能引入过度设计 总结 专…

软件工程第一次作业参考答案

题目 名词解释&#xff1a;软件危机、软件、软件工程、软件生命周期、瀑布模型、原型模型、增量模型、喷泉模型、敏捷过程模型。 答案 软件危机&#xff1a;软件危机是指在软件开发过程中所面临的一系列问题和挑战&#xff0c;包括成本超支、进度延误、质量不达标等。 软件…

ubuntu 22.04 服务器网卡无IP地址

ssh连接服务器连接不上&#xff0c;提示如下&#xff1b; 连接显示器&#xff0c;ip addr ls 命令查看IP地址&#xff0c;有网卡但没有IP地址 solution&#xff1a; sudo dhclient enp10s0用于通过 DHCP 协议获取网络配置信息并为名为 enp10s0 的网络接口分配 IP 地址,enp1…

TiDB 7.1.0 LTS 特性解读丨关于资源管控 (Resource Control) 应该知道的 6 件事

TiDB 7.1.0 LTS 在前段时间发布&#xff0c;相信很多同学都已经抢先使用了起来&#xff0c;甚至都已然经过一系列验证推向了生产环境。面对 TiDB 7.1 若干重要特性&#xff0c;新 GA 的资源管控 (Resource Control) 是必须要充分理解、测试的一个重量级特性。对于常年奋斗在一线…

一个热爱自动驾驶但妥妥外行之人的思考-2023

时间节点为2023年9月&#xff0c;有效期当下及过往&#xff0c;不含未来。 这些年准确说从10年就很关注自动驾驶行业&#xff0c;包括物流/机器人/汽车等。 也和行业内&#xff0c;行业外的朋友做了大量的交流。点滴沟通放在如下链接中&#xff1a; 动态 - CSDN 一些过去的观…

新型智慧公厕“1+3+N”架构,平台、系统、应用的创新

近年来&#xff0c;随着人民生活水平的提高&#xff0c;人们对公共设施的要求也越来越高。其中&#xff0c;如厕问题一直是人们关注的焦点&#xff0c;但传统的公厕设施已经不能满足人们对干净、舒适、安全的需求&#xff0c;这促使了新型智慧公厕的诞生与应用&#xff0c;以如…