2023第十二届中国智能产业高峰论坛之文档大模型的探索与思考

文章目录

  • 前言
  • 合合信息
  • 多模态大模型与文档图像智能理解
  • 文档图像分析识别与理解的技术难题
    • 文档图像分析与预处理
    • 文档解析与识别
    • 版面分析与还原
    • 文档信息抽取与理解
    • AI安全
    • 知识化&存储检索和管理
  • 文档图像的分析识别与理解和大模型的关系
  • 文档图像大模型的进展
    • LayoutLM
    • UDOP
    • Donut
    • BLIP2
  • 文档图像大模型的探索
    • 文档图像大模型设计思路
    • SPTS
    • 实验结果
  • 展望

前言

近日,2023第十二届中国智能产业高峰论坛(CIIS 2023)在江西南昌顺利举行,本次论坛主要讲解了关于AI大模型、生成式AI、无人系统、智能制造和数字安全等领域的议题。其中令我印象最深刻的就是上海合合信息的丁凯老师讲解的多模态大模型与文档图像智能理解专题论坛的部分了。

在这里插入图片描述

合合信息

我们在讲解多模态大模型与文档图像智能理解专题论坛之前先对上海合合信息科技股份有限公司做一个基础的介绍吧。

上海合合信息科技股份有限公司是行业领先的人工智能及大数据科技企业,致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务。相信大家一定听说过它家的产品——名片全能王、扫描全能王

在这里插入图片描述

多模态大模型与文档图像智能理解

多模态大模型是指能够同时处理多种类型数据(例如图像、文本、语音等)的强大神经网络模型。它将多个模态的输入数据整合在一起,并通过共享的模型结构进行联合训练和推理。

与传统的深度学习模型通常只针对某一种特定类型的数据进行建模和处理不同的是,多模态大模型则进一步扩展了模型的能力,使其能够同时处理不同类型的数据。

多模态大模型的核心思想是将不同模态的数据进行融合和交互,以实现更全面、准确的任务处理。例如,在图像与文档生成任务中,模型可以同时接受图像和文档输入,并根据两者之间的关联生成相应的输出。这种联合训练和生成的方式可以提供更丰富、多样化的结果。

文档图像分析识别与理解的技术难题

大会上,根据丁老师的讲述,目前文档图像分析识别与理解的技术难题主要体现在以下几个方面:

  • 当文档图像质量退化时,会导致文档图像变得模糊不清。这种质量问题与文档图像扫描技术密切相关;
  • 根据以下图片案例来看,文字的排布版面非常的复杂,这就给版面分析、文字检测带来了巨大的挑战;
  • 在文字识别领域,由于书写的潦草、包括识别的种类非常的多,除了文字、公式还有一些特殊的符号;

在这里插入图片描述
基于以上的问题和难题,合合信息将文档图像分析识别与理解的研究主题分成了以下六个模块:

文档图像分析与预处理

主要解决的是文档图像的质量问题,比如一张人眼都无法看清的文档图像在经过切边增强、去摩尔纹、弯曲矫正、图片压缩、PS检测等技术的处理之后变成非常清晰的质量非常高的图像。

文档解析与识别

经过文档图像分析与预处理之后的文档图像会接着来到文档解析与识别模块。我们通过文字识别、表格识别、电子档解析等技术获取到文字信息。

版面分析与还原

我们会把上个步骤拿到的文字信息进行处理,使用元素检测、元素识别、版面还原等技术来识别文档的标题、段落、图像等元素,并还原文档的原始版面结构,以便后续的信息抽取和理解。

文档信息抽取与理解

通过计算机技术,从文档中自动提取出有用信息并进行理解、分类和归纳。文档信息抽取与理解可以帮助人们更加有效地管理和利用大量文档数据,提高工作效率和决策质量。它在数字化档案管理、企业知识管理、搜索引擎、自动化客服等领域具有广泛的应用前景。

AI安全

在文档图像分析识别与理解过程中,通过篡改分类、篡改检测、合成检测、AI生成检测等技术来保证用户的数据隐私和文档图像安全性。

知识化&存储检索和管理

将信息和知识进行有效的组织、存储、检索和管理,在大量的数据和信息中提取有用的知识,并使其易于访问和利用,对于提高工作效率、决策质量和创新能力具有重要意义。

在这里插入图片描述

文档图像的分析识别与理解和大模型的关系

丁老师认为文档图像的分析识别与理解和大模型的关系应该是互补的

举个例子:数据和算力是进行大规模云计算的两个重要因素。随着人工智能和深度学习的发展,大模型的训练需要大量的数据和强大的计算资源。关于全球可用于大模型训练的数据量可能被耗尽的问题,确实有一些机构提出了预测。

在这里插入图片描述

目前,大模型的数据量已经相当庞大,并且很多大型模型厂商已经开始关注电子文档领域。随着大型模型的需求和电子文档的重要性增加,对文档图像扫描和OCR技术的需求也会增加。这对于提供更多训练数据和支持大型模型的计算资源来说,可能是一个新的数据来源和应用领域。

文档图像大模型的进展

LayoutLM

大家一提到文档图像的大模型,一般都绕不开微软的 LayoutLM 系列大模型。它的工作原理:将文本图像做一次OCR,如果是电子文档直接进行 Parser,将它的文字信息、位置信息、以及后边的图像信息放在一起做一个预训练的模型,然后执行任务。

在这里插入图片描述

UDOP

微软于2023年推出了文档处理大一统模型 UDOP ,它是端到端的模型。 它采用统一的 Vision-Text-Layout 编码器把文字信息、视觉信息、版面信息进行统一的编码,在解码的时候用 Text-Layouot 和 Vision 解码器分离解码。

在这里插入图片描述

Donut

NAVER 在2022年开发了 OCR Free 的文档图像模型Donut,它是无需 OCR 的用于文档理解的 Transformer 模型,即直接处理图像。

在这里插入图片描述

BLIP2

多模态模型 BLIP2 将视觉模态和语言模态进行很好的融合,通过 Image Encoder 把图像进行编码,通过 Q-Former 做一个图像模态和文字模态的融合对其,然后再接一个大语言模型。

在这里插入图片描述

它的特点是不但能理解图像,还可以充分利用大语言模型的理解能力。

合合信息与华南理工大学合作共同研究了文档图像专有大模型 LiLT。LiLT 采用了一种创新性的方法,将视觉和语言模型分开建模,并通过联合建模的方式将它们整合在一起。这种解耦的设计使模型能够更好地处理文档图像中的文本和视觉信息,从而提高了识别和理解的准确性。

为了更好地融合视觉和语言模型,LiLT 引入了双向互补注意力模块(BiCAM)。这一模块的作用是使模型能够在视觉和语言之间进行双向的信息传递和交互,从而更好地捕捉文档图像中不同元素之间的关联性。

LiLT 在多语言小样本和零样本场景下表现出卓越的性能。这意味着即使在数据有限的情况下,该模型仍能够有效地执行文档图像信息抽取任务,展现了其在应对多语言和数据不足情况下的鲁棒性。

文档图像大模型的探索

文档图像大模型设计思路

  • 将文档图像识别分析的各种任务定义为序列预测的形式
    • 文本,段落,版面分析,表格,公式等等
  • 通过不同的prompt引导模型完成不同的OCR任务
  • 支持篇章级的文档图像识别分析,输出Markdown/HTML/Text等标准格式
  • 将文档理解相关的工作交给LLM去做

在这里插入图片描述

SPTS

SPTS 文档图像大模型主要针对场景文字来做:将端到端检测识别定义为图片到序列的预测任务,采用单点标注指示文本位置,极大地降低了标注成本。无需Rol采样和复杂的后处理操作,真正将检测识别融为一体。

在这里插入图片描述

在V2版本中,针对SPTS推理速度较慢的问题,将检测识别解耦为自回归的单点检测和并行的文本识别。IAD根据视觉编码器特征自回归地得到每个文本的单点坐标。PRD根据IAD的单点特征,并行地得到各个文本的识别结果。

在这里插入图片描述

经过数轮迭代,基于SPTS的OCR大一统模型(SPTS v3),成功将输入从场景文字拓展到表格、公式、篇章节的文档等。将多种OCR任务定义为序列预测的形式,通过不同的prompt引导模型完成不同的OCR任务,模型沿用SPTS的CNN+TransformerEncoder+Transformer Decoder的图片到序列的结构。

在这里插入图片描述

SPTS v3 的任务定义:目前主要关注端到端检测识别、表格结构识别、手写数学公式识别等任务。

在这里插入图片描述

训练平台:A100GPU * 10

在这里插入图片描述

实验结果

在这里插入图片描述

在这里插入图片描述

展望

在这里插入图片描述

团队期望的是以后在输入的时候不再是一个固定的公式、公式的图片或者是表格的图像,而就是一个文档图像,它里边既有文字又有公式又有表格又有图片。我们通过不同的Prompt 去控制具体提取的是什么,使模型输出 Token Sequence,最后再接大模型,在不同的场景里边去实现多态实际的落地的应用。

合合信息在智能产业中的研究成果具有重要意义。这些成果不仅为各行业提供了实用的解决方案,也为智能产业的发展提供了新的思路和方向。希望它通过不断探索和创新,合合信息有望在智能图像处理及其他领域取得更多突破,推动人工智能技术的应用和智能产业的发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/141071.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

东郊到家app小程序公众号软件开发预约同城服务系统成品源码部署

东郊到家app系统开发,东郊到家软件定制开发,东郊到家小程序APP开发,东郊到家源码定制开发,东郊到家模式系统定制开发 一、上门软件介绍 1、上门app是一家以推拿为主项,个人定制型的o2o平台,上门app平台提…

次时代摸鱼骚操作:人在办公室轻松观看家里电脑上的4k电影(移动端公网访问本地群辉存储视频文件)

如何使用iPhone15在办公室观看家里电脑上的4k电影? 文章目录 如何使用iPhone15在办公室观看家里电脑上的4k电影?1.使用环境要求:2.下载群晖videostation:3.公网访问本地群晖videostation中的电影:4.公网条件下使用电脑…

详解MySQL索引+面试题

前言: 📕作者简介:热爱编程的小七,致力于C、Java、Python等多编程语言,热爱编程和长板的运动少年! 📘相关专栏Java基础语法,JavaEE初阶,数据库,数据结构和算法系列等,大家有兴趣的可以看一看。 😇😇😇有兴趣的话关注博主一起学习,一起进步吧! 一、索引概述…

购物新时尚RFID自助结账

购物已经变得更加简单和方便了,归功于RFID自助结账。别再排队等收银员了,让我们来看看这个酷炫的新方式。 RFID是什么?RFID就是那些小电子标签,它们能够让物品自动被识别。每个商品都有一个这样的标签,而RFID读卡器就…

【Linux is not Unix】Linux前言

目录 二战军工的产物——第一台现代电子数字计算机ENIAC(埃尼阿克) Unix Linux Linux企业应用现状 如今计算机已经应用在我们生活的各个层面,像我们日常使用的笔记本是计算机的一类,可以解决我们生活中遇到的很多问题&#xff…

视频监控系统/视频汇聚平台EasyCVR有下级平台注册时出现断流情况该如何排查解决?

视频汇聚/视频云存储/集中存储/视频监控管理平台EasyCVR能在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,实现视频资源的鉴权管理、按需调阅、全网分发、云存储、智能分析等,视频智能分析平台EasyCVR融合性强、开放度…

论文阅读:AugGAN: Cross Domain Adaptation with GAN-based Data Augmentation

Abstract 基于GAN的图像转换方法存在两个缺陷:保留图像目标和保持图像转换前后的一致性,这导致不能用它生成大量不同域的训练数据。论文提出了一种结构感知(Structure-aware)的图像转换网络(image-to-image translation network)。 Proposed Framework…

【渗透攻防】千变万化的WebShell

前言 WebShell就是以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境,也可以将其称做为一种网页后门。本篇文章将带大家学习如何获取WebShell,如何隐藏WebShell,有攻必有防,最后带大家学习查杀WebShell。 目录 第一节…

Opencv cuda版本在ubuntu22.04中安装办法,解决Could NOT find CUDNN的办法

文章目录 概要下载cuda的runfile版本配置环境变量官网下载cudann安装Opencv依赖包下载opencv和opencv_contrib并解压准备编译安装anaconda环境执行编译命令安装OpenCV并检查是否安装成功 概要 解决以下安装问题: -- Could NOT find CUDNN: Found unsuitable versi…

Qt地铁智慧换乘系统浅学( 一 )存储站点,线路信息

存储 定义所需要的容器定义最大最小经纬度[统计站点信息 在经纬度网站](https://map.jiqrxx.com/jingweidu/)读取统计的信息存储到容器其他的一些相关函数debug 显示存储的信息更新最小最大经纬度的函数获取两点之间的距离 根据经纬度 定义所需要的容器 extern QMap<QStrin…

单元测试 —— JUnit 5 参数化测试

JUnit 5参数化测试 目录 设置我们的第一个参数化测试参数来源 ValueSourceNullSource & EmptySourceMethodSourceCsvSourceCsvFileSourceEnumSourceArgumentsSource参数转换参数聚合奖励总结 如果您正在阅读这篇文章&#xff0c;说明您已经熟悉了JUnit。让我为您概括一下…

Web 基础概念

自己总结的web前端知识体系大全 基础概念 DOM DOM是什么意思-前端入门_dom是什么意思啊_猿说前端的博客-CSDN博客 DOM的含义&#xff1a; DOM称为文件对象模型&#xff08;DocumentObjectModel&#xff0c;简称DOM&#xff09;&#xff0c;是W3C组织推荐的处理可扩展置标语言的…

hanoi塔问题

汉诺塔 5层攻略31步_哔哩哔哩_bilibili 问题描述&#xff1a; n阶Hanoi塔问题&#xff0c;假设有3个分别命名为A、B、C塔座&#xff0c;在塔座A上插有n个直径大小各不相同、依小到大的圆盘。现要求将A轴上的n个圆盘移动至塔座C上并按同样顺序叠排&#xff0c;圆盘移动时必须遵…

【Linux】生产消费模型 + 线程池

文章目录 &#x1f4d6; 前言1. 生产消费模型2. 阻塞队列2.1 成员变量&#xff1a;2.2 入队(push)和出队(pop)&#xff1a;2.3 封装与测试运行&#xff1a;2.3 - 1 对代码进一步封装2.3 - 2 分配运算任务2.3 - 3 测试与运行 3. 循环阻塞队列3.1 POSIX信号量&#xff1a;3.1 - 1…

VRRP DHCP ACL NAT 网络核心路由技术综述 (第十课)

VRRP DHCP ACL NAT 网络核心技术综述 (第十课) 六大路由基础技术 简单的利用思维导图回顾 1 浮动路由 2 VRRP 技术==>目的是备份网关

阿里云Stable Diffusion操作教程

大家好,我是雄雄,欢迎关注微信公众号:雄雄的小课堂 前言 Stable Diffusion是⼀种深度学习模型,主要⽤于将⽂本描述转化为详细的图像,也可以应⽤于其他图像处理任务 。 这个模型由创业公司Stability AI 与学术研究者合作开发,使⽤了⼀种称为潜在扩散模型(LDM)的扩散模型…

基于UWB技术高精度人员定位系统源码

一、UWB定位技术有什么优势&#xff1f; UWB技术解决了困扰传统无线通信技术多年的有关传播方面的重大难题&#xff0c;具有对信道衰落不敏感、发射信号功率谱密度低、截获率低、系统复杂度低、能提供数厘米的定位精度等优点。 1.系统结构简单 UWB系统中的发射器直接用脉冲小…

28.CSS 渐变圆文本动画

效果 源码 index.html <!doctype html> <html> <head><meta charset="utf-8"><title>Glowing Gradient Circle Text Animation</title><link rel="stylesheet" href="style.css"> </head> &l…

联想电脑打开exe提示要在Microsoft Store中搜索应用

问题&#xff1a; 你需要为此任务安装应用。 是否要在Microsoft Store中搜索一个&#xff1f; 如图&#xff1a; 出现此情况&#xff0c;仅需要做如下操作&#xff0c;在要打开的exe文件上右键&#xff0c;属性&#xff1a; 如图箭头所示&#xff0c;点击“解除锁定”出现对钩&…

LPA*算法图文详解

之前我们看过了A* 算法&#xff0c;知道了A* 算法的基本原理&#xff0c;但是A* 算法的缺陷也很明显&#xff1a;它是离线的路径规划算法&#xff0c;只能一次规划出路径&#xff0c;但是后面路径被改变的话就无法生效了。针对这个问题&#xff0c;人们研究出了D* 算法。D* 算法…