中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果

在这里插入图片描述

目录

  • 前言
  • 一、多模态模型进展与探索
    • 1、GPT-4V (多模态)测试
    • 2、LLM时代文档图像处理技术趋势
    • 3、LLM时代文档图像技术机会
    • 4、MLLM时代文档图像处理技术趋势
    • 5、知名文档图像大模型OCR性能分析
  • 二、图像安全
    • 1、篡改种类
    • 2、系统架构
    • 3、文档图像处理开放平台
    • 4、AIGC假图鉴别
    • 5、图像篡改检测标准制定
  • 最后

前言

随着人工智能技术的不断演进,多模态大模型已是当下比较热的研究方向,它可以同时理解和生成多种输入和输出模态,如文本、图像、语音等,能够更好地模拟人类的多感知能力,给文档图像的分析处理带来了新的机遇和挑战!

近期,中国模式识别与计算机视觉大会在厦门举办,是国内顶级的模式识别和计算机视觉领域学术盛会。大会汇聚了国内国外模式识别和计算机视觉理论与应用研究的广大科研工作者及工业界同行,分享我国模式识别与计算机视觉领域的最新理论和技术成果。通过此次会议,进一步加强本领域的同行与东南沿海地区的学者和企业进行学术交流和技术碰撞,从而促进模式识别与计算机视觉领域的协同合作与融合创新。

合合信息是人工智能及大数据领域的领先企业。在本次大会中合合信息智能技术平台事业部副总经理郭丰俊博士分享了文档图像前沿技术中的成果及探索,主要包括多模态模型以及图像安全,让我们一起来了解一下吧。

一、多模态模型进展与探索

多模态大模型可以用于提高文档图像的处理和分析能力,使文档变得更易于管理、检索和理解。而文档图像是多模态天然的一个属性,它们能够为文档管理、信息提取和文档分析等任务提供有力支持。

1、GPT-4V (多模态)测试

随着 GPT-4V 到来,多模态能力发生了跃迁,不仅能理解文本,还能理解图像。经过初步的测试发现它对英文 OCR 较好,但是对中文 OCR 不理想。GPT-4V 有时会错误地将图像中的两串文字组合在一起,创造出一个虚构的术语。它还会遗漏文字或字符、忽略数学符号,以及无法识别相当明显的物体和地点设置。下图展示了 GPT-4V 的错误识别:
在这里插入图片描述

2、LLM时代文档图像处理技术趋势

LLM 时代,文档图像处理技术在不断演进,郭丰俊博士从三个方面来介绍文档图像处理技术趋势:

  • 输入:在输入端主要使用多模态的方法,这些方法允许系统同时处理不同的数据模态,如文本、图像和语音,从而提高了系统对多种感知信息的综合理解和处理能力
  • 架构:使用通用的Transformer Encoder / Decoder 架构,它使多模态模型能够处理各种数据类型,实现综合的多模态理解和生成。
  • 数据:对于多模态的Transformer模型,需要大规模且高质量的数据来训练模型,以获得最佳性能。

3、LLM时代文档图像技术机会

GPT-4V 的到来,是否会对会对正在做 OCR、NLP 领域的研究者造成危机感呢?郭丰俊博士提出虽然新技术的诞生会引起更多的关注,但是 OCR 依然是一个很重要的技术。如今我们想要训练一个大模型,不管是参与人的模型还是像 GPT-4V,都需要大规模的数据,而 OCR 在提供数据方面是一个非常好的工具,OCR 不仅能够高效录入数据,并且还能够处理不同格式的的数据。

4、MLLM时代文档图像处理技术趋势

下面是一些在文档图像处理方面比较知名的系统。

  • BLIP2 – Saleforce:Q-Former连接图像编码器(ViT)和LLM解码器; 仅需训练Q-Former部分
  • Flamingo – DeepMind:在LLM中增加Gated Attention层引入视觉信息
  • LLaVA – Miscrosoft:将CLIP ViT-L和LLaMA采用全连接层连接; 使用GPT-4和Self-Instruct生成高质量的158k instruction following数据
  • MiniGPT – Vision CAIR Group, KAUST:ViT+ Q-Former + Vicuna
  • Nougat – Meta:Swin Transformer + Transformer Decoder 图像到序列范式; 820万页文档的数据集
  • Kosmos-2.5:Swin Transformer + Transformer Decoder 范式; 3.2亿的数据和1.3B的模型达到远超Nougat等Sota指标
  • Donut – NAVER:无需OCR, 用于文档理解的Transformer模型

5、知名文档图像大模型OCR性能分析

经过系统测评显示系统性能还需要进一步提高,郭丰俊博士提出可能是以下原因:

  • 视觉编码器的分辨率限制: OCR 系统中的视觉编码器通常用于处理文档图像,从中提取文本信息。如果视觉编码器的分辨率不足,可能导致文本识别的准确性下降。提高视觉编码器的分辨率和图像处理能力可能是提升性能的一种途径。

  • 训练数据限制: OCR 系统的性能通常受到训练数据的质量和多样性的影响。如果训练数据不足或不具代表性,系统可能难以应对各种文档类型、字体和排版风格。增加训练数据的数量和多样性可以改善性能。

在这里插入图片描述

二、图像安全

随着生成式的人工智能快速发展,越来越多的系统都能够生成图像,图像的真伪以及安全也越发重要。AI 图像安全为 AIGC 健康发展、规模化应用保驾护航,解决负面社会问题。
下图展示了 AI 图像安全在文档图像的篡改以及人脸真伪具体案例:在这里插入图片描述

1、篡改种类

图像篡改指的是对数字图像的未经授权或欺骗性修改,以改变图像的内容或意义。分为四种类型:复制移动、拼接、擦出、重打印。下面给出证件照原始图,对图像篡改的四种类型一一解释,以身份证背面图为例,具体如下:
在这里插入图片描述

2、系统架构

合合信息在处理图像篡时基于分割模型的图像处理,Backbone使用ConvNeXt作为编码器,使用LightHamEANet两个网络并行作为解码器。充分利用了编码器-解码器结构,其中编码器负责提取特征,解码器负责还原图像并执行分割。并行使用两个不同的解码器可以提供更多的特征表示和捕获能力,从而增强了分割性能。
在这里插入图片描述
在文档图像处理时,郭丰俊博士提到有两个挑战的方面:一个是大量数据的构建,构建大规模且高质量的数据集对于训练文档图像处理模型至关重要。这些数据集应该包括多种字体、多种场景、多种篡改形式、头像物体篡改,以覆盖各种应用场景;另一个是训练策略,需要不断进行优化调整。 在深度学习中,选择合适的训练策略对于模型性能至关重要。这包括超参数的调整、学习率的优化、数据增强方法的选择以及模型的选择。不断调整和优化这些策略可以帮助提高模型的性能,使其在文档图像处理任务中更加强大和可靠。

在这里插入图片描述

3、文档图像处理开放平台

合合信息针对文档图像处理,提供了PS检测开放平台,供开发者进行免费测试。基于自研篡改检测系统,可以判断图片是否被篡改,支持包含身份证、护照、驾驶证、行驶证、教师资格证,港澳通行证、海外身份证等证照,及增值税发票、普通发票、小票、合同等文档。该产品具有独特的优势:

  • 准确率高:基于海量的图片样本训练模型,针对图片模糊、倾斜、翻转等情况进行专项优化,鲁棒性强,总体识别准确率行业靠前。
  • 服务稳定:提供高可靠性、弹性可伸缩、高并发承载的云端服务,扩展性好,算法的持续迭代优化对用户使用稳定性无影响。
  • 多样部署:提供公有云 API 以及私有化部署两种方式。
    在这里插入图片描述

4、AIGC假图鉴别

在安全领域,合合信息紧跟时代步伐做了生成式AI的鉴别工作,主要包括身份验证与访问控制、移动设备的安全检测、数字图像真实鉴定。比如我们现在有些手机、电脑、门禁等的解锁或可以使用人脸就可以解密,还有一些 ToB 的业务, 比如银行的很多业务都需要面临生成式 AI 造假带来的压力。

它的系统架构师怎么实现的呢?郭丰俊博士以人脸鉴别场景为例,提出该鉴别体系的架构是通过通过多个空间注意力头来关注空间特征,并使用纹理增强模块放大浅层特征中的细微伪影,增强模型对真实人脸和伪造人脸的感知与判断准确度,其中纹理的细节变化是人脸鉴别的一个非常重要的依据。
在这里插入图片描述

5、图像篡改检测标准制定

关于图像篡改检测标准,合合信息将与中国信通院、中国图象图形学学会、中国科学技术大学一起共建并推动图像篡改监测标准,为文档图像内容安全提供可靠保障,提高图像篡改检测的一致性,推动技术创新,助力新时代AI安全体系建立。通过推动这一标准的制定和实施将有助于构建更可靠的 AI 安全体系,不仅对文档图像内容的安全具有重要意义,还可以在广泛的应用领域中推动数字安全和隐私保护。

最后

多模态模型的发展呈现出巨大的潜力,这些模型在深度学习领域中变得越来越重要。合合信息深耕智能文字识别以及商业大数据领域,结合模式识别、图像处理、神经网络、深度学习、STR、NLP打造智能文字识别服务平台,结合隐私计算、知识图谱打造商业大数据技术与资产平台,产品覆盖B端、C端,深受全球用户的喜爱。未来期待可以看到合合信息更多关于多模态模型在金融、零售、证券等领域的创新和应用,用技术方案服务更多的人群。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/162915.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络第2章-CDN(4)

视频流和内容分发网 HTTP流和DASH 在HTTP流中,视频只是存储在HTTP服务器中作为一个普通的文件,每个文件有有一个特定的URL。当用户要看视频时,客户与服务器之间创建一个TCP连接并发送HTTP GET请求。 HTTP流具有严重缺陷,即所有…

Opengauss数据类型强转

Opengauss数据类型强转 解决方法案例 解决方法 使用cast(需要转换的字段 as 转换后的类型) 函数进行强转。 提示:以下是本篇文章正文内容,下面案例可供参考 案例 问题:统计各类图书的平均价格,其中在图书表中price字段为money型…

PDCA循环

PDCA循环 由美国质量管理专家沃特阿曼德休哈特(Walter A. Shewhart)首先提出的,由戴明采纳、宣传,获得普及,所以又称戴明环。 模型介绍 戴明是一位美国的质量管理大师,却成名于日本。在他的帮助下&#xf…

电源模块测试用例科普:如何调整电压调整率?ATECLOUD-POWER测试系统能否测试?

电压调整率可以控制电压水平,确保设备正常工作,并且可以减少电能浪费,是开关电源测试的其中一个测试项目。那么要如何测试电压调整率呢?测试条件是什么呢? 什么是电压调整率? 电压调整率是指变压器某个绕组的空载电压和指定负载和功率因数…

Javascript 流程控制 笔记/练习

流程控制 if 分支 单分支 if() 中的条件成立则执行 {} 中的语句&#xff0c;否则不执行 <script>if(条件){语句;} </script>双分支 if() 中的条件成立则执行 if 后{} 中的语句&#xff0c;否则执行 else{} 中的语句 <script>if(条件){语句;}else{语句;} <…

C++初阶--C++入门(1)

文章目录 C语言与C命名空间命名空间的定义和使用 C的输入输出缺省参数函数重载引用赋值与引用引用在参数上的使用以及注意事项函数返回值的引用引用与值的时间效率比较常引用 C语言与C 很多初学者都会把这两门语言进行混淆&#xff0c;但其实这是两种不同的语言&#xff0c;C相…

视频批量加水印:保护版权,提升效率

在当今的自媒体时代&#xff0c;视频制作已经成为许多人的一项必备技能。然而&#xff0c;在视频制作过程中&#xff0c;如何为自己的视频添加独特的水印以保护知识产权&#xff0c;常常让许多制作者感到困扰。本文将为你揭示如何通过固乔剪辑助手软件&#xff0c;简单几步批量…

柯桥基础俄语口语|初级俄语学习:用联想法学习字母

初级俄语 用联想法学习字母 开始学习俄语的时候&#xff0c;第一任务就是掌握字母表。今天彼得俄语会帮助大家巧记俄语字母表。为此&#xff0c;小编把所有字母分成三组&#xff1a;与拼音相似的&#xff0c;可以用图片记住的以及可以用汉字记住的。 与拼音相似的字母 俄语有3…

FPGA 图像缩放 1G/2.5G Ethernet PCS/PMA or SGMII实现 UDP 网络视频传输,提供工程和QT上位机源码加技术支持

目录 1、前言版本更新说明免责声明 2、相关方案推荐UDP视频传输--无缩放FPGA图像缩放方案我这里已有的以太网方案 3、设计思路框架视频源选择ADV7611 解码芯片配置及采集动态彩条跨时钟FIFO图像缩放模块详解设计框图代码框图2种插值算法的整合与选择 UDP协议栈UDP视频数据组包U…

Linux 内核启动分析

Linux 内核启动分析-BugMan-ChinaUnix博客 通过《Linux应用程序elf描述》&#xff0c;我们了解到一个应用程序编译后&#xff0c;最终会按照指定方式进行链接&#xff0c;而我们通过ld --verbose可以查看对应应用的默认链接方式。那么对于Linux内核呢&#xff1f;毫无疑问&…

工程监测仪器振弦传感器信号转换器在桥梁安全监测中的重要性

工程监测仪器振弦传感器信号转换器在桥梁安全监测中的重要性 桥梁是人类社会建设过程中最重要的交通基础设施之一&#xff0c;对于保障人民出行、促进经济发展具有极其重要的作用。由于桥梁结构在长期使用过程中受到环境因素和负荷的影响&#xff0c;会逐渐发生变形和损伤&…

计算未来:微软眼中的人工智能

计算未来 :人工智能及其社会角色&#xff08;The Future Computed. Artificial Intelligence and its role in society &#xff09;这本书于2018年09月由北京大学出版社出版。 书籍的作者是&#xff1a;沈向洋&#xff08;微软全球执行副总裁&#xff09;,&#xff08;美&…

单片机TDL的功能、应用与技术特点 | 百能云芯

在现代电子领域中&#xff0c;单片机&#xff08;Microcontroller&#xff09;是一种至关重要的电子元件&#xff0c;广泛应用于各种应用中。TDL&#xff08;Time Division Multiplexing&#xff0c;时分多路复用&#xff09;是一种数据传输技术&#xff0c;结合单片机的应用&a…

通配符SSL证书价格贵吗

通配符SSL证书是一种SSL证书&#xff0c;用于保护基于相同域名但具有不同子域名的多个网站。 它使用通配符字符 "*" 来代表所有可能的二级子域名。JoySSL注册码230609领取免费使用通配符证书 通配符SSL证书的作用是使您可以使用单个证书来保护主域名和所有其下的子域…

关于我对 jeecg-boot 的项目理解、使用心得和改进建议

一句话总结&#xff1a; JeecgBoot帮助我提升了后端技术水平&#xff0c;入门了前端&#xff0c;让我在公司内部慢慢能够成长为全栈开发。 一、项目理解 JeecgBoot 项目的核心理念是快速开发、低代码、易扩展。它采用了前后端分离的架构&#xff0c;后端使用Spring Boot Myba…

小程序入门及案例展示

目录 一、小程序简介 1.1 为什么要使用小程序 1.2 小程序可以干什么 二、前期准备 2.1 申请账号 2.2 开发工具下载与安装 三、电商案例演示 四、入门案例 4.1 项目结构解析 4.2 基础操作及语法 4.3 模拟器 4.4 案例演示 4.4.1 新建页面 4.4.2 头部样式设置 4.4.…

github: kex_exchange_identification: Connection closed by remote host

问题描述 (base) ➜ test git:(dev) git pull kex_exchange_identification: Connection closed by remote host Connection closed by 192.30.255.113 port 22 致命错误&#xff1a;无法读取远程仓库。解决方案 参照下边文档 https://docs.github.com/en/authentication/tr…

【C++初阶(二)】缺省参数函数重载

目录 前言 1. 缺省参数 1.1 什么是缺省参数 1.2 缺省参数的分类 1.2.1 全缺省参数 1.2.2 半缺省参数 2. 函数重载 2.1 什么是函数重载 2.2 缺省参数与函数重载 2.3 函数重载的使用 3. C支持函数重载的原因 总结 前言 在学习C语言时我们就会发现&#xff0c;C语言中存在的许多…

Flutter视图原理之三棵树的建立过程

目录 三棵树的关系树的构建过程1.updateChild函数&#xff08;element的复用&#xff09;2.inflateWidget函数3.mount函数3.1 componentElement的实现3.2 RenderObjectElement的实现3.2.1 attachRenderObject函数 4.performRebuild函数 总结三棵树创建流程 三棵树的关系 Flutt…

超声波清洗机靠谱吗?实用性比较高的超声波清洗机推荐

超声波清洗机是否靠谱&#xff0c;这是一个有争议的问题&#xff01;但是先不妨先来了解了解超声波清洗机。 超声波清洗机通过高频振动波来清洁物品表面&#xff0c;这些振动波会在水中形成微小的气泡。气泡不断崩裂&#xff0c;产生强大的冲击力&#xff0c;从而将物品表面的…