已经有多人中招,不要被AI换脸技术骗了!

您好,我是码农飞哥(wei158556),感谢您阅读本文,欢迎一键三连哦
💪🏻 1. Python基础专栏,基础知识一网打尽,9.9元买不了吃亏,买不了上当。 Python从入门到精通
😁 2. 毕业设计专栏,毕业季咱们不慌忙,几百款毕业设计等你选。
❤️ 3. Python爬虫专栏,系统性的学习爬虫的知识点。9.9元买不了吃亏,买不了上当 。python爬虫入门进阶
❤️ 4. Ceph实战,从原理到实战应有尽有。 Ceph实战
❤️ 5. Java高并发编程入门,打卡学习Java高并发。 Java高并发编程入门

文章目录

    • 1. 前言背景
    • 2. 大模型在文档图像领域的应用
      • 2.1. 文档图像大模型的进展
    • 3. 图像安全
      • 3.1. 图像篡改检测
      • 3.2. 生成式图像鉴别
    • 4. 总结

1. 前言背景

自去年ChatGPT发布之后,各大科技公司纷纷推出了自家的大模型,标志这人类社会正式进入了大模型时代。大模型的发展速度惊人,从最初的只能根据提问生成自然语言文本,到现在可以根据输入文本来绘图,根据输入图像来进行OCR识别,并对文档或图像的内容进行解释。这意味着现在的大模型已经从单一模态的输入和输出,进化到了多模态的输入和输出。

在近期召开的第六届中国模式识别与计算机视觉大会上。我专门学习了合合信息的郭丰俊博士关于文档图像前沿技术探索的分享。郭博士是上海交通大学模式识别与智能系统博士,他首先介绍了多模态在文档图像领域的应用以及合合信息在此方向的最新研究成果。接着,他阐述了如何应对各类图像安全问题,特别是图像篡改以及AI换脸等造假行为的甄别新思路。通过郭博士的分享,我对大模型时代文档图像领域的发展趋势有了更深入的了解。

2. 大模型在文档图像领域的应用

通用大语言模型(Large Language Models,LLM)是以深度学习为基础,包含超大规模参数的预训练模型,主要应用于自然语言领域。这些模型的训练需要大量的高质量数据语料。然而,随着大模型的快速发展和广泛应用,高质量的数据语料逐渐被消耗殆尽。据预测,到2026年全世界可用于大模型训练的高质量数据语料将面临枯竭的风险。这对大模型的发展和应用提出了严峻挑战。

为了应对这一问题,单一的文本数据输入已无法满足需求,大模型需要引入多种模态的数据语料。电子文档作为丰富的数据源,具有巨大的潜力。首先,电子文档提供了丰富多样的文本内容,涵盖了各种领域的专业知识,专业术语,实际场景将这些文档作为语料库,可以有效扩大大语言模型的训练数据范围,提高其语言理解和生成能力。其次,电子文档通常经过精心编辑,逻辑清晰、可读性强。其章节分明、段落明确的结构有助于大模型更好地学习理解上下文规则。此外,通过电子文档的训练,大模型还能够适应不同的语境和用法。

考虑到电子文档中存在大量的扫描件,文档图像处理技术的发展对大模型的进步具有重要意义。图像处理和自然语言处理相结合,将为大模型提供更加全面和多样的数据支持,进一步推动其发展和应用。

同时,这种技术也可以给图像识别提供新的思路和方法。通过结合自然语言处理,图像识别可以更加准确地理解图像中的文本信息,从而提高图像识别的准确性和可靠性。这种跨模态的技术将为人工智能领域的发展带来新的机遇和挑战。

2.1. 文档图像大模型的进展

目前,业界已经涌现出了一批知名的文档图像大模型,其中有代表性的包括多模态模型BLP2,微软的LLaVA以及DeepMind的Flamingo。这些模型在工作机制上有所不同,但都展现了在文档图像处理领域的强大能力。

BLP2多模态模型使用Q-Former连接图像编码器(ViT) 和LLM解码器,通过Image Encode将图像进行编码,然后使用Q-Former将图像部分和文字部分进行融合,最后对接大模型进行理解和生成。这种工作机制使得BLP2不仅能够进行图像识别,还能充分利用大模型的理解能力,提高了模型的性能和应用范围。

微软的LLaVA模型则采用CLIP ViT-L图像编码器和LLaMA解码器,并使用GPT-4和自注意力生成高质量的158K instruction following数据。这种方法使得LLaVA能够在文档图像处理任务中取得较好的效果,提高了模型的准确性和可靠性。

DeepMind的Flamingo模型则在大语言模型中增加了Gated Attention层,通过计算图像特征和文本特征之间的注意力权重,生成与文本特征相匹配的视觉向量。这个视觉向量与文本向量一起作为输入,使得语言模型的输出更加准确和生动。

尽管这些文档图像大模型在工作机制上有所不同,但它们都依赖于OCR引擎进行文本识别。这种模式存在的一个问题是误差的累积,目前这些模型在OCR识别上的系统性能还有待进一步提高。
在这里插入图片描述

郭丰俊博士指出了当前文档图像大模型在处理细粒度文本时存在的局限性,可能的原因之一是视觉编码器的分辨率不足。在真实的应用场景中,细粒度文本往往会受到光照、噪声、变形等各种因素的干扰,这增加了文字识别的难度。现有的多模态大模型中的视觉编码器,如基于卷积神经网络或Transformer的模型,在处理图像时会受到分辨率的限制,导致对细粒度文本的识别效果不佳。

另一方面,训练数据集的缺乏也是影响模型性能的重要因素。由于缺少针对细粒度文本的标注数据,模型难以从数据中学习到有效的细粒度文本特征表示。因此,虽然现有的多模态大模型在处理显著文本时表现较好,但在处理细粒度文本时仍存在很大的局限性。

为了克服这些局限性,需要进一步开展深入的研究和探索。

3. 图像安全

图像安全与每个人的日常生活紧密相连,许多诈骗分子利用伪造的身份证冒充他人进行非法交易,或者通过虚假发票实施金融诈骗。

在传统图像处理中,人们通过PS(Photoshop)等工具对图像进行篡改,例如添加水印,修改原图内容等。这种篡改方式相对较易检测出来。然而,随着大模型时代的到来,AI换脸技术的出现使得图像篡改变得更加复杂和难以检测。通过运用大量的训练数据和强大的神经网络模型,AI可以生成非常逼真的人脸图像,与真实的人脸几乎无法区分。由此,利用AI换了技术进行欺诈的案例屡见不鲜。

除了AI换脸技术,通过生成对抗网络(GAN)等技术 ,AIGC还能生成各种类型的图像,包括风景、动物、物体等。这些生成的图像可以非常逼真,与真实的图片相比真假难辨。这给图像安全带来了巨大的挑战,因为人们很难判断一张图像是真实拍摄的还是由AI所生成的。

在这里插入图片描述

为了应对这些挑战,研究人员正在努力开发新的技术和方法来检测和防止图像篡改和伪造。

3.1. 图像篡改检测

传统的图像篡改检测技术主要通过应用Sobel算子计算图像的梯度,然后进行阈值处理,将梯度幅值较小的像素设为零。接着通过分析非零像素数量来判断图像是否被篡改。具体来说,如果非零像素数量超过图像总像素数的1%,那么该图像会被认定为已被篡改。

这种方法对于相片这类有明显像素差异的图片有一定的效果,但对于截图这类缺乏纹路和底色、光照差异的图片则显得力不从心,鉴别准确率不高。

为了应对这种情况,合合信息提出了一种全新的分割模型Backbone,该模型采用了ConvNeXt作为编码器,同时使用LightHam和EANet两个网络并行作为解码器。

编码器的作用是将输入的图像数据进行特征提取和压缩,将其转化为低维的特征表示。在这个分割模型中,选择的ConvNeXt编码器是一种基于卷积神经网络(CNN)的新型架构。它在保持计算效率的同时,能够有效地捕捉图像中的局部和全局信息,提高了网络的性能和表达能力。

解码器的作用则是将编码器提取的特征表示恢复为原始图像的大小,并进行像素级别的分类。在这个分割模型中,采用了并行的两个解码器:LightHam和EANet。LightHam是一种轻量级的解码器结构,通过分层注意力机制和多尺度融合策略,实现了高效的图像分割。而EANet(Efficient Attention Network)则是一种高效的解码器结构,通过引入自底向上的注意力机制和空间金字塔池化等技术,提高了分割的准确性和速度。

最后,这两个解码器并行工作,分别生成两个独立的分割结果。这两个结果可以进一步融合或选择最优的结果作为最终的分割输出。这种并行处理的方式可以提高模型的鲁棒性和准确性,同时也增加了模型的复杂度和计算开销。

Backbone分割模型架构图如下图所示:

在这里插入图片描述

合合信息自研的图片篡改检测系统,在 ICDAR2023 文档图像篡改检测竞赛中,凭借卓越的检测性能,成功荣获赛道冠军。

在这里插入图片描述

合合信息自研的图片篡改检测系统已经在多个行业成功落地,包括证券、保险、银行、零售等。这些行业的业务流程涉及到大量的图像信息处理和审核,如证件照、合同、发票等,因此对图像篡改检测的需求较大。

通过引入合合信息的图片篡改检测系统,企业可以提高业务审核的准确性和效率,有效减少因图像篡改而引发的风险和损失。同时,该系统还可以提升企业的业务流程自动化水平,降低人工审核的成本和误差。

为了方便更多用户体验和使用该系统,合合信息已在其官网上线了这套图片篡改检测系统。有需求的小伙伴可以到官网进行免费体验。体验地址为: PS检测网址。通过这一系统, 用户可以快速检测图像是否被篡改,提高图像信息的可信度。

3.2. 生成式图像鉴别

生成式图像鉴别主要面临两大难题:首先,AI生成的图像涵盖了丰富多样的场景,这使得通过穷举法进行鉴别变得非常困难;其次,AI生成的图像非常的逼真,与真实图片相似度极高,这对人类的判断构成了极大的挑战。

为了应对这些难点,合合信息提出了一种创新的方法,基于空域和频域关系建模。这种方法无需穷举所有可能的图像,而是通过捕捉多维度的特征来准确地分辨真实图片和生成式图片之间的微妙差异。

这种多维度特征的分析方式为机器提供了一种更加精确的判断图像真实性的能力,从而有效地解决了生成式图片与真实图片相似度过高的问题。这使得机器能够更加可靠地鉴别图像的来源,提高了生成式图像鉴别的准确性。

模型结构图如下图所示:

image-20231015201118187

以人脸为例,该模型通过运用多个空间注意力头来聚焦空间特征,并结合纹理增强模块对浅层特征中的细微伪影进行放大处理。这些技术手段大大增强了模型真实人脸和伪造人脸的感知与判断准确度。在各种复杂场景下,该模型均能够表现出高度可靠的性能,准确区分真实人脸和伪造人脸。随着相关技术的快速迭代,模型的性能也在不断提升,进一步优化了对生成式图像鉴别的能力。

image-20231015201429559

4. 总结

通过郭丰俊博士的分享,我深入了解了大模型在文档图像领域应用的广阔前景。合合信息将大模型与OCR技术巧妙结合,创新地将端到端的检测识别定义为图片到序列的预测任务,只需单点标注指示文本位置,无需额外的ROI采样和复杂的后处理操作,真正实现了检测与识别的完美融合。这一创新方法极大地提高了文档图像识别的效率,展现了大模型在文档图像处理中的优势。

此外,合合信息还提出了一种空域和频率建模的方法,以解决AI换脸和AI生成图片的图像篡改鉴别问题。该方法通过捕捉多维度的特征,精确地分辨真实图片和生成式图片之间的细微差异,在实际场景中表现出可靠的性能。

值得一提的是,合合信息在文档图像领域拥有近20年的丰富积累,具备OCR识别、版面分析等技术领域的坚实基础。公司推出了多款知名产品,如扫描全能王和名片全能王等,展现了其在文档图像处理领域的领先地位。
image-20231015194737646

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/164266.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

汽车辅助系统

目录 一,项目描述 二,项目 功能 三,代码实现 (1)倒车雷达 (2)AD(对 雨滴与光敏电阻传感器进行AD采集) (3)雨刷 (4)灯光 最后总结&#xf…

vue 树状结构数据渲染 (java 处理 list ->树状)

树状结构 Element ui https://element.eleme.cn/#/zh-CN/component/tree <el-tree :data"data" :props"defaultProps" node-click"handleNodeClick"></el-tree><script>export default {data() {return {data: [{label: 一级…

功能集成,不占空间,同为科技TOWE嵌入式桌面PDU超级插座

随着现代社会人们生活水平的不断提高&#xff0c;消费者对生活质量有着越来越高的期望。生活中&#xff0c;各式各样的电气设备为我们的生活带来了便利&#xff0c;在安装使用这些用电器时&#xff0c;需要考虑电源插排插座的选择。传统的插排插座设计多暴露于空间之中&#xf…

pdf转二维码怎么做?pdf二维码制作简单技巧

pdf是一种很常见的文件储存格式&#xff0c;一般通知、发票、简历都会保存为这种格式来使用&#xff0c;那么需要将pdf格式文件做成二维码&#xff0c;该用什么方式来制作呢&#xff1f;下面给大家分享一个pdf转二维码的在线工具&#xff0c;可以通过上传文件一键生成二维码&am…

优思学院|六西格玛的发展历程是怎样的?

在商业世界的星空中&#xff0c;有一颗璀璨的星星&#xff0c;它的名字叫做六西格玛。这颗星星不是一夜之间闪耀登场的&#xff0c;而是在商界的无尽深夜中&#xff0c;逐渐积累了耀眼的光芒。今天&#xff0c;我就来为大家介绍一下六西格玛的发展历程吧。 西格玛是啥&#xff…

设备健康管理系统PreMaint如何帮助制药企业符合GMP认证要求

在制药行业&#xff0c;确保药品的质量、安全性和有效性是至关重要的。为了满足这一需求&#xff0c;药品生产质量管理规范&#xff08;GMP&#xff09;被广泛采用作为制药企业达到国际质量标准的基础。然而&#xff0c;制药企业在追求GMP认证标准时面临着不少挑战。本文将探讨…

解决 阿里云oss 对象存储 bucket 中的文件不能在线预览 只能下载

我的域名是在腾讯云的&#xff0c;所以点开腾讯云的域名解析后台。 点击添加记录&#xff1b; 记录类型选 CNAME&#xff1b;主机记录 随便写&#xff1b;解析线路 默认&#xff1b; 记录值 填你的bucketname 就是你存储文件的bucket的名字 然后 . 域名所在区域 北京就是oss-c…

001.第一个C语言项目

Visual studio2022的使用 创建第一个C语言项目和源文件 https://blog.csdn.net/qq_45037165/article/details/124520286 第一个C语言项目 #include<stdio.h> int main() {printf("Hello World");return 0; }运行结果&#xff1a; 第一行为库函数&#xff0…

Richard Stallman 正在与癌症作战

导读为了纪念 GNU 项目成立 40 周年&#xff0c;自由软件基金会&#xff08;FSF&#xff09;已计划在 10 月 1 日&#xff08;即GNU 40&#xff09;为家庭、学生以及美国的其他人群组织一场黑客马拉松活动。 活动之前&#xff0c;GNU 项目于 9 月 27 日迎来了 40 岁生日&#…

windows中elasticsearch7中添加用户名密码验证

1.找到elsatic的bin目录输入cmd 2.生成ca证书 输入 elasticsearch-certutil ca 在es7根目录生成ca证书&#xff0c;输入密码时直接回车即可&#xff0c;否则后面会报错 Please enter the desired output file [elastic-stack-ca.p12]: #这里直接回车即可 Enter password for…

airflow报ModuleNotFoundError: No module named ‘dags‘原因和解决方法

ModuleNotFoundError: No module named ‘dags’ 原因&#xff1a;airflow默认是从dags目录下开始搜所有模块&#xff0c;如果你加上dags目录名&#xff0c;就相当于在dags目录下找dags包。 解决方法&#xff1a;导入的时候&#xff0c;去掉dags&#xff0c;详细可以参考下面案…

Eclipse Xtext 实现PLC ST 语言到C的转换

Eclipse Xtext 是开发领域专用语言&#xff08;DSL&#xff09;的工具。例如数据库的SQL 语言&#xff0c;PLC 的ST 语言都是一种领域专用语言。在开放自动化领域&#xff0c;提倡基于模型的设计方法。DSL 是描述模型的强有力工具。 在开发PLC 程序IDE时&#xff0c;开发ST编译…

【红日靶场】vulnstack5-完整渗透过程

系列文章目录 【红日靶场】vulnstack1-完整渗透过程 【红日靶场】vulnstack2-完整渗透过程 【红日靶场】vulnstack3-完整渗透过程 【红日靶场】vulnstack4-完整渗透过程 文章目录 系列文章目录描述虚拟机密码红队思路 一、环境初始化二、开始渗透外网打点上线cs权限提升域信息…

尚硅谷Flink(四)处理函数

目录 &#x1f98d;处理函数 &#x1f412;基本处理函数 &#x1f412;按键分区处理函数&#xff08;KeyedProcessFunction&#xff09; &#x1f435;定时器&#xff08;Timer&#xff09;和定时服务&#xff08;TimerService&#xff09; // 1、事件时间的案例 // 2、处理…

“揭秘!如何通过京东商品详情接口轻松获取海量精准商品信息!“

京东商品详情接口可以通过HTTP GET请求获取商品详情信息。 请求参数包括num_iid&#xff0c;表示JD商品ID。 请求示例&#xff1a; GET /jd/item_get/?num_iid10335871600 HTTP/1.1 Host: api-vx.Taobaoapi2014.cn Connection: close Accept-Encoding: gzip 点击获取…

双11必看,2023京东双11红包首发时间介绍

双11必看&#xff0c;2023京东双11红包首发时间介绍 10月15日星期日消息&#xff1a;在双十一期间姐妹们最关心的就是商品价格、双11红包、跨店满减&#xff0c;因为这3样就决定我们购物成本。据悉&#xff0c;2023年京东双11京享红包首发时间已经确定了10月23日20点。下面小编…

sd卡的坏块管理与负载均衡

坏块管理 坏块是指在存储介质中出现物理损坏或不可靠的数据块。由于SD卡使用的是闪存技术&#xff0c;它也面临着坏块的问题。 SD卡通过实现坏块管理机制来处理坏块。具体的坏块管理方法可能因制造商和产品型号而有所不同&#xff0c;但通常会采取以下策略&#xff1a; 坏块标…

HarmonyOS/OpenHarmony原生应用开发-华为Serverless服务支持情况(四)

文档中的TS作者认为就是ArkTS之意。 一、云存储 AppGallery Connect&#xff08;简称AGC&#xff09;云存储是一种可伸缩、免维护的云端存储服务&#xff0c;可用于存储图片、音频、视频或其他由用户生成的内容。借助云存储服务&#xff0c;您可以无需关心存储服务器的开发、…

中文连续视觉语音识别挑战赛

视觉语音识别&#xff0c;也称唇语识别&#xff0c;是一项通过口唇动作来推断发音内容的技术。该技术在公共安全、助老助残、视频验真等领域具有重要应用。当前&#xff0c;唇语识别的研究方兴未艾&#xff0c;虽然在独立词、短语等识别上取得了长足进展&#xff0c;但在大词表…

如何设计 API?

在前后端分离的设计中&#xff0c;不管使用什么语言&#xff0c;后端都需要提供 WebAPI 给前端使用。如果是一个平台级的产品&#xff0c;还有可能需要将平台的公共 API 提供给第三方系统使用&#xff0c;这些都要考虑到 API 的设计。 本文聊下 API 设计可能遇到的问题以及处理…