PRCV2024:可信AI向善发展与智能文档加速构建

目录

  • 0 写在前面
  • 1 GAI时代的挑战:图像内容安全
    • 1.1 图像篡改与对抗攻击
    • 1.2 生成式图像鉴别
    • 1.3 人脸鉴伪模型体验
    • 1.4 助力可信AI向善发展
  • 2 GAI时代的机遇:大模型加速器
    • 2.1 TextIn大模型加速器
    • 2.2 通用文档解析
    • 2.3 文本向量模型
  • 3 总结

0 写在前面

中国模式识别与计算机视觉大会(PRCV)旨在汇聚国际国内模式识别和计算机视觉领域的广大科研工作者及工业界同行,分享最新理论研究进展和技术研发成果。通过此次会议,能加强本领域学术界和企业界进行深入的产-学-研交流与合作,从而进一步促进模式识别与计算机视觉领域的协同创新。

在这里插入图片描述

在PRCV2024中,合合信息图像算法研发总监郭丰俊老师针对生成式人工智能(Generative AI, GAI)时代下图像内容安全和智能文档加速的相关技术,分享了自己的独到见解,并介绍了合合信息在这两个方向上取得的进步。接下来,让我们深入了解一下GAI在智能文档领域带来的挑战与机遇。

1 GAI时代的挑战:图像内容安全

1.1 图像篡改与对抗攻击

我们知道,机器学习模型主要分为两类:

  • 判别式模型(discriminative models)
  • 生成式模型(generative models)

在过去,人们只希望基于已有的给定数据做一些预测和拟合,因此判别式模型得到发展并且很好地解决了大部分任务;而未来,人们将目标转向用生成式模型生成全新数据,进行迁移学习等,也就是常说的人工智能生成内容(AI Generated Content, AIGC)

为什么我们需要生成全新数据?

答案很简单:我们希望提高人工智能的工作上限,就不能仅仅依靠它对已有数据的拟合,而是像人一样有一定的创新能力。

生成式模型相比判别式模型的独特优势,使之可以应对更多的任务,例如推动内容开发、视觉艺术创作、数字孪生、自动编程,甚至为科学研究提供AI视角、Al直觉…因此生成式人工智能是未来的发展趋势。

然而,自AIGC技术兴盛以来,生成式造假也让人们倍感忧虑。

图像是信息的重要载体,也是信息保护的重点关注对象。图像编辑软件的发展和普及降低了虚假图像的制作门槛,大量基于虚假图片产生的诈骗案件、网络暴力事件在全球范围内造成了恶劣的影响。图像内容的安全与可信性也成为了公众关注的焦点,但图像领域的“可信AI”才刚刚起步。

在这里插入图片描述

图源PRCV2024·合合信息

篡改文本检测(TTD,tampered text detection)作为多媒体信息安全领域的一个新兴研究方向,是指通过对文本图像中纹理特征的分析,捕捉真实文本和篡改文本之间的纹理差异性,以确定文本图像中文字区域的真伪性。常见的应用场景有:谣言检测、流水合同造假识别、欺诈图像识别、学历造假检测、保单PS检测等。

篡改文本检测任务有两个主要挑战。

  • 局部纹理差异性捕捉困难。篡改文本与真实文本仅存在局部纹理差异;
  • 真实和篡改文本检测精度平衡困难。

此前,图像篡改检测的技术研究对象主要集中于自然场景图像,然而,真正为人们的生活带来风险的通常是被篡改的资质证书、文档、截图等。举个例子

在社交媒体平台上,用户分享的图像被不法分子篡改,以传播虚假信息或误导公众。导致公众误解或恐慌。例如,假冒的灾难场景图像可能引发不必要的恐慌和社会动荡。个人或公众人物的形象也可以被恶意篡改,导致名誉受损,甚至影响其职业生涯和个人生活。

除此之外,在银行金融、汽车交易、财务审批等领域,每年都会因各种欺诈行为带来风险。

在这里插入图片描述

图源PRCV2024·合合信息

在这里插入图片描述

图源PRCV2024·合合信息

1.2 生成式图像鉴别

合合信息AI图像篡改检测技术可检测不仅包括自然文本,也包括转账记录、交易记录、聊天记录等多种形式,无论是从原图中“抠下”关键要素后移动“粘贴”至另一处的“复制移动”图片篡改手段,还是“擦除”、“重打印”等方式,图像篡改检测技术均可“慧眼”识假

PRCV2024上,合合信息在生成式图像鉴别的关键词是小样本在线增量,其架构的核心模块称为知识蒸馏(Knowledge Distillation)。在神经网络的轻量化技术中,蒸馏作为模型压缩类别内的一种举足轻重的技术流派,它的核心思想是让一个性能强大但网络复杂体积庞大不便于移动部署的模型作为教师模型,去引导一个性能较弱但网络简单体积较小易于在移动设备上部署的学生模型,知识从教师模型提取后直接迁移到学生模型中,此期间不经过另外的模型对知识重新提取优化。直接知识蒸馏一般模型数量相对较少,计算要求简单,在实际的任务场景中有广泛的应用。

大模型通常是千亿参数级别的,这是一个什么概念?千亿参数级别的深度学习模型通常由大量计算资源支撑,包括大量的GPU计算机和大规模的数据集。这些模型可以应用于各种领域,例如计算机视觉、自然语言处理、图像分类等。千亿参数级别的深度学习模型也常常被称为“超级模型”,因为它们的规模和复杂度远超过一般的深度学习模型。它们可以通过更多的数据进行训练,从而实现更高精度的预测和分类。

在这里插入图片描述

由于知识的转移不受模型结构的限制,该方法具有很强的灵活性,因此,自 2015年,Hinton等人系统总结了知识蒸馏的概念后,知识蒸馏受到了国内外研究者的广泛关注并不断被后续的研究者所改进。目前,对知识蒸馏技术的分类方法中,按照迁移的“知识”的定义不同,可以细分为将尾层输出当作知识的蒸馏方法,将中间隐藏层特征当作知识的蒸馏方法以及把关系当作知识的蒸馏方法,其中关系又可继续细分为样本间的关系、网络层间关系等。

像这种大规模深度学习产品,预训练模型通常需要占用很大的空间,并且训练和推断时间也很慢;直接在实际产品或应用中使用预训练模型难以满足时间和空间需求;合合信息正是应用知识蒸馏技术在不损失或少量损失性能的基础上,提升推断速度,进行少量样本的持续学习。

1.3 人脸鉴伪模型体验

合合信息提供了人脸鉴伪模型的体验入口,目前这项技术已与某央企银行展开落地合作,公开测试版本即将上线。

在这里插入图片描述

我们通过diffusion模型伪造一张AI人脸,点击上传本地文件上传

在这里插入图片描述

可以看到,一张用肉眼难以分辨的人像图片,被快速地识别为伪造人脸,也欢迎各位感兴趣的同学亲自来体验一下~

1.4 助力可信AI向善发展

图像安全的重要性与日俱增,标准规范的出台迫在眉睫。中国信通院牵头启动了《文档图像篡改检测标准》制定工作,合合信息、中国图象图形学学会、中国科学技术大学等科技创新企业及知名学术机构联合编制。

《文档图像篡改检测标准》将为文档图像内容安全提供可靠保障,助力新时代AI安全体系建设。作为牵头方,中国信通院表示,《文档图像篡改检测标准》将基于产业现状,围绕“细粒度”视觉差异伪造图像鉴别、生成式图像判别、文档图像完整性保护等行业焦点议题,凝聚行业共识,以期为行业提供有效指引。

在这里插入图片描述

图源PRCV2024·合合信息

2 GAI时代的机遇:大模型加速器

2.1 TextIn大模型加速器

随着人工智能技术的飞速发展,大模型以强大的数字处理能力和深度学习能力,不断与各领域交叉融合,逐步成为产业创新的关键抓手。PRCV2024恰逢全球大模型蓬勃发展之时,今年参会的人们更加关注大模型技术在未来可以如何作用于人们的生活。

然而,大模型产业发展如火如荼的同时,其训练数据规模的增长速度跟不上、语料质量参差不齐,尤其是高质量中文语料短缺的问题日益凸显,成为各方关注焦点。阿里研究院5月发布的《大模型训练数据白皮书》显示

互联网上中文语料和英文语料占比存在显著差异:在全球网站中,英文占比高达59.8%,而中文仅占1.3%。

高质量数据的生成速度远低于AI大模型训练数据需求量的增长速度,数据短缺问题已初现端倪。本次世界人工智能大会期间,合合信息为中文大模型打造的“加速器”重磅上线,为工业界大模型语料和幻觉问题提供了全新的解决方案。

在这里插入图片描述

图源PRCV2024·合合信息

2.2 通用文档解析

表格、公式、图表等复杂元素的处理,大大制约了大模型的训练语料处理及大模型文档问答的应用能力。例如文档的多样性和复杂性问题:文档类型和格式繁多,包括报告、合同、发票、证明、证件等等。不同类型的文档有不同的格式和布局,难以用统一的方法处理。而且智能文档处理受到图像质量、文字字体、文字大小、文字颜色等噪声因素的影响,容易出现误识别。此外,还有图像质量不一、文档获取繁琐等等。

PRCV2024上,合合信息介绍了通用文档解析引擎,旨在将多种格式、版式的文档(图片、PDF、Doc/Docx等)高效、精准解析为结构化的Markdown格式,便于下游进一步的语料处理

在这里插入图片描述

图源PRCV2024·合合信息

出于对文本泛化性的考虑,合合信息通用文档解析引擎是层次化的结构:首先将文档划分为电子档和扫描档两大类;接着将任务拆解为电子档文字提取、通用文字识别、布局分析、版面分析等几大模块;对于每一个模块,再进一步划分为各种单体功能,例如段落检测、公式识别、表格检测、斜体检测等。

在这里插入图片描述

图源PRCV2024·合合信息

这其中的每一个模块都对应一个学术界与工业界的研究难点,合合信息在这些问题上都有自己的独到理解和解决方案。

例如文档版面分析任务,要求对文档图像按照不同的语义功能及区域类别进行分割和识别,分割出文本区、表格区、公式区、图形区等区域,并判断各区域所属的类别。然而,文档的具体内容边界模糊,需要人工矫正判定。例如文章中的摘要部分和正文段落部分具有十分模糊的界定边界,可能因为错误评判或者错误标记的方式造成某些样本之间的标签输出是具有先验偏差。因此,如何保证数据集的无偏性或尝试在建模过程中消除该种偏差性,是文档版面分析的难点和重点之一。

合合信息的方案是从文档图像中抽象出四部分嵌入向量:

  • 字符嵌入(Character embedding)
  • 文本行嵌入(Textline embedding)
  • 段落嵌入(Paragraph embedding)
  • 关系嵌入(Relation embedding)

将这些嵌入向量送入Transformer中进行语义对齐和特征提取,最终还原文档元素

在这里插入图片描述

图源VALSE 2023·合合信息

2.3 文本向量模型

虽然大语言模型在认知方面展示出巨大的潜力,但它在处理智能文档任务时,仍然具有很多的缺陷。其中制约大模型发展的一个关键点在于“幻觉”现象的产生,所谓幻觉,指的是模型错误地关联了文本信息和图像细节之间的关系,导致产生了错误的推断和判断,或根据文本信息生成与图像不符合的内容,在补全图像时添加错误或不相关的细节。

RAG(Retrieval Augmented Generation)为解决幻觉问题提供了一个很有前景的解决方案。RAG的主要作用类似搜索引擎,找到用户提问最相关的知识或者是相关的对话历史,并结合原始提问(查询),创造信息丰富的prompt,指导模型生成准确输出。其本质上应用了情境学习的原理。基于文本嵌入技术(Embedding),可以搭建RAG应用,为语言模型真正理解文本、克服幻觉提供了基础。

在这里插入图片描述

图源PRCV2024·合合信息

前段时间,合合信息发布的文本向量化模型acge_text_embedding(简称acge模型),获得被公认为是目前业界最全面、最权威的中文语义向量评测基准C-MTEB榜单第一的成绩,在文本分类、文本聚类等任务上表现优异,打通了文本嵌入模型领域的底层原理。

在这里插入图片描述

acge位居C-MTEB榜首

acge模型,通过多层次的表示学习和信息融合机制,改进了语义表示和上下文感知能力。在问答任务中,这种能力可以帮助模型更好地理解问题和文本,提供更精准的答案,从而真正理解人的意图特性。同时,acge模型在神经网络广泛存在的灾难性遗忘问题上也做出了贡献。通过引入持续学习训练方式,合合信息acge模型克服了神经网络存在灾难性遗忘的问题,对维护大模型长期记忆并保持其学习能力有着重要意义,推动大模型在多个任务和领域中持续学习和适应。同时,减少反复训练模型的需要,节省大量的计算资源和时间

大家感兴趣的话可以进入acge模型,通过交互界面测试一下模型效果。

3 总结

合合信息带来的前沿技术分析,为高质量智能文档处理落地服务等提供了核心驱动力。欢迎各位感兴趣的朋友到textin.com或小程序了解更多关于智能文字识别产品和技术的信息,体验智能图像处理、文字表格识别、文档内容提取等产品。

合合信息的智能文字识别应用开发宗旨就是为了让世界更高效,打造了深受全球用户喜爱的效率工具,例如C端的名片全能王、扫描全能王等。让我们拭目以待,期待合合信息在模式识别、深度学习、图像处理、自然语言处理等领域的持续深耕,用技术方案惠及更多的人!

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/454600.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

认识一下:__asm { int 80h; LINUX - sys_fork }

这行代码 __asm { int 80h; LINUX - sys_fork } 使用了汇编语言的语法来直接调用 Linux 系统调用 fork。下面是对这行代码的详细解析: 代码解析 __asm: 这是一个用于嵌入汇编代码的指令,通常在 C 或 C 代码中使用,允许开发者直接插入汇编语言…

信息安全系统设计第七周

文章目录 密码系统设计学习内容AI 对学习内容的总结(1分)要求总结 第10章:身份认证和PKI理论基础第11章:实战PKI对 AI 总结的反思与补充(2分)要求反思与补充 学习思维导图(2分)要求思…

Pytorch 实现图片分类

CNN 网络适用于图片识别,卷积神经网络主要用于图片的处理识别。卷积神经网络,包括一下几部分,输入层、卷积层、池化层、全链接层和输出层。 使用 CIFAR-10 进行训练, CIFAR-10 中图片尺寸为 32 * 32。卷积层通过卷积核移动进行计…

告别微信封号!学会这5招,让你的账号坚不可摧

在这个信息爆炸的时代,无论是工作沟通、社交互动还是获取信息,微信都扮演着极其重要的角色。但是,随着微信平台规则的日益严格,账号被封的风险也随之增加。今天,我们就来聊聊如何有效防止 微信被封,让你的账…

【RL Latest Tech】安全强化学习(Safe RL):理论、方法与应用

📢本篇文章是博主强化学习(RL)领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对相关等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅…

Python | Leetcode Python题解之第486题预测赢家

题目: 题解: class Solution:def PredictTheWinner(self, nums: List[int]) -> bool:length len(nums)dp [0] * lengthfor i, num in enumerate(nums):dp[i] numfor i in range(length - 2, -1, -1):for j in range(i 1, length):dp[j] max(num…

uniapp结合uview-ui创建项目

准备工作: 下载HBuilderX;官网地址:HBuilderX-高效极客技巧 安装node.js;官网地址:Node.js — 在任何地方运行 JavaScript,下载所需版本,安装后配置好环境变量即可 方式一(NPM安装方式): 1、打开开发者…

代码随想录-哈希表-两个数组的交集

题目与思路 这个题目可以用大小为1000的数组,因为限制了变量大小。我用的是set,感觉这个才是本意。 下面代码是用set实现的hash结构。先用set1存储nums1中的去重元素,然后用set2存储结果集 最后将set转为array用了两种方式,一是…

LINUX设备OTA时无法从HTTP服务器(TOMCAT)下载文件

疑难问题排查记录 问题 linux设备作为http客户端,执行OTA前先从HTTP服务器下载bin固件,测试nginx没有问题,nodejs编写的HTTP服务器也没有问题,而软件同事使用的Tomcat则无法成功下载。 排查经过 首先利用chrome浏览器测试下载…

WebGl 实现图片平移、缩放和旋转

1.图片平移 在WebGL中实现图片平移,可以通过修改顶点着色器中的顶点位置来实现。平移的基本思想是将每个顶点的位置向量沿着指定的方向(通常是x轴和y轴)进行平移。在顶点着色器中,可以通过添加或减去一个统一的偏移量&#xff08…

「AIGC」n8n AI Agent开源的工作流自动化工具

n8n AI Agent 是一个利用大型语言模型(LLMs)来设计和构建智能体(agents)的工具,这些智能体能够执行一系列复杂的任务,如理解指令、模仿类人推理,以及从用户命令中理解隐含意图。n8n AI Agent 的核心在于构建一系列提示(prompts),使 LLM 能够模拟自主行为。 传送门→ …

C++:stack 和 queue 的使用和模拟实现

使用 要注意&#xff0c;stack 和 queue 没有迭代器。 stack void teststack() {stack<int> st;st.push(1);st.push(2);st.push(3);st.push(4);st.push(5);cout << st.size() << endl;while (!st.empty()){cout << st.top() << " ";…

电机编码器

旋转式编码器 链接: 野火编码器 单圈&#xff0c;多圈绝对式编码器 在单圈绝对值编码器中&#xff0c;单圈并不表示编码器机械转动的圈数&#xff0c;而是指断电记忆的范围。实际上&#xff0c;机械转动是可以无限制地进行圈数的&#xff0c;但是断电记忆仅限于一圈的范围内…

构建后端为etcd的CoreDNS的容器集群(二)、下载最新的etcd容器镜像

在尝试获取etcd的容器的最新版本镜像时&#xff0c;使用latest作为tag取到的并非最新版本&#xff0c;本文尝试用实际最新版本的版本号进行pull&#xff0c;从而取到想的最新版etcd容器镜像。 一、用latest作为tag尝试下载最新etcd的镜像 1、下载镜像 [rootlocalhost opt]# …

bash之基本运算符

一.算术运算符 vim test.sh #!/bin/basha10 b20valexpr $a $b echo "a b : $val"valexpr $a - $b echo "a - b : $val"valexpr $a \* $b echo "a * b : $val"valexpr $b / $a echo "b / a : $val"valexpr $b % $a echo "b % a …

《重置MobaXterm密码并连接Linux虚拟机的完整操作指南》

目录 引言 一、双击MobaXterm_Personal_24.2进入&#xff0c;但是忘记密码。 那么接下来请跟着我操作。 二、点击此链接&#xff0c;重设密码。 三、下载完成后&#xff0c;现在把这个exe文件解压。注意解压要与MobaXterm_Personal_24.2.exe在同一目录下哦&#xff0c;不然…

LMS自适应滤波器原理与应用Matlab程序

1. 引言 自适应滤波器是一种根据输入数据动态调整其滤波系数的滤波器&#xff0c;能够在未知或变化的环境中有效工作。最小均方&#xff08;LMS&#xff0c;Least Mean Squares&#xff09;自适应滤波器是自适应滤波器家族中最经典的一种&#xff0c;其以计算简便、收敛速度快…

Docker基础部署

一、安装Ubuntu系统 1.1 新建虚拟机 打开VMware Workstation&#xff0c;选择文件->新建虚拟机->典型&#xff08;推荐T&#xff09;->安装程序光盘映像文件->输入虚拟的名字->一直下一步即可 安装程序光盘映像文件 注意&#xff1a;选择CentOS-7-x86_64-DVD-…

基于知识图谱的美食推荐系统

想象一下&#xff0c;每次打开应用&#xff0c;它都能为你量身推荐最符合你口味的美食&#xff0c;不需要再为“今天吃什么&#xff1f;”烦恼。这听起来是不是非常吸引人&#xff1f;今天就给大家介绍一个适合做毕业设计的创新项目——基于知识图谱的美食推荐系统&#xff01;…

STM32_实验5_中断实验

通过外部中断来检测四个按键按下的状态&#xff1a; WK_UP 控制蜂鸣器响和停 KEY0 控制 LED_R 互斥点亮 KEY1 控制 LED_G 互斥点亮 KEY2 控制 LED_B 互斥点亮。 中断的基本概念&#xff1a; 中断请求&#xff08;IRQ&#xff09;&#xff1a; 当发生某个特定事件&#xff08;例…