目录
- 0 写在前面
- 1 GAI时代的挑战:图像内容安全
- 1.1 图像篡改与对抗攻击
- 1.2 生成式图像鉴别
- 1.3 人脸鉴伪模型体验
- 1.4 助力可信AI向善发展
- 2 GAI时代的机遇:大模型加速器
- 2.1 TextIn大模型加速器
- 2.2 通用文档解析
- 2.3 文本向量模型
- 3 总结
0 写在前面
中国模式识别与计算机视觉大会(PRCV)旨在汇聚国际国内模式识别和计算机视觉领域的广大科研工作者及工业界同行,分享最新理论研究进展和技术研发成果。通过此次会议,能加强本领域学术界和企业界进行深入的产-学-研交流与合作,从而进一步促进模式识别与计算机视觉领域的协同创新。
在PRCV2024中,合合信息图像算法研发总监郭丰俊老师针对生成式人工智能(Generative AI, GAI)时代下图像内容安全和智能文档加速的相关技术,分享了自己的独到见解,并介绍了合合信息在这两个方向上取得的进步。接下来,让我们深入了解一下GAI在智能文档领域带来的挑战与机遇。
1 GAI时代的挑战:图像内容安全
1.1 图像篡改与对抗攻击
我们知道,机器学习模型主要分为两类:
- 判别式模型(discriminative models)
- 生成式模型(generative models)
在过去,人们只希望基于已有的给定数据做一些预测和拟合,因此判别式模型得到发展并且很好地解决了大部分任务;而未来,人们将目标转向用生成式模型生成全新数据,进行迁移学习等,也就是常说的人工智能生成内容(AI Generated Content, AIGC)
为什么我们需要生成全新数据?
答案很简单:我们希望提高人工智能的工作上限,就不能仅仅依靠它对已有数据的拟合,而是像人一样有一定的创新能力。
生成式模型相比判别式模型的独特优势,使之可以应对更多的任务,例如推动内容开发、视觉艺术创作、数字孪生、自动编程,甚至为科学研究提供AI视角、Al直觉…因此生成式人工智能是未来的发展趋势。
然而,自AIGC技术兴盛以来,生成式造假也让人们倍感忧虑。
图像是信息的重要载体,也是信息保护的重点关注对象。图像编辑软件的发展和普及降低了虚假图像的制作门槛,大量基于虚假图片产生的诈骗案件、网络暴力事件在全球范围内造成了恶劣的影响。图像内容的安全与可信性也成为了公众关注的焦点,但图像领域的“可信AI”才刚刚起步。
篡改文本检测(TTD,tampered text detection)作为多媒体信息安全领域的一个新兴研究方向,是指通过对文本图像中纹理特征的分析,捕捉真实文本和篡改文本之间的纹理差异性,以确定文本图像中文字区域的真伪性。常见的应用场景有:谣言检测、流水合同造假识别、欺诈图像识别、学历造假检测、保单PS检测等。
篡改文本检测任务有两个主要挑战。
- 局部纹理差异性捕捉困难。篡改文本与真实文本仅存在局部纹理差异;
- 真实和篡改文本检测精度平衡困难。
此前,图像篡改检测的技术研究对象主要集中于自然场景图像,然而,真正为人们的生活带来风险的通常是被篡改的资质证书、文档、截图等。举个例子
在社交媒体平台上,用户分享的图像被不法分子篡改,以传播虚假信息或误导公众。导致公众误解或恐慌。例如,假冒的灾难场景图像可能引发不必要的恐慌和社会动荡。个人或公众人物的形象也可以被恶意篡改,导致名誉受损,甚至影响其职业生涯和个人生活。
除此之外,在银行金融、汽车交易、财务审批等领域,每年都会因各种欺诈行为带来风险。
1.2 生成式图像鉴别
合合信息AI图像篡改检测技术可检测不仅包括自然文本,也包括转账记录、交易记录、聊天记录等多种形式,无论是从原图中“抠下”关键要素后移动“粘贴”至另一处的“复制移动”图片篡改手段,还是“擦除”、“重打印”等方式,图像篡改检测技术均可“慧眼”识假
PRCV2024上,合合信息在生成式图像鉴别的关键词是小样本在线增量,其架构的核心模块称为知识蒸馏(Knowledge Distillation)。在神经网络的轻量化技术中,蒸馏作为模型压缩类别内的一种举足轻重的技术流派,它的核心思想是让一个性能强大但网络复杂体积庞大不便于移动部署的模型作为教师模型,去引导一个性能较弱但网络简单体积较小易于在移动设备上部署的学生模型,知识从教师模型提取后直接迁移到学生模型中,此期间不经过另外的模型对知识重新提取优化。直接知识蒸馏一般模型数量相对较少,计算要求简单,在实际的任务场景中有广泛的应用。
大模型通常是千亿参数级别的,这是一个什么概念?千亿参数级别的深度学习模型通常由大量计算资源支撑,包括大量的GPU计算机和大规模的数据集。这些模型可以应用于各种领域,例如计算机视觉、自然语言处理、图像分类等。千亿参数级别的深度学习模型也常常被称为“超级模型”,因为它们的规模和复杂度远超过一般的深度学习模型。它们可以通过更多的数据进行训练,从而实现更高精度的预测和分类。
由于知识的转移不受模型结构的限制,该方法具有很强的灵活性,因此,自 2015年,Hinton等人系统总结了知识蒸馏的概念后,知识蒸馏受到了国内外研究者的广泛关注并不断被后续的研究者所改进。目前,对知识蒸馏技术的分类方法中,按照迁移的“知识”的定义不同,可以细分为将尾层输出当作知识的蒸馏方法,将中间隐藏层特征当作知识的蒸馏方法以及把关系当作知识的蒸馏方法,其中关系又可继续细分为样本间的关系、网络层间关系等。
像这种大规模深度学习产品,预训练模型通常需要占用很大的空间,并且训练和推断时间也很慢;直接在实际产品或应用中使用预训练模型难以满足时间和空间需求;合合信息正是应用知识蒸馏技术在不损失或少量损失性能的基础上,提升推断速度,进行少量样本的持续学习。
1.3 人脸鉴伪模型体验
合合信息提供了人脸鉴伪模型的体验入口,目前这项技术已与某央企银行展开落地合作,公开测试版本即将上线。
我们通过diffusion
模型伪造一张AI人脸,点击上传本地文件上传
可以看到,一张用肉眼难以分辨的人像图片,被快速地识别为伪造人脸,也欢迎各位感兴趣的同学亲自来体验一下~
1.4 助力可信AI向善发展
图像安全的重要性与日俱增,标准规范的出台迫在眉睫。中国信通院牵头启动了《文档图像篡改检测标准》制定工作,合合信息、中国图象图形学学会、中国科学技术大学等科技创新企业及知名学术机构联合编制。
《文档图像篡改检测标准》将为文档图像内容安全提供可靠保障,助力新时代AI安全体系建设。作为牵头方,中国信通院表示,《文档图像篡改检测标准》将基于产业现状,围绕“细粒度”视觉差异伪造图像鉴别、生成式图像判别、文档图像完整性保护等行业焦点议题,凝聚行业共识,以期为行业提供有效指引。
2 GAI时代的机遇:大模型加速器
2.1 TextIn大模型加速器
随着人工智能技术的飞速发展,大模型以强大的数字处理能力和深度学习能力,不断与各领域交叉融合,逐步成为产业创新的关键抓手。PRCV2024恰逢全球大模型蓬勃发展之时,今年参会的人们更加关注大模型技术在未来可以如何作用于人们的生活。
然而,大模型产业发展如火如荼的同时,其训练数据规模的增长速度跟不上、语料质量参差不齐,尤其是高质量中文语料短缺的问题日益凸显,成为各方关注焦点。阿里研究院5月发布的《大模型训练数据白皮书》显示
互联网上中文语料和英文语料占比存在显著差异:在全球网站中,英文占比高达59.8%,而中文仅占1.3%。
高质量数据的生成速度远低于AI大模型训练数据需求量的增长速度,数据短缺问题已初现端倪。本次世界人工智能大会期间,合合信息为中文大模型打造的“加速器”重磅上线,为工业界大模型语料和幻觉问题提供了全新的解决方案。
2.2 通用文档解析
表格、公式、图表等复杂元素的处理,大大制约了大模型的训练语料处理及大模型文档问答的应用能力。例如文档的多样性和复杂性问题:文档类型和格式繁多,包括报告、合同、发票、证明、证件等等。不同类型的文档有不同的格式和布局,难以用统一的方法处理。而且智能文档处理受到图像质量、文字字体、文字大小、文字颜色等噪声因素的影响,容易出现误识别。此外,还有图像质量不一、文档获取繁琐等等。
PRCV2024上,合合信息介绍了通用文档解析引擎,旨在将多种格式、版式的文档(图片、PDF、Doc/Docx等)高效、精准解析为结构化的Markdown
格式,便于下游进一步的语料处理
出于对文本泛化性的考虑,合合信息通用文档解析引擎是层次化的结构:首先将文档划分为电子档和扫描档两大类;接着将任务拆解为电子档文字提取、通用文字识别、布局分析、版面分析等几大模块;对于每一个模块,再进一步划分为各种单体功能,例如段落检测、公式识别、表格检测、斜体检测等。
这其中的每一个模块都对应一个学术界与工业界的研究难点,合合信息在这些问题上都有自己的独到理解和解决方案。
例如文档版面分析任务,要求对文档图像按照不同的语义功能及区域类别进行分割和识别,分割出文本区、表格区、公式区、图形区等区域,并判断各区域所属的类别。然而,文档的具体内容边界模糊,需要人工矫正判定。例如文章中的摘要部分和正文段落部分具有十分模糊的界定边界,可能因为错误评判或者错误标记的方式造成某些样本之间的标签输出是具有先验偏差。因此,如何保证数据集的无偏性或尝试在建模过程中消除该种偏差性,是文档版面分析的难点和重点之一。
合合信息的方案是从文档图像中抽象出四部分嵌入向量:
- 字符嵌入(Character embedding)
- 文本行嵌入(Textline embedding)
- 段落嵌入(Paragraph embedding)
- 关系嵌入(Relation embedding)
将这些嵌入向量送入Transformer中进行语义对齐和特征提取,最终还原文档元素
2.3 文本向量模型
虽然大语言模型在认知方面展示出巨大的潜力,但它在处理智能文档任务时,仍然具有很多的缺陷。其中制约大模型发展的一个关键点在于“幻觉”现象的产生,所谓幻觉,指的是模型错误地关联了文本信息和图像细节之间的关系,导致产生了错误的推断和判断,或根据文本信息生成与图像不符合的内容,在补全图像时添加错误或不相关的细节。
RAG(Retrieval Augmented Generation)为解决幻觉问题提供了一个很有前景的解决方案。RAG的主要作用类似搜索引擎,找到用户提问最相关的知识或者是相关的对话历史,并结合原始提问(查询),创造信息丰富的prompt,指导模型生成准确输出。其本质上应用了情境学习的原理。基于文本嵌入技术(Embedding),可以搭建RAG应用,为语言模型真正理解文本、克服幻觉提供了基础。
前段时间,合合信息发布的文本向量化模型acge_text_embedding
(简称acge
模型),获得被公认为是目前业界最全面、最权威的中文语义向量评测基准C-MTEB
榜单第一的成绩,在文本分类、文本聚类等任务上表现优异,打通了文本嵌入模型领域的底层原理。
acge
模型,通过多层次的表示学习和信息融合机制,改进了语义表示和上下文感知能力。在问答任务中,这种能力可以帮助模型更好地理解问题和文本,提供更精准的答案,从而真正理解人的意图特性。同时,acge
模型在神经网络广泛存在的灾难性遗忘问题上也做出了贡献。通过引入持续学习训练方式,合合信息acge
模型克服了神经网络存在灾难性遗忘的问题,对维护大模型长期记忆并保持其学习能力有着重要意义,推动大模型在多个任务和领域中持续学习和适应。同时,减少反复训练模型的需要,节省大量的计算资源和时间
大家感兴趣的话可以进入acge模型,通过交互界面测试一下模型效果。
3 总结
合合信息带来的前沿技术分析,为高质量智能文档处理落地服务等提供了核心驱动力。欢迎各位感兴趣的朋友到textin.com或小程序了解更多关于智能文字识别产品和技术的信息,体验智能图像处理、文字表格识别、文档内容提取等产品。
合合信息的智能文字识别应用开发宗旨就是为了让世界更高效,打造了深受全球用户喜爱的效率工具,例如C端的名片全能王、扫描全能王等。让我们拭目以待,期待合合信息在模式识别、深度学习、图像处理、自然语言处理等领域的持续深耕,用技术方案惠及更多的人!