大咖齐聚CCIG论坛——文档图像智能分析的产业前沿

目录

  • 1 文档图像智能分析技术
  • 2 大咖齐聚CCIG@2023
  • 3 议题介绍
    • 3.1 从模式识别到类脑研究
    • 3.2 视觉-语言预训练模型演进及应用
    • 3.3 篡改文本图像的生成和检测
    • 3.4 智能文档处理在工业界的应用与挑战
  • 4 观看入口&议程

1 文档图像智能分析技术

文档图像智能分析是指使用计算机视觉和机器学习技术对文档图像进行自动化处理和分析的过程。这项技术能够将纸质文档、电子文档和图像转换成可编辑、可搜索、可索引的数字化文档,并能够自动识别文档中的各种元素,例如文字、图片、表格、图形等。

在这里插入图片描述
文档图像在日常生活中非常常见,例如金融票据、商业规划、技术规范、财务报表、会议记录、法律协议、合同、简历、采购订单、发票等等。因此文档图像智能处理的前景非常广阔,应用场景也会不断拓展。举例来说

  • 电子博物馆:将大量历史文献、照片等材料进行数字化处理,并进行元数据标注和索引,从而创建电子博物馆,方便文化遗产的保护和传承。合合信息在这方面已有应用:焕新古文化传承之路,AI为古彝文识别赋能
  • 法律文书处理:通过自动识别和提取法律文书中的各种信息,例如案号、法院名称、当事人姓名、判决结果等,从而方便进行法律文书的管理和查询;
  • 财务报表处理:通过自动识别和提取财务报表中的各种信息,例如收入、支出、资产、负债等,从而方便进行财务报表的分析和管理

总之,随着人工智能技术的飞速发展,文档图像智能处理将应用到医疗、教育、金融等诸多领域,为各行各业提供更加高效、智能的文档管理和数据分析解决方案。

2 大咖齐聚CCIG@2023

文档图像智能分析与处理是一个重要且极具挑战性的研究问题。其中的难点在于文档的多样性和复杂性:文档类型和格式繁多,包括报告、合同、发票、证明、证件等等。不同类型的文档有不同的格式和布局,例如文档中常常包含图片、表格、图形等各种图像,难以用统一的方法处理。而且智能文档处理受到图像质量、文字字体、文字大小、文字颜色等噪声因素的影响,容易出现误识别。此外,还有图像质量不一、文档获取繁琐等诸多问题

在这里插入图片描述

为了促进文档图像分析与处理领域的技术交流及发展,探讨文档图像处理及光学文字识别(OCR)相关前沿技术进展和产业应用,2023年5月13日,中国图象图形学学会文档图像分析与识别专业委员会与上海合合信息科技有限公司联合打造《文档图像智能分析与处理》高峰论坛。论坛特别邀请了来自中科院自动化研究所、北京大学、中科大的学术专家与华为等知名企业的研究者们,围绕文档图像处理及OCR领域的前沿技术展开“头脑风暴”,共同交流文档图像分析与处理的前沿学术进展、在典型行业的规模化应用情况,并探讨未来技术及产业发展趋势。

在这里插入图片描述

3 议题介绍

3.1 从模式识别到类脑研究

我们知道,在模式识别和人工智能领域,监督学习半监督学习无监督学习是三种不同的学习方式,它们在数据集标签的不同情况下对数据进行学习。目前不管是神经结构模拟还是学习行为模拟都是比较粗浅的,主要还是基于监督学习完成各种任务,也就是在训练数据集中已经标记好了正确答案或目标输出值。训练阶段,算法根据输入的特征和相应的目标值之间的关系进行学习,以便在未来对新数据进行准确预测。 监督学习的例子包括分类和回归问题,例如图像分类、情感分析和价格预测等。

在这里插入图片描述

生成式模型就是人工智能的未来发展趋势之一,相比判别式模型的独特优势,使之可以应对更多的任务,例如推动内容开发、视觉艺术创作、数字孪生、自动编程,甚至为科学研究提供AI视角、Al直觉…

项目判别式模型生成式模型
特点寻找最优决策边界,反映不同模式数据间的差异性寻找各模式边界,反映数据全体的统计全貌及不同模式间的相似度
联系由生成式模型可推导判别式模型,反之不成立
本质对后验概率建模对联合概率建模
实例线性回归、Logistic回归、支持向量机、决策树、神经网络等贝叶斯网络、贝叶斯分类器、隐马尔科夫模型等
性能学习过程更简单,但不能反映数据本身特性模型信息量更丰富、灵活,但学习过程较复杂
应用图像文本分类、时间序列预测等自然语言处理等

随着未来类脑智能研究在结构类脑和行为类人方面的深入,人工智能应用将不再局限于这类判别式模型。动物和人类表现出的学习能力和对世界的理解,远远超出了 AI 和机器学习系统。一个青少年可以在大约 20 小时的练习中学会开车,小朋友可以在只需要很少的交流后就学会语言沟通,人类可以在他们从未遇到过的情况下采取行动。

相比之下,传统的判别式模型需要花费比人类大几个量级的试验进行训练,以便在训练期间可以覆盖最意外的情况。这表明人脑的学习具有很强的灵活性,从小样本开始,不断地随环境自适应。这种学习灵活性应该是未来机器学习的一个主要研究目标。比如近期图灵奖得住LeCun提出的全新自主智能架构,最关键的一点是让机器了解世界是如何运转的,掌握广泛的现实知识,并依据此进行推理

在这里插入图片描述

图源网络,侵删

3.2 视觉-语言预训练模型演进及应用

2022年12 月 1 日,OpenAI的联合创始人山姆·奥特曼在推特上公布ChatGPT并邀请人们免费试用

在这里插入图片描述

图源网络,侵删

ChatGPT可以与人类进行谈话般的交互,可以回答追问,连续性的问题,承认其回答中的错误,指出人类提问时的不正确前提,拒绝回答不适当的问题,其性能大大超乎人们对弱人工智能的想象。目前其影响已经席卷各行各业。ChatGPT是基于GPT-3开发的,具有强大的对话能力,能够理解语言上下文,并能够生成富有表现力和连贯的响应。所谓GPT,全称是Generative Pre-trained Transformer,本质上这是一种基于Transformer的语言模型。

语言是一个显式存在的东西,但大脑是如何将语言进行理解、转化、存储的,则是一个目前仍未探明的东西。因此,大脑理解语言这个过程,就是大脑将语言编码成一种可理解、可存储形式的过程,这个过程就叫做语言的编码。相应的,把大脑中想要表达的内容,使用语言表达出来,就叫做语言的解码。在语言模型中,编码器和解码器都是由一个个的Transformer组件拼接在一起形成的

Transformer又是什么呢?它是一种用于自然语言处理和其他序列到序列(sequence-to-sequence)任务的神经网络架构。它于2017年由谷歌的研究人员提出,被认为是自然语言处理领域的一项重大突破。

Transformer基于注意力机制(Attention Mechanism)构建,其核心思想是在序列中进行全局信息的交互和捕捉,而不是像以往的循环神经网络(RNN)一样在序列中逐个位置处理信息。Transformer通过多个自注意力层(Self-Attention Layer)进行信息的交互和表示,而每个自注意力层包含了注意力机制的三个部分:查询(query)、键(key)和值(value)。

在这里插入图片描述

图源网络,侵删

具体来说,对于一个输入序列,Transformer将其转换为多个词向量(word embeddings),然后通过自注意力层进行特征提取。在自注意力层中,查询向量通过与所有键向量的相似度计算来计算注意力分数,这些分数用于加权求和值向量,最终得到每个位置的输出向量。然后,这些输出向量被馈送到下一个自注意力层或全连接层进行后续处理。

相比于传统的序列模型,Transformer的优点在于可以并行处理输入序列,从而加速模型的训练和推断。此外,Transformer还能够有效地处理长序列,因为它可以在不受时间限制的情况下一次性处理整个序列,而不需要像RNN那样进行逐个位置的处理。

但是,目前关于ChatGPT这类大规模预训练模型还有一些争议,主要的争论点在于:

  • 超大模型学到了什么?如何验证?
  • 如何从超大模型迁移“知识”,提升下游任务的性能?
  • 更好的预训练任务设计、模型架构设计和训练方法?
  • 选择单模态预训练模型还是多模态训练模型?

预训练模型、跨模态预训练模型方面的研究是非常值得探索的,无论是模型结构、训练策略还是预训练任务的设计都尚有非常大的潜力。例如2021年10月份Facebook发布的Video CLIP相关工作,从这个模型可以看出,Video CLIP颇具野心,期待对于下游任务不需要任务相关训练数据集,不需要进行微调,直接基于Video CLIP进行零样本迁移。这对于提升大模型的训练效率和训练效果具有非常重大的意义。

3.3 篡改文本图像的生成和检测

篡改文本检测(TTD,tampered text detection)作为多媒体信息安全领域的一个新兴研究方向,是指通过对文本图像中纹理特征的分析,捕捉真实文本和篡改文本之间的纹理差异性,以确定文本图像中文字区域的真伪性。

在这里插入图片描述

[1]王裕鑫,张博强,谢洪涛等.基于空域与频域关系建模的篡改文本图像检测[J].网络与信息安全学报,2022,8(03):29-40.

篡改文本检测任务有两个主要挑战。

  • 局部纹理差异性捕捉困难。篡改文本与真实文本仅存在局部纹理差异;
  • 真实和篡改文本检测精度平衡困难。

相较传统的文本检测任务,篡改文本检测任务需要进一步区分篡改和真实文本。由于真实和篡改文本分类难度不一致,训练过程中网络无法平衡两类的学习过程,导致在测试过程中两类检测精度差异较大。上述挑战极大地限制了篡改文本检测方法的性能。因此,如何准确地捕捉局部纹理差异性,同时平衡篡改和真实类别学习难度,是目前篡改文本检测研究的重要方向。

这次CCIG高峰论坛谢洪涛教授将介绍一种可以在真实场景文本图像上训练的文本生成算法和基于并行空域与频域特征感知的篡改文本检测算法,这种算法创新性地在篡改文本检测任务中引入频域信息增强篡改纹理特征,通过同时捕捉空域和频域的信息提升网络对局部纹理差异性的鉴别能力。算法设计的全局空频域关系模块提供了一种简洁、有效的平衡篡改和真实类别学习难度的方法,通过建模全局文本实例之间的空频域特征关系,借助其他文本实例空频域信息来辅助鉴别当前文本实例的真伪性,帮助网络更好地平衡真实和篡改文本的学习难度,提升检测精度。

在这里插入图片描述
这里重点介绍一下很新颖的全局空频域关系模块。设想一下:若简单地根据当前文本候选框内的特征进行纹理真伪性鉴别,由于缺乏全局信息的感知能力,将导致网络无法平衡真实和篡改文本类别的学习难度,从而在测试过程中两类的检测精度差异较大,造成检测精度不平衡的问题。全局空频域关系模块正是为了捕获全局信息辅助当前文本候选框的真伪性鉴别,通过感知当前文本候选框与其他文本候选框的空频域特征相似性,平衡真实和篡改类别的学习难度。

在这里插入图片描述

该算法分别选取了最具代表性的方法EAST和ATRR进行性能对比。实验结果表示,该算法在真实文本和篡改文本上都展现了领先的检测水平。相较同为两阶段的检测算法,基于空频域关系建模的篡改文本检测方法在真实文本和篡改文本检测精度上都取得了更好的效果,同时可以有效解决检测精度不平衡问题,防止篡改检测网络实现对单一类文本的准确检测。

总之,这次报告介绍的基于空频域关系建模的篡改文本检测方法可以扩展到其他篡改文本检测算法中,通过直接使用或者简单修改文中的模块,可以实现篡改文本检测精度的显著提升,这为篡改文本检测技术的相关研究提供了新的方向和思路。从事相关方面研究的同学可以关注一下~

3.4 智能文档处理在工业界的应用与挑战

说到光学字符识别大家可能比较陌生,但或多或少都应该听说过OCR,通俗来讲,OCR技术采用电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字。随着技术的不断发展,OCR技术在工业界中的应用也从最开始的简单的光学字符识别拓展到涵盖图像预处理、文字识别、版面分析、文档理解等多项技术的智能文档处理领域。

然而,在实际的工业界场景中仍然面临着大量的问题和挑战。举例来说,文档图像中可能存在形变和弯曲现象,这是因为相机硬件不符合理论上透视相机模型针孔无限小的假设,所以真实图像会产生明显的径向失真——场景中的线条在图像中显示为曲线。径向畸变(Radial Distortion)有两种类型:筒体畸变(Barrel Distortion)与枕形失真(Pincushion Distortion)。此外由于相机组装过程中,透镜不能和成像面严格平行,会引入切向畸变(Tangential Distortion),再加上视觉文档图像的拍摄视角一般不垂直于文档平面,产生文档图像的变形和扭曲。

在这里插入图片描述
再比如非常常见的图像摩尔纹现象,因为相机拍摄电子屏幕时,显示设备的发光点阵与相机传感器阵列发生混叠,产生了摩尔纹现象。屏幕图像摩尔纹表现为叠加在图像上的条纹,颜色和形态多变。图像中的摩尔纹在大范围的空域和频域内与原始图像信号混合,通常覆盖整张图像。摩尔纹图案不仅随着图像的不同而变化,而且在同一图像中随着空间位置的变化而呈现不同的色彩和形态。如果拍摄距离或拍摄角度略有变化,摩尔纹图案可能会有很大差异。

在这里插入图片描述

除此之外,光照影响、文档篡改检测、复杂文档图像的版式还原,以及各种复杂场景都造成文档识别与理解的困难。本报告主要介绍了合合信息依托自研的TextIn智能文字识别服务平台,在解决工业界中面临的各类问题中所做一些相关工作进展和研究成果,并探讨当前工业界中面临的一些关键技术难题和挑战。


对上述议题感兴趣的欢迎参加本次CCIG高峰论坛,观看入口如下

4 观看入口&议程

合合信息视频号13号下午13:30直播,欢迎感兴趣的同学来交流

在这里插入图片描述
议程

时间议题发言人
13:30-14:10《人工智能大模型时代的文档识别与理解》中科院自动化研究所副所长 刘成林
14:10-14:45《视觉-语言预训练模型及迁移学习方法》北京大学 邹月娴教授
14:45-15:20《篡改文本图像的生成与检测》中国科学大学 谢洪涛教授
15:20-15:30茶歇
15:35-16:00《华为云OCR技术进展与行业实践》华为云AI算法研究元 廖明辉
16:00-16:25《智能文档处理技术在工业界的应用与挑战》合合信息高级工程师 丁凯
16:30-17:30圆桌讨论金连文、刘成林、邹月谢、谢洪涛、廖明辉、丁凯

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/22422.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

谷歌tryOnDiffusion实现了高度逼真的虚拟试穿;ChatGPT 或将推出 AI 应用商店

🦉 AI新闻 🚀 ChatGPT Plus 用户已支持联网和插件功能,OpenAI 或将推出 AI 应用商店 摘要:OpenAI 宣布 ChatGPT Plus 用户已支持联网和插件功能。据外媒 The Information 报道,OpenAI 正考虑为 AI 软件创建一个应用商…

可解释机器学习-Task01-导论

💡 博客地址:https://1nnoh.top/3W8VFN4/ 🥇 版权: 本文由【1nnoh】原创 各位大佬敬请查阅 🎉 声明: 本博文禁止转载 感谢尊重和理解 ❤️ 如果文章对你有帮助 欢迎一键三连 可解释机器学习-Task01-导论 0x00 Abstract0x01 什么是…

一、导论——可解释性机器学习(DataWhale组队学习)

目录 导言一、什么是可解释人工智能?二、学可解释机器学习有什么用?2.1学习可解释机器学习的原因2.2 Machine Teaching :人工智能教人类学习2.3 细粒度图像分类2.4前沿AI 三、本身可解释性好的机器学习模型四、传统机器学习算法的可解释性分析五、卷积神经网络的可解释性分析…

在TitanIDE中使用ChatGPT辅助科研开发

作者:行云创新CEO 马洪喜 命题:太空望远镜拍摄的照片处理 假设:我是图形科学家,但不是特别懂Python 先上传一张银河系照片,目的是把彩色转成灰度: 然后我不会啊, 问问chatGPT 彩色图片转灰度…

itest监考机制_iTEST管理员组织大型无纸化考试的经验分享

嘉宾介绍 林涛 集美大学外国语学院在线平台负责人,自2017年起负责学校iTEST大学外语测试与训练系统(下称iTEST系统)的管理工作,曾统筹过七个学期的全校性大学英语在线考试。林老师对于如何使用iTEST系统组织和管理无纸化考试有着丰富的实践经验与使用心得。 经验分享 Q1:请问…

考试系统分享

介绍 学之思考试系统是一款基于k12教育的考试平台,小学、初中、高中和不同学科均可以均可以使用,支持各种题型(单选、多选、判断、填空、解答),里面包含了三大系统:学生系统、教师系统(TODO)、管理员系统、微信小程序学生端。 演…

腾讯云认证FAQ | 考试类型、考试预约等常见问题

要说2023年最火的是什么,云计算必须占一个名额。 为啥这么火呢?看市场反馈就知道了: 2019年以来,云计算领域对技术岗位的人才需求始终在40%以上,并逐年提高。 2022年显示,核心技术人才的招聘需求占比达到…

考试管理系统/在线考试系统

目录 摘要 Abstract 1 绪论 1.1课题研究背景和意义 1.2 国内外现状分析 1.3 课题研究主要内容 2 核心技术介绍 2.1 mysql技术介绍 2.2 eclipse编译器介绍 2.3 Spring框架简介 2.4 Vue.js技术简介 3 需求分析 3.1 系统的设计模式 3.2 系统的设计目标…

【亲测可用】经验分享,开发在线考试平台(类似问卷星、考试星、阿里巴巴在线考试、易考通、考试云、移动网大、移动网校、中石化网络学院、宝武微学院、iTEST等)如何用程序代码防止学生作弊?

来源: 宝武微学院 http://mooc.baosteel.com 移动网大、移动网校 https://wangda.chinamobile.com 1、如何避免考生考试过程切屏去搜寻答案? 使用JavaScript自带的全局方法屏蔽考生作弊 window.onmouseleave window.onblur window.onmouseout documen…

itest监考机制_干货 | iTEST管理员组织大型无纸化考试的经验分享

原标题:干货 | iTEST管理员组织大型无纸化考试的经验分享 嘉宾介绍 林涛 集美大学外国语学院在线平台负责人,自2017年起负责学校iTEST大学外语测试与训练系统(下称iTEST系统)的管理工作,曾统筹过七个学期的全校性大学英语在线考试。林老师对于…

计算机等级考试无纸化模拟软件(免费版)

分享内容 计算机等级考试【National Computer Rank Examination】,简称NCRE。主要考核计算机基础知识和使用一种高级计算机语言编写程序以及上机调试的基本技能。当代大学生大学期间除了自己的必修课程外,总会给自己找一些其他的东西让自己忙碌起来。除了…

微信订阅号发送模板消息

参考的链接: 微信公众平台测试号——模板消息发送Demo_a816120的博客-CSDN博客 开放接口 | 微信开放文档 微信公众平台 功能一:代码实现发送微信公众平台配置的模板消息 1、事先获取好appID和appsecret 2、书写发送的工具类 package com.talk915.…

微信公众号订阅消息

1、官网介绍 功能介绍 | 微信开放文档 订阅通知是一个用户主动订阅、服务号按需下发的通知能力。使用过程请遵守《微信公众平台服务协议》《微信公众平台运营规范》。 如有疑问,可在微信开放社区反馈。 设置订阅功能:服务号可以在图文消息、网页等场景…

windows11默认浏览器开启chatGPT—直接拿下

1、进入浏览器扩展设置 https://microsoftedge.microsoft.com/addons/search/Wetab?hlzh-CN 搜索此软件 2、添加到扩展后,打开查看显示 3、注册账号,然后使用即可

为你的Pycharm装一个得力助手(ChatGPT吧)

Pycharm算是我们日常工作中用到的一个非常重要的python工具,如果能为Pycharm安装一个小助手那么我们的办公效率一定可以事半功倍!! 插件安装 1、点击左上角 file——setting 2、点击Plugins——输入NexChatGpt,安装 即可使用&…

教你如何用Python分析出选注双色球号码

前言 嗨喽,大家好呀~这里是爱看美女的茜茜呐 又到了学Python时刻~ 数据集介绍 找从19年到现在的开奖历史数据,我们首先要把这个历史数据拿到, 拿到我们再进行做分析,分析每个号码出现的频率是多少, 哪个多&#x…

自己编一个大乐透选号器

新手,最近自己尝试着做了一个体彩大乐透的选号器,感觉挺有意思的,下面分享给大家! 具体步骤: 1、新建一个基于对话框的MFC工程。 2、按下图所示添加显示前区号码的5个编辑框,显示后区号码的2个编辑框&am…

彩票号码自选程序

彩票之–超级大乐透选号小程序 是不是每次买彩票的时候,总是不知道选什么号码好呢?今天来看看这个小程序吧! package Thread; import java.util.*; /*超级大乐透选号机*/ public class lottery {public static void main(String[] args) {//因为彩票号…

一种福利彩票辅助选号软件的开发

2021年10月,单位同事邀请几个相熟同事一起买福利彩票,除了以前就知道的双色球外,还介绍了一种快乐8的福彩玩法,看着大家选号绞尽脑汁,加上对快乐8玩法比较感性却,于是一口应承帮忙开发一个辅助选号工具&…

Python——彩票(大乐透)模拟随机选号

终于下手了,每天都路过一家体彩店,从没买过彩票的我今天终于带着好运(但愿吧,哈哈哈)进入了体彩店,跟老板说要买一个大乐透,老板说加个微信,可以送我一注,不知道咋玩&…