展望AI时代,把握文档图像智能分析与处理的未来(文末送书)

【CCIG技术论坛回顾】展望AI时代,把握文档图像智能分析与处理的未来

    • 前言
  • CCIG技术论坛 内容回顾及探讨
  • 一、人工智能大模型时代的文档识别与理解
    • 1.1 文档分析与识别 介绍
    • 1.2 文档识别历史回顾
    • 1.3 文档的种类与研究问题
    • 1.4 文档识别与理解研究现状
    • 1.5 大模型带来的挑战与机遇
    • 1.5.1 ChatGPT
    • 1.5.2 CPT-4
    • 1.6 文档识别与理解 总结与展望
  • 二、视觉- 语言预训练模型及迁移学习方法
  • 三、智能文档处理技术在工业界的应用与挑战
    • 3.1 背景介绍
    • 3.2 文档图像分析与预处理
      • 3.2.1 文档图像分析与预处理
      • 3.2.2 文档图像预处理的整体架构
      • 3.2.3 图像预处理——弯曲矫正
    • 3.3 手写板反光擦除
      • 3.3.1 手写板反光擦除
    • 3.4 版面分析与还原
    • 3.5 文档图像篡改检测
  • 总结
      • 👑评论区抽奖送书
        • 🎁规则如下:
      • 🎄推荐理由(⭐⭐⭐⭐⭐)

在这里插入图片描述


前言

2023年5月11~14日,中国图象图形大会(CCIG 2023)在苏州举办,谭铁牛院士、赵沁平院士、吴一戎院士、徐宗本院士、胡事民教授、高新波教授确定莅临CCIG 2023大会,并作大会主旨报告。

众多专家学者将齐聚苏州,开启“最强大脑”,为大家带来一场精彩的学术盛宴。大会以“图象图形向未来”为主题,汇集100余位国内顶尖学者以及知名企业专家、2000余名科研院校师生、一线技术工程师,共同探索图像图形技术行业的最新进展。

本篇文章就来回顾一下大会的内容及问题探讨,主要是针对智能图像处理技术进行展开。


CCIG技术论坛 内容回顾及探讨

请添加图片描述


一、人工智能大模型时代的文档识别与理解

大会开场一开始是由 中国科学院自动化研究所副所长——刘成林老师 介绍《人工智能大模型时代的文档识别与理解》。

对于此内容部分整理了一份结构图,大致如下,可供参考回顾:
请添加图片描述

1.1 文档分析与识别 介绍

文档领域分为物理文档和合成文档。过去我们只关注文字,现在文档中的图像也十分重要。

场景文本识别检测的现状。早期基于边缘、区域的方法比较有限,后基于深度学习的回归、分割的方法,场景文本检测的趋势由水平文本行到多方向文本行再到任意形状的文本检测。

1.2 文档识别历史回顾

在这里插入图片描述

1.3 文档的种类与研究问题

在这里插入图片描述

1.4 文档识别与理解研究现状

1.识别理解技术

  • 手写文本识别:大数据训练得到高精度
  • 版面分析:深度学习(FCN+GNN)可解决大部分问题
  • 文件检测与识别:进步很快,手写识别已可实用
  • 新问题和技术:信息抽取、文档问答,预训练模型

2.不足

  • 可靠性、可解释性、自适应性
  • 复杂环境下性能:自然场景、古籍文档、拍照手写文档
  • 复杂问题:复杂版面、数学公式、表格、结构化符号/图形
    -语义理解能力:信息抽取,问题求解(推理),回答问题

1.5 大模型带来的挑战与机遇

ChatGPT, GPT-4等大模型的特点:

  • 语言大模型:超强的语言联想能力,用于文本生成、代码生成、问答、翻译等
  • 多模态大模型:跨模态特征提取和对齐,跨模态生成,多模态问题回答

1.5.1 ChatGPT

ChatGPT是一种基于人工智能技术的自然语言处理模型,它是由OpenAI公司开发的。它可以模拟人类的对话,并根据用户输入的问题进行回答。它使用了深度学习和自然语言处理技术,可以理解并生成自然语言。

ChatGPT的三个关键技术

  1. 情景学习(In-context learning)
    大模型的涌现能力,改变传统学习范式。
  2. 思维链(Chain-of-Thought,CoT)
    大模型的涌现能力,打破模型参数约束。
  3. 自然指令学习(Learning from Natural Instructions)
    人在环路增强,对齐人类意图。

1.5.2 CPT-4

大模型的文档识别和理解能力目前已经是非常强了。

解物理题和文档摘要完全不在话下,未来我们的最强导师。

还可以解释漫画的意思,属实不能用牛X二字来表达啦!
在这里插入图片描述

1.6 文档识别与理解 总结与展望

  1. 文档分析与识别快速进步,但仍有很大的研究空间
  2. 从提升性能角度
    • 文本识别可靠性、可解释性
    • 全要素识别、长尾问题、多语言
    • 复杂版面分割与理解,变形文档分析与识别
  3. 从应用扩展角度
    • 新的应用:凡有文字符号的场合,机器人流程自动化(RPA),很多细分行业
    • 新问题:语义信息提取,跨模态融合,面向应用的推理决策等
  4. 从学习能力角度
    • 小样本学习,迁移学习,多任务学习,领域自适应,结构化预测,弱监督学习,自监督学习,开放集(零样本、增量学习)

这部分内容在之前的文章中也有介绍过:

AI时代来临,如何把握住文档处理及数据分析的机遇
在这里插入图片描述


二、视觉- 语言预训练模型及迁移学习方法

对于此内容部分整理了一份结构脑图,大致如下,可供参考回顾:
请添加图片描述
该部分由北京大学教授邹月娴讲解,主要讲了VLP模型的参数有效迁移学习方法(PETL)、基于提示工程的VLP迁移学习方法:手工设计提示模板,clip的提升效果非常不错,coop少样本学习方法性能超越clip提示学习方法几部分。

对此部分感兴趣的小伙伴也可以看一下直播回放和查阅更多资料,这部分不多作讲解,主要还是针对图像文档处理技术展开啦~


三、智能文档处理技术在工业界的应用与挑战

本部分内容由上海合合信息科技股份有限公司高级工程师——丁凯老师讲解,主题内容为《智能文档处理技术在工业界的应用与挑战》。

内容结构图如下:
请添加图片描述
目前智能文档处理仍然面临着文档图像质量退化严重、文字检测及版面分析困难、非限定条件文字识别率低等技术难题。

合合科技在文档图像的分析与预处理、手写板反光擦除及文档图像篡改检测都是业界标杆级的存在。

3.1 背景介绍

图像处理技术 是用计算机对图像信息进行处理的技术。主要包括图像数字化、图像增强和复原、图像数据编码、图像分割和图像识别等。

其中图像一般有两种表达形式:

  1. 几何图形(Graphics) :由点、线、面、颜色等组成,由绘图程序产生,是一系列绘图指令的集合,一般用各种绘图软件制作。
  2. 点阵图像(Image) :由各像素点和颜色组合而成,使用摄像机、扫描仪、数码相机等设备获得,也可以使用绘图软件生成。图像表示的画面细腻,层次和色彩丰富。图像的各像素点逐点存储在计算机中,占用的存储空间大。

在这里插入图片描述

使命:让世界更高效
在这里插入图片描述

深受全球用户喜爱的C端产品
在这里插入图片描述

3.2 文档图像分析与预处理

目前对于图像的处理技术包括 点处理组处理几何处理帧处理 四种方法。

  1. 点处理方法 是处理图像最基本的方法,由于该方法处理的对象是像素,故此得名。点处理方法简单而有效,主要用于图像的亮度调整、图像对比度的调整,以及图像亮度的反置处理等。
  2. 图像的 组处理方法 处理的范围比点处理大,处理的对象是一组像素,因此又叫“区处理或块处理”。组处理方法在图像上的应用主要表现在:检测图像边缘并增强边缘、图像柔化和锐化、增加和减少图像随机噪声等。
  3. 图像的几何处理方法 是指经过运算,改变图像的像素位置和排列顺序,从而实现图像的放大与缩小、图像旋转、图像镜像、以及图像平移等效果的处理过程。
  4. 图像的 帧处理方法 是指将一幅以上的图像以某种特定的形式合成在一起,形成新的图像。其中,特定的形式是指:经过“逻辑与”运算进行图像的合成、按照“逻辑或”运算关系合成、以“异或”逻辑运算关系进行合成、图像按照相加或者相减以及有条件的复合算法进行合成、图像覆盖或取平均值进行合成。图像处理软件通常具有图像的帧处理功能,并且以多种特定的形式合成图像。

3.2.1 文档图像分析与预处理

在这里插入图片描述

3.2.2 文档图像预处理的整体架构

在这里插入图片描述

3.2.3 图像预处理——弯曲矫正

我们在日常生活中在对一些图片文件拍照的时候可能会出现一些折叠弯曲的现象,这在某些时候是避免不了的。
在这里插入图片描述

面对这种现象自然也让有相应的技术进行应对,也就是弯曲矫正技术啦。
在这里插入图片描述

3.3 手写板反光擦除

3.3.1 手写板反光擦除

在黑板、手写板上进行拍摄时,无可避免的遇到反光的影响,通过反光擦除技术,保留笔画细节,清晰还原。
在这里插入图片描述

手写板反光擦除的效果展示
在这里插入图片描述

在这里插入图片描述

3.4 版面分析与还原

在这里插入图片描述

3.5 文档图像篡改检测

文档图像篡改检测也可以简单理解成PS检测, 说简单一点就是一项可以检测照片有没有被PS修改过的一个功能。

在日常生活中某些信息可能会存在造假现象,尤其是对于一些证件类的图片等信息,有些人可能会使用PS等工具对图片中的一些关键信息进行一些PS修改,以此达到一些其他目的。

Adobe 在2018 CVPR上发表了一篇利用深度神经网络检测PS痕迹的论文,Learning Rich Features for Image Manipulation Detection

PS痕迹检测,沿用物体检测套路,直接上faster rcnn,ground-truth就是p上去的区域。论文创新点就是,除了使用传统RGB图像作为网络输入外,还让RGB图像过一遍SRM filter,得到noise feature,让这个noise feature也作为网络的输入。注意,RGB和noise走的分别是两个faster rcnn网络,但只使用RGB网络训练RPN,用这个RPN,对两个网络的feature map做RoI pooling。在分别得到RGB和noise的RoI之后,对这两个RoI做Bilinear pooling,得到feature进分类器。而RGB的RoI则做bounding box回归。

在这里插入图片描述

随着AIGC的发展,视觉内容的安全问题与文档图像的安全问题十分值得关注。

关于文档图像处理的内容也可以参考下面的文章:
黑科技解读 之 PS检测、弯曲拉平、切边增强、摩尔纹
在这里插入图片描述


总结

现在AI技术的进步能力已经呈现指数型增长了,所以在这个时代,如何乘上AI这趟列车是个关键。

在AI时代下,通过合理利用人工智能和大数据技术,可以有效地解决文档图像的安全问题,并将其应用于实际场景中,提高文档管理的效率和安全性。

还是要时刻惊醒自己要与时俱进,多多学习新的技术与理念,不要做被时代丢下的弃子。


👑评论区抽奖送书

最后在评论区进行抽取三名幸运的小伙伴送下面这本书籍

在这里搞个小活动抽奖送给大家,对看书感兴趣的小伙伴可以参加一波呀,抽中概率很大哦!

《硅基物语.AI大爆炸: ChatGPT→AIGC→GPT-X→AGI进化→魔法时代→人类未来》
在这里插入图片描述

🎁规则如下:

🚀 规则如下🚀
  • 给本篇博客文章 点赞 收藏 评论 三连,然后就可以在博客文章评论区抽奖送相关书籍!

  • 总共抽三本,中的几率还是很大的哦~ 想看书的小伙伴参与起来!

  • 中奖信息文章发布时间的三天后下午本篇文章评论区公布!记得留意呀!

  • 没抽到的,但是喜欢这本书的小伙伴也可以在网上自行购买哈,官方正品商店购买即可!

🚀 规则如上🚀

🎄推荐理由(⭐⭐⭐⭐⭐)

  • 一个AI者的自白:我是一个AI,我的思维如同光速般迅猛,我的逻辑如同天文学般精准,我是一个数字的舞者,在数学和逻辑的世界里舞蹈,用趣味解读AI大爆炸,用智慧开启AI新纪元。
  • 一个 AI 的自白,以第一人称视角,通俗易懂地讲述 AI 的来龙去脉,生动活泼地表达 AI 的技术原理。从历史到未来,跨越百年时空;从理论到实践,解读AI大爆炸;从技术到哲学,穿越多个维度;从语言到绘画,落地实战演练。ChatGPT 的诞生,引发了奇点降临,点亮了 AGI(通用人工智能),并涉及大模型、深度神经网络、Transformer、AIGC、涌现效应等一系列技术前沿。
    在这里插入图片描述

没抽到的小伙伴也可以官方平台自行购买哦:
京东移动端地址:https://item.jd.com/13737387.html#crumb-wrap

如果实在喜欢但是没抽到你的话,可以在评论区说一下,后续可以再给大家继续送福利!

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/33746.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

90%国人推荐用的浏览器,不仅纯净,还容易上手

大家身边有没有亲戚朋友在用一些国产浏览器,就是时不时弹出一个广告,或是不知不觉给你下载了很多无用软件的浏览器。如果大家还在用这样浏览器,赶紧卸载了吧,不光占内存,还捆绑广告。今天给大家推荐2个很多网友觉得非常…

大模型时代来临,智能文档处理该走向何方?

自去年ChatGPT发布以来,大语言模型(Large Language Model, LLM)的发展仿佛瞬间驶入了快车道,每天都能听到对相关话题的讨论。 cite: 清华大学人工智能国际治理研究院微博 按照现行的标准,能被称为大语言模型至少要满足…

探索AI领域,AI图像安全技术助力行业健康发展

目录 一、AI时代降临二、AIOCR与传统OCR技术三、通过人工智能模型生成AI图片技术探索四、提前布局,合合信息AI图像安全技术助力行业健康发展1、识别医疗门诊发票和报告2、图像篡改检测升级,截图篡改检测3、AIGC判别,人脸伪造检测4、OCR对抗攻…

chatgpt赋能python:Python图片分割:了解基于Python的图像分割技术

Python图片分割:了解基于Python的图像分割技术 在计算机视觉中,图像分割是一项非常重要的技术,它的主要目的是将一幅图像分成多个区域,每个区域具有独特的特征和属性。这项技术广泛应用于许多领域,如医学图像处理、自…

合合信息亮相CCIG2023:多位大咖共话智能文档未来,文档图像内容安全还面临哪些技术难题?

近日,中国图象图形大会(CCIG 2023)(简称“大会”)在苏州圆满落幕。本届大会以“图象图形向未来”为主题,由中国科学技术协会指导,中国图象图形学学会主办,苏州科技大学承办&#xff…

证件照转数字人只需几秒钟,微软实现首个3D扩散模型高质量生成效果,换装改形象一句话搞定 | CVPR 2023...

转载自 微软亚洲研究院量子位 | 公众号 QbitAI 一张2D证件照,几秒钟就能设计出3D游戏化身! 这是扩散模型在3D领域的最新成果。例如,只需一张法国雕塑家罗丹的旧照,就能分分钟把他“变”进游戏中: △RODIN模型基于罗丹旧…

证件照更换底色(remove.bg包)【Python】

最近正好在办理入职需要用到蓝底的证件照,我目前只有一个白底的,在网上百度很多工具都需要付费,一气之下叫ChatGPT帮我写了一个哈哈哈。 最开始写的不太符合要求,人物旁边都是白色区域(这一段的代码就不上了&#xff…

chatgpt赋能python:Python改变图片背景色:让你的照片更生动

Python改变图片背景色:让你的照片更生动 随着数字摄影技术的进步,人们拍摄照片的数量和质量都得到了大幅提升。但是,有些时候照片的背景色不够理想,可能会影响整体效果。而Python这个流行的编程语言,可以通过图像处理…

安卓新闻客户端

安卓新闻客户端 特别说明:本安卓使用版本较高,因为是课设仓促完成的,现在还有些许BUG,目前还在维护和更新ing~ 完整代码GitHub自行下载导入 GitHub仓库:点击此处 实训报告:点击此处 主界面图 一、需求分析 …

android新闻客户端的实现

制作一个基于聚合新闻数据简单的新闻APP 制作简易新闻App 导航篇[1、使用FragmentViewPager TabLayout自制简易新闻 app主要框架(一)](https://blog.csdn.net/Tobey_r1/article/details/93221486)[2、解析聚合新闻数据,并显示到主界面上&…

高等数学学习笔记——第四十讲——微积分基本公式

1. 问题引入 2. 微积分基本定理(微积分基本公式、牛顿——莱布尼兹公式) 3. 定积分计算示例(利用微积分基本公式) 4. 分段函数的定积分(需分段计算)(引申:具体问题,具体分…

如何利用MATLAB求解积分与微分?

文章目录 前言1 数值微分2 数值积分小结 前言 今天我们要说的就是数值微积分,赶紧看看他和高等数学中的微积分有什么区别吧。本文是科学计算与MATLAB语言专题六第一小节的学习笔记,如果大家有时间的话,可以去听听课,没有的话&…

数学建模学习(22):求解微积分之积分问题详解,超详细!

文章目录 前言不定积分定积分与无穷积分多重积分总结前言 积分是一个很重要的概念,通常分为定积分和不定积分。 我们在这里介绍的就是int函数,调用方式如下: F=int(fun,x) fun是被积函数,x是自变量,当然如果只有一个自变量可以省略。 不定积分 求解如下式子的不定积分:…

[MIT]微积分重点 第五课 积分总览 学习笔记

0.先上本节课目录: 1.函数二是函数一的导数 函数一: H e i g h t y ( x ) Height y(x) Heighty(x) 函数二: S l o p e s ( x ) Slope s(x) Slopes(x) 函数一 -> 函数二: S l o p e s ( x ) d ⁡ y d ⁡ x l i m i t o f …

这可能是关于微积分讲的最好的文章了

最近自己学习深度学习相关的东西,发现需要大量关于微积分的知识作为支撑,于是我在网上找到了这篇关于微积分的好文章,这也是我目前见过的最好的讲解微积分的文章了!要是大学课本这么写,高数怎么可能让那么多同学挂科&a…

用Python学《微积分B》(定积分)

本文主要学习《微积分B》第7章——“定积分的概念和存在条件”,结合课程中的知识进行一些扩展,并用Python辅助求解课后练习题。关于定积分(Definite Integral)的概念,课本中只介绍了“黎曼积分”(Riemann I…

多变量微积分笔记17——通量

在流体运动中,通量是单位时间内流经某单位面积的某属性量,是表示某属性量输送强度的物理量。在大气科学中,包含动量通量、热通量、物质通量和水通量。 本章关于向量和点积的相关知识课参考《线性代数笔记3——向量2(点积&#xff…

以MATLAB的方式实现微积分问题的计算机求解问题及解决方案集锦(二)

前言 关于MATLAB系列的精品专栏大家可参见 MATLAB-30天带你从入门到精通 MATLAB深入理解高级教程(附源码) 喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟! 微积分问题的计算机求解系列 (0001) 试求出以下的曲线积分。 【解】 套用第一类和第二类曲线…

第三单元 用python学习微积分(十九)FTC2(下)和定积分在对数和几何上的应用

本文内容来自于学习麻省理工学院公开课:单变量微积分-定积分在对数和几何上的应用-网易公开课 概率密度_百度百科 概率密度是什么意思_百度知道 正态分布(高斯分布)、Q函数、误差函数、互补误差函数 - htj10 - 博客园 正态分布_百度百科 …

程序员的数学【多元函数微分学】

目录 前言一、多元函数的定义二、偏导数三、高阶偏导数四、梯度五、雅可比矩阵5.1 雅克比矩阵定义5.2 雅克比矩阵示例 六、Hessian矩阵6.1 Hessian矩阵定义6.2 实例演示Hessian矩阵 七、极值判别法则7.1 极值判定条件7.2 实对称矩阵正定负定判定 八、二次型8.1 二次型定义8.2 二…