文档是人们在日常生活、工作中产生的信息的重要载体,各领域从业者几乎每天都要与金融票据、商业规划、财务报表、会议记录、合同、简历、采购订单等文档“打交道”。让计算机具备阅读、理解和解释这些文档图像的能力,在智能金融、智能办公、电子商务等许多领域具有广阔的应用价值。
现阶段,文档图像的处理过程中面临着诸多挑战:文档类型的多样产生了繁杂的版式与结构;受拍摄器材、背景环境影响,图像时常存在噪声和质量问题。文档图像处理是图像图形技术研究的重要方向,中国图象图形学学会等专业组织及合合信息等人工智能企业长期关注文档图像智能分析、处理焦点议题,开展了系列研发和实践工作。
文档处理中常见的问题
2023年5月11-14日,中国图象图形大会(CCIG 2023)将于苏州举办,谭铁牛院士、赵沁平院士、吴一戎院士、徐宗本院士、胡事民教授、高新波教授确定莅临CCIG 2023大会,并作大会主旨报告。众多专家学者将齐聚苏州,开启“最强大脑”,为大家带来一场精彩的学术盛宴。大会以“图象图形向未来”为主题,汇集100余位国内顶尖学者以及知名企业专家、2000余名科研院校师生、一线技术工程师,共同探索图像图形技术行业的最新进展。
为了促进文档图像分析与处理领域的技术交流及发展,中国图象图形学学会文档图像分析与识别专业委员会与合合信息共同打造了《文档图像智能分析与处理》高峰论坛。
本次论坛中,合合信息特别邀请了来自中科院自动化所、北大、中科大、华南理工大的学术专家与华为等知名企业的研究者们,围绕文档图像处理及OCR领域的前沿技术展开“头脑风暴”,寻找文档图像处理领域的未来进阶方向。
论坛时间:5月13日13:30-17:30
观看方式:扫描下方议程海报二维码,在线观看直播
讲者信息
讲者一:
姓名:刘成林
单位和职称:中国科学院自动化研究所,研究员
个人简介:刘成林,中国科学院自动化研究所副所长,研究员、博士生导师,中国科学院大学人工智能学院副院长。1989年、1992年、1995年分别在武汉大学、北京工业大学、中国科学院自动化研究所获学士、硕士和博士学位。1996年至2004年先后在韩国科学技术院、日本东京农工大学、日立中央研究所从事博士后和研发工作。2005年起在中国科学院自动化研究所任研究员。2008年获得国家杰出青年科学基金。研究兴趣包括模式识别、机器学习、文字识别与文档分析等。在国内外期刊和学术会议上发表论文300余篇,合著英文专著一本。现任Pattern Recognition期刊和《自动化学报》的副主编,以及多个期刊的编委。任国际模式识别学会副主席,中国人工智能学会副理事长、会士,中国自动化学会会士、模式识别与智能系统专委会主任,中国图象图形学学会常务理事。美国电气电子工程师协会会士 (IEEE Fellow)、国际模式识别学会会士(IAPR Fellow)。
报告题目:人工智能大模型时代的文档识别与理解
报告摘要: 文档图像识别的任务包括版面分析、文本识别、图形符号识别、信息抽取等。近年来,得益于深度学习方法的发展,文档识别性能快速提升,在文档数字化、票据处理、笔迹录入、智能交通、信息检索等领域得到广泛应用。然而,实际应用也表明,现有技术在识别精度和可靠性、可解释性、自适应性等方面还有明显不足,还有很多技术问题有待解决。另一方面,人工智能大模型的快速发展促使团队重新思考文档识别领域今后的发展方向,除了解决识别层次的遗留问题,应面向文档语义理解和应用,在语义信息抽取和决策层面开展研究。本报告对文档识别技术现状做简要回顾,分析现有技术的不足,并提出人工智能大模型时代新的研究问题和方向。
讲者二
姓名:邹月娴
单位和职称:北京大学,教授
邹月娴,北京大学教授/博士生导师,鹏城实验室双聘教授,电子科技大学本硕,香港大学博士, IEEE高级会员,新加坡归国学者。现任北京大学深圳研究生院党委副书记、北京大学深圳研究生院现代信号与数据处理实验室(ADSPLAB)主任;深圳市人工智能学会副理事长兼秘书长、深圳市女科技工作者协会副会长、中国自动化学会模式识别与机器智能专业委员会委员、广东省图象图形学会理事会。荣获深圳市高层次专业人才(地方级人才)、深圳市三八红旗手称号。长期从事智能信号与信息处理、跨媒体分析与理解等相关领域的科研与教学工作,先后主持和参与国家级、地方级科研项目30多项,荣获中国电子工业部科技进步三等奖和深圳市科学技术奖科技进步一等奖。在顶级学术期刊(TPAMI、TIP、TSP、TMM、TIM等)和旗舰学术会议(AAAI、NIPS、ACL、CVPR、IJCAI、ACMMM等)上发表学术论文270多篇,申请发明专利20项。目前致力于跨媒体分析与理解、人机对话、深度学习理论方法与应用研究(https://web.pkusz.edu.cn/adsp/)。
报告题目:视觉-语言预训练模型及迁移学习方法
报告摘要:基于大规模文本数据、Transformer和无监督预训练技术的ChatGPT毫无疑问是人工智能的里程碑技术,展示了机器智能的能力和可用性。随之而来的视觉-语言双模态超大规模预训练模型GPT-4更是展现了超人的数理能力、零样本/小样本能力。本次演讲简要分析ChatGPT的技术能力与局限性,介绍视觉-语言预训练模型及迁移学习的前沿研究成果,分享我们团队在视频文本预训练(VLP)和语言视频定位(Visual Grounding)任务的研究进展。
讲者三
姓名:谢洪涛
单位和职称:中国科学技术大学教授
谢洪涛,中国科学技术大学教授、博导,国家基金委优青项目获得者,中科院青年创新促进会优秀会员。从事多媒体内容安全方向的研究,包括视觉内容检测与识别、视频图像内容检索、数字图像篡改检测与取证等。发表ACM/IEEE汇刊论文和CCF-A类会议长文70余篇,主持科研项目10余项,含国家重点研发计划项目1项、基金委重点项目1项。研究成果在国家相关部门和商业公司的线上系统获得应用,取得积极效果。获2019年度国家自然科学奖二等奖、2021年度中国专利奖优秀奖、2018年度中国电子学会自然科学奖一等奖、2022年度CSIG青年科学家奖等奖励。实验室主页:http://imcc.ustc.edu.cn/
报告题目:篡改文本图像的生成与检测
报告摘要:
近年来,经过深度学习篡改生成的文本图像已广泛传播于互联网,对金融票据、证件和网页内容识别等多个行业领域产生了重要影响。基于篡改生成与检测矛与盾的关系,本报告从场景文本图像的篡改生成与篡改检测两个方面进行讲述,包括探索基于文本笔迹的文本图像生成和基于频域关系的局部纹理差异性建模,最终实现高质量的场景文本图像篡改生成以及准确的场景文本图像篡改检测。针对篡改文本图像生成质量差的问题,本报告首先从文本图像擦除的角度考虑文本擦除彻底性和背景纹理完整性,并结合通用的篡改生成框架提出基于笔迹的场景文本图像篡改生成算法。其次,本报告提出了一种通用的自然场景文本图像篡改检测框架,并结合频域信息最大化真实和篡改文本的局部纹理差异性。
讲者四
姓名:廖明辉
单位和职称:华为云AI算法研究员
廖明辉,华为云AI算法研究员。2021年于华中科技大学获得博士学位。主要研究方向为自然场景文字检测与识别。以第一作者身份在TPAMI、TIP、CVPR、ECCV、AAAI等顶级期刊会议发表论文十余篇,其中ESI高被引论文2篇。谷歌学术引用数超3500。获得了CSIG优博、CSIG自然科学奖一等奖、CCF-CV学术新锐奖、第五届中国互联网+大学生创新创业大赛国赛金奖、AI华人新星百强、AI 2000人工智能全球最具影响力学者榜单等荣誉。
报告题目:华为云OCR技术进展与行业实践
报告摘要:OCR技术有广泛的应用场景,也是华为云AI服务的核心能力之一。本次报告将介绍华为云在OCR技术上的研究进展以及华为云在OCR行业的实践,包括文字识别自监督预训练模型的研究进展及其在金融行业的应用、华为云OCR服务产品介绍等。
讲者五
姓名:丁凯
单位和职称:上海合合信息科技股份有限公司 高级工程师
丁凯,上海合合信息科技股份有限公司智能技术平台事业部副总经理,高级工程师,获华南理工大学博士学位。担任CSIG文档图像分析与识别专委会委员,CSIG机器视觉专委会委员,上海科技大学企业导师,华南理工大学校外研究生导师等职务,获得上海市人才发展基金资助。研究方向为人工智能、模式识别、文档分析与理解、OCR、知识图谱等。带领团队在ICDAR、ICPR等权威学术会议组织的国际竞赛中获得多项冠军,作为主要完成人获得CSIG科技进步奖二等奖。近年来主持的名片识别理解、电子文档还原、多模态文档理解、知识图谱构建与挖掘等项目的研发工作,支撑了合合信息多项核心业务。
报告题目:智能文档处理技术在工业界的应用与挑战
报告摘要:
随着技术的不断发展,OCR技术在工业界中的应用也从最开始的简单的光学字符识别拓展到涵盖图像预处理、文字识别、版面分析、文档理解等多项技术的智能文档处理领域。近年来,特别是深度学习技术出现以后,智能文档处理的各项技术均取得了突破性的进展。然而,在实际的工业界场景中,文档处理仍然面临着大量的问题和挑战,例如文档图像中的形变/弯曲及光照影响、文档篡改检测、复杂文档图像的版式还原,以及各种复杂场景下的文档的识别与理解难题。本报告主要介绍了合合信息依托自研的TextIn智能文字识别服务平台,在解决工业界中面临的各类问题中所做一些相关工作进展和研究成果,并探讨当前工业界中面临的一些关键技术难题和挑战。