图片来源于中国图像图形学学会CSIG公众号
去年12月,中国图象图形学学会(CSIG)公布了2021年度自然科学奖、技术发明奖、科技进步奖评选结果。其中,合合信息牵头与华南理工大学共同完成的“复杂场景文档图像识别与理解关键技术及应用”荣获2021年度中国图象图形学学会科技进步奖二等奖。据悉,此次成果奖项评选需满足三方面条件,包括技术创新性突出,经济效益或者社会效益显著和推动行业科技进步作用明显。基于这个情况我们了解一下奖项背后的团队与技术研发情况。
1、获奖团队介绍:
本项目由上海合合信息科技股份有限公司牵头,依托于上海市领军人才培养计划 和合合信息-华南理工大学文档图像分析识别与理解联合式实验室,共同开展面向复杂多场景文字识别理解及应用的研究工作,多维度来研究解决文档图像的文字识别智能感知与结构化认知理解问题。
项目第一完成人是上海市领军人才,合合信息董事长镇立新博士。镇立新博士主要负责整体策划了项目的研究总体框架、产品技术方案及技术路线,确立了整个项目的研发和应用方向,主持了整个项目的研发和市场应用拓展。第二完成人是华南理工大学金连文教授,金连文教授主要负责参与了项目总体技术创新路线的整体方案规划及学术理论研究,提出了深度学习场景文字检测与识别、无约束手写体文字识别等新方法。
项目其他完成人均为合合信息的核心研发人员和华南理工大学教授,他们在文档图像识别与理解、计算机视觉、人工智能领域均有着十多年的研发经验,,有较为专业的行业理解与技术成果,全部完成人简介如下:
姓名 | 文化程度 | 所学专业 | 工作单位 | 对成果的创造性贡献 |
镇立新 | 博士 | 模式识别 | 上海合合信息科技股份有限公司 | 整体策划了项目的研究总体框架、产品技术方案及技术路线,参与研究了多场景手写及文字识别新方法、文本图像去噪增强方法,参与设计及研发了名片全能王、扫描全能王等产品。 |
金连文 | 博士 | 计算机视觉 | 华南理工大学 | 参与了项目总体技术创新路线的整体方案规划及学术理论研究,提出了深度学习场景文字检测与识别、无约束手写体文字识别等新方法。 |
罗希平 | 博士 | 计算机科学 | 上海合合信息科技股份有限公司 | 从0到1的实现了整套名片识别和OCR识别算法,该算法实现了一种速度快,内存需求小,准确率高的多语种OCR算法。该算法在项目中作为底层核心识别技术之一得到了广泛应用。 |
龙腾 | 博士 | 模式识别 | 上海合合信息科技股份有限公司 | 研发了基于手机移动端摄像头的扫描图像色彩还原与增强技术、基于手机移动端摄像头的文档检测定位与三维空间矫正技术、新一代基于深度学习场景文字识别的先进文字识别技术。 |
陈青山 | 硕士 | 计算机科学 | 上海合合信息科技股份有限公司 | 1、OCR移动端算法及工程化 |
丁凯 | 博士 | 人工智能 | 上海合合信息科技股份有限公司 | 独立并带领团队研发核心底层OCR算法技术。作为核心研发人员研发了手写识别、名片识别,证照识别和通用文本识别等核心算法,并作为核心技术应用到多项产品和业务中。 |
郭丰俊 | 博士 | 计算机视觉 | 上海合合信息科技股份有限公司 | 1、实现第一代高精度手机版银行卡识别,被三星电子应用于其支付系统,并被其他厂商广泛使用; |
高学 | 博士 | 模式识别 | 华南理工大学 | 提出了多项OCR识别理论新方法,包括基于卷积神经网络的相似手写汉字识别方法、基于局部线性分析的手写汉字特征降维与优化方法、基于OCR的票据自动识别与处理方法。 |
薛洋 | 博士 | 信号与信息处理 | 华南理工大学 | 参与了基于深度学习的场景文字检测与识别、无约束手写体文字识别等学术理论的研究及算法研究。 |
张彬 | 硕士 | 计算机视觉 | 上海合合信息科技股份有限公司 | 开发名片全能王 iOS版;参与扫描全能王开发;OCR深度学习私有化训练平台;负责公司主要产品票据机器人和证件机器人研发,大幅提升了复杂票据和证件的识别率。 |
2、项目介绍:
复杂多场景文档图像识别与理解关键技术及应用是基于新一代人工智能基础理论及核心技术,开展面向复杂多场景文字识别及理解的研究工作,多维度来研究解决文档图像的文字识别智能感知与结构化认知理解问题。针对OCR关键共性技术问题,从复杂场景文档图像智能处理、复杂场景文字检测、文复杂场景字识别理论与技术、文档结构化理解等方面开展OCR关键共性核心技术研究,来解决复杂场景下新一代文字识别中得到“看不清、看不准、认不全、难理解”等四个方面的关键技术问题。项目组提出了多项文档识别与理解新方法, 构建了面向复杂多场景文档图像OCR的技术方法体系,取得了具有自主知识产权的创造性科技成果,为智慧金融、智慧办公、智慧城市、智能制造、电子商务等多应用场景的数字化转型升级提供关键核心技术支撑及产品解决方案。
项目研发过程中产生了相关核心技术累计获得发明专利授权82项(其中国际专利授权26项),获得计算机软件著作权30项,发表代表性学术论文20余篇。近三年获得国际权威学术竞赛冠军12次。相关核心技术应用在合合信息旗下产品扫描全能王、名片全能王产品,产品覆盖了全球百余个国家和地区的亿级用户,全球用户累计首次下载量合计超过6亿。
3、在科研过程中,有没有什么好的方法可以推荐给大家?
本项目的一个显著特点就是既需要基础理论的创新和突破,也需要与实际用户需求和业务场景相契合的技术突破,最终形成自主知识产权的核心技术和规模化的产业应用。
在基础理论创新方面,一方面合合信息自身拥有一个由上海市领军人才镇立新博士领衔底层技术研发团队,专注于底层理论技术的创新和突破,同时为了进一步提升基础理论水平,合合信息与华南理工大学金连文教授合作,共同成立了合合信息-华南理工大学文档图像分析识别与理解联合实验室,充分利用顶尖高效的科研力量,提升基础理论水平,为后续的技术创新和突破提供理论基础。
在技术创新和落地方面,注重对用户需求和业务场景的理解,思考如何通过技术突破来解决实际用户和业务场景下的问题。例如我们的扫描全能王,名片全能王,“票据机器人”、“证照机器人”、“财报机器人”等多个产品都是基于用户面临的拍照环境多样导致文档图像形变、背景干扰、书写风格多样、文字方向多样等实际的问题,通过技术创新,提出了多项文档识别与理解新技术,解决了用户的痛点和问题,从而产生了多项科技应用成果。相关核心技术累计获得发明专利授权82项(其中国际专利授权26项),获得计算机软件著作权30项,发表代表性学术论文20余篇。近三年获得国际权威学术竞赛冠军12次。同时该技术创新也获得了各行各业的认可,银行、证券、保险、政府、物流、制造、地产、零售等近30个行业的众多头部客户与合合信息开展合作,采购相关技术应用,帮助企业实现数字化与智能化的转型升级。
4、在项目的研究过程中有遇到什么困难吗?是如何解决的?
项目研究中的主要困难在于两个方面,一个是如何在基础理论创新上取得突破,一个是实际用户需求和业务场景的及其复杂多样,如何通过技术突破满足甚至超越用户预期。
我们知道,基础理论创新是一件非常困难的事情,可能面临长时间无法取得成果和突破。针对这个难题,我们一方面基于公司对文档图像识别与理解领域内的深刻理解以及对该领域前沿技术的持续跟进,同时通过联合实验室和这个领域内顶尖的高校教授一起研究探索,把握好基础理论创新的大方向,确保理论创新始终在正确的方向上。其次就是坚持长期主义,合合信息从创立开始就一直保留着一个底层理论技术研发团队,同时2010年就和华南理工大学签署战略合作协议,再理论创新领域持续长期投入,最终形成了20多篇高水平论文和超过80项的核心技术专利。
第二个困难就是用户需求和业务场景的极度复杂,在核心技术研发上,需要面对文档图像背景干扰,图像形变,字体风格多样,文字重叠,书写潦草,类型和版式多样等各种难题;再数据上,我们需要支持50多种语言,却缺乏相关语言的各种类型的文档图像数据进行训练;在应用上,会面临不同终端硬件环境,操作系统平台,型号差异造成的影响。针对这样的问题,我们首先是深刻的理解用户需求和场景,找到背后的核心问题,然后针对核心问题进行技术攻关,通过长期持续的技术创新解决一个个用户需求和实际场景中的关键问题,最终形成了像“扫描全能王”,“名片全能王”这一类深受用户欢迎的产品和服务。
目前合合信息的技术服务已经覆盖了银行、证券、保险、物流、制造等行业的众多客户,欢迎大家登录到TextIn - MobileSDK 进行申请使用。