合合信息获中国图象图形学学会科技进步奖二等奖

图片来源中国图像图形学会CSIG公众号

去年12中国图象图形学学会(CSIG)公布了2021年度自然科学奖、技术发明奖、科技进步奖评选结果。其中,合合信息牵头与华南理工大学共同完成的“复杂场景文档图像识别与理解关键技术及应用”荣获2021年度中国图象图形学学会科技进步奖二等奖。据悉,此次成果奖项评选需满足三方面条件,包括技术创新性突出,经济效益或者社会效益显著和推动行业科技进步作用明显。基于这个情况了解一下奖项背后的团队与技术研发情况

1、获奖团队介绍:

本项目由上海合合信息科技股份有限公司牵头,依托于上海市领军人才培养计划 和合合信息-华南理工大学文档图像分析识别与理解联合式实验室,共同开展面向复杂多场景文字识别理解及应用的研究工作,多维度来研究解决文档图像的文字识别智能感知与结构化认知理解问题。

项目第一完成人是上海市领军人才,合合信息董事长镇立新博士。镇立新博士主要负责整体策划了项目的研究总体框架、产品技术方案及技术路线,确立了整个项目的研发和应用方向,主持了整个项目的研发和市场应用拓展。第二完成人是华南理工大学金连文教授,金连文教授主要负责参与了项目总体技术创新路线的整体方案规划及学术理论研究,提出了深度学习场景文字检测与识别、无约束手写体文字识别等新方法。

项目其他完成人均为合合信息的核心研发人员和华南理工大学教授,他们在文档图像识别与理解计算机视觉、人工智能领域均有着十多年的研发经验,有较为专业的行业理解与技术成果,全部完成人简介如下:

姓名

文化程度

所学专业

工作单位

对成果的创造性贡献

镇立新

博士

模式识别

上海合合信息科技股份有限公司

整体策划了项目的研究总体框架、产品技术方案及技术路线,参与研究了多场景手写及文字识别新方法、文本图像去噪增强方法,参与设计及研发了名片全能王、扫描全能王等产品。

金连文

博士

计算机视觉

华南理工大学

参与了项目总体技术创新路线的整体方案规划及学术理论研究,提出了深度学习场景文字检测与识别、无约束手写体文字识别等新方法。

罗希平

博士

计算机科学

上海合合信息科技股份有限公司

01的实现了整套名片识别和OCR识别算法,该算法实现了一种速度快,内存需求小,准确率高的多语种OCR算法。该算法在项目中作为底层核心识别技术之一得到了广泛应用。

龙腾

博士

模式识别

上海合合信息科技股份有限公司

研发了基于手机移动端摄像头的扫描图像色彩还原与增强技术、基于手机移动端摄像头的文档检测定位与三维空间矫正技术、新一代基于深度学习场景文字识别的先进文字识别技术。

陈青山 

硕士

计算机科学

上海合合信息科技股份有限公司

1、OCR移动端算法及工程化
2、移动App(名片全能王,扫描全能王)多平台开发及产品化、运营推广工作
3、手机厂商OCR技术授权及集成化工作对“名片全能王,扫描全能王、证照票据OCR 引擎”等产品的设计、实现及运营推广做出了重大贡献。

丁凯

博士

人工智能

上海合合信息科技股份有限公司

独立并带领团队研发核心底层OCR算法技术。作为核心研发人员研发了手写识别、名片识别,证照识别和通用文本识别等核心算法,并作为核心技术应用到多项产品和业务中。

郭丰俊

博士

计算机视觉

上海合合信息科技股份有限公司

1、实现第一代高精度手机版银行卡识别,被三星电子应用于其支付系统,并被其他厂商广泛使用;
2、结合深度学习与经典图像处理/模式识别算法,实现了业界领先水平的表格检测与识别系统。

高学

博士

模式识别

华南理工大学

提出了多项OCR识别理论新方法,包括基于卷积神经网络的相似手写汉字识别方法、基于局部线性分析的手写汉字特征降维与优化方法、基于OCR的票据自动识别与处理方法。

薛洋

博士

信号与信息处理

华南理工大学

参与了基于深度学习的场景文字检测与识别、无约束手写体文字识别等学术理论的研究及算法研究。

张彬

硕士

计算机视觉

上海合合信息科技股份有限公司

开发名片全能王 iOS版;参与扫描全能王开发;OCR深度学习私有化训练平台;负责公司主要产品票据机器人和证件机器人研发,大幅提升了复杂票据和证件的识别率。

2、项目介绍:

复杂多场景文档图像识别与理解关键技术及应用是基于新一代人工智能基础理论及核心技术,开展面向复杂多场景文字识别及理解的研究工作,多维度来研究解决文档图像的文字识别智能感知与结构化认知理解问题。针对OCR关键共性技术问题,从复杂场景文档图像智能处理、复杂场景文字检测、文复杂场景字识别理论与技术、文档结构化理解等方面开展OCR关键共性核心技术研究,来解决复杂场景下新一代文字识别中得到“看不清、看不准、认不全、难理解”等四个方面的关键技术问题。项目组提出了多项文档识别与理解新方法, 构建面向复杂多场景文档图像OCR的技术方法体系,取得了具有自主知识产权的创造性科技成果,为智慧金融、智慧办公、智慧城市、智能制造、电子商务等多应用场景的数字化转型升级提供关键核心技术支撑及产品解决方案

项目研发过程中产生了相关核心技术累计获得发明专利授权82项(其中国际专利授权26项),获得计算机软件著作权30项,发表代表性学术论文20余篇。近三年获得国际权威学术竞赛冠军12次。相关核心技术应用在合合信息旗下产品扫描全能王、名片全能王产品,产品覆盖了全球百余个国家和地区的亿级用户,全球用户累计首次下载量合计超过6亿。

3、在科研过程中,有没有什么好的方法可以推荐给大家?

本项目的一个显著特点就是既需要基础理论的创新和突破,也需要与实际用户需求和业务场景相契合的技术突破,最终形成自主知识产权的核心技术和规模化的产业应用。

在基础理论创新方面,一方面合合信息自身拥有一个由上海市领军人才镇立新博士领衔底层技术研发团队,专注于底层理论技术的创新和突破,同时为了进一步提升基础理论水平,合合信息与华南理工大学金连文教授合作,共同成立了合合信息-华南理工大学文档图像分析识别与理解联合实验室,充分利用顶尖高效的科研力量,提升基础理论水平,为后续的技术创新和突破提供理论基础。

在技术创新和落地方面,注重对用户需求和业务场景的理解,思考如何通过技术突破来解决实际用户和业务场景下的问题。例如我们的扫描全能王,名片全能王,“票据机器人”、“证照机器人”、“财报机器人”等多个产品都是基于用户面临的拍照环境多样导致文档图像形变、背景干扰、书写风格多样、文字方向多样等实际的问题,通过技术创新,提出了多项文档识别与理解新技术,解决了用户的痛点和问题,从而产生了多项科技应用成果。相关核心技术累计获得发明专利授权82项(其中国际专利授权26项),获得计算机软件著作权30项,发表代表性学术论文20余篇。近三年获得国际权威学术竞赛冠军12次。同时该技术创新也获得了各行各业的认可,银行、证券、保险、政府、物流、制造、地产、零售等近30个行业的众多头部客户与合合信息开展合作,采购相关技术应用,帮助企业实现数字化与智能化的转型升级。

4、在项目的研究过程中有遇到什么困难吗?是如何解决的?

项目研究中的主要困难在于两个方面,一个是如何在基础理论创新上取得突破,一个是实际用户需求和业务场景的及其复杂多样,如何通过技术突破满足甚至超越用户预期。

我们知道,基础理论创新是一件非常困难的事情,可能面临长时间无法取得成果和突破。针对这个难题,我们一方面基于公司对文档图像识别与理解领域内的深刻理解以及对该领域前沿技术的持续跟进,同时通过联合实验室和这个领域内顶尖的高校教授一起研究探索,把握好基础理论创新的大方向,确保理论创新始终在正确的方向上。其次就是坚持长期主义,合合信息从创立开始就一直保留着一个底层理论技术研发团队,同时2010年就和华南理工大学签署战略合作协议,再理论创新领域持续长期投入,最终形成了20多篇高水平论文和超过80项的核心技术专利。

第二个困难就是用户需求和业务场景的极度复杂,在核心技术研发上,需要面对文档图像背景干扰,图像形变,字体风格多样,文字重叠,书写潦草,类型和版式多样等各种难题;再数据上,我们需要支持50多种语言,却缺乏相关语言的各种类型的文档图像数据进行训练;在应用上,会面临不同终端硬件环境,操作系统平台,型号差异造成的影响。针对这样的问题,我们首先是深刻的理解用户需求和场景,找到背后的核心问题,然后针对核心问题进行技术攻关,通过长期持续的技术创新解决一个个用户需求和实际场景中的关键问题,最终形成了像“扫描全能王”,“名片全能王”这一类深受用户欢迎的产品和服务。

目前合合信息的技术服务已经覆盖了银行、证券、保险、物流、制造等行业的众多客户,欢迎大家登录到TextIn - MobileSDK 进行申请使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/50676.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SIGGRAPH2021电脑动画节获奖名单出炉!获奖作品全方位解析

5月24日,SIGGRAPH最受瞩目的环节之一——电脑动画节(Computer Animation Festival,简称CAF)宣布了本年度的获奖名单,并发布了今年电子剧院(Electronic Theater)上映影片的预告片。 瑞云渲染为您…

图扑国风设计 3D 可视化 | 科技与文化碰撞炫酷”火花“

当今时代,各领域互融互通,各种表现形式交叉融合,要主动适应新的发展趋势,推动中华优秀传统文化与新媒体、新技术的融合传播,让新时代的文艺与科技创新呈现更具深度、更有潜力的新境界。 “凡益之道,与时偕…

AIGC大模型之——以文生图介绍

一、什么是以文生图? 以文生图是AIGC ( AI Generated Content )框架中的一个关键技术,通过文字描述,将文字转化为图像并展示出来。以文生图具有白动化程度高、精度高、可扩展性强、可定制化等优势,具有广泛的应用前景&…

图扑 3D 可视化国风设计 | 科技与文化碰撞炫酷”火花“

当今时代,各领域互融互通,各种表现形式交叉融合,要主动适应新的发展趋势,推动中华优秀传统文化与新媒体、新技术的融合传播,让新时代的文艺与科技创新呈现更具深度、更有潜力的新境界。 “凡益之道,与时偕…

用于app的支付成功与失败页面

博主在开发一款app时制作了几个支付页面,在这里分享给大家。

本人成功续费了。你的支付授权失败。请核对你的信息并重试,或尝试其他支付方式。请联系你的银行了。

今天两个苹果账号都是这样弄的,都成功了。大家可以试试。 正常登录登录开发这账号,到要登录苹果账号的时候,我用注册地香港的账号(这是重点,原先用大陆的苹果账号试都不行),卡用的试招行VISA卡…

微信支付 {“errMsg“:“requestPayment:fail errors“}

使用的是uniapp uni.requestPayment 微信支付 错误解决 需要开通微信开放平台 1.登记的包名或签名有没有错误 不知道应用签名的可以先打个包安装到手机之后;使用签名工具下载地址https://open.weixin.qq.com/zh_CN/htmledition/res/dev/download/sdk/Gen_Signature_Andr…

UniAPP 进行微信支付时报错: {“errMsg“:“requestPayment:fail:[payment微信:-1]General errors“}

☞ 问题描述 Uniapp 开发过程中,参考文档进行微信支付的配置操作后 感觉前期的应用申请,商户号绑定,代码云打包都成功了 但是,通过 HBuilderX 连接安卓真机(魅族手机)进行测试,神奇的情况出现了…

【FAQ】应用内支付服务无法拉起支付页面常见原因分析和解决方法

华为应用内支付服务(In-App Purchases)通过简便的接入流程为用户提供良好的应用内支付体验,然而在实际接入过程中,有一些开发者反馈测试时会无法正常拉起支付页面,下文将详细分析问题出现的5种情形,并给出解…

关于微信支付退款接口问题 PHP版

微信支付申请退款接口,直接上代码 $orderinfopdo_fetch("select * from hx_order where orderid$orderid"); $transaction_id$orderinfo[transno]; //退款 //$total_fee$orderinfo[paymoney]; //$refund_fee$orderinfo[paymoney]; $total_fee1; $refund_f…

微信支付-“申请退款”接口遇到curl出错,错误码:58解决方案

微信支付后 退款,接口遇到curl出错,错误码:58 这个问题基本上是证书没对应上(微信支付不需要申请证书,退款要用到证书),证书要去微信商户号后台(账户中心-API安全-申请证书)下载&am…

支付业务-信用卡拒付

业务术语 持卡人:持有信用卡的买家 卡组织:银行卡转接清算机构(又称信用卡组织/银行卡组织),由成员组成的国际性或区域性支付卡组织,授权成员发卡,受理商户的卡交易,拥有并经营自己…

【ChatGPT】GPT 原理解析:Transformer 模型的核心思想:注意力机制(Attention Mechanism)的核心原理是什么?并给出数学公式代码实例。

文章目录 注意力机制是什么?多头注意力机制(Multi-Head Attention)Multi-Head Attention 算法原理、代码实例算法原理代码实例应用场景注意力机制的计算步骤Python 代码实例Softmax 函数参考资料注意力机制是什么? 注意力机制(Attention Mechanism)的核心原理是根据输入…

chatgpt赋能python:Python图中打字的SEO文章:让你的图片说出更多的话

Python图中打字的SEO文章:让你的图片说出更多的话 图片是传达信息的有力工具。不过,当你在网站上发布图片的时候,这张图片就很可能会被浏览器、机器学习算法、甚至是一些视觉障碍用户忽略。为了弥补这个缺陷,我们可以使用Python来…

React流式打字效果实现(不需要CSS) - Typing Effect with out use Css

前言 最近有个云栖大会的demo展示需求,要实现个类似的打字效果,所以我找了找相关的库。找到一个还不错的~叫iTyped.js。但是最终的效果和我想要的不太一样,会有回删效果,看了下源码,所以就自己写了一个~ 再夸奖下 iT…

模仿Chart GPT输出的打字效果

demo代码&#xff1a; <!DOCTYPE html> <html><head><meta charset"utf-8"><title>打字机</title><style>.text {font-size: 40px;}.content {text-align: center;font-size: 0;}.blink {font-size: 40px;animation: tia…

chatgpt赋能python:Python怎么入侵手机

Python怎么入侵手机 现在移动设备已经成为人们生活中必不可少的一部分&#xff0c;因此&#xff0c;攻击者越来越多地将目光转向移动设备。 进入移动设备的主要方式之一是通过应用程序漏洞进行攻击。而Python编程语言的出现可以让攻击者更容易地发掘和利用这些漏洞&#xff0c…

中国外汇交易中心员工英语培训四次合作TutorABC

成人在线英语教育品牌TutorABC的企业英语培训方案已经受到各大企业及协会的认可&#xff0c;这是众所周知的事情。就在双十一前夕&#xff0c;TutorABC与中国外汇交易中心达成年度语言培训合作&#xff0c;这已经是双方连续第四年在企业英语培训领域展开合作&#xff0c;TutorA…

报Python培训班多少钱?报个班值得吗?

报Python培训班多少钱&#xff1f;报个班值得吗&#xff1f;报培训机构学习Python学费一般是要1~2万元之间&#xff0c;每个培训机构收费标准都是不一样&#xff0c;要根据不同的班型、学习时长等因素来收费&#xff0c;而且Python的学费也会受到所在城市的消费水平影响。学习时…

Language Model Reasoning

来自&#xff1a;天宏NLP 作者&#xff1a;tianhongzxy 自从那篇著名的《Chain of Thought Prompting Elicits Reasoning in Large Language Models》发布以来&#xff0c;一下子引爆了使用 Large Language Models (LLMs) 做推理任务的热潮。同时&#xff0c;越来越多的研究者开…