光学字符识别(Optical Character Recognition, OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。
OCR的应用场景
- 卡片证件识别类:大陆、港澳台身份证、通行证、护照识别,卡类识别,车辆类驾驶证识别、行驶证识别,执照识类识别,企业证件类识别
- 文字信息结构化视频类识别:字幕识别和文字检测,表格;
- 票据类识别:增值税发票识别、全电发票识别、银行支票识别、承兑汇票识别、银行票据识别、物流快递识别;
- 其他识别:二维码识别、一维码识别、车牌识别、数学公式识别、物理化学符号识别、音乐符号识别、工程图识别、流程图识别、古迹文献识别、手写输入识别;
- 除了以上列举的之外,还有自然场景下的文字识别、菜单识别、横幅检测识别、图章检测识别、广告类图文识别等围绕审核相关的业务应用。
-
1)提供通用的识别服务;
2)部分能提供结构化文本的特定场景识别服务如身份证识别等,能保留识别文字结构。但这些应用还存在一些明显缺点:1)通用识别服务对图像要求高,通常针对扫描文档,要求输入图像背景干净、字体简单且文字排布整齐,对自然场景图像中的文字识别效果差;2)大多缺少常见特定场景文字识别如营业执照、银行卡、驾驶证
等卡证类图像的识别,只注重识别文字内容本身,没有特定场景的版面分析;3)特定场景文字识别,识别场景较为单一,如汉王OCR的特定场景只提供身份证识别等,无常见场景识别的功能整合;4)无法进行定制化的功能扩展;5)数据安全由厂商保证
下面我们基于PPocrv3在rk3568上进行部署:具体模型请在ppocr下载
导出onnx之后转为RKNN,,
具体如何转请参考我之前的博客。。。。。。
展示效果:
具体代码整理之后上传。。。。代码写的太烂了。。。。0.0