常见场景
用户有大量图片/PDF文件,期望能将图片/PDF中的多个区域中的文字批量识别出来,并导入到Excel文件中。期望工具可以批量处理、离线识别(保证数据安全性)。手工操作麻烦。具体场景:用户有工程现场照片,订单,简历等PDF或图片文件,期望按照PDF或图片中关键的文字导出到Excel中,后期对文件进行快速检索 ,不用每个文件打开看。
相关技术
QT库、离线OCR识别算法、Python的Excel库。
基本处理思路:
1、批量加载PDF或图片文件
2、指定对应的识别范围
3、根据识别范围裁剪对应图片
4、裁剪后的图片批零OCR识别
5、将识别结果导出到Excel文件中
工具处理
第一步:下载软件
PDF或图片基于文字内容批量改名工具
百度网盘:https://pan.baidu.com/s/104inoJ7RsmbF-P07E882cA?pwd=qpch
腾讯微盘:https://share.weiyun.com/pq0GbDGI
第二步:打开软件
下载软件后,解压缩文件夹到本地,双击JDX图片识别.exe,启动主程序。
第三步:选择要改名的PDF或图片文件
选择待改名的图片或者PDF,可以按照文件夹选择,也可以按部分文件选择。
可分别导入图片文件、或者PDF文件(支持按指定范围页导入)。
第四步:设置要识别区域(可设置多个)
在识别范围窗体里,添加需要识别的范围(按住鼠标拉框绘制识别区域),通过同步范围设置把当前图片的识别区域同步到其他图片上。
第五步:对自定义范围进行批量识别文字
执行批量识别文字,识别结果淡绿色,右侧识别结果文字,可以校核与编辑。离线识别。
第六步:导出结果-导出Excel
选择导出的路径以及导出方式,可以导出Excel,也可以导出Word。导出内容包含:图片名称、指定的多个识别区域(名字),识别文字。
至此,通过以上步骤就能对PDF或图片按照多个识别区域文字,批量导出Excel。
• 本地离线识别、安全稳定(拔掉网线也能识别运行)
• 批量提取图片文字:提取指定区域文字,导出Excel
• 批量提取PDF文字:提取指定区域文字,导出Excel
• PDF文件支持:可复制版的PDF、扫描版的PDF都支持