Paddle OCR
PaddleOCR 基于深度学习技术实现的,使用十分简单。
先看效果
可以看出来识别效果还是不错的,里面的“湿”字识别成了繁体字。如果不是连体字,就不会出现这个问题。
1.测试环境
操作系统:Win10
Python:3.10
2.安装PaddlePaddle库
pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple(自行选择镜像源)
3.下载PaddleOCR库
git clone https://github.com/PaddlePaddle/PaddleOCR
也可以选择直接DownLoad下载文件解压到本地
4.安装依赖包
进入PaddleOCR文件夹下:
> cd PaddleOCR
安装第三方依赖:
pip install -r requirements.txt -i https://mirror.baidu.com/pypi/simple
5.详细代码
from pprint import pprint
from paddleocr import PaddleOCR
import gradio as gr ocr = PaddleOCR(use_angle_cls=True, lang="ch") def process(image): result = ocr.ocr(image) # return resultoutput_text = "" # 初始化输出文本变量for sublist in result:for line in sublist:text = line[1][0] # 提取文本output_text += text + "\n" # 将文本追加到输出文本变量,并添加换行符pprint(output_text)return output_textiface = gr.Interface(fn=process, inputs="image", outputs="text",title="图片OCR提取文字", iface.launch()
注意:这里result原先返回的还有坐标信息以及置信度,这里经过处理只返回了识别后的文本信息。如果需要坐标信息,可以直接返回result。