【老保姆教程】:Tesseract-OCR图片文字识别

文章目录

  • 🌟介绍一波
  • 🌟小安装
  • 🌟配置环境变量
    • ⭐️tesseract-ocr配置
    • ⭐️tessdata语言配置
    • ⭐️检测环境变量是否安装成功
  • 🌟语言包的配置使用
  • 🌟CMD命令框中进行图片识别操作
    • ⭐️举例一:识别数字
    • ⭐️举例二:识别文字
  • 🌟pycharm中进行图片识别操作
    • ⭐️举例一:识别文字
  • 🌟唠唠问题

🌟介绍一波


Tesseract-OCR 是一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎。与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。
(别问我咋知道,百度一下,你就知道😛)

🌟小安装


  • 安装Tesseract-OCR(64位的安装包链接)
    tesseract-ocr-setup-4.00.00dev.exe
  • tesseract各种语言集合包
    tesseract各种语言集合包

🌟配置环境变量


⭐️tesseract-ocr配置

  1. 下载 tesseract-ocr-setup-4.00.00dev.exe 完成后,对tesseract-ocr进行安装,找到tesseract.exe所在的文件路径,复制该文件所在的路径。
    在这里插入图片描述

  2. 打开环境变量:打开控制面板——>输入“环境”,回车——>点击“编辑系统环境变量”——>点击“环境变量”。
    在这里插入图片描述
    在这里插入图片描述
    3、在用户变量系统变量Path中分别粘贴之前复制的路径,最后一直点击“确定”即可。
    在这里插入图片描述
    在这里插入图片描述

⭐️tessdata语言配置

  1. 在Tesseract-OCR的文件夹中找到tessdata文件夹并进入(此文件夹中包含的是各种语言包,提供识别功能)并复制此路径。
    在这里插入图片描述
  2. 打开环境变量(以上已有,不再赘述),在系统变量中点击新建,添加一个系统变量,变量名为TESSDATA_PREFIX,变量值为tessdata文件夹的路径
    在这里插入图片描述

⭐️检测环境变量是否安装成功

👉打开cmd命令框并输入tesseract后回车,如果出现以下内容则表示环境变量安装成功。
在这里插入图片描述

🌟语言包的配置使用


下载好tessdata各语言集合包并解压后点击进入文件,即可看见里面有很多语言包(chi_sim是中文识别包,equ是数学公式包,eng是英文包 ),可将对应的语言包复制并粘贴到Tesseract-OCR的文件夹下的tessdata文件夹中。
在这里插入图片描述

🌟CMD命令框中进行图片识别操作


  • 在CMD中进入所要识别图片的路径。
    在这里插入图片描述

在这里插入图片描述

⭐️举例一:识别数字

命令(举例):tesseract 1.png out_1 -1 eng
1.png:图片名称
out_1:识别后形成的文本文件名称
-l:不是数字1,而是字母L的小写
eng:识别的是数字或英文

在这里插入图片描述

  • 这时则在图片路径下生成一个名为out_1的文本文件,文件中写入的是识别的内容。
    在这里插入图片描述

⭐️举例二:识别文字

在这里插入图片描述
在这里插入图片描述

🌟pycharm中进行图片识别操作


  • 需要下载的模块:
    pip install PIL
    pip install pytesseract

⭐️举例一:识别文字

from PIL import Image
from pytesseract import pytesseracta = pytesseract.image_to_string(Image.open('F:/识别/2.png'), lang='chi_sim')
print(a)

在这里插入图片描述

🌟唠唠问题


大家可以发现👀,使用Tesseract-OCR进行图片文字识别时会出现识别错误的情况,也就是识别精度较低。当我们想识别文字较多,内容较为复杂的图片时,就很难识别出来了,这可咋办?
莫慌莫慌,想要知道如何解决,请听下回分解😜

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/42122.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

tesseract:从图片中识别文字信息

一、安装 tesseract 安装过程:https://blog.csdn.net/fengbohello/article/details/119272478 二、安装训练后的语言文件 下载英文数据:https://github.com/tesseract-ocr/tessdata/blob/master/eng.traineddata 下载简体中文数据:https:…

ChatGPT在智能外呼机器人领域的应用

随着人工智能技术的不断发展,自然语言处理(NLP)技术也逐渐成为各行各业的热门技术。其中,ChatGPT技术是近年来备受关注的技术之一。ChatGPT技术是一种基于自然语言处理和深度学习的人工智能技术,它可以处理自然语言文本,实现自动化…

Linux mailutils 如何使用 mail 指令在命令行发送邮件

Linux mailutils 如何使用 mail 指令在命令行发送邮件 一、mail 指令的说明 查看 mail 的帮助信息 mail --help能看到一些可用的参数 -A 添加文件作为邮件附件s 设置邮件标题 二、一般用法 1. 填写目标邮箱 mail kylebing163.com点击回车之后,它会让你输入抄…

linux中使用mail命令发送邮件详解

linux中使用mail命令发送邮件详解 1、最简单的三种发邮件方式 第一种 #可以把当前的shell当成编辑器来使用,编辑完成后使用ctrld来结束编辑并发送 mail -s test 12121qq.com第二种 #使用|进行编辑发送 echo "test"|mail -s test 12121qq.com第三种 #…

通讯白名单的设置与使

通讯白名单是指只有白名单中的人员可以给该用户发送电子邮件和微讯,如果没有设置通讯白名单,系统中所有的人员都可以给其发送电子邮件和微讯。 通讯白名单的设置 在系统管理--组织机构设置--用户管理中点击要设置人员对应的“更新”按钮,更…

哪个更安全?白名单还是黑名单?Agent端对监控指标黑白名单的支持

“实际上,agent端指标的白名单和黑名单也是Zabbix培训中的一个重要主题。”   ——Kaspars Mednis , 全球培训师负责人,Zabbix SIA   本文整理自Kaspars 在2020Zabbix中国峰会的演讲,ppt获取链接见文末。更多演讲视频可关注官方Bilibili账…

nginx配置IP白名单

分析nginx访问日志,有哪些IP访问过nginx。 命令参考:awk {print $1} logs/access.log | sort | uniq -c | sort -nr -k1 输出的效果案例: 1053 192.168.3.15 893 192.168.3.10 818 192.168.0.8 1、添加IP白名单文件 在nginx目录的 conf …

Linux如何给服务器增加白名单

1、查看系统白名单配置: iptables -L -n 2、增加白名单(19.40.145.140 是需要增加的服务器IP): iptables -I INPUT -s 19.40.145.140/32 -p tcp -j ACCEPT 注:-I(I是i的大写) 3、查看防火墙状…

任正非:小公司,不要有太多方法论,把豆腐磨好就有人买

推荐阅读:16 款 ChatGPT 工具,太炸裂了! 不同性格、不同特长、不同偏好的人能否凝聚在组织目标和愿景的旗帜下,靠的就是管理者的宽容。 来源 | 新商业思想库 作者 | 任正非 “烧不死的鸟是凤凰,从泥坑里爬出来的才是圣…

电商商城小程序项目完整源码(微信小程序)

微信公众号:创享日记 发送:简商城 获取完整源码(导入微信开发者工具即可) 【ChatGPT】前些天发现了一个巨牛的人工智能学习电子书,通俗易懂,风趣幽默,无广告,忍不住分享一下给大家。…

死磕数据库系列(二十):MySQL 数据库 DDL、DML、DQL、DCL 语言理论与实践(sql 8.0 版)...

点关注公众号,回复“1024”获取2TB学习资源! 今天,民工哥带大家一起来学习一下 MySQL 数据库的 DDL、DML、DQL、DCL 这几种语言的理论知识与实践。如有帮助,请点在看、转发支持一波!!! DDL&…

安卓app汉化教程

有时候有些软件都是English的,尽管对英语略懂,但是都是看着别扭(我基本都看不懂。)如果每次都点翻译的话又是一个很繁琐的事情。所以我们来一次app汉化的教程 首先我们需要一个文件管理器,但是手机自带的基本没有修改权…

常用24位颜色表转换成16位颜色值,让16位lcd使用

如果需要直接屏幕任意颜色转换成16位颜色值请下载转换程序,不用注册,就可使用 https://download.csdn.net/download/rachenjian/12968346 16位颜色表 #define N_Coloe_B16LightPink 0xFDB8 //24位0xFFB6C1 浅粉红 #define N_Coloe_B16Pink …

Qt 5.12--color

Qt 5.12--color 1 简介2 颜色代码2.1 16进制2.2 RGB数值 3 常用4 查找网站5 css color6 其他参考 1 简介 颜色是UI的基础,具体表示可以是十六进制颜色码,英文名,RGB数值。 2 颜色代码 2.1 16进制 详见RGB颜色查询对照表 常用如下 2.2 R…

【Python】用tkinter做一个采色器

from tkinter import * colors #FFB6C1 LightPink 浅粉红 #FFC0CB Pink 粉红 #DC143C Crimson 深红/猩红 #FFF0F5 LavenderBlush 淡紫红 #DB7093 PaleVioletRed 弱紫罗兰红 #FF69B4 HotPink 热情的粉红 #FF1493 DeepPink 深粉红 #C71585 MediumVioletRed 中紫罗兰红 #DA70D6 O…

使用簇绒图形设计原理提高您的可视化技能

Every now and then, we encounter graphs and charts that fail to represent the spirit of the underlying data. This may be hard to believe, given the advancement of understanding of statistics and technology, however, “junky-charts” often find their place …

python3使用tkinter做界面之颜色

from tkinter import * colors #FFB6C1 LightPink 浅粉红 #FFC0CB Pink 粉红 #DC143C Crimson 深红/猩红 #FFF0F5 LavenderBlush 淡紫红 #DB7093 PaleVioletRed 弱紫罗兰红 #FF69B4 HotPink 热情的粉红 #FF1493 DeepPink 深粉红 #C71585 MediumVioletRed 中紫罗兰红 #DA70D6 O…

[数据分析与可视化] 科技论文配色心得

本文是制作论文中科学图形的一些建议,可帮助您的论文受众尽可能轻松地理解您的数据。您的图形应该引人注目,易于理解,应该避免扭曲数据(除非您真的想这样做),并且对色盲的人来说是安全的。请记住&#xff0…

c语言查体,c语言的概述

今天萌小编又和大家见面了,想必大家看完之前我第一篇写的概览对c语言有了一些初步的了解,那么现在我们继续前行,探讨c语言的奥秘。 好,现在我们来看看一个c语言的编程,来直观的感受c语言,让大家能够学的轻松…

Markdown高级(使用教程)持续整理

Tyopra官网:https://www.typora.io/ Markdown语法演示 [TOC] 生成目录文章目录 标题一级标题二级标题三级标题四级标题五级标题六级标题 分割线引用列表无序列表有序列表 图片位置及大小使用html标签实现表格的单元格合并a) 横向合并单元格b) 纵向合并单元格c)…