tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解

tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解

本文参考http://blog.sina.com.cn/s/blog_4aa166780101cji7.html实现,在这里感谢该文章的作者。

OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程。

Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。当前版本为3.02

项目下载地址为:http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe


Windows cmd命令行使用Tesseract-OCR引擎识别手机号码和图片中的文字:

1、下载安装Tesseract-OCR引擎(3.0版本+才支持中文识别)

 tesseract-ocr-setup-3.02-02.exe.

下载完后进行安装,默认情况下安装程序会给你配置系统环境变量,以指向安装目录(之后可以通过DOS界面在任意目录运行tesseract)。安装完成后目录如下:



附录:

tessdata 目录存放的是语言字库文件,和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。

如果想能识别中文,可以到http://code.google.com/p/tesseract-ocr/downloads/list下载对应的语言的字库文件.一般google访问不了,请到这里下载即可,

简体中文字库文件下载地址为:http://download.csdn.net/detail/wanghui2008123/7621567下载完成后解压,然后将该文件剪切到tessdata目录下去就可以了。


2、使用Tessract-OCR引擎识别验证码

打开DOS界面,输入tesseract:


如果出现如上输出,表示安装正常。

命令格式:

tesseract 图片名 输出文件名 -l 字库文件 -psm pagesegmode 配置文件

识别数字:

我准备了一张验证码123.png 手机号码的图片,放在F:\IDOL\a|目录下

运行的命令行如下,我自己的命令行工具做了属性调整背景是白色的。


表示识别后生成一个result123.txt 打开文件如下:



识别中文:

我准备了一张验证码234.png "中国识别测试"个字的图片,放在F:\IDOL\a\目录下如图:


运行的命令行如下:



表示识别后生成一个result234.txt 打开文件如下:



识别中文和英文:

网上找了一张图片,有中文有英文的图片:


运行命令如下:


结果如下:中文识别还不是太好啊!



例如:

tesseract OCR.jpg result -l chi_sim -psm 7 nobatch

-l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata)

-psm 7 表示告诉tesseract code.jpg图片是一行文本这个参数可以减少识别错误率. 默认为 3

configfile 参数值为tessdata\configs 和 tessdata\tessconfigs 目录下的文件名.



本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/42124.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

识别图片中文字的三种方法/图片转文字

一、钉钉 钉钉内置了很多小功能。打开手机钉钉,点击左下角的消息按钮,然后点击右上角的号-扫一扫,点击拍图识字选中需要识别的文字即可。 二、QQ 打开手机QQ,点击右上角的+号-扫一扫之后,点击转文字把图片…

【老保姆教程】:Tesseract-OCR图片文字识别

文章目录 🌟介绍一波🌟小安装🌟配置环境变量⭐️tesseract-ocr配置⭐️tessdata语言配置⭐️检测环境变量是否安装成功 🌟语言包的配置使用🌟CMD命令框中进行图片识别操作⭐️举例一:识别数字⭐️举例二&am…

tesseract:从图片中识别文字信息

一、安装 tesseract 安装过程:https://blog.csdn.net/fengbohello/article/details/119272478 二、安装训练后的语言文件 下载英文数据:https://github.com/tesseract-ocr/tessdata/blob/master/eng.traineddata 下载简体中文数据:https:…

ChatGPT在智能外呼机器人领域的应用

随着人工智能技术的不断发展,自然语言处理(NLP)技术也逐渐成为各行各业的热门技术。其中,ChatGPT技术是近年来备受关注的技术之一。ChatGPT技术是一种基于自然语言处理和深度学习的人工智能技术,它可以处理自然语言文本,实现自动化…

Linux mailutils 如何使用 mail 指令在命令行发送邮件

Linux mailutils 如何使用 mail 指令在命令行发送邮件 一、mail 指令的说明 查看 mail 的帮助信息 mail --help能看到一些可用的参数 -A 添加文件作为邮件附件s 设置邮件标题 二、一般用法 1. 填写目标邮箱 mail kylebing163.com点击回车之后,它会让你输入抄…

linux中使用mail命令发送邮件详解

linux中使用mail命令发送邮件详解 1、最简单的三种发邮件方式 第一种 #可以把当前的shell当成编辑器来使用,编辑完成后使用ctrld来结束编辑并发送 mail -s test 12121qq.com第二种 #使用|进行编辑发送 echo "test"|mail -s test 12121qq.com第三种 #…

通讯白名单的设置与使

通讯白名单是指只有白名单中的人员可以给该用户发送电子邮件和微讯,如果没有设置通讯白名单,系统中所有的人员都可以给其发送电子邮件和微讯。 通讯白名单的设置 在系统管理--组织机构设置--用户管理中点击要设置人员对应的“更新”按钮,更…

哪个更安全?白名单还是黑名单?Agent端对监控指标黑白名单的支持

“实际上,agent端指标的白名单和黑名单也是Zabbix培训中的一个重要主题。”   ——Kaspars Mednis , 全球培训师负责人,Zabbix SIA   本文整理自Kaspars 在2020Zabbix中国峰会的演讲,ppt获取链接见文末。更多演讲视频可关注官方Bilibili账…

nginx配置IP白名单

分析nginx访问日志,有哪些IP访问过nginx。 命令参考:awk {print $1} logs/access.log | sort | uniq -c | sort -nr -k1 输出的效果案例: 1053 192.168.3.15 893 192.168.3.10 818 192.168.0.8 1、添加IP白名单文件 在nginx目录的 conf …

Linux如何给服务器增加白名单

1、查看系统白名单配置: iptables -L -n 2、增加白名单(19.40.145.140 是需要增加的服务器IP): iptables -I INPUT -s 19.40.145.140/32 -p tcp -j ACCEPT 注:-I(I是i的大写) 3、查看防火墙状…

任正非:小公司,不要有太多方法论,把豆腐磨好就有人买

推荐阅读:16 款 ChatGPT 工具,太炸裂了! 不同性格、不同特长、不同偏好的人能否凝聚在组织目标和愿景的旗帜下,靠的就是管理者的宽容。 来源 | 新商业思想库 作者 | 任正非 “烧不死的鸟是凤凰,从泥坑里爬出来的才是圣…

电商商城小程序项目完整源码(微信小程序)

微信公众号:创享日记 发送:简商城 获取完整源码(导入微信开发者工具即可) 【ChatGPT】前些天发现了一个巨牛的人工智能学习电子书,通俗易懂,风趣幽默,无广告,忍不住分享一下给大家。…

死磕数据库系列(二十):MySQL 数据库 DDL、DML、DQL、DCL 语言理论与实践(sql 8.0 版)...

点关注公众号,回复“1024”获取2TB学习资源! 今天,民工哥带大家一起来学习一下 MySQL 数据库的 DDL、DML、DQL、DCL 这几种语言的理论知识与实践。如有帮助,请点在看、转发支持一波!!! DDL&…

安卓app汉化教程

有时候有些软件都是English的,尽管对英语略懂,但是都是看着别扭(我基本都看不懂。)如果每次都点翻译的话又是一个很繁琐的事情。所以我们来一次app汉化的教程 首先我们需要一个文件管理器,但是手机自带的基本没有修改权…

常用24位颜色表转换成16位颜色值,让16位lcd使用

如果需要直接屏幕任意颜色转换成16位颜色值请下载转换程序,不用注册,就可使用 https://download.csdn.net/download/rachenjian/12968346 16位颜色表 #define N_Coloe_B16LightPink 0xFDB8 //24位0xFFB6C1 浅粉红 #define N_Coloe_B16Pink …

Qt 5.12--color

Qt 5.12--color 1 简介2 颜色代码2.1 16进制2.2 RGB数值 3 常用4 查找网站5 css color6 其他参考 1 简介 颜色是UI的基础,具体表示可以是十六进制颜色码,英文名,RGB数值。 2 颜色代码 2.1 16进制 详见RGB颜色查询对照表 常用如下 2.2 R…

【Python】用tkinter做一个采色器

from tkinter import * colors #FFB6C1 LightPink 浅粉红 #FFC0CB Pink 粉红 #DC143C Crimson 深红/猩红 #FFF0F5 LavenderBlush 淡紫红 #DB7093 PaleVioletRed 弱紫罗兰红 #FF69B4 HotPink 热情的粉红 #FF1493 DeepPink 深粉红 #C71585 MediumVioletRed 中紫罗兰红 #DA70D6 O…

使用簇绒图形设计原理提高您的可视化技能

Every now and then, we encounter graphs and charts that fail to represent the spirit of the underlying data. This may be hard to believe, given the advancement of understanding of statistics and technology, however, “junky-charts” often find their place …

python3使用tkinter做界面之颜色

from tkinter import * colors #FFB6C1 LightPink 浅粉红 #FFC0CB Pink 粉红 #DC143C Crimson 深红/猩红 #FFF0F5 LavenderBlush 淡紫红 #DB7093 PaleVioletRed 弱紫罗兰红 #FF69B4 HotPink 热情的粉红 #FF1493 DeepPink 深粉红 #C71585 MediumVioletRed 中紫罗兰红 #DA70D6 O…

[数据分析与可视化] 科技论文配色心得

本文是制作论文中科学图形的一些建议,可帮助您的论文受众尽可能轻松地理解您的数据。您的图形应该引人注目,易于理解,应该避免扭曲数据(除非您真的想这样做),并且对色盲的人来说是安全的。请记住&#xff0…