在Windows上用Visual Studio编译Tesseract

Tesseract是著名的OCR(文字识别)开源项目。我想自己编译它的源代码。然而总体而言,大型开源项目在Windows上编译多少都会有些磕磕绊绊,如果有幸最后成功了,都值得写一篇文章来纪念一下。这便是本文的由来。

编译环境:Windows 10(版本1809),Visual Studio 2019(版本16.11.34), CMake 3.30.2

Tesseract依赖于其他开源项目,比如leptonica——这个项目提供图像文件读写、多格式支持、图像处理等功能。在编译Tesseract之前须先编译leptonica。因为我们已经有了OpenCV来做图像处理,我会把leptonica的编译过程尽量简化(即不编译它的依赖项来支持tiff、png、jpeg等图像格式)。以下是详细步骤,分四步。

Step 1:下载CMake工具

从官网下载最新的zip包,本地解压即可使用。我选的是cmake-3.30.2-windows-x86_64.zip。CMake在开源项目中广为使用,可以将它的路径配置到系统环境变量的Path中,方便调用。

Step 2:编译leptonica

首先从GitHub获取源代码:

$ git clone https://github.com/DanBloomberg/leptonica.git

代码下载完成后,在项目目录下创建一个build文件夹。然后,运行CMake带UI的版本,即cmake-gui.exe,完成“Where is the source code”和“Where to build the binaries”两项配置,就继续点“Configure”按钮,在弹出的对话框里选择“Visual Studio 16 2019”(其他都保持默认设置即可),继续…… 会弹出一个出错提示框,关掉后继续修改配置选项:

  1. 去掉这些勾选:ENABLE_GIF、ENABLE_JPEG、ENABLE_OPENJPEG、ENABLE_PNG、ENABLE_TIFF、ENABLE_WEBP、ENABLE_ZLIB,因为我们不需要leptonica支持这些图像格式,使用leptonica原生支持的BMP格式足矣。
  2. 去掉SW_BUILD的勾选。SW是一个强大的包管理器,它会自动下载依赖项,但我们这里不需要它。

然后再次点击“Configure”按钮,不出意外的话就不会有错误弹窗了。截屏留念:

继续点“Generate”按钮生成Visual Studio的编译工程,然后点“Open Project”启动Visual Studio,然后就可以编译啦!遗憾的是,出了一大堆编译错误:

2>C:\Program Files (x86)\Windows Kits\10\Include\10.0.17763.0\um\oaidl.h(487,17): error C2059: 语法错误:“/” (编译源文件 ..\leptonica\src\leptwin.c)

这个问题折腾了比较久…… 解决方法倒也简单,在leptonica项目属性页中,将 “常规” | “C语言标准”改成“默认(旧MSVC)”即可:

编译通过后,在leptonica\build\src目录下会生成两个库文件:leptonica-1.84.1.lib(Release版)和leptonica-1.84.1d.lib(Debug版)。

Step 3:编译Tesseract

先从GitHub获取源代码吧:

$ git clone https://github.com/tesseract-ocr/tesseract.git

使用CMake的配置过程与leptonica项目有点相似,只是要多点几次“Configure”……

  1. 下载SW工具。从software-network.org下载 sw-master-windows_x86_64-client.zip,本地解压,并把它的路径加到系统环境变量的Path中。虽然我们实际上不用SW,但这一步配置也是需要的L
  2. 首次点击“Configure”按钮后,需要去掉SW_BUILD、BUILD_TRAINING_TOOLS的勾选,并勾上DISABLE_TIFF,再次点击“Configure”
  3. 此时有新的错误提示,需要为Leptonica_DIR指定一个路径。我本机leptonica项目的编译路径是D:\Dev\GitHub\leptonica\build,配置完后再次点击“Configure”

此时,不出意外的话就不会有错误弹窗了,然后“Generate”、“Open Project”一路点下去……截屏留念:

在Visual Studio中开始编译之前,需要修改一下libtesseract的项目配置,因为它对leptonica的包含路径默认是C:\Program Files (x86)\leptonica\include 和 C:\Program Files (x86)\leptonica\include\leptonica,这与实际情况不符,需要在项目属性页的 “C/C++” | “常规” | “附加包含目录” 改为我们在Step 2的真实路径,即:

D:\Dev\GitHub\leptonica\src

D:\Dev\GitHub\leptonica\build\src

我们需要的是Tesseract库(以做二次开发),所以只需要单独编译libtesseract。编译通过后,在tesseract\build目录下会生成两个库文件:tesseract54.lib(Release版)和tesseract54d.lib(Debug版)。

Step 4: 验证Tesseract库

Tesseract和leptonica两个库都编译好了,可喜可贺!严谨起见,我们还需要写一个测试程序来验证一下。用Visual Studio创建一个控制台程序。然后进行如下的项目配置:

属性页 | C/C++ | 常规 | 附加包含目录,添加以下四个目录:

..\leptonica\src; ..\leptonica\build\src; ..\tesseract\include\tesseract; ..\tesseract\build\include

属性页 | 链接器 | 常规 | 附加库目录,添加以下两个目录:

..\leptonica\build\src\$(Configuration)\; ..\tesseract\build\$(Configuration)\

注:我的测试项目tesseract_testapp与tesseract、leptonica两个项目是并级的,所以使用了上述相对路径。你需要根据你本机的实际情况做必要的调整。

属性页 | 链接器 | 输入 | 附加依赖项,添加以下两个.lib文件:

Debug版:leptonica-1.84.1d.lib; tesseract54d.lib

Release版:leptonica-1.84.1.lib; tesseract54.lib;

测试代码如下:

#include "baseapi.h" 
#include "allheaders.h"
#include <iostream>int main()
{tesseract::TessBaseAPI* api = new tesseract::TessBaseAPI();// 初始化,加载语言包if (api->Init("tessdata", "eng")) {std::cout << "Could not initialize tesseract" << std::endl;return -1;}// 因为我们编译的leptonica库支持的格式有限,此处用原生支持的BMP来测试Pix* image = pixRead("numbers.bmp");if (image) {api->SetImage(image);char* outText = api->GetUTF8Text();std::cout << "OCR result: " << outText << std::endl;delete[] outText;pixDestroy(&image);}api->End();delete api;return 0;
}

注:完整的代码工程可从https://github.com/luqiming666/tesseract_testapp 下载。

在编译运行之前,还需创建一个tessdata文件夹,并在其中放入一份英文版的训练数据。若需要支持更多语言,到https://github.com/tesseract-ocr/tessdata下载后缀名为.traineddata的语言包放到tessdata文件夹内即可。

P.S. 万一你折腾半天,还是没法把Tesseract库成功编译出来,抑或你只是想要一个现成的工具来看看文字识别效果,也可以到https://github.com/UB-Mannheim/tesseract/wiki 下载人家制作好的安装包。拿来即用。安装完成后,运行命令行:tesseract {图片文件路径} {输出结果文件名},给它一个图片文件,它就能把识别结果写入一个文本文件,在自己的项目里凑合着也能用哦——也算是一个万不得已的兜底方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/410204.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

客户端可以访问ntp时钟源,时间却一直不同步的问题

ntp时钟源通常是通过开放123 的udp端口对外提供ntp服务的&#xff0c;udp端口的访问可以通过nc -uvz xx.xx.xx.xx 123 端口进行验证&#xff0c;验证发现ntp时钟服务的123端口是开放的&#xff0c;也没有防火墙拦截123端口&#xff0c;但为什么客户端不同步ntp时钟源呢&#xf…

OpenCV杂项图像变换(1)自适应阈值处理函数adaptiveThreshold()的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 函数对数组应用自适应阈值。 该函数根据以下公式将灰度图像转换为二值图像&#xff1a; 对于 THRESH_BINARY: t e x t d s t ( x , y ) { maxV…

OpenCV几何图像变换(10)透视变换函数warpPerspective()的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 warpPerspective 函数使用指定的矩阵对源图像进行透视变换&#xff1a; dst ( x , y ) src ( M 11 x M 12 y M 13 M 31 x M 32 y M 33 , M…

C++笔记10•容器适配器:stackqueue priority_queue•

从C中看stack&queue&priority_queue 1.stack的介绍 官方stack实现&#xff1a; 本质是一个数组 1. stack 是一种容器适配器&#xff0c;专门用在具有后进先出操作的上下文环境中&#xff0c;其删除只能从容器的一端进行元素的插入与提取操作。 2. stack 是作为容器适…

系统之家游戏专用版Win10系统:游戏玩家首选!

今天系统之家小编给大家带来最新的Win10游戏专用版&#xff0c;该版本系统是专为游戏玩家打造的操作系统&#xff0c;针对大型游戏做了专业优化&#xff0c;性能更优秀&#xff0c;玩家玩游戏体验感更好&#xff0c;还有出色的兼容性支持&#xff0c;能完美兼容各种类型的游戏&…

【与C++的邂逅】--- 模板初阶

Welcome to 9ilks Code World (๑•́ ₃ •̀๑) 个人主页: 9ilk (๑•́ ₃ •̀๑) 文章专栏&#xff1a; 与C的邂逅 本篇博客我们将了解C中泛型编程体现的一大利器 --- 模板&#xff0c;有了模板可以帮我们用户省力。 &#x1f3e0; 泛型编程 如何实现一个通…

Python数据采集与网络爬虫技术实训室解决方案

在大数据与人工智能时代&#xff0c;数据采集与分析已成为企业决策、市场洞察、产品创新等领域不可或缺的一环。而Python&#xff0c;作为一门高效、易学的编程语言&#xff0c;凭借其强大的库支持和广泛的应用场景&#xff0c;在数据采集与网络爬虫领域展现出了非凡的潜力。唯…

聚鼎科技:新人开一家装饰画店铺怎么快速起店

在当下这个看重审美和个性表达的时代&#xff0c;开设一家装饰画店铺无疑是迎合市场的明智选择。对于新人来说&#xff0c;快速且有效地启动一家装饰画店铺并非易事&#xff0c;但通过遵循一些关键步骤&#xff0c;可以大大缩短起步时间并提高成功率。 进行市场调研&#xff0c…

用序列模型(GPT Bert Transformer等)进行图像处理的调研记录

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction 北大和字节团队的一篇VLM&#xff0c;在生成任务上&#xff0c;用GPT范式&#xff0c;声称在FID上超过了DIT&#xff0c;SD3和SORA。开源。首先是multi-scale的VQVAE&#xff0c;然后是…

足球联赛|基于SprinBoot+vue的足球联赛管理系统(源码+数据库+文档)

足球联赛管理系统 目录 基于SprinBootvue的足球联赛管理系统 一、前言 二、系统设计 三、系统功能设计 5.1 系统前台功能实现 5.2 后台功能模块实现 5.2.1 管理员模块实现 5.2.2 用户后台模块实现 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选…

Linux离线安装fontconfig

Linux离线下载yum包&#xff0c;安装字体库 一、下载安装包 以CentOS Linux release 7.9.2009下载fontconfig的rpm包的为例 http://mirror.centos.org/centos/7/按提示跳转历史库 找到对应版本的centos https://vault.centos.org/7.9.2009/os/x86_64/Packages/在Packages目…

Level3 — PART 4 机器学习算法 — 决策树

目录 引言 信息量 信息熵 案例 ID3 属性选择—信息增益 决策树生成 Python实现ID3 C4.5 属性选择—信息增益率 连续型属性 缺失值 剪枝 CART 分类树属性选择—基尼系数 回归树属性选择—方差 剪枝 Python实现CART CHAID GBRT 决策树对比 模拟题 CDA L…

集团数字化转型方案(十六)

为了全面推进集团的数字化转型&#xff0c;我们将实施一系列战略举措&#xff0c;包括整合最新的人工智能、大数据分析和云计算技术&#xff0c;升级企业资源规划&#xff08;ERP&#xff09;系统&#xff0c;实现业务流程的自动化与优化&#xff1b;同时&#xff0c;建立全方位…

在银河麒麟服务器V10上源码编译安装mysql-5.7.42-linux-glibc2.12-x86_64

在银河麒麟服务器V10上源码编译安装mysql-5.7.42-linux-glibc2.12-x86_64 一、卸载MariaDB&#xff08;如果已安装&#xff09;二、下载MySQL源码包并解压三、安装编译所需的工具和库四、创建MySQL的安装目录及数据库存放目录五、编译安装MySQL六、配置MySQL七、设置环境变量八…

用EA和SysML一步步建模的操作指南(01)

DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集 对于许多学习SysML和MBSE的同学来说&#xff0c;比较头痛的问题之一是&#xff1a;各种各样的教程里给出的案例&#xff0c;图都是画好了的&#xff01;如何从零开始用建模工具把模型画…

centos7.9系统安装cloudpods并使用ceph存储(二)

1.ceph安装 1.1 环境准备 配置hosts&#xff1a; $ vim /etc/hosts 10.121.x.x node01设置ssh无密码登录&#xff1a; # ssh-keygen -t rsa # ssh-copy-id -i /root/.ssh/id_rsa node01关闭selinux、firewalld # setenforce 0 # sed -i "s#SELINUXenforcing#SELINUXd…

如何使用双重IP代理实现更安全的网络访问

在进行网络爬虫或其他需要隐匿真实IP的操作时&#xff0c;单一的代理IP有时并不能完全满足我们的需求。为了进一步提高安全性和隐私保护&#xff0c;我们可以使用双重IP代理。本文将详细介绍如何使用Java实现双重IP代理&#xff0c;帮助你在网络环境中更加游刃有余。 什么是双重…

安装CUDA以及GPU版本的pytorch

使用pytorch进行深度学习的时候&#xff0c;往往想用GPU进行运算来提高速度。于是搜索便知道了CUDA。 下面给出一个自检的建议&#xff1a; 检查cuda的版本是否适配自己的GPU。 打开NVDIA控制面板&#xff0c;点击左下角“系统信息”&#xff0c;然后就可以看到NVDIA GPU的详…

深入了解搜索引擎蜘蛛:从定义到最新技术应用

撰写一篇关于搜索引擎蜘蛛的详细文章&#xff0c;需涵盖从基础概念到未来趋势的多个方面。以下是根据您提供的大纲撰写的长篇文章&#xff0c;适合用于了解搜索引擎蜘蛛的重要性及其在现代互联网中的作用。 1. 引言 在互联网的浩瀚世界中&#xff0c;搜索引擎就像是庞大的图书…

Python开发工具:VSCode+插件

本文是 Python 系列教程第 3 篇&#xff0c;完整系列请查看 Python 专栏。 Visual Studio Code的安装非常简单&#xff0c;就不放这里增加文章篇幅了。 相比PyCharm&#xff0c;VSCode更加轻量&#xff0c;启动速度快。并且搭配Python插件就能实现和Pycharm一样的代码提示、高…