python实现图片式PDF转可搜索word文档[OCR](已打包exe文件)

目录

 1、介绍

1.1、痛点

1.2、程序介绍

2、安装方式

2.1、🔺必要环节

2.2、脚本安装

2.2.1、不太推荐的方式

2.2.2、节约内存的方式

2.3、⭐完整版安装

3、使用

3.1、最终文件目录

3.2、主程序

3.2.1、绝对路径

3.2.2、是否为书籍

3.2.3、⭐截取区域

3.2.4、⭐进程数

3.3、运行完成

3.4、保存路径

4、代码详解

4.1、思路

4.2、交互

4.3、提取图片

4.4、裁剪图片

4.5、删除不必要的内容

4.5、⭐OCR处理

4.5.1、处理裁剪后的图片

4.5.2、写入文件

5、⭐完整源代码


🍃作者介绍:双非本科大三网络工程专业在读,阿里云专家博主,专注于Java领域学习,擅长web应用开发、数据结构和算法,初步涉猎Python人工智能开发和前端开发。
🦅主页:@逐梦苍穹

📕所属专栏:项目
🍔您的一键三连,是我创作的最大动力🌹

 1、介绍

程序下载:

链接:https://pan.baidu.com/s/1kK1cBRwPMgnWBP2L43rs9Q?pwd=1234

提取码:1234

1.1、痛点

这是一个处理图片式PDF文件转换为可搜索的文字式word文档的程序,该程序是为了解决如下痛点:

①各软件的识别付费

fa6f1e8b168d4325956ca3527485c04b.png

②网页在线转换有大小限制

③开源的程序识别准确率略有不足(这个是比较有名的开源软件umi-ocr,准确率能达到百分之95)

dc468e3c5c884f1c94e60af13e60943d.png

1.2、程序介绍

这个程序最终是打包成了exe可执行程序(后面会详细讲解),没有做GUI图形化界面,用户和程序的交互在命令行窗口执行。

这个项目涉及的技术点包括:

  1. 文件操作:使用Python的os和shutil模块进行文件夹和文件的创建、删除和操作。这些模块提供了对文件系统的访问和操作,允许您在项目中进行文件和文件夹的管理。
  2. 图像处理:使用OpenCV和PIL库进行图像的裁剪、保存和处理。OpenCV是一个广泛用于计算机视觉任务的开源计算机视觉库,而PIL(Python Imaging Library)则提供了处理图像的基本功能,例如打开、保存、裁剪和调整图像大小。
  3. PDF处理:使用PyMuPDF(fitz)库进行PDF文档的处理和图像提取。PyMuPDF是一个用于处理PDF文件的Python库,可以用于提取PDF中的文本、图像等内容,并对PDF文档进行各种操作。
  4. 并发编程:使用Python的线程和线程池进行并发处理,加快图像处理和OCR识别速度。线程和线程池允许程序在同一时间执行多个任务,提高了程序的效率,尤其在需要处理大量图像或进行OCR识别时尤为重要。
  5. OCR识别:使用cnocr库进行中文OCR识别,并将识别结果写入Word文档。cnocr是一个用于中文OCR识别的Python库,能够对中文文本进行识别,这对于处理包含中文的文档或图像非常有用。
  6. 用户输入处理:使用Python的input函数接收用户输入,根据用户输入执行不同的处理逻辑。这样可以使程序更加灵活,能够根据用户需求进行不同的操作。
  7. 异常处理:使用try-except结构进行异常处理,确保程序在出现异常时能够正常处理并给出相应提示。这有助于提高程序的稳定性和可靠性,尤其在处理文件和网络请求时非常重要。

这个项目主要用于将PDF文档中的图片提取出来,并对提取的图片进行裁剪、OCR识别,最后将识别结果写入Word文档。通过结合多种技术,实现了从PDF文档到图像处理再到文本识别的全流程自动化。

2、安装方式

这个程序一共有两种安装方式。

无论哪种安装方式,都是即装即用,也就是说,当年不需要的时候,把这个程序所在的文件夹整个删除即可,不会有残留。

需要的内容都存入百度网盘了。下载对应的zip压缩包解压即可。

OCR-program-transition-all.zip是完整版,直接就可以用!

OCR-program-transition-empty-bat.zip是脚本安装版,需要用户按照指引来操作,才可使用。

推荐使用完整版

2.1、🔺必要环节

这个程序有两个依赖项,需要手动安装!(也在网盘内)。即:

1e41f1934bec499aa12c32500fb83ac6.png

安装过程一路默认即可。

安装后:

59262e98c2064db9a4b604df8460b8a8.png

2.2、脚本安装

目录结构如下:

96362f98d67342af946f0a16473231a4.png

2.2.1、不太推荐的方式

这个项目需要依赖到C++的一些库,根据报错信息,是建议直接安装C++编译器Visual Studio:

7d564a27569245e4b673e9d14b62c2d0.png

虽然能做到完全解决这个报错,但是很大的缺点是:这玩意太大了……

2.2.2、节约内存的方式

这种方式,能不能成功,看点运气…

第一步:先安装上文提到的两个exe文件

第二步:运行“初始化脚本-1”文件

第三步:运行“初始化脚本-2”文件,此文件运行过程会非常久,因为这是在该文件夹下面安装项目所需依赖环境。不出意外的话,第三步安装到最后一个的时候,会报错,提示缺少C++ 14.0。

第四步:此时需要点开上文提到的两个装好的程序,右键,选择修改:

d1d876f2f4fc4d9f8a91c5baa7f89fcb.png

点击修复:

017072714d434a20bebe5ffda30da16b.png

然后重启。

第五步:重启后,重复第三步到第五步的操作(此时第三步的运行速度会很快了),连续操作超过三次,就…建议直接下载完整版吧…(这地方有点玄学,不是百分百能解决…程序作者本人整了三天了!程序就像捉摸不透的人一样,有时成功有时失败)

2.3完整版安装

完整版的目录,即是下文的最终文件目录。完整版则非常简单,下载-解压-运行主程序一气呵成。

请看下文分解。

3、使用

3.1、最终文件目录

ca291dad571445388ab02f27a6429654.png

49e918be5d714346bfcff9b57920f6a3.png

3.2、主程序

找到主程序:

962802f544e04cb290430c34a779cff9.png

双击运行,按照交互窗口填写对应的内容(如果长时间没有响应,请按一下空格键即可):

196cd0a932c643509f4065e35476ebbc.png

3.2.1、绝对路径

目标文档,鼠标右键,点击安全,即可看见绝对路径:

d494097bc19d48399fe28fdba949ffed.png

3.2.2、是否为书籍

作者认为,如果是书籍的话,最好把文档前面的"封面+目录"以及末尾倒数几页的"致谢"内容去除,以提高正确率和可阅读性。该程序不识别格式,所以这样能最大化得到文字信息。

3.2.3截取区域

如果这是一个电子书的PDF文档,为了识别文字的结果更加准确,方便读者搜索查阅内容,作者认为可以把每一页书的顶部区域的标注去掉,例如这种区域:

730a9d5d16d04329bd9be041391b6adc.png

这种区域与正文内容无关,可以去掉。

那么如何确定好去掉区域的所占比例呢?下面细说:

使用微信截图功能,确定这个图片的“最大高度”,再确定截取区域的“高度”,二者相除,即可得到比例,图解如下:

0f8cbdd1877d4e819cd51bf883edfa46.png

3.2.4进程数

进程数决定了这个多线程程序的执行速度,但也不是数字填的越高越好。

下面给出几个数值参考:

游戏本->20线程

全能本->10-18线程

轻薄本->建议12线程以下

3.3、运行完成

运行完成的结果显示:转换后的文字列表内容+提示信息:

39a347125e5145a1b58d1ba216572d02.png

b4e26d619d314385af3d7c487fd1b4e4.png

3.4、保存路径

程序运行完成后,默认的保存路径为PDF文件的同目录下。

4、代码详解

4.1、思路

需求是图片式PDF识别转换为文字式可搜索word:

第一步:告诉用户这个产品->介绍

第二步:用户输入图片式PDF的路径(需要的是绝对路径)

第三步:该PDF文档是否是书籍,是:删除非正文的页面(封面、目录、结尾)->在后续步骤执行删除;否,不执行删除操作

第四步:询问是否需要截取图片区域(是,输入截取的比例;否,截取比例制为0)->立即执行->提取到新的文件夹

第五步:用户输入本次运行过程中用到的进程数(游戏本可以输入20,全能本10-15,其他建议10甚至是8以下)

第六步:删除不要的图片区域

第七步:开始处理,把结果写入到PDF同路径下删除过程性文件

第八步:删除过程性文件,把处理结果和处理后的文件路径告诉用户

4.2、交互

a22709fc3e194085bab76b649987f71d.png

4.3、提取图片

提取图片式PDF文件的每一页,保存到一个临时图片文件夹下面:

4832571035b84d899309ec1e4022aeb2.png

f00f5a0f57e54c168eca88ea2f563cd0.png

4.4、裁剪图片

0e07bf6f95314878a2b8c2e56ab2c584.png

ce4ac0e604db4d1688bfd48bef00a875.png

4.5、删除不必要的内容

4fcf512ad65f436085d8c599ed9c5974.png

3160c490209e4cdd9885db73b5b233ea.png

4.5OCR处理

f5d833874224440bb4e10f14507b333a.png

4.5.1、处理裁剪后的图片

ef6a1299b75a4af8b85c28c2b9e22c8e.png

b03c5425d1e44c41a9c6b70dd4004e45.png

4.5.2、写入文件

78cca0aface446a1b1763b5109ee93f5.png

7f634ecff0ce46799c2ddc6dd630a3be.png

5、⭐完整源代码

代码即注释:

# -*- coding: utf-8 -*-
# @Author:逐梦苍穹
# @Time: 2024/1/18 1:23
import os
import cv2
import fitz
import shutil
import threading
from concurrent.futures import ThreadPoolExecutor, as_completed
from cnocr import CnOcr
from tqdm import tqdm
from PIL import Image
from docx import Documentdef mkdir(folder_path):os.makedirs(folder_path, exist_ok=True)def get_max_folder_number(folder_path):image_files = [f for f in os.listdir(folder_path) if f.lower().endswith(('.png', '.jpg', '.jpeg', '.gif', '.bmp'))]return len(image_files)def crop_top_and_save(args):i, image_path, output_path, crop_percentage = argsimage = cv2.imread(image_path)height = image.shape[0]crop_pixels = int(height * crop_percentage)cropped_image = image[crop_pixels:, :]cv2.imwrite(output_path, cropped_image)print(f"Image {i + 1} cropped and saved: {output_path}")def startCutImage(input_folder, output_folder, crop_percentage, max_workers_input):mkdir(output_folder)max_folder_number = get_max_folder_number(input_folder)with ThreadPoolExecutor(max_workers=max_workers_input) as executor:args_list = [(i, os.path.join(input_folder, f'{i + 1}.jpg'), os.path.join(output_folder, f'{i + 1}.jpg'), crop_percentage)for i in range(max_folder_number)]executor.map(crop_top_and_save, args_list)def get_max_folder_number(folder_path):image_files = [f for f in os.listdir(folder_path) if f.lower().endswith(('.png', '.jpg', '.jpeg', '.gif', '.bmp'))]return len(image_files)def delete_images(folder_path, start_index, end_index):for i in range(start_index, end_index + 1):imageStr = str(i) + ".jpg"file_path = os.path.join(folder_path, imageStr)os.remove(file_path)print(f"Deleted: {file_path}")def startDeleteImage(folder_path, end_index, back_start_index_input):max_folder_number = get_max_folder_number(folder_path)if max_folder_number > 0:start_index = 1back_start_index = max_folder_number - back_start_index_input + 1back_end_index = max_folder_numberdelete_images(folder_path, start_index, end_index)delete_images(folder_path, back_start_index, back_end_index)else:print("No valid image files found.")def convert_page_to_image(pdf_path, output_folder, page_number):pdf_document = fitz.open(pdf_path)page = pdf_document[page_number]image_list = page.get_images(full=True)for img_index, img_info in enumerate(image_list):image_index = img_info[0]base_image = pdf_document.extract_image(image_index)image_bytes = base_image["image"]image_filename = os.path.join(output_folder, f"{page_number + 1}.jpg")with open(image_filename, "wb") as image_file:image_file.write(image_bytes)pdf_document.close()def pdf_to_images(pdf_path, output_folder, num_workers):if not os.path.exists(output_folder):os.makedirs(output_folder)pdf_document = fitz.open(pdf_path)total_pages = pdf_document.page_countwith ThreadPoolExecutor(max_workers=num_workers) as executor:futures = [executor.submit(convert_page_to_image, pdf_path, output_folder, page_number)for page_number in range(total_pages)]for future in tqdm(futures, desc="Converting pages", total=total_pages):future.result()def get_max_folder_number(folder_path):image_files = [f for f in os.listdir(folder_path) if f.lower().endswith(('.png', '.jpg', '.jpeg', '.gif', '.bmp'))]return len(image_files)def ocr_and_append(image_str, startList, event, lock):pagelist = []image_number = int(os.path.basename(image_str).split('.')[0])image = Image.open(image_str)ocr = CnOcr(debug=False)res = ocr.ocr(image)for j in range(len(res)):pagelist.append(res[j]['text'])with lock:startList[image_number - 11] = pagelistprint(f"Image {image_number} OCR completed.")event.set()def process_images_with_ocr(start, end, startList, event, max_workers_input, lock):with ThreadPoolExecutor(max_workers=max_workers_input) as executor:futures = [executor.submit(ocr_and_append, f'output-image-cut/{i}.jpg', startList, event, lock) for i intqdm(range(start, end + 1), desc="OCR Processing")]for future in as_completed(futures):future.result()def startOCR(file_folder, test_end_index, word_file_output_path, max_workers_input):max_folder_number = get_max_folder_number(file_folder)start = 1 + test_end_indexend = test_end_index + max_folder_numberstartList = [''] * max_folder_numberlock = threading.Lock()event = threading.Event()process_images_with_ocr(start, end, startList, event, max_workers_input, lock)event.wait()print(len(startList))for i in startList:print(len(i))print(startList)startWriteWordFile(word_file_output_path, startList)def startWriteWordFile(word_file_path, listPages):doc = Document()for i in listPages:write_list_to_word(word_file_path, i, doc)doc.add_page_break()doc.save(word_file_path)def write_list_to_word(word_file, my_list, doc):endList = []for item in my_list:item = item.strip()if len(item) < 10:if endList != None and len(endList) > 0:doc.add_paragraph("".join(endList))endList = []doc.add_paragraph(item)else:endList.append(item)if item == my_list[-1]:doc.add_paragraph("".join(endList))endList = []def main():try:crop_percentage = 0.0end_index = 0back_start_index_input = 0print("==========================")print("这是一个OCR识别程序,作者CSDN@逐梦苍穹,该程序不做商用请切记!")print("==========================")pdf_file_path = str(input("请输入PDF文件的绝对路径:"))print("该PDF文档是否是书籍?")isBookPdf = int(input("(是,请输入1;否,请输入0):"))if isBookPdf == 1:print("输入要删除非正文的页面(封面、目录、结尾)")end_index = int(input("需要删除该文档的前几页: "))back_start_index_input = int(input("需要删除该文档的倒数前几页: "))print("询问是否需要截取图片区域?")isCutImage = int(input("(是,请输入1;否,请输入0):"))if isCutImage == 1:crop_percentage = float(input("请输入截取图片区域的纵向比例:"))max_workers = int(input("请输入本次运行过程中想要使用的进程数:"))if max_workers <= 0:max_workers = 1except Exception as e:print("参数有误,报错信息如下:", e)try:pdf_to_images(pdf_file_path, 'output-image', max_workers)if isCutImage == 1:startCutImage('output-image', 'output-image-cut', crop_percentage, max_workers)if isBookPdf == 1:startDeleteImage('output-image-cut', end_index, back_start_index_input)file_name = os.path.splitext(os.path.basename(pdf_file_path))[0]directory_path = os.path.dirname(pdf_file_path)word_file_path = directory_path + '\\' + file_name + '(OCR_XZL).docx'startOCR(r'output-image-cut', end_index, word_file_path, max_workers)except Exception as e:print("处理过程出错,报错信息如下:", e)try:delete_path_1 = r"output-image"delete_path_2 = r"output-image-cut"shutil.rmtree(delete_path_1)shutil.rmtree(delete_path_2)print(f"Folder '{delete_path_1}' successfully removed.")print(f"Folder '{delete_path_2}' successfully removed.")print("OCR处理完成!")except Exception as e:print("删除过程性文件出错,原因如下:", e)if __name__ == '__main__':main()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/243086.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

二维码地址门牌管理系统:智能便捷的社区管理

文章目录 前言一、全面智能化管理功能二、智能门牌与便捷服务三、提升管理效率与安全四、系统带来的活力与便利五、期待未来的创新与突破 前言 随着科技的飞速发展&#xff0c;社区管理正在迎来前所未有的变革。二维码地址门牌管理系统作为一款创新工具&#xff0c;为居民和管…

【优化技术专题】「性能优化系列」针对Java对象压缩及序列化技术的探索之路

针对Java对象压缩及序列化技术的探索之路 序列化和反序列化为何需要有序列化呢&#xff1f;Java实现序列化的方式二进制格式 指定语言层级二进制格式 跨语言层级JSON 格式化类JSON格式化&#xff1a;XML文件格式化 序列化的分类在速度的对比上一般有如下规律&#xff1a;Java…

【音视频】基于ffmpeg对视频的切割/合成/推流

背景 基于FFmpeg对视频进行切割、合成和推流的价值和意义在于它提供了一种高效、灵活且免费的方式来实现视频内容的定制、管理和分发。通过FFmpeg&#xff0c;用户可以轻松地剪辑视频片段&#xff0c;根据需要去除不必要的部分或提取特定时间段的内容&#xff0c;从而优化观看…

一遍文章教你快速入门vue3+ts+Echarts

之前做得项目有vue2和vue3,使用echarts的方式大同小异&#xff0c;这篇文章就先介绍vue3的用法 下载echart 可以看官方文档&#xff0c;其实说得很清楚echart官方 npm install echarts --save按需引入echart 由于我得项目中使用到得echart不多&#xff0c;所以这里我引入几个…

当 OpenTelemetry 遇上阿里云 Prometheus

作者&#xff1a;逸陵 背景 在云原生可观测蓬勃发展的当下&#xff0c;想必大家对 OpenTelemetry & Prometheus 并不是太陌生。OpenTelemetry 是 CNCF&#xff08;Cloud Native Computing Foundation&#xff09;旗下的开源项目&#xff0c;它的目标是在云原生时代成为应…

Vue 实例创建流程

✨ 专栏介绍 在当今Web开发领域中&#xff0c;构建交互性强、可复用且易于维护的用户界面是至关重要的。而Vue.js作为一款现代化且流行的JavaScript框架&#xff0c;正是为了满足这些需求而诞生。它采用了MVVM架构模式&#xff0c;并通过数据驱动和组件化的方式&#xff0c;使…

怎么把文件资料做成二维码?扫码下发文件更方便

想要快速的将一份或者多分资料下发给其他人时&#xff0c;如果群发之外有什么其他的方法可以使用呢&#xff1f;现在大家一般都是在手机上获取内容&#xff0c;如果通过群发的方式还需要接收下载&#xff0c;占用自己手机一定的空间容量&#xff0c;而且会有有效期的限制。那么…

4.servera修改主机名,配置网络,以及在cmd中远程登录servera的操作

1.先关闭这两节省资源 2.对于新主机修改主机名&#xff0c;配置网络 一、配置网络 1.推荐图形化界面nmtui 修改完成后测试 在redhat ping一下 在redhat远程登录severa 2、使用nmcli来修改网络配置 2.1、配置要求&#xff1a;主机名&#xff1a; node1.domain250.exam…

项目管理流程

优质博文 IT-BLOG-CN 一、简介 项目是为提供某项独特产品【独特指:创造出与以往不同或者多个方面与以往有所区别产品或服务&#xff0c;所以日复一日重复的工作就不属于项目】、服务或成果所做的临时性【临时性指:项目有明确的开始时间和明确的结束时间&#xff0c;不会无限期…

CLion调试Nodejs源码

【环境】 macOS node-v20.11.0源码 CLion 2023.3.2 【1】下载源码 https://nodejs.org/en/download/ 【2】编译源码 解压后的目录如下 进入解压后的目录进行编译 ./configure --debug make -C out BUILDTYPEDebug -j 4需要好久… 编译成功之后在node-v20.11.0目录下会有一个…

赛车游戏简单单车C语言版

#include<stdio.h> #include<easyx.h> #include<time.h>#define WIDTH 512 #define HEIGHT 768//定义一个汽车类 struct FCar {//坐标float x, y;// 汽车种类int type;//汽车速度float speed; };//定义全局变量 图片坐标 IMAGE BG_IMG; //背景图片坐标 float…

HarmonyOS 通过Web组件嵌套网络应用

我们今天来说说 在程序中嵌套一个网址地址 HarmonyOS中是通过一个简单的WEB组件来实现 网络应用就是相当于网址地址 通过链接将应用嵌入到手机当中 WEB组件需要两个参数 一个是 src 地址 要嵌套的网址 另一个是 控制器 我们可以先编写代码如下 import webview from "o…

*Maven依赖管理之排除传递性依赖的实例

Maven依赖管理之排除传递性依赖的实例 在使用Maven构建项目时&#xff0c;我们通常会依赖于一系列库和框架&#xff0c;其中一些依赖可能会引入其他依赖&#xff0c;这就是所谓的传递性依赖。有时候&#xff0c;为了解决冲突或者更精确地控制项目中所使用的库的版本&#xff0c…

LV.13 D12 Linux内核调试及rootfs移植 学习笔记

一、根文件系统 1.1 根文件系统 根文件系统是内核启动后挂载的第一个文件系统系统引导程序会在根文件系统挂载后从中把一些基本的初始化脚本和服务等加载到内存中去运行 1.2 根文件系统内容 bin shell命令(elf格式)(通过busybox编译生成) dev …

基于深度学习的细胞感染性识别与判定

基于深度学习的细胞感染性识别与判定 基于深度学习的细胞感染性识别与判定引言项目背景项目意义项目实施数据采集与预处理模型选择与训练模型评估与优化 结果与展望结论 基于深度学习的细胞感染性识别与判定 引言 随着深度学习技术的不断发展&#xff0c;其在医学图像处理领域…

Java开发分析 -- JProfiler 14

JProfiler 14是一款专业的Java性能分析工具&#xff0c;用于分析运行中的JVM内部情况。它能够帮助开发人员解决生产系统遇到的问题&#xff0c;优化性能&#xff0c;并定位到具体的代码问题。JProfiler 14提供了四大功能模块&#xff1a;方法调用、分配、线程和锁以及高层子系统…

c++中的包装器 function

文章目录 前言包装器 function及模板的低效性修复问题 前言 C提供了多个包装器&#xff08;wrapper&#xff0c;也叫适配器adapter&#xff09;。这些对象用于给其他编程接口提供更一致或更合适的接口。 bind1st和bind2ed就是两个适配器&#xff0c;它们让接受两个参数的函数…

C语言总结十一:自定义类型:结构体、枚举、联合(共用体)

本篇博客详细介绍C语言最后的三种自定义类型&#xff0c;它们分别有着各自的特点和应用场景&#xff0c;重点在于理解这三种自定义类型的声明方式和使用&#xff0c;以及各自的特点&#xff0c;最后重点掌握该章节常考的考点&#xff0c;如&#xff1a;结构体内存对齐问题&…

batchsamper学习总结

欢迎关注我们组的微信公众号&#xff0c;更多好文章在等你呦&#xff01; 微信公众号名&#xff1a;碳硅数据 公众号二维码&#xff1a; 今天看代码看到了一个很好的关于batchsampler的实现&#xff0c;做了一些测试&#xff0c;记录一下 import torch from torch.utils.data …

如何才能拥有比特币 - 01 ?

如何才能拥有BTC 在拥有 BTC 之前我们要先搞明白 BTC到底保存在哪里&#xff1f;我的钱是存在银行卡里的&#xff0c;那我的BTC是存在哪里的呢&#xff1f; BTC到底在哪里&#xff1f; 一句话概括&#xff0c;BTC是存储在BTC地址中&#xff0c;而且地址是公开的&#xff0c;…