使用wxPython和PyMuPDF提取PDF页面指定页数的内容的应用程序

在本篇博客中,我们将探讨如何使用wxPython和PyMuPDF库创建一个简单的Bokeh应用程序,用于选择PDF文件并提取指定页面的内容,并将提取的内容显示在文本框中。
C:\pythoncode\new\pdfgetcontent.py
在这里插入图片描述

准备工作

首先,确保你已经安装了以下库:

  • wxPython:用于创建桌面应用程序界面。
  • PyMuPDF:用于处理PDF文件和提取页面内容。

你可以使用以下命令来安装这些库:

pip install wxPython pymupdf 

创建应用程序界面

我们将使用wxPython来创建应用程序的图形界面。在应用程序窗口中,我们将添加一个选择按钮,一个页码输入框,一个提取按钮和一个文本框用于显示提取的内容。

def __init__(self):super().__init__(None, title="提取PDF页面内容", size=(400, 300))panel = wx.Panel(self)vbox = wx.BoxSizer(wx.VERTICAL)select_button = wx.Button(panel, label="选择PDF文件")select_button.Bind(wx.EVT_BUTTON, self.on_select_pdf)vbox.Add(select_button, proportion=0, flag=wx.ALIGN_CENTER | wx.ALL, border=10)page_label = wx.StaticText(panel, label="页码:")vbox.Add(page_label, proportion=0, flag=wx.LEFT, border=10)self.page_input = wx.TextCtrl(panel)vbox.Add(self.page_input, proportion=0, flag=wx.EXPAND | wx.ALL, border=10)extract_button = wx.Button(panel, label="提取内容")extract_button.Bind(wx.EVT_BUTTON, self.on_extract_content)vbox.Add(extract_button, proportion=0, flag=wx.ALIGN_CENTER | wx.ALL, border=10)content_label = wx.StaticText(panel, label="内容:")vbox.Add(content_label, proportion=0, flag=wx.LEFT, border=10)self.content_text = wx.TextCtrl(panel, style=wx.TE_MULTILINE | wx.TE_READONLY)vbox.Add(self.content_text, proportion=1, flag=wx.EXPAND | wx.ALL, border=10)panel.SetSizer(vbox)def on_select_pdf(self, event):dialog = wx.FileDialog(self, message="选择PDF文件", wildcard="PDF files (*.pdf)|*.pdf", style=wx.FD_OPEN)if dialog.ShowModal() == wx.ID_OK:self.pdf_path = dialog.GetPath()dialog.Destroy()

在上述代码中,我们创建了一个名为PDFContentExtractor的类,继承自wx.Frame。在该类中,我们使用Bokeh创建了一个包含选择按钮、页码输入框、提取按钮和内容文本框的布局。我们为选择按钮和提取按钮绑定了相应的事件处理方法。

处理PDF文件选择和内容提取

我们使用wxPython的文件对话框来选择PDF文件,并使用PyMuPDF库来打开和处理PDF文件。当用户选择PDF文件并点击提取按钮时,我们将提取指定页码的内容,并将其显示在内容文本框中。

import wx
import fitzclass MyFrame(wx.Frame):def __init__(self):super().__init__(None, title="提取PDF页面内容", size=(400, 300))panel = wx.Panel(self)vbox = wx.BoxSizer(wx.VERTICAL)select_button = wx.Button(panel, label="选择PDF文件")select_button.Bind(wx.EVT_BUTTON, self.on_select_pdf)vbox.Add(select_button, proportion=0, flag=wx.ALIGN_CENTER | wx.ALL, border=10)page_label = wx.StaticText(panel, label="页码:")vbox.Add(page_label, proportion=0, flag=wx.LEFT, border=10)self.page_input = wx.TextCtrl(panel)vbox.Add(self.page_input, proportion=0, flag=wx.EXPAND | wx.ALL, border=10)extract_button = wx.Button(panel, label="提取内容")extract_button.Bind(wx.EVT_BUTTON, self.on_extract_content)vbox.Add(extract_button, proportion=0, flag=wx.ALIGN_CENTER | wx.ALL, border=10)content_label = wx.StaticText(panel, label="内容:")vbox.Add(content_label, proportion=0, flag=wx.LEFT, border=10)self.content_text = wx.TextCtrl(panel, style=wx.TE_MULTILINE | wx.TE_READONLY)vbox.Add(self.content_text, proportion=1, flag=wx.EXPAND | wx.ALL, border=10)panel.SetSizer(vbox)def on_select_pdf(self, event):dialog = wx.FileDialog(self, message="选择PDF文件", wildcard="PDF files (*.pdf)|*.pdf", style=wx.FD_OPEN)if dialog.ShowModal() == wx.ID_OK:self.pdf_path = dialog.GetPath()dialog.Destroy()def on_extract_content(self, event):page_num = int(self.page_input.GetValue())self.extract_page_content(page_num)def extract_page_content(self, page_num):doc = fitz.open(self.pdf_path)if page_num < 1 or page_num > doc.page_count:wx.MessageBox("无效的页码!", "错误", wx.OK | wx.ICON_ERROR)returnpage = doc.load_page(page_num - 1)text = page.get_text()self.content_text.SetValue(text)doc.close()if __name__ == '__main__':app = wx.App()frame = MyFrame()frame.Show()app.MainLoop()# ...class PDFContentExtractor(wx.Frame):# ...def on_select_pdf(self):dialog = wx.FileDialog(self, message="选择PDF文件", wildcard="PDF files (*.pdf)|*.pdf", style=wx.FD_OPEN)if dialog.ShowModal() == wx.ID_OK:self.pdf_path = dialog.GetPath()dialog.Destroy()def on_extract_content(self):page_num = int(self.page_input.value)self.extract_page_content(page_num)def extract_page_content(self, page_num):doc = fitz.open(self.pdf_path)if page_num < 1 or page_num > doc.page_count:self.content_text.text = "无效的页码!"returnpage = doc.load_page(page_num - 1)text = page.get_text()self.content_text.text = textdoc.close()# ...

在上述代码中,我们使用wx.FileDialog对话框来选择PDF文件,并将选择的文件路径存储在self.pdf_path变量中。

on_extract_content方法中,我们获取输入框中的页码,并调用extract_page_content方法来提取指定页码的内容。

extract_page_content方法中,我们使用PyMuPDF打开并读取PDF文件。然后,我们通过doc.load_page方法加载指定页码的页面,并使用get_text方法获取该页的文本内容。最后,我们将提取的内容设置到文本框content_text中。

运行应用程序

if __name__ == '__main__':app = wx.App()frame = PDFContentExtractor()frame.Show()app.MainLoop()

在上述代码中,我们创建了一个wx.App实例,并实例化了PDFContentExtractor类。然后,我们显示应用程序窗口,并通过调用app.MainLoop()来启动应用程序的事件循环。

结论

通过本篇博客,我们学习了如何使用wxPython和PyMuPDF创建用于选择PDF文件并提取指定页面的内容。我们还了解了如何使用Bokeh来创建交互式应用程序界面,并通过事件处理方法来处理用户的选择和操作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/91959.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Python机器学习】实验10 支持向量机

文章目录 支持向量机实例1 线性可分的支持向量机1.1 数据读取1.2 准备训练数据1.3 实例化线性支持向量机1.4 可视化分析 实例2 核支持向量机2.1 读取数据集2.2 定义高斯核函数2.3 创建非线性的支持向量机2.4 可视化样本类别 实例3 如何选择最优的C和gamma3.1 读取数据3.2 利用数…

服务器遭受攻击之后的常见思路

哈喽大家好&#xff0c;我是咸鱼 不知道大家有没有看过这么一部电影&#xff1a; 这部电影讲述了男主是一个电脑极客&#xff0c;在计算机方面有着不可思议的天赋&#xff0c;男主所在的黑客组织凭借着超高的黑客技术去入侵各种国家机构的系统&#xff0c;并引起了德国秘密警察…

springcloud3 使用openfegin实现getpost请求调用

一 项目介绍 1.1 工程介绍 1.consumer9008 2.provider9009 二 get请求 2.1 消费端 1.controller 2.service 2.2 提供者 1.提供者 2.3 测试请求 地址&#xff1a; http://localhost:9008/consumer/payment/nacos/2223 三 post请求 3.1 消费者 3.2 提供者 3.3 测试请求…

C++的stack和queue+优先队列

文章目录 什么是容器适配器底层逻辑为什么选择deque作为stack和queue的底层默认容器优先队列优先队列的模拟实现stack和queue的模拟实现 什么是容器适配器 适配器是一种设计模式(设计模式是一套被反复使用的、多数人知晓的、经过分类编目的、代码设计经验的总 结)&#xff0c;…

R语言实现计算净重新分类指数(NRI)和综合判别改善指数(IDI)

两个模型比较&#xff0c;与第一个模型相比&#xff0c;NRI&#xff08;重新分对的 - 重新分错的&#xff09;/总人数。IDI&#xff08;新模型患者平均预测概率-旧模型患者平均预测概率&#xff09;-&#xff08;新模型非患者平均预测概率-旧模型非患者平均预测概率&#xff09…

Kafka第一课概述与安装

生产经验 面试重点 Broker面试重点 代码,开发重点 67 章了解 如何记录行为数据 1. Kafka概述 1.产生原因 前端 传到日志 日志传到Flume 传到HADOOP 但是如果数据特比大&#xff0c;HADOOP就承受不住了 2.Kafka解决问题 控流消峰 Flume传给Kafka 存到Kafka Hadoop 从Kafka…

IDE的下载和使用

IDE 文章目录 IDEJETBRAIN JETBRAIN 官网下载对应的ide 激活方式 dxm的电脑已经把这个脚本下载下来了&#xff0c;脚本是macjihuo 以后就不用买了

系列六、Redis中的五大数据类型及相关操作

一、五大数据类型 String类型、List类型、Set类型、ZSet类型、hash类型。 二、String类型 2.1、内存储存模型 2.2、常用操作命令 三、List类型 3.1、概述 list列表&#xff0c;相当于Java中的list集合。特点&#xff1a;元素有序 且 可以重复。 3.2、内存存储模型 3.3、常用…

“粤”动扬帆,共赢数安|2023百城巡展走进广深双城

新起点新战略共赢数安蓝海 2023美创科技百城巡展之旅如火如荼 持续赋能区域合作伙伴 8月10-11日&#xff0c;美创科技相继走进广州、深圳。作为2023年百城巡展之行的重要区域&#xff0c;美创为合作伙伴带来最新渠道政策解读&#xff0c;行业机会点及新产品新方案分享&#…

AIGC绘画:基于Stable Diffusion进行AI绘图

文章目录 AIGC深度学习模型绘画系统stable diffusion简介stable diffusion应用现状在线网站云端部署本地部署Stable Diffusion AIGC深度学习模型绘画系统 stable diffusion简介 Stable Diffusion是2022年发布的深度学习文本到图像生成模型&#xff0c;它主要用于根据文本的描述…

ChatGPT or BingChat

你相信我们对大模型也存在「迷信权威」吗&#xff1f; ChatGPT 的 GPT-4 名声在外&#xff0c;我们就不自觉地更相信它&#xff0c;优先使用它。但我用 ChatALL 比较 AI 大模型们这么久&#xff0c;得到的结论是&#xff1a; ChatGPT GPT-4 在大多数情况下确实是最强&#xf…

SSM整合(XML方式)

文章目录 SSM整合之后xml方式1 系统环境1.1 软件环境1.2 项目环境1.3 配置web.xml1.4 配置jdbc.properties文件1.5 配置SpringMVC核心文件1.6 配置Spring的核心文件1.7 配置MyBatis的核心文件1.8 配置数据库1.9 配置文件位置 2 编写后端代码2.1 编写实体类2.2 编写Dao接口2.3 编…

Postman接口自动化测试实战,从0到1一篇彻底打通...

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 postman中的测试 …

【设计模式】责任链模式

顾名思义&#xff0c;责任链模式&#xff08;Chain of Responsibility Pattern&#xff09;为请求创建了一个接收者对象的链。这种模式给予请求的类型&#xff0c;对请求的发送者和接收者进行解耦。这种类型的设计模式属于行为型模式。 在这种模式中&#xff0c;通常每个接收者…

SegFormer之模型训练

单卡训练&#xff0c;所有配置文件里的【SyncBN】改为【BN】 启动训练 &#xff08;1&#xff09;终端直接运行 python tools/train.py local_configs/segformer/B1/segformer.b1.512x512.ade.160k.py &#xff08;2&#xff09;在编辑器中运行 在 [config] 前面加上’–‘将…

React源码解析18(6)------ 实现useState

摘要 在上一篇文章中&#xff0c;我们已经实现了函数组件。同时可以正常通过render进行渲染。 而通过之前的文章&#xff0c;beginWork和completeWork也已经有了基本的架子。现在我们可以去实现useState了。 实现之前&#xff0c;我们要先修改一下我们的index.js文件&#x…

从零开始,快速打造租车服务小程序的分享

随着移动互联网的发展&#xff0c;小程序成为了企业推广和服务的重要手段之一。租车服务行业也不例外&#xff0c;通过打造一款租车服务小程序&#xff0c;企业可以更好地与用户进行互动和交流&#xff0c;提供更方便快捷的租车服务。本文将介绍如何利用第三方制作平台/工具快速…

webpack 创建VUE项目

1、安装 node.js 下载地址&#xff1a;https://nodejs.org/en/ 下载完成以后点击安装&#xff0c;全部下一步即可 安装完成&#xff0c;输入命令验证 node -vnpm -v2.搭建VUE环境 输入命令&#xff0c;全局安装 npm install vue-cli -g安装完成后输入命令 查看 vue --ver…

HCIP-OpenStack搭建

1、OpenStack概述 OpenStack是一种云操作系统&#xff0c;OpenStack是虚拟机、裸金属和容器的云基础架构。可控制整个数据中心的大型计算、存储和网络资源池&#xff0c;所有资源都通过具有通用身份验证机制的API进行管理和配置。管理员也可通过Web界面控制&#xff0c;同时授…

【C语言】小游戏-扫雷(清屏+递归展开+标记)

大家好&#xff0c;我是深鱼~ 目录 一、游戏介绍 二、文件分装 三、代码实现步骤 1.制作简易游戏菜单 2. 初始化棋盘(11*11) 3.打印棋盘(9*9) 4.布置雷 5.计算(x,y)周围8个坐标的和 6.排查雷 <1>清屏后打印棋盘 <2>递归展开 <3>标记雷 四、完整代…