Python自动化办公之PDF拆分

今天我们继续分享真实的自动化办公案例,希望各位 Python 爱好者能够从中得到些许启发,在自己的工作生活中更多的应用 Python,使得工作事半功倍!

需求

需要从 PDF 中取出几页并将其保存为新的 PDF,为了后期使用方便,这个工具需要做成傻瓜式的带有 GUI 页面的形式

选择源 pdf 文件,再指定下生成的新的 pdf 文件名称及保存位置,和需要拆分的 page 信息,就可以得到新的 pdf 文件了

需求解析

对于 Python GUI,我们有太多种选择了,下面我们先来横向的简单对比下

从高层次上看,大的 GUI 工具有:

  • Qt
  • WxWindows
  • Tkinter
  • Customer libraries(Kivy,Toga等)
  • Web相关(HTML,Flask等)

不过今天,我们选择的工具是 appJar,这是一个由一位从事教育工作的大神发明的,所以它可以提供一个更加简单的 GUI 创建过程,而且是完全基于 Tkinter 的,Python 默认支持

代码实现

首先为了实现 PDF 操作,我这里选择了 pypdf2 库

我们先硬编码一个输入输出的示例

from PyPDF2 import PdfFileWriter, PdfFileReaderinfile = "Input.pdf"
outfile = "Output.pdf"page_range = "1-2,6"

接下来我们实例化 PdfFileWriter 和 PdfFIleReader 对象,并创建实际的 Output.pdf 文件


output = PdfFileWriter()
input_pdf = PdfFileReader(open(infile, "rb"))
output_file = open(outfile, "wb")

下面一个比较复杂的点就是需要拆分 pdf,提取页面并保存在列表中

page_ranges = (x.split("-") for x in page_range.split(","))
range_list = [i for r in page_ranges for i in range(int(r[0]), int(r[-1]) + 1)]

最后就是从原始文件中拷贝内容到新的文件

for p in range_list:output.addPage(input_pdf.getPage(p - 1))
output.write(output_file)

下面来构建 GUI 界面

对于这个拆分 PDF 的小工具,需要具有如下功能:

  • 可以通过标准文件浏览器选择 pdf 文件
  • 可以选择输出文件的位置及文件名称
  • 可以自定义提取哪些页面
  • 有一些错误检查

通过 PIP 安装好 appJar 后,我们就可以编码了

from appJar import gui
from PyPDF2 import PdfFileWriter, PdfFileReader
from pathlib import Path

创建 GUI 窗口

app = gui("PDF Splitter", useTtk=True)
app.setTtkTheme("default")
app.setSize(500, 200)

这里我使用了默认主题,当然也可以切换各种各样的主题模式

下面是添加标签和数据输入组件

app.addLabel("Choose Source PDF File")
app.addFileEntry("Input_File")app.addLabel("Select Output Directory")
app.addDirectoryEntry("Output_Directory")app.addLabel("Output file name")
app.addEntry("Output_name")app.addLabel("Page Ranges: 1,3,4-10")
app.addEntry("Page_Ranges")

接下来添加按钮,“处理”和“退出”,按下按钮,调用如下函数

app.addButtons(["Process", "Quit"], press)

最后就是运行这个 app 啦

# start the GUI
app.go()

这要我们就完成了 GUI 的搭建,下面编写内部处理逻辑。程序读取任何输入,判断是否为 PDF,并拆分

def press(button):if button == "Process":src_file = app.getEntry("Input_File")dest_dir = app.getEntry("Output_Directory")page_range = app.getEntry("Page_Ranges")out_file = app.getEntry("Output_name")errors, error_msg = validate_inputs(src_file, dest_dir, page_range, out_file)if errors:app.errorBox("Error", "\n".join(error_msg), parent=None)else:split_pages(src_file, page_range, Path(dest_dir, out_file))else:app.stop()

如果单击 “处理(Process)”按钮,则调用 app.getEntry() 检索输入值,每个值都会被存储,然后通过调用 validate_inputs() 进行验证

来看看 validate_inputs 函数

def validate_inputs(input_file, output_dir, range, file_name):errors = Falseerror_msgs = []# Make sure a PDF is selectedif Path(input_file).suffix.upper() != ".PDF":errors = Trueerror_msgs.append("Please select a PDF input file")# Make sure a range is selectedif len(range) < 1:errors = Trueerror_msgs.append("Please enter a valid page range")# Check for a valid directoryif not(Path(output_dir)).exists():errors = Trueerror_msgs.append("Please Select a valid output directory")# Check for a file nameif len(file_name) < 1:errors = Trueerror_msgs.append("Please enter a file name")return(errors, error_msgs)

这个函数就是执行一些检查来确保输入有数据并且有效

在收集验证了所以数据后,就可以调用 split 函数来处理文件了

def split_pages(input_file, page_range, out_file):output = PdfFileWriter()input_pdf = PdfFileReader(open(input_file, "rb"))output_file = open(out_file, "wb")page_ranges = (x.split("-") for x in page_range.split(","))range_list = [i for r in page_ranges for i in range(int(r[0]), int(r[-1]) + 1)]for p in range_list:# Need to subtract 1 because pages are 0 indexedtry:output.addPage(input_pdf.getPage(p - 1))except IndexError:# Alert the user and stop adding pagesapp.infoBox("Info", "Range exceeded number of pages in input.\nFile will still be saved.")breakoutput.write(output_file)if(app.questionBox("File Save", "Output PDF saved. Do you want to quit?")):app.stop()

好了,这样我们就完成了一个简易的 GUI 拆分 PDF 文件的工具喽

喜欢就在看、点赞,转发,三连支持一下噻!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/233846.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于车规级齐纳二极管MMBZ5V6ALT1G 它又有什么作用?

MMBZ5V6ALT1G是一款双单片硅齐纳二极管专为需要瞬态过电压保护能力的应用而设计&#xff0c;它们适用于电压和ESD敏感设备&#xff0c;如计算机、打印机、商用机器、通信系统、医疗设备和其他应用。它们的双结共阳极设计仅使用一个封装即可保护两条独立的线路&#xff0c;该器件…

rtu水文专用(支持SL/T427-2021等大部分协议)

SRTU200 系列是一款集数据采集与 4G/NB-IoT、LoRa、GPS 等多种通信功能于一体的 多功能遥测终端机&#xff0c;该设备搭配丰富的采集控制接口&#xff0c;提供 RS232、RS485、以太网、模拟量 输入、开关量输入、开关量输出和继电器等。产品设计人性化&#xff0c;功能丰富&…

Mysql文件-笔记

我们小组技术分享mysql&#xff0c;给我表这块&#xff0c;这个知识呀 只要你想学 源源不断 源源不断&#xff0c;我其实想把我们组的分享都弄出来&#xff0c;偷偷的 嘘~ 表是特定实体的数据集合&#xff0c;关系型数据库模型核心&#xff0c;表逻辑存储和实现&#xff0c;物理…

WPF 导航界面悬浮两行之间的卡片 漂亮的卡片导航界面 WPF漂亮渐变颜色 WPF漂亮导航头界面 UniformGrid漂亮展现

在现代应用程序设计中&#xff0c;一个漂亮的WPF导航界面不仅为用户提供视觉上的享受&#xff0c;更对提升用户体验、增强功能可发现性和应用整体效率起到至关重要的作用。以下是对WPF漂亮导航界面重要性的详尽介绍&#xff1a; 首先&#xff0c;引人入胜的首页界面是用户与软…

电子电器架构网络演化 —— 车载以太网TSN

电子电器架构网络演化 —— 车载以太网TSN 我是穿拖鞋的汉子&#xff0c;魔都中坚持长期主义的汽车电子工程师。 老规矩&#xff0c;分享一段喜欢的文字&#xff0c;避免自己成为高知识低文化的工程师&#xff1a; 屏蔽力是信息过载时代一个人的特殊竞争力&#xff0c;任何消…

CSAPP cache lab - Optimizing Matrix Transpose

CSAPP cache lab part B 矩阵转置 矩阵转置是一种操作&#xff0c;它将矩阵的行和列互换位置&#xff0c;即将原始矩阵的行变为转置矩阵的列&#xff0c;将原始矩阵的列变为转置矩阵的行。转置操作可以通过改变矩阵的布局来方便地进行某些计算和分析。 假设有一个mn的矩阵A&…

【uniapp】调用阿里云OCR图片识别文字:

文章目录 一、效果&#xff1a;二、实现&#xff1a; 一、效果&#xff1a; 二、实现&#xff1a; 【阿里官方】高精版OCR文字识别【最新版】-云市场-阿里云 <template><view class"container"><!-- 选择图片 --><button click"imageO…

在win10和Linux上配置SSH 无密码登录

文章目录 一、用途二、在本地机器上使用ssh-keygen产生公钥私钥对1&#xff09;在Linux (或macOS) 上产生SSH公私钥的方法2&#xff09;在win10上产生SSH公私钥的方法a&#xff09;检查windows 本地是否安装有sshb&#xff09;在本地生成SSH密钥对&#xff08;公钥和私钥&#…

2024 年 API 安全:预测和趋势

随着技术以前所未有的速度不断进步&#xff0c;API&#xff08;应用程序编程接口&#xff09;安全性的复杂性也随之增加。随着 API 在现代应用程序和服务中的激增&#xff0c;组织将需要更好地了解其 API 环境以及 API 给运营带来的风险。 到 2024 年&#xff0c;预计几个关键…

基于R语言(SEM)结构方程模型教程

详情点击链接&#xff1a;基于R语言&#xff08;SEM&#xff09;结构方程模型教程 01、R/Rstudio (2)R语言基本操作&#xff0c;包括向量、矩阵、数据框及数据列表等生成和数据提取等 (3)R语言数据文件读取、整理&#xff08;清洗&#xff09;、结果存储等&#xff08;含tidve…

安防视频云平台/可视化监控云平台ARM版EasyCVR无法下载录像文件,如何解决?

视频集中存储/云存储/视频监控管理平台EasyCVR能在复杂的网络环境中&#xff0c;将分散的各类视频资源进行统一汇聚、整合、集中管理&#xff0c;实现视频资源的鉴权管理、按需调阅、全网分发、智能分析等。GB28181视频监控/AI智能大数据视频分析EasyCVR平台已经广泛应用在工地…

【gRPC学习】使用go学习gRPC

个人博客:Sekyoro的博客小屋 个人网站:Proanimer的个人网站 RPC是远程调用,而google实现了grpc比较方便地实现了远程调用,gRPC是一个现代的开源远程过程调用(RPC)框架 概念介绍 在gRPC中&#xff0c;客户端应用程序可以直接调用另一台计算机上的服务器应用程序上的方法&#…

Docker 部署后端项目自动化脚本

文章目录 开机自启动docker打包后端项目Dockerfile文件脚本文件使用 开机自启动docker systemctl enable docker打包后端项目 这里的项目位置是target同级目录 1.在项目下面新建一个bin目录 新建一个package.txt 写入下方代码后 后缀改为.bat echo off echo. echo [信息] 打…

迎接人工智能的下一个时代:ChatGPT的技术实现原理、行业实践以及商业变现途径

课程背景 2023年&#xff0c;以ChatGPT为代表的接近人类水平的对话机器人&#xff0c;AIGC不断刷爆网络&#xff0c;其强大的内容生成能力给人们带来了巨大的震撼。学术界和产业界也都形成共识&#xff1a;AIGC绝非昙花一现&#xff0c;其底层技术和产业生态已经形成了新的格局…

CloudCompare——点云空间圆拟合

目录 1.概述2.软件实现3.完整操作4.相关代码 本文由CSDN点云侠原创&#xff0c;CloudCompare——点云空间圆拟合&#xff0c;爬虫自重。如果你不是在点云侠的博客中看到该文章&#xff0c;那么此处便是不要脸的爬虫与GPT生成的文章。 1.概述 CloudCompare软件中的Tools——>…

洛谷 P1217 [USACO1.5] 回文质数 Prime Palindromes 刷题笔记

P1217 [USACO1.5] 回文质数 Prime Palindromes - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 思路 直接枚举 减枝优化判断 优化1 只有偶数才会是质数 优化2 回文数的判断次数要优于检查素数 先判断是否为回文数再检查是否为质数 if( hw(i)&&isprime(i)) 这里…

物理机与vm文件共享与传输的设置方法

今天跟各位小伙伴&#xff0c;分享一下物理机与vm虚拟机文件共享与传输的设置方法&#xff0c;以供大家参考&#xff01; 一、物理机与虚拟机文件共享设置方法 第一步&#xff1a;先关闭虚拟机&#xff08;客户机&#xff09; 第二步&#xff1a;选择编辑虚拟机设置 第三步&am…

大数据机器学习深度解读决策树算法:技术全解与案例实战

大数据机器学习深度解读决策树算法&#xff1a;技术全解与案例实战 本文深入探讨了机器学习中的决策树算法&#xff0c;从基础概念到高级研究进展&#xff0c;再到实战案例应用&#xff0c;全面解析了决策树的理论及其在现实世界问题中的实际效能。通过技术细节和案例实践&…

stable diffusion 人物高级提示词(四)朝向、画面范围、远近、焦距、机位、拍摄角度

一、朝向 英文中文front view正面Profile view / from side侧面half-front view半正面Back view背面(quarter front view:1.5)四分之一正面 prompt/英文中文翻译looking at the camera看向镜头facing the camera面对镜头turned towards the camera转向镜头looking away from …

计算一个时间序列中每一个元素对应着星期几Series.dt.dayofweek

【小白从小学Python、C、Java】 【计算机等考500强证书考研】 【Python-数据分析】 计算一个时间序列中 各元素是星期几(之后-1) 例:1月9日是周二则返回1 Series.dt.dayofweek [太阳]选择题 以下关于代码输出结果的说法中正确的是? import pandas as pd ts pd.Series(pd.date…