用Python分割并高效处理PDF大文件

用Python分割并高效处理PDF大文件

news/2025/3/10 6:36:42/文章来源:https://blog.csdn.net/neweastsun/article/details/146078833

在处理大型PDF文件时，将它们分解成更小、更易于管理的块通常是有益的。这个过程称为分区，它可以提高处理效率，并使分析或操作文档变得更容易。在本文中，我们将讨论如何使用Python和为Unstructured.io库将PDF文件划分为更小的部分。

我们将使用两个Python库来完成此任务：

PyPDF2：一个可以读、写、合并和分割PDF文件的库。
Unstructured.io：一个可以使用文档图像分析模型分割PDF文档的库。

在这里插入图片描述

下面是完成这个任务的Python代码：

from PyPDF2 import PdfReader, PdfWriter
from unstructured.partition.pdf import partition_pdfimport os
from os import path# Create the output directory if it doesn't exist
# os.makedirs('./output', exist_ok=True)
path = path.abspath(path.dirname(__file__))# pdf_file = path + '/sample01.pdf'filename =  path + "/sample02.pdf"# Read the original PDF
input_pdf = PdfReader(f'{filename}')batch_size = 2
num_batches = len(input_pdf.pages) // batch_size + 1filename = path + "/output" 
# Extract batches of 100 pages from the PDF
for b in range(num_batches):writer = PdfWriter()# Get the start and end page numbers for this batchstart_page = b * batch_sizeend_page = min((b+1) * batch_size, len(input_pdf.pages))# Add pages in this batch to the writerfor i in range(start_page, end_page):writer.add_page(input_pdf.pages[i])# Save the batch to a separate PDF filebatch_filename = f'{filename}-batch{b+1}.pdf'with open(batch_filename, 'wb') as output_file:writer.write(output_file)# Now you can use the `partition_pdf` function from Unstructured.io to analyze the batchelements = partition_pdf(filename=batch_filename)print(elements)# Do something with `elements`...# This will process without issue# 抽取表格数据elements = partition_pdf("copy-protected.pdf", strategy="hi_res")

第一步：读PDF文件

首先，我们从PyPDF2库导入必要的类：PdfReader和PdfWriter。PdfReader类用于读取原始PDF文件，该文件存储在名为“exam-prep”的子目录中。

步骤2：分区PDF

我们决定批大小，即PDF的每个块将包含的页数。在本例中，我们选择了100页的批处理大小，但这可以根据您的需要进行调整。

然后通过将PDF中的总页数除以批大小来计算批数量。添加1以确保在页面总数不是批大小的倍数时捕获所有剩余页面。

步骤3：写PDF块

接下来，循环遍历每个批处理，为每个批处理创建一个新的PdfWriter对象。对于每个批处理，我们计算起始页码和结束页码，并使用add_page方法将该范围内的每个页码添加到PdfWriter。

一旦添加了批处理的所有页面，我们将它们写入‘output’子目录下的新PDF文件中。每个块的文件名包括原始文件名和批号。

步骤4：分析PDF块

将PDF分成更小的块后，现在可以使用来自非结构化的partition_pdf函数。IO库来分析每个批处理。该函数使用文档图像分析模型对PDF文档进行分段，并返回已解析PDF文档页面中出现的元素列表。

最后总结

将大型PDF文件划分为更小的块可以使它们更容易、容错和消耗更少的内存。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/29945.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Python——计算机网络

Python——计算机网络

一.ip 1.ip的定义 IP是“Internet Protocol”的缩写，即“互联网协议”。它是用于计算机网络通信的基础协议之一，属于TCP/IP协议族中的网络层协议。IP协议的主要功能是负责将数据包从源主机传输到目标主机，并确保数据能够在复杂的网络环境中正…

阅读更多...

【MySQL】事务|概念|如何回滚|基本特性|MySQL事务隔离性具体怎么实现的

【MySQL】事务|概念|如何回滚|基本特性|MySQL事务隔离性具体怎么实现的

目录 1.为啥引入 2.是啥 3.如何回滚（日志） 🔥4.面试题：谈谈事务的基本特性 （1）原子性 （2）一致性（收入和支出相匹配） （3）持久性…

阅读更多...

deepseek 本地部署

deepseek 本地部署

deepseek 本地部署纯新手教学，手把手5分钟带你在本地部署一个私有的deepseek，再也不用受网络影响。流畅使用deepseek！！！ 如果不想看文章，指路：Deep seek R1本地部署小白超详细教程 &#xff0…

阅读更多...

⭐算法OJ⭐N-皇后问题 II【回溯剪枝】（C++实现）N-Queens II

⭐算法OJ⭐N-皇后问题 II【回溯剪枝】（C++实现）N-Queens II

⭐算法OJ⭐N-皇后问题【回溯剪枝】（C实现）N-Queens 问题描述 The n-queens puzzle is the problem of placing n n n queens on an n n n \times n nn chessboard such that no two queens attack each other. Given an integer n, return the num…

阅读更多...

关联封号率降70%！2025最新IP隔离方案实操手册

关联封号率降70%！2025最新IP隔离方案实操手册

高效运营安全防护，跨境卖家必看的风险规避指南跨境账号管理的核心挑战：关联封号风险激增 2024年，随着全球电商平台对账号合规的审查日益严苛，“关联封号”已成为跨境卖家最头疼的问题之一。无论是同一IP登录多账号、员工操作失误…

阅读更多...

pytest框架核心知识的系统复习

pytest框架核心知识的系统复习

1. pytest 介绍是什么：Python 最流行的单元测试框架之一，支持复杂的功能测试和插件扩展。优点： 语法简洁（用 assert 替代 self.assertEqual）。自动发现测试用例。丰富的插件生态（如失败重试、并发执…

阅读更多...

搭建BOA服务器

搭建BOA服务器

BOA服务器是嵌入式常用的服务器类型，嵌入式程序作为后端时候如果想配合网页进行显示，利用BOA服务器搭建网络界面是不错的选择首先下载boa官方安装包 Boa Webserver 下载后传输到Ubuntu随便文件夹，解压 tar -xvf boa-0.94.13.tar.gz 进入…

阅读更多...

C# OPC DA获取DCS数据（提前配置DCOM）

C# OPC DA获取DCS数据（提前配置DCOM）

OPC DA配置操作手册配置完成后，访问远程ip，就能获取到服务 C#使用Interop.OPCAutomation采集OPC DA数据，支持订阅（数据变化）、单个读取、单个写入、断线重连

阅读更多...

Ubuntu20.04搭建gerrit code review

Ubuntu20.04搭建gerrit code review

一、环境准备 1. 安装 Java 环境‌ Gerrit 依赖 Java 运行环境（推荐 JDK 8）： sudo apt install openjdk-11-jdk 验证安装： java -version ‌2. 安装 Git sudo apt install git ‌3. 可选依赖数据库‌：Gerrit …

阅读更多...

【FSM-3: 串行序列】

【FSM-3: 串行序列】

FSM-3：串行序列 1 Serial receiver FSM使用总结： 所有涉及输出的driver原则上用cur_sta；若是使用nxt_sta的相当于是提前一拍知道结果，所以对于输出必须要使用clocked reg，这样才能和cur_sta对应起来；描述声…

阅读更多...

蓝桥杯之前缀和与查分

蓝桥杯之前缀和与查分

文章目录题目求和棋盘挖矿前缀和有利于快速求解区间的和、异或值、乘积等情况差分是前缀和的反操作前缀和一维前缀和： # 原始的数组num,下标从1到n n len(num) pre [0]*(n1) for i in range(n):pre[i1] pre[i] num[i] # 如果需要求解num[l] 到num[r] 的区…

阅读更多...

国产化板卡设计原理图：2330-基于FMC接口的JFM7K325T PCIeX4 3U PXIe接口卡

国产化板卡设计原理图：2330-基于FMC接口的JFM7K325T PCIeX4 3U PXIe接口卡

基于FMC接口的JFM7K325T PCIeX4 3U PXIe接口卡一、板卡概述本板卡基于 FPGAJFM7K325T 芯片，pin_to_pin兼容FPGAXC7K410T-2FFG900 ，支持PCIeX8、64bit DDR3容量2GByte，HPC的FMC连接器，板卡支持PXIE标准协议，其中XJ3…

阅读更多...

计算机视觉之dlib人脸关键点绘制及微笑测试

计算机视觉之dlib人脸关键点绘制及微笑测试

dlib人脸关键点绘制及微笑测试目录 dlib人脸关键点绘制及微笑测试1 dlib人脸关键点1.1 dlib1.2 人脸关键点检测1.3 检测模型1.4 凸包1.5 笑容检测1.6 函数 2 人脸检测代码2.1 关键点绘制2.2 关键点连线2.3 微笑检测 1 dlib人脸关键点 1.1 dlib dlib 是一个强大的机器学习库&a…

阅读更多...

一周学会Flask3 Python Web开发-SQLAlchemy连接Mysql数据库

一周学会Flask3 Python Web开发-SQLAlchemy连接Mysql数据库

锋哥原创的Flask3 Python Web开发 Flask3视频教程： 2025版 Flask3 Python web开发视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili app.py下，我们先配置数据库连接，然后写一个简单sql测试。连接配置，包括用户名&#xff…

阅读更多...

blender看不到导入的模型

blender看不到导入的模型

参考：blender 快捷键常见问题_blender材质预览快捷键-CSDN博客方法一：视图-裁剪起点，设置一个很大的值方法二：选中所有对象，对齐视图-视图对齐活动项-选择一个视图

阅读更多...

CES Asia 2025增设未来办公教育板块，科技变革再掀高潮

CES Asia 2025增设未来办公教育板块，科技变革再掀高潮

作为亚洲消费电子领域一年一度的行业盛会，CES Asia 2025（第七届亚洲消费电子技术贸易展）即将盛大启幕。今年展会规模再度升级，预计将吸引超过500家全球展商参展，专业观众人数有望突破10万。除了聚焦人工智能、物联网、…

阅读更多...

【目标检测】【NeuralPS 2023】Gold-YOLO：通过收集与分发机制实现的高效目标检测器

【目标检测】【NeuralPS 2023】Gold-YOLO：通过收集与分发机制实现的高效目标检测器

Gold-YOLO： Efficient Object Detector via Gather-and-Distribute Mechanism Gold-YOLO：通过收集与分发机制实现的高效目标检测器 0.论文摘要在过去的几年中，YOLO系列模型已成为实时目标检测领域的领先方法。许多研究通过修改架构、增强数…

阅读更多...

利用python实现对Excel文件中数据元组的自定义排序

利用python实现对Excel文件中数据元组的自定义排序

问题引入： 假设你是一个浙江省水果超市的老板，统筹11个下辖地市的水果产量。假设11个地市生产的水果包括：苹果、香蕉和西瓜。你如何快速得到某种水果产量突出（排名前几）的地市？产量落后（排名后…

阅读更多...

数学建模笔记——层次分析法（AHP）

本文借鉴了数学建模清风老师的视频和课件，如有错误欢迎大家批评指正。原视频地址：清风数学建模：https://www.bilibili.com/video/BV1DW411s7wihttps://www.bilibili.com/video/BV1DW411s7wi 1.预备知识层次分析法：层次分析法(The Analytic Hierarchy Process，AHP)是一…

阅读更多...

koa-session设置Cookie后获取不到

koa-session设置Cookie后获取不到

在谷歌浏览器中请求获取不到cookie问题之一（谷歌安全策略） 场景前端使用 axios 请求，项目地址：http://192.168.8.1:5173 import axios from axiosconst request axios.create({baseURL: http://127.0.0.1:3001/,timeout: 60000,…

阅读更多...

最新文章

推荐文章