Python使用PDF相关组件案例详解

主要对pdfminer.sixpdfplumberPyMuPDFPyPDF2PyPDF4pdf2imagecamelot-py七个PDF相关组件分别详解,具体使用案例演示

1. pdfminer.six
pdfminer.six 是一个专门用来从 PDF 中提取文本的库,能够处理复杂的文本布局,适合用于文本解析,尤其是需要了解 PDF 页面的结构时。

安装:

pip install pdfminer.six

使用案例:

from pdfminer.high_level import extract_text
try:# 提取 PDF 文件的文本text = extract_text('example.pdf')print(text)
except Exception as e:print(f"Error extracting text: {e}")

注意事项:

•	适合于文本内容的提取,特别是有复杂布局的文档。
•	对于表格或图像提取的支持较弱。
•	文本提取时可能会丢失一些排版信息。

异常处理案例:

from pdfminer.high_level import extract_textdef extract_pdf_text(file_path):try:text = extract_text(file_path)return textexcept FileNotFoundError:print("The specified file does not exist.")except Exception as e:print(f"Error: {e}")# 测试
file_path = 'non_existing_file.pdf'
text = extract_pdf_text(file_path)

2. pdfplumber

pdfplumber 是一个基于 pdfminer.six 的工具,专门用于提取 PDF 中的表格、文本、图像等结构化内容。

安装:

pip install pdfplumber

使用案例:

import pdfplumbertry:# 打开 PDF 文件with pdfplumber.open("example.pdf") as pdf:first_page = pdf.pages[0]# 提取文本text = first_page.extract_text()print(text)# 提取表格table = first_page.extract_table()for row in table:print(row)
except Exception as e:print(f"Error processing PDF: {e}")

注意事项:

•	对于 PDF 中的表格提取有较好的支持。
•	解析结构复杂的表格时可能需要进一步的调整和处理。
•	不适用于处理扫描版 PDF。

异常处理案例:

import pdfplumberdef extract_table_from_pdf(file_path):try:with pdfplumber.open(file_path) as pdf:first_page = pdf.pages[0]table = first_page.extract_table()return tableexcept pdfplumber.utils.PDFPlumberException as e:print(f"Error in pdfplumber: {e}")except Exception as e:print(f"Error: {e}")# 测试
table = extract_table_from_pdf('non_existing_file.pdf')

3. PyMuPDF (fitz)

PyMuPDF 是一个强大的 PDF、XPS、EPUB 等格式的文档处理库,支持提取文本、图像和页面渲染等多种功能。

安装:

pip install PyMuPDF

使用案例:

import fitz  # PyMuPDF 的别名try:# 打开 PDF 文件doc = fitz.open("example.pdf")# 提取文本for page in doc:text = page.get_text()print(text)# 提取图像for page in doc:images = page.get_images(full=True)for img in images:print(img)
except Exception as e:print(f"Error processing PDF: {e}")

注意事项:

•	可以提取文本、图像、并进行页面渲染。
•	对于扫描版 PDF,可以通过 OCR 结合其他工具进行文本提取。
•	需要安装 pillow 来处理图像。

异常处理案例:

import fitzdef extract_text_from_pdf(file_path):try:doc = fitz.open(file_path)text = ""for page in doc:text += page.get_text()return textexcept Exception as e:print(f"Error: {e}")return None# 测试
text = extract_text_from_pdf('non_existing_file.pdf')

4. PyPDF2

PyPDF2 是一个用于 PDF 文档操作的库,支持 PDF 文件的合并、拆分、旋转、裁剪等。

安装:

pip install PyPDF2

使用案例:

from PyPDF2 import PdfReader, PdfWritertry:# 读取 PDF 文件reader = PdfReader('example.pdf')writer = PdfWriter()# 提取第一页的文本page = reader.pages[0]print(page.extract_text())# 合并 PDF 文件writer.add_page(reader.pages[0])with open('output.pdf', 'wb') as output_pdf:writer.write(output_pdf)
except Exception as e:print(f"Error processing PDF: {e}")

注意事项:

•	适合于 PDF 的合并、拆分、旋转、裁剪等操作。
•	不支持图像或表格提取。
•	对于扫描版 PDF,提取文本效果不佳。

异常处理案例:

from PyPDF2 import PdfReaderdef merge_pdfs(input_files, output_file):try:writer = PdfWriter()for file in input_files:reader = PdfReader(file)for page in reader.pages:writer.add_page(page)with open(output_file, 'wb') as output:writer.write(output)except FileNotFoundError as e:print(f"Error: {e}")except Exception as e:print(f"Error: {e}")# 测试
merge_pdfs(['non_existing_file.pdf'], 'merged.pdf')

5. PyPDF4

PyPDF4 是 PyPDF2 的分支,提供了更好的功能,特别是对于处理加密的 PDF 文件。

安装:

pip install PyPDF4

使用案例:

import PyPDF4try:# 读取 PDF 文件with open('example.pdf', 'rb') as f:reader = PyPDF4.PdfReader(f)writer = PyPDF4.PdfWriter()# 提取第一页的文本page = reader.pages[0]print(page.extract_text())# 合并多个文件writer.add_page(reader.pages[0])with open('output.pdf', 'wb') as output_f:writer.write(output_f)
except Exception as e:print(f"Error processing PDF: {e}")

注意事项:

•	功能与 PyPDF2 类似,改进了处理加密文件的能力。
•	不支持表格或图像提取。

异常处理案例:

import PyPDF4def split_pdf(input_pdf, output_pdf):try:with open(input_pdf, 'rb') as in_file:reader = PyPDF4.PdfReader(in_file)writer = PyPDF4.PdfWriter()writer.add_page(reader.pages[0])  # 只提取第一页with open(output_pdf, 'wb') as out_file:writer.write(out_file)except Exception as e:print(f"Error: {e}")# 测试
split_pdf('non_existing_file.pdf', 'output.pdf')

6. pdf2image

pdf2image 可以将 PDF 页面转换为图像,适用于需要将 PDF 页面呈现为图像的情况。

安装:

pip install pdf2image

使用案例:

from pdf2image import convert_from_pathtry:# 将 PDF 页面转换为图像images = convert_from_path('example.pdf')# 保存为图像文件for i, image in enumerate(images):image.save(f'page_{i+1}.png', 'PNG')
except Exception as e:print(f"Error converting PDF to image: {e}")

注意事项:

•	适合将 PDF 页面转换为图像文件(如 PNG、JPEG)。
•	需要额外安装 poppler-utils。
•	高质量转换可能会导致内存占用较大。

异常处理案例:

from pdf2image import convert_from_pathdef convert_pdf_to_images(file_path):try:images = convert_from_path(file_path)return imagesexcept Exception as e:print(f"Error: {e}")return []# 测试
images = convert_pdf_to_images('non_existing_file.pdf')

7. camelot-py

camelot-py 是一个专门用来提取 PDF 中表格数据的库,能够很好地处理带有表格的 PDF 文件。

安装:

pip install camelot-py[cv]

使用案例:

import camelottry:# 提取 PDF 文件中的表格tables = camelot.read_pdf('example.pdf', pages='1')# 显示第一张表格print(tables[0].df)
except Exception as e:print(f"Error extracting table: {e}")

注意事项:

•	适合用于表格提取,尤其是结构清晰的表格。
•	对于复杂或不规则的表格,需要调整模式(lattice 或 stream)。

异常处理案例:

import camelotdef extract_table_from_pdf(file_path):try:tables = camelot.read_pdf(file_path, pages='1')return tables[0].dfexcept camelot.utils.PDFPageCountError as e:print(f"Page count error: {e}")except Exception as e:print(f"Error: {e}")return None# 测试
table = extract_table_from_pdf('non_existing_file.pdf')

总结

•	文本提取: 使用 pdfminer.six 或 PyMuPDF。
•	表格提取: pdfplumber 和 camelot-py 适合表格提取。
•	PDF 操作: PyPDF2 和 PyPDF4 适用于合并、拆分、裁剪等。
•	图像转换: 使用 pdf2image 来将 PDF 转为图像。

对于每个组件库,异常处理能够帮助应对文件不存在、格式错误等常见问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/466929.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网页版五子棋——匹配模块(客户端开发)

前一篇文章:网页版五子棋——用户模块(客户端开发)-CSDN博客 目录 前言 一、前后端交互接口设计 二、游戏大厅页面 1.页面代码编写 2.前后端交互代码编写 3.测试获取用户信息功能 结尾 前言 前面文章介绍完了五子棋项目用户模块的代码…

elasticSearch 7.12.1 Docker 安装ik分词

一、下载 https://github.com/infinilabs/analysis-ik/releases/tag/v7.12.1 将文件解压,复制到docker挂载的目录 docker ps#重启docker docker restart f7ec58e91f1f 测试 GET _analyze?pretty {"analyzer": "ik_max_word","text&qu…

在JS中, 0 == [0] 吗

在不知道答案的情况下, 你觉得这段代码的输出是什么 我当时觉得是false, 结果我错了–^^– 那为什么输出是true呢 因为的隐式类型转换, 运算符会尝试将两个操作数转换为相同的类型,然后再进行比较。 在这个例子中,0 是一个数字,而 [0] 是…

【学习AI-相关路程-mnist手写数字分类-win-硬件:windows-自我学习AI-实验步骤-全连接神经网络(BPnetwork)-操作流程(3) 】

【学习AI-相关路程-mnist手写数字分类-win-硬件:windows-自我学习AI-实验步骤-全连接神经网络(BPnetwork)-操作流程(3) 】 1、前言2、前置学习(1)window和Linux中python寻找目录的方式。&#x…

RabbitMQ客户端应用开发实战

这一章节我们将快速完成RabbitMQ客户端基础功能的开发实战。 一、回顾RabbitMQ基础概念 这个RabbitMQ的核心组件,是进行应用开发的基础。 二、RabbitMQ基础编程模型 RabbitMQ提供了很多种主流编程语言的客户端支持。这里我们只分析Java语言的客户端。 上一章节提…

一文了解Android SELinux

在Android系统中,SELinux(Security-Enhanced Linux)是一个增强的安全机制,用于对系统进行强制访问控制(Mandatory Access Control,MAC)。它限制了应用程序和进程的访问权限,提供了更…

python画图|hist()函数深层体验

【1】引言 前述学习已经掌握hist()函数的基本运用技巧,可通过下述链接直达: python画图|hist()函数画直方图初探-CSDN博客 python画图|hist()函数画直方图进阶-CSDN博客 我们已经理解hist()函数本质上画的是概率分布图,相关知识属于数理统…

火狐浏览器同源策略禁止解决方案

前言 火狐浏览器同源策略禁止解决方案_同源策略禁止读取远程资源怎么办-CSDN博客 在使用Firefox火狐浏览器进行Web开发时,有时会遇到因为同源策略(Same-Origin Policy)导致的跨域请求被拦截的问题。例如,控制台可能会显示如下错…

计算机网络——TCP篇

TCP篇 基本认知 TCP和UDP的区别? TCP 和 UDP 可以使用同一个端口吗? 可以的 传输层中 TCP 和 UDP在内核中是两个完全独立的软件模块。可以根据协议字段来选择不同的模块来处理。 TCP 连接建立 TCP 三次握手过程是怎样的? 一次握手:客户端发送带有 …

解决ImportError: DLL load failed while importing _message: 找不到指定的程序。

C:\software\Anoconda\envs\yolov5_train\python.exe C:\Project\13_yolov5-master\train.py C:\software\Anoconda\envs\yolov5_train\lib\site-packages\torchvision\io\image.py:13: UserWarning: Failed to load image Python extension: [WinError 127] 找不到指定的程序…

AOSP沙盒android 11

这里介绍一下aosp装系统 什么是aosp AOSP(Android Open Source Project)是Android操作系统的开源版本。 它由Google主导,提供了Android的源代码和相关工具,供开发者使用和修改。 AOSP包含了Android的核心组件和API,使…

git提交冲突的原因及解决方案

一、场景一 1.冲突原因 提交者的版本库 < 远程库 要保障提交者的版本库信息和远程仓库是一致的 2.解决方案 实现本地同步git pull,再提交代码&#xff08;最好每次git push之前都git pull一下&#xff0c;防止这种情况的出现&#xff09; 场景二 1.冲突原因 别人跟你…

第十五届蓝桥杯C/C++B组题解——数字接龙

题目描述 小蓝最近迷上了一款名为《数字接龙》的迷宫游戏&#xff0c;游戏在一个大小为N N 的格子棋盘上展开&#xff0c;其中每一个格子处都有着一个 0 . . . K − 1 之间的整数。游戏规则如下&#xff1a; 从左上角 (0, 0) 处出发&#xff0c;目标是到达右下角 (N − 1, N …

得物多模态大模型在重复商品识别上的应用和架构演进

重复商品治理介绍 根据得物的平台特性&#xff0c;同一个商品在平台上不能出现多个链接&#xff0c;原因是平台需要保证一品一链的特点&#xff0c;以保障商品的集中竞价&#xff0c;所以说一个商品在整个得物平台上只能有一个商详链接&#xff0c;因此我们需要对一品多链的情…

盘点2024年惊艳的10款录屏工具!!

你是否经常需要捕捉电脑屏幕上的精彩瞬间&#xff1f;或者想要记录自己操作某个应用程序的流程&#xff1f;这时候你就需要一款录屏工具啦&#xff01;在学习、工作和娱乐中&#xff0c;录屏工具都能成为你的得力助手。无论你是做教学视频、游戏解说还是分享精彩瞬间&#xff0…

vue+websocket实现即时聊天平台

目录 1 什么是websocket 2 实现步骤 2.1 导入依赖 2.2 编写代码 1 什么是websocket WebSocket 是一种在单个 TCP 连接上进行全双工通信的协议。它主要用于在客户端和服务器之间建立持久的连接&#xff0c;允许实时数据交换。WebSocket 的设计目的是为了提高 Web 应用程序的…

软件设计师-上午题-15 计算机网络(5分)

计算机网络题号一般为66-70题&#xff0c;分值一般为5分。 目录 1 网络设备 1.1 真题 2 协议簇 2.1 真题 3 TCP和UDP 3.1 真题 4 SMTP和POP3 4.1 真题 5 ARP 5.1 真题 6 DHCP 6.1 真题 7 URL 7.1 真题 8 浏览器 8.1 真题 9 IP地址和子网掩码 9.1 真题 10 I…

C++:map 和 set 的使用

前言 平衡二叉搜索树 ( AVL树 ) 由于二叉搜索树在特殊情况下&#xff0c;其增删查的效率会降低到 O ( N )&#xff0c;因此对二叉搜索树进行改良&#xff0c;通过旋转等方式将其转换为一个左右均衡的二叉树&#xff0c;这样的树就称为平衡二叉搜索树&#xff0c;又称 AVL树。…

Vue 自定义icon组件封装SVG图标

通过自定义子组件CustomIcon.vue使用SVG图标&#xff0c;相比iconfont下载文件、重新替换更节省时间。 子组件包括&#xff1a; 1. Icons.vue 存放所有SVG图标的path 2. CustomIcon.vue 通过icon的id索引对应的图标 使用的时候需要将 <Icons></Icons> 引到使用的…

面相小白的php反序列化漏洞原理剖析

前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 本文整理反序列化漏洞的一些成因原理 建议学习反序列化之前 先对php基础语法与面向对象有个大体的了解 (我觉得我整理的比较细致&#xff0c;了解这俩是个啥就行) 漏洞实战情况 这个漏洞黑盒几乎不会被发现&am…