利用Python去除PDF水印

摘要

本文介绍了如何使用 Python 中的 PyMuPDF 和 OpenCV 库来从 PDF 文件中移除水印,并将每个页面保存为图像文件的方法。我们将深入探讨代码背后的工作原理,并提供一个简单的使用示例。

导言

  • 简介:水印在许多 PDF 文件中都很常见,但有时它们可能会干扰文档的可读性或美观性。本文将介绍一种利用 Python 编程语言移除 PDF 水印的方法。
  • 目标:本文将介绍一个使用 PyMuPDF 和 OpenCV 库的 Python 脚本,该脚本可以自动化地将 PDF 文件中(原文件)水印移除,并将每个页面保存为单独的图像文件,然后合成为新的PDF。

背景知识

  • PyMuPDF:PyMuPDF 是一个 Python 绑定库,用于与 MuPDF(一款用于解析和渲染 PDF 文件的开源软件)进行交互。
  • OpenCV:OpenCV 是一个开源计算机视觉库,提供了许多用于图像处理和计算机视觉任务的功能。

技术细节

  1. remove_watermark 函数

    • 将图像转换为 OpenCV 格式。
    • 使用颜色阈值技术寻找特定颜色范围内的水印区域。
    • 进行膨胀和侵蚀操作以改善水印去除效果。
    • 将图像转换回 PIL 格式并返回处理后的图像。
  2. remove_pdf 函数

    • 打开 PDF 文件并设置缩放因子。
    • 遍历每一页的内容,将其转换为图像格式。
    • 对每个图像应用 remove_watermark 函数,移除水印。
    • 将处理后的图像保存到指定文件夹中。

代码示例

from itertools import product
import fitz  # PyMuPDF
from PIL import Image
import numpy as np
import cv2
import osdef remove_watermark(image, lower_bound, upper_bound):# 转换为OpenCV格式open_cv_image = np.array(image)open_cv_image = cv2.cvtColor(open_cv_image, cv2.COLOR_RGB2BGR)# 寻找特定颜色范围内的区域mask = cv2.inRange(open_cv_image, lower_bound, upper_bound)# 膨胀和侵蚀操作,用于改善水印去除效果kernel = np.ones((3, 3), np.uint8)mask = cv2.dilate(mask, kernel, iterations=1)mask = cv2.erode(mask, kernel, iterations=1)open_cv_image[mask != 0] = [255, 255, 255]# 转换回PIL格式return Image.fromarray(cv2.cvtColor(open_cv_image, cv2.COLOR_BGR2RGB))def remove_pdf(pdf_file, output_folder, dpi=1800):if not os.path.exists(output_folder):os.makedirs(output_folder)zoom = dpi / 72  # 计算缩放因子mat = fitz.Matrix(zoom, zoom)  # 创建缩放矩阵pdf = fitz.open(pdf_file)for page_num, page in enumerate(pdf):pixmap = page.get_pixmap(matrix=mat)  # 使用缩放矩阵提高DPIimg = Image.frombytes("RGB", [pixmap.width, pixmap.height], pixmap.samples)# 定义水印颜色的上下界(需要根据实际情况调整)lower_bound = np.array([168, 168, 168])upper_bound = np.array([172, 172, 172])# 去除水印img = remove_watermark(img, lower_bound, upper_bound)img_path = os.path.join(output_folder, f"{page_num}.png")img.save(img_path, format="PNG")print(f"第{page_num}页水印去除完成")pdf.close()# 使用示例pdf_path = input("请输入 PDF 地址:")
output_path = input("请输入保存处理后的图片的文件夹地址:")
remove_pdf(pdf_path, output_path)

使用示例

  • 输入要处理的 PDF 文件路径和输出文件夹路径。
  • 脚本将自动将水印从 PDF 中移除,并将处理后的图像保存到指定文件夹中。

 对比前后

去除前

去除后

结论

  • 本文介绍了一种使用 Python 编程语言移除 PDF 文件中水印的方法,通过结合 PyMuPDF 和 OpenCV 库,我们可以轻松地实现这一目标。
  • 通过调整代码中的参数,可以适应不同类型和样式的水印,从而提高水印移除的准确性和效率。

展望

  • 未来可以进一步优化代码,提高水印移除的速度和稳定性。
  • 进一步研究和探索 PDF 处理技术,拓展其在文档处理领域的应用。

参考资料

  • PyMuPDF 官方文档:链接
  • OpenCV 官方文档:链接
  • Python 官方文档:链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/331896.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

自建公式,VBA在Excel中轻松获取反义词

自建公式,VBA在Excel中轻松获取反义词 文章目录 前言一、爬取网站数据二、代码1.创建数据发送及返回方法2.汉字转UTF8编码2.获取反义词 三、运行效果截图 前言 小学语文中,近义词、反义词是必考内容之一。家长不能随时辅导怎么办?有VBA&…

脚注:书籍的小秘密,躲藏在脚注间

脚注:书籍的小秘密,躲藏在脚注间 脚注是一种在文本中提供补充信息、引用出处或注解的方式,有助于读者更全面地理解文中内容,并为进一步研究提供参考和跳转点。 在一书本中,脚注是额外提供给读者的文字信息&#xff0…

自动化您的任务——crewAI 初学者教程

今天,我写这篇文章是为了分享您开始使用一个非常流行的多智能体框架所需了解的所有信息:crewAI。 我将在这里或那里跳过一些内容,使本教程成为一个精炼的教程,概述帮助您入门的关键概念和要点 今天,我写这篇文章是为了…

RedHat9 | DNS剖析-配置主DNS服务器实例

一、实验环境 1、BIND软件包介绍 BIND软件是一款开放源码的DNS服务器软件,由美国加州大学Berkeley分校开发和维护,全称为Berkeley Internet Name Domain。该软件在DNS(域名系统)领域具有重要地位,是目前世界上使用最…

[数组查找]1.图解线性查找及其代码实现

线性查找 线性查找是一种在数组中查找数据的算法。与二分查找不同,即便数据没有按顺序存储,也可以应用线性查找。线性查找的操作很简单,只要在数组中从头开始依次往下查找即可。虽然存储的数据类型没有限制,但为了便于理解&#x…

stm32学习-流水灯

接线 注意:LED灯长一点的引脚是正极。 配置GPIO 1.使用RCC开启GPIO时钟 void RCC_AHBPeriphClockCmd(uint32_t RCC_AHBPeriph, FunctionalState NewState); void RCC_APB2PeriphClockCmd(uint32_t RCC_APB2Periph, FunctionalState NewState); void RCC_APB1Perip…

【credit_based流控机制】

credit_based流控机制 1 credit_based way1.1 Principle1.3 DFD1.4 Module1.4.1 Interface1.4.2 Code Block 在网络芯片处理大流量报文中,一般主要是两种机制:1.valid–ready反压(backpressure)机制;2.credit信用机制; credit机制…

软件设计师干货资料分享

从2月份备考,到5月份结束,满打满算四个月准备时间。在此我想提醒一句,世界上没有什么不劳而获的事情,never,只要你是一个普通人,但凡你想索取一些什么,无一例外你都需要付出,而且是踏…

Pytorch深度学习实践笔记6(b站刘二大人)

🎬个人简介:一个全栈工程师的升级之路! 📋个人专栏:pytorch深度学习 🎀CSDN主页 发狂的小花 🌄人生秘诀:学习的本质就是极致重复! 《PyTorch深度学习实践》完结合集_哔哩哔哩_bilibi…

浏览器下载文件被拦截删除-关闭实时保护

关键字: 下载、拦截、删除、杀毒、浏览器、病毒、激活、序列号、keygen、KMS、不安全、Windows Defender Win10关闭实时保护功能的方法 浏览器下载的文件被系统删除,下载失败 问题描述 由于系统原因,下载文件已被删除(edge&…

【python】python 全国5A级景区数据采集与pyecharts可视化(源码+数据+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉公众号👈:测试开发自动化【获取源码商业合作】 👉荣__誉👈:阿里云博客专家博主、5…

vue深度选择器(:deep​)

处于 scoped 样式中的选择器如果想要做更“深度”的选择&#xff0c;也即&#xff1a;影响到子组件&#xff0c;可以使用 :deep() 这个伪类&#xff1a; <style lang"scss" scoped> .evaluation-situation-details :deep .cl-icon-arrow-right {display: none…

基于Matplotlib包实现可视化①——折线图绘制

Matplotlib 是一个用于创建静态、动画、 和交互式可视化的第三方库&#xff0c;也是我们在借助Python进行数据可视化时经常使用到的库&#xff0c;具有较强的可视化能力。 为让大家有一个更为直观的认识&#xff0c;这里我随机从其官方网页中摘取了几张图片。 按照惯例&#x…

Halcon 极坐标转换图像

一、概述 先看效果 将圆形的用极坐标转换成矩性然后再进行识别或者其他缺陷检测&#xff0c;最后在还圆到原图中 二、原理&#xff1a; halcon 圆环类缺陷检测的一种方法&#xff08;极坐标变换法&#xff09;_halcon缺口检测-CSDN博客 图像极坐标变换与反变换&#xff08;…

YOLOv8改进 | 图像去噪篇 | 单阶段盲真实图像去噪网络RIDNet辅助YOLOv8图像去噪(全网独家首发)

一、本文介绍 本文给大家带来的改进机制是单阶段盲真实图像去噪网络RIDNet,RIDNet(Real Image Denoising with Feature Attention)是一个用于真实图像去噪的卷积神经网络(CNN),旨在解决现有去噪方法在处理真实噪声图像时性能受限的问题。通过单阶段结构和特征注意机制,…

[MySQL数据库] Java的JDBC编程(MySQL数据库基础操作完结)

&#x1f338;个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 &#x1f3f5;️热门专栏:&#x1f355; Collection与数据结构 (91平均质量分)https://blog.csdn.net/2301_80050796/category_12621348.html?spm1001.2014.3001.5482 &#x1f9c0;Java …

6.Redis之String命令

1.String类型基本介绍 redis 所有的 key 都是字符串, value 的类型是存在差异的~~ 一般来说,redis 遇到乱码问题的概率更小~~ Redis 中的字符串,直接就是按照二进制数据的方式存储的. (不会做任何的编码转换【讲 mysql 的时候,知道 mysql 默认的字符集, 是拉丁文,插入中文…

VMware创建虚拟机

1.自定义 2.选择硬件兼容性 3.创建一个空白硬盘 4.选择操作系统和版本 5.设置虚拟机名称以及安装位置 6.处理器配置 7.设置虚拟机内存 8.设置网络类型 8.选择IO控制器 9.选择磁盘类型 10.创建一个新硬盘 11.设置磁盘容量以及磁盘个数 12.设置磁盘文件名称(默认) 13.点击完成创建…

IDEA快速生成类注释和方法注释的方法

1.生成类、接口、枚举、注解等文件的注释&#xff0c;不仅仅是class 2.生成方法注释的 可在方法上方空行输入/** 按enter键快速生成。生成的样式如下&#xff1a; PS:生成的返回值带一堆英文文字说明&#xff0c;感觉没必要 如果想生成比较全面的方法注释&#xff0c;如作者&…

子线程无法访问父线程中通过ThreadLocal设置的变量

一、引出结论 学习过ThreadLocal的童鞋都知道&#xff0c;在子线程中&#xff0c;是无法访问父线程通过ThreadLocal设置的变量的。 package thread;/*** author heyunlin* version 1.0*/ public class ThreadLocalExample {public static void main(String[] args) throws In…