PDF与PDF/A的区别及如何使用Python实现它们之间的相互转换

目录

概述

PDF/A 是什么?与 PDF 有何不同?

用于实现 PDF 与 PDF/A 相互转换的 Python 库

Python 实现 PDF 转 PDF/A

将 PDF 转换为 PDF/A-1a

将 PDF 转换为 PDF/A-1b

将 PDF 转换为 PDF/A-2a

将 PDF 转换为 PDF/A-2b

将 PDF 转换为 PDF/A-3a

将 PDF 转换为 PDF/A-3b

Python 实现 PDF/A 转 PDF

Python 判断 PDF 是否是 PDF/A格式


概述

本文将详细介绍 PDF 与 PDF/A 的区别,并提供在 Python 中实现 PDF 与 PDF/A 相互转换的具体方法。同时,还将探讨如何在 Python 中判断 PDF文档是否是 PDF/A 格式并获取其具体的合规级别。

  • PDF/A 是什么?与 PDF 有何不同?
  • 用于实现PDF 与 PDF/A相互转换的 Python 库
  • Python 实现 PDF 转 PDF/A
  • Python 实现 PDF/A 转 PDF
  • Python 判断 PDF 是否是 PDF/A格式

PDF/A 是什么?与 PDF 有何不同?

PDF/A 是一种专为电子文档的长期存档和保存设计的 PDF 格式。与常规 PDF 不同,PDF/A 对某些功能进行了限制,确保文档不依赖外部资源,即使在未来的技术环境中也能被完整再现。这种格式的主要特点包括:

  1. 禁止外部内容依赖
    PDF/A 不允许链接外部资源,如字体、音频、视频或加密数据。这确保了文档的所有内容完全嵌入文件内部,避免因外部资源丢失或变化而导致内容显示异常。
  2. 嵌入必要信息
    文档所需的字体、颜色配置文件等都会被嵌入文件中,从而确保无论在任何设备或软件中打开,都能准确呈现原始内容。

简而言之,PDF/A 是一种确保文档内容完整性的标准,特别适合用于长期保存和存档。常规 PDF 则更适合日常的共享、打印或编辑,但在内容长期保存和兼容性方面可能存在不确定性。

用于实现 PDF 与 PDF/A 相互转换的 Python 库

在Python中,可以使用 Spire.PDF for Python 库来实现 PDF 和 PDF/A 格式之间的转换。该库提供了丰富的功能,可在 Python 应用中创建、读取、编辑和转换 PDF 文档。

安装方法

在使用前,需要通过以下命令安装 Spire.PDF for Python:

pip install Spire.Pdf

Python 实现 PDF 转 PDF/A

将 PDF 转换为 PDF/A只需要以下两个步骤:

  1. 打开 PDF 文档:使用 PdfStandardsConverter 类打开需要转换的 PDF 文件。
  2. 转换为所需的 PDF/A 格式:选择 PdfStandardsConverter 类的适当方法,将文档转换为特定的 PDF/A 格式。

实现代码

以下是将 PDF 文档转换为不同 PDF/A 格式的实现代码。

将 PDF 转换为 PDF/A-1a

from spire.pdf.common import *
from spire.pdf import *# 打开 PDF 文件
converter = PdfStandardsConverter("测试.pdf")# 转换为 PDF/A-1a
converter.ToPdfA1A("PdfA1a.pdf")
converter.Dispose()

将 PDF 转换为 PDF/A-1b

from spire.pdf.common import *
from spire.pdf import *converter = PdfStandardsConverter("测试.pdf")
# 转换为 PDF/A-1b
converter.ToPdfA1B("PdfA1b.pdf")
converter.Dispose()

将 PDF 转换为 PDF/A-2a

from spire.pdf.common import *
from spire.pdf import *# 打开 PDF 文件
converter = PdfStandardsConverter("测试.pdf")
# 转换为 PDF/A-2a
converter.ToPdfA2A("PdfA2a.pdf")
converter.Dispose()

将 PDF 转换为 PDF/A-2b

from spire.pdf.common import *
from spire.pdf import *# 打开 PDF 文件
converter = PdfStandardsConverter("测试.pdf")
# 转换为 PDF/A-2b
converter.ToPdfA2B("PdfA2b.pdf")
converter.Dispose()

将 PDF 转换为 PDF/A-3a

from spire.pdf.common import *
from spire.pdf import *# 打开 PDF 文件
converter = PdfStandardsConverter("测试.pdf")
# 转换为 PDF/A-3a
converter.ToPdfA3A("PdfA3a.pdf")
converter.Dispose()

将 PDF 转换为 PDF/A-3b

from spire.pdf.common import *
from spire.pdf import *# 打开 PDF 文件
converter = PdfStandardsConverter("测试.pdf")
# 转换为 PDF/A-3b
converter.ToPdfA3B("PdfA3b.pdf")
converter.Dispose()

转换后的 PDF/A 文档均可在 Adobe Acrobat 中成功通过PDF/A规范验证,如下图所示:

Python PDF转PDF/A

Python 实现 PDF/A 转 PDF

虽然 PDF/A 是存档的理想格式,但有时还是需要将文档还原为常规 PDF,以便进行编辑、添加交互元素或加密等操作。

以下是将 PDF/A 转换为常规 PDF的实现代码:

from spire.pdf.common import *
from spire.pdf import *# 加载 PDF/A 文档
pdf = PdfDocument("PdfA1A.pdf")# 创建常规 PDF 文档
new_pdf = PdfNewDocument()
new_pdf.CompressionLevel = PdfCompressionLevel.none# 遍历 PDF/A 的每一页
for i in range(pdf.Pages.Count):page = pdf.Pages.get_Item(i)size = page.Size# 添加空白页面new_page = new_pdf.Pages.Add(size, PdfMargins(0.0))# 将原始页面内容复制到新页面page.CreateTemplate().Draw(new_page, 0.0, 0.0)# 保存为常规 PDF
new_pdf.SaveToFile("常规PDF.pdf")
new_pdf.Close(True)

Python 判断 PDF 是否是 PDF/A格式

Spire.PDF 提供了 PdfDocument.Conformance 属性,用于判断 PDF 文档是否是 PDF/A 格式,此外还支持获取其具体的合规级别。如果该属性返回的是none,表示该PDF文档是常规PDF,如果返回具体级别,如Pdf_A1A,表明该PDF是PDF/A-1a格式。

以下是判断PDF是否是PDF/A格式并获取其具体级别的实现代码:

from spire.pdf.common import *
from spire.pdf import *# 打开 PDF 文档
pdf = PdfDocument("ToPdfA1A.pdf")# 获取文档的 PDF/A级别
conformance_level = pdf.Conformance
print(conformance_level.name)
pdf.Close()

Python 判断PDF是否是PDF/A格式

以上就是关于PDF与PDF/A之间的区别,以及如何使用Python实现它们之间的相互转换的全部内容。感谢阅读!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/483175.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【设计模式系列】备忘录模式(十九)

目录 一、什么是备忘录模式 二、备忘录模式的角色 三、备忘录模式的典型应用场景 四、备忘录模式在Calendar中的应用 一、什么是备忘录模式 备忘录模式(Memento Pattern)是一种行为型设计模式,它允许在不暴露对象内部状态的情况下保存和恢…

window 下用Ollama 开发一个简单文档问答系统

文档问答系统 本系统利用先进的语言模型和检索技术,为用户提供基于上传文件内容的问答服务。支持多种文件格式,包括 Word、PDF、CSV、SQL 和 TXT 文件。 功能介绍 文件上传 用户可以同时上传多个文件。支持的文件类型包括:.doc, .docx, .…

全国296个地级市平均房价数据(2000-2022年)

全国296个地级市平均房价数据(2000-2022年),包括面板数据和截面数据 点击下载 1、数据来源:安居客、房天下、房价行情网等住房交易网页整理 2、时间跨度:2000-2022年 3、区域范围:全国296个地级市 4、缺失说明:西…

贴片式内存卡 ​SD NAND​

SD NAND FLASH 贴片式SD卡 贴片式t卡 存储芯片 1. 什么是贴片式内存卡 贴片式内存卡是指一种将内存芯片直接贴装在电路板上的内存卡类型。与传统的插针式内存卡(如SD卡、MicroSD卡)不同,贴片式内存卡通常不具有外部引脚或接口,而…

C—操作符易错点

strlen与sizeof strlen求的是大小,包含“\0” strlen求的是,长度不包括“\0” 注意:空格也算一个字符 操作符“/”(除法) 对于除法操作符来说,两边都是整数,那么就是整数除法 如果想计算出小数&#x…

基于PyTorch框架的线性回归实现指南

目录 ​编辑 1. 线性回归基础 2. PyTorch环境搭建 3. 数据准备 4. 定义线性回归模型 5. 损失函数和优化器 6. 训练模型 7. 评估模型 8. 结论 线性回归是统计学和机器学习中最基本的预测模型之一,它试图找到输入特征和输出结果之间的线性关系。在深度学习框…

R语言机器学习论文(六):总结

文章目录 介绍参考文献介绍 本文采用R语言对来自进行数据描述、数据预处理、特征筛选和模型构建。 最后我们获得了一个能有效区分乳腺组织的随机森林预测模型,它的性能非常好,这意味着它可能拥有非常好的临床价值。 在本文中,我们利用R语言对来自美国加州大学欧文分校的B…

基于Java Springboot校园导航微信小程序

一、作品包含 源码数据库设计文档万字PPT全套环境和工具资源部署教程 二、项目技术 前端技术:Html、Css、Js、Vue、Element-ui 数据库:MySQL 后端技术:Java、Spring Boot、MyBatis 三、运行环境 开发工具:IDEA/eclipse微信开发…

面试题-RocketMQ的基本架构、支持的消息模式、如何保证消息的可靠传输

相关问题 1、RocketMQ的基本架构是怎样的?请简述各组件的作用。 2、RocketMQ支持哪几种消息模式(如点对点、发布/订阅)?请简要说明它们的区别。 3、如何使用Java客户端实现一个简单的消息生产者和消费者? 4、RocketMQ…

WPF+LibVLC开发播放器-LibVLC在C#中的使用

使用WPFLibVLC快速 开发一个播放器 安装包Nuget 安装下面两个包,必须安装两个 一个是相关框架对应的包,Winform就安装LibVLCSharp.Winform;WPF就安装LibVLCSharp.WPF,以此类推,他们都默认依赖LibVLCSharp,不需要例外安装 一个是…

CSS变量用法及实践

目录 一、基本用法 1.1、定义变量 1.2、使用变量 1.3 、修改变量的值 二、命名规范 2.1、使用有意义的名称 2.2、使用命名空间 三、变量值类型 3.1、如果变量值是一个字符串,可以与其他字符串拼接,例如: 3.2、 如果变量值是数值&a…

WEB开发: 丢掉包袱,拥抱ASP.NET CORE!

今天的 Web 开发可以说进入了一个全新的时代,前后端分离、云原生、微服务等等一系列现代技术架构应运而生。在这个背景下,作为开发者,你一定希望找到一个高效、灵活、易于扩展且具有良好性能的框架。那么,ASP.NET Core 显然是一个…

【汇编语言】标志寄存器(一) —— 标志寄存器中的标志位:ZF、PF、SF、CF、OF 一网打尽

前言 📌 汇编语言是很多相关课程(如数据结构、操作系统、微机原理)的重要基础。但仅仅从课程的角度出发就太片面了,其实学习汇编语言可以深入理解计算机底层工作原理,提升代码效率,尤其在嵌入式系统和性能优…

纯Go语言开发人脸检测、瞳孔/眼睛定位与面部特征检测插件-助力GoFly快速开发框架

前言​ 开发纯go插件的原因是因为目前 Go 生态系统中几乎所有现有的人脸检测解决方案都是纯粹绑定到一些 C/C 库,如 ​​OpenCV​​ 或 ​​​dlib​​​,但通过 ​​​cgo​​​ 调用 C 程序会引入巨大的延迟,并在性能方面产生显著的权衡。…

2、Three.js初步认识场景Scene、相机Camera、渲染器Renderer三要素

三要素之间关系: 有了虚拟场景Scene,相机录像Camera,在相机小屏幕上看到的Renderer Scene当前空间 Mesh人在场景 Camera相机录像 Renderer显示器上 首先先描述下Scene: 这个场景为三要素之一,一切需要展示的东西都需…

电子电气架构 --- 车载网关GW连接外部IP Tester

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 所谓鸡汤,要么蛊惑你认命,要么怂恿你拼命,但都是回避问题的根源,以现象替代逻辑,以情绪代替思考,把消极接受现实的懦弱,伪装成乐观面对不幸的…

防火墙iptables

一、概述 1.1相关概念 入侵监测系统 在互联网访问的过程中,不阻断任何网络访问,也不会定位网络的威胁,提供告警和事后的监督,类似于监控。 入侵防御系统 透明工作模式,在判定为攻击行为或者是病毒威胁时&#xff0c…

Android Camera2采集并编码为H.264

前言 本篇博文主要讲述的是基于Android原生MediaCodec通过Camera2 API进行图像数据采集并编码为H.264的实现过程,如果对此感兴趣的不妨驻足观看,也欢迎大家大家对本文中描述不当或者不正确的地方进行指正。如果对于Camera2预览还不熟悉的可以观看博主上…

【ROS2】Ubuntu22.04安装ROS humble

一. ROS简介 1.1 什么是ROS ROS 是一个适用于机器人的开源的元操作系统。它提供了操作系统应有的服务,包括硬件抽象,底层设备控制,常用函数的实现,进程间消息传递,以及包管理。ROS的核心思想就是将机器人的软件功能做…

Redis开发05:使用stackexchange.redis库对redis进行增删改查

一、安装第三方库 二、官网 StackExchange.Redis |通用型 redis 客户端 三、连接示例 private static string redisConnectionString "localhost:6379,passwordyourpassword,defaultDatabase0,allowAdmintrue,asyncTimeout10000";private static string redisConn…