iText生成PDF文件

导语:

        本文基于 iText7 :7.1.16 生成。 官方文档链接:iText

        从版本入口可进入到下面页面 

一、引言

         常见生成PDF文件的有两种方法,一是先生成 word文档,然后将word转换成PDF文件;另一种则是直接生成PDF文件。

1.1.word转换PDF

1.1.1.技术介绍 

        生成Word文件并将其转换为PDF文件,可以使用多种Java库和JAR包。以下是一些常用的库和JAR包:

  1. Apache POI:这是一个用于操作Microsoft Office格式文件的Java库。你可以使用它来创建和编辑Word文档(.doc或.docx)。
  2. Spire.Doc for Java:这是一个功能强大的Java库,用于创建、编辑、转换和打印Word文档。它支持将Word文档转换为PDF格式。Spire.Doc for Java的JAR包可以直接添加到你的Java项目中。
  3. Aspose.Words for Java:Aspose.Words是一个用于处理Word文档的Java库,它提供了丰富的API来创建、编辑和转换Word文档。这个库也支持将Word文档转换为PDF。
  4. iText:虽然iText主要用于处理PDF文件,但它也可以与其他库(如Apache POI或Spire.Doc)结合使用,以实现从Word到PDF的转换。iText的JAR包可用于在Java项目中添加PDF处理功能。

        而Word到PDF转换的步骤如下所示:

  1. 生成Word文件并保存:使用Apache POI或Spire.Doc的API创建或编辑Word文档。将编辑后的Word文档保存到磁盘上的某个位置。
  2. 转换Word为PDF并保存:使用Spire.Doc或Aspose.Words的API将Word文档转换为PDF格式。这通常涉及读取Word文档、创建一个PDF文档,然后将Word文档的内容复制到PDF文档中。将转换后的PDF文档保存到磁盘上的指定位置。

 1.1.2.补充说明

        由上述说明可知,生成一次PDF文件需要保存两次,这极大的浪费了系统的内存;同时,word转换PDF有限制,只能转换少量页数,当大文件转换时,就需要进入收费阶段了。种种限制,让这种方法变得并不实用。 

1.2.iText7 生成PDF 

        iText是一个开源库,用于创建和操作PDF文件。本文则主要用 iText 7 进行测试与文件生成。pom核心jar文件: 

<!--  核心jar,用于生成PDF文件 ---><dependency><groupId>com.itextpdf</groupId><artifactId>itext7-core</artifactId><version>7.1.16</version><type>pom</type></dependency><!--  用于日志打印,可用可不用---><dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId><version>1.18.20</version><scope>compile</scope></dependency><!--  用于数据库连接,可用可不用---><dependency><groupId>org.mybatis.spring.boot</groupId><artifactId>mybatis-spring-boot-starter</artifactId><version>1.1.1</version></dependency>

二、工具类

2.1.代码示例 

import com.itextpdf.io.font.PdfEncodings;
import com.itextpdf.kernel.font.PdfFont;
import com.itextpdf.kernel.font.PdfFontFactory;
import com.itextpdf.kernel.geom.PageSize;
import com.itextpdf.kernel.pdf.PdfDocument;
import com.itextpdf.kernel.pdf.PdfWriter;
import com.itextpdf.layout.Document;
import com.itextpdf.layout.element.*;
import com.itextpdf.layout.property.HorizontalAlignment;
import com.itextpdf.layout.property.TextAlignment;
import lombok.extern.slf4j.Slf4j;
import org.springframework.stereotype.Component;
//import com.itextpdf.layout.property.UnitValue;import java.io.IOException;
import java.util.List;@Slf4j
@Component
public class PdfGenerator {public void createPdf(String fileName, String title, String titleRow, String[] headerText, List<String[]> data) throws IOException {PdfDocument pdfDoc = new PdfDocument(new PdfWriter(fileName));Document doc = new Document(pdfDoc, PageSize.A4);// 设置字体  simhei.ttf黑体  SimSun宋体PdfFont font = PdfFontFactory.createFont("simhei.ttf", PdfEncodings.IDENTITY_H, true);
//        PdfFont font = PdfFontFactory.createFont("SimSun", "UniGB-UCS2-H", false);//        String text = "文章内容";
//        if (null != text){
//            txtSet(doc,text,font);
//        }// 设置标题if (null != title){titleSet(doc,title,font);}// 创建表格int numColumns = (null == headerText) ? data.get(0).length : headerText.length;Table table = new Table(numColumns);
//        table.setWidth(UnitValue.createPercentValue(100)); // 表格宽度设置为100%  
//        table.setFixedPosition(1, 1, 1); // 设置表格在页面上的位置(可选)  if (!(null == titleRow)){titleCell(table,titleRow,headerText.length,font);     // 添加标题行}// 添加表头for (int i = 0; i < headerText.length; i++) {headerCell(table,headerText[i],font);}//添加内容for (int i = 0; i < data.size(); i++) {for (int j = 0; j < data.get(i).length; j++) {contextCell(table,data.get(i)[j],font);}}// 使用Div容器来居中表格Div div = new Div();div.setHorizontalAlignment(HorizontalAlignment.CENTER); // 设置Div水平居中div.add(table); // 将表格添加到Div中// 将Div添加到文档中doc.add(div);// 关闭文档doc.close();log.info(fileName+"Pdf文件创建成功!");}//设置文本public void txtSet(Document doc,String data,PdfFont font){Paragraph titleText = new Paragraph(data).setTextAlignment(TextAlignment.CENTER).setFont(font).setFontSize(12);doc.add(titleText);}//设置标题public void titleSet(Document doc,String data,PdfFont font){Paragraph titleText = new Paragraph(data).setTextAlignment(TextAlignment.CENTER).setFont(font).setFontSize(20);doc.add(titleText);}//设置标题行public void titleCell(Table table,String data,int col,PdfFont font){Cell headerCell = new Cell(1,col).add(new Paragraph(data).setTextAlignment(TextAlignment.CENTER).setFont(font).setFontSize(14));table.addCell(headerCell);}//设置表头public void headerCell(Table table,String data,PdfFont font){Cell cell = new Cell().add(new Paragraph(data).setTextAlignment(TextAlignment.CENTER).setFont(font).setFontSize(12));table.addCell(cell);}//设置内容public void contextCell(Table table,String data,PdfFont font){Cell cell = new Cell().add(new Paragraph(data).setTextAlignment(TextAlignment.CENTER).setFont(font).setFontSize(10));table.addCell(cell);}}

 2.2.示例解释

2.2.1.字体 

         PdfFont font = PdfFontFactory.createFont("simhei.ttf", PdfEncodings.IDENTITY_H, false);同PdfFontFactory.createFont(new File("path/to/font.ttf"), PdfEncodings.IDENTITY_H, true)。

        这行代码的主要目的是加载一个名为“simhei.ttf”的字体文件,并使用Unicode编码方式,但不将其嵌入到生成的PDF文档中。

        PdfFontFactory.createFont(): PdfFontFactory是iText库中的一个工具类,用于创建PdfFont对象。它的createFont()方法是创建新字体的主要方法。
        "simhei.ttf": 这是字体文件的路径或名称。在这个例子中,它指的是“黑体”字体的TrueType字体文件(.ttf)。你需要确保这个字体文件在你的项目路径下是可用的,或者提供完整的文件路径。该字体在网上容易下载,所以本文没有提供。实在找不到的,可以使用下面的宋体(SimSun)。字体很重要,因为个别时候会中文乱码。
        PdfEncodings.IDENTITY_H: 这是字体的编码方式。PdfEncodings.IDENTITY_H通常用于Unicode字体,确保在PDF文档中正确地表示和显示字符。
        false: 这个布尔值参数通常用于指示字体是否应该被嵌入到生成的PDF文档中。设置为false意味着字体不会被嵌入,这通常在你确定阅读PDF的客户端已经安装了该字体时是可行的。但是,为了确保最大的兼容性,通常建议将字体嵌入到PDF中,因此你可能会将这个值设置为true。

        值得一提的是,iText5 和 iText7 创建字体所用的方法不一样。

        iText5: 

BaseFont baseFont = BaseFont.createFont("path/to/simhei.ttf", 
BaseFont.IDENTITY_H, BaseFont.EMBEDDED);  
Font font = new Font(baseFont, 12);

        iText7: 

PdfFont font = PdfFontFactory.createFont("path/to/simhei.ttf", 
PdfEncodings.IDENTITY_H, true);

2.2.2.文章内容 

         “文章内容” 被注掉了,该内容本应由方法入口传入,但我这里为测试大数据生成文件,所以正文由表格组成。把注释放开,并把内容加到方法入口,该工具类使用起来就就更全面。

2.2.3. div标签的使用 

        在 iText 7 中,并没有表格居中的设置,所以如果需要表格居中,通常使用div。在iText 7中,设置表格居中通常涉及设置表格的对齐属性或者将表格放置在一个容器元素中,如Div,并设置该容器的对齐属性。

        Div元素允许您将多个内容元素(如段落、表格、图像等)组合在一起,并设置这些元素的整体属性,比如对齐方式、边距、填充等。这对于创建具有特定布局和样式的内容块非常有用。

        如果您在尝试使用Div元素时遇到问题,可能是因为您没有正确地导入相关的包或类。请确保您的项目中包含了iText 7的依赖,并且您已经导入了com.itextpdf.layout.element.Div类。

2.3.测试结果

        测试一日志打印: 

: /data/NFS/bypay\20240417\20240417_6a9c1b1b_1.pdfPdf文件创建成功!: 表格数据字节数1191974,运行时间97951ms

        测试一文件展示:(表格行数3.8W)

         测试二日志打印:

: /data/NFS/bypay\20240422\20240422_27ccb22b_1.pdfPdf文件创建成功!: 表格数据字节数3760636,运行时间917214ms

        测试二文件展示:(表格行数12W+)

        测试三日志打印:

: /data/NFS/bypay\20240407\20240407_a60bda47_1.pdfPdf文件创建成功!: 表格数据字节数4916250,运行时间1602610ms

         测试三文件展示:(表格行数17W+)

2.4.缺点分析 

        由上述示例可知,仅仅几M 大小的文件,就需要10min+来处理数据,而10M+的数据,更是用了26min+,这严重占用了系统内存,生成效率更是低下。

        第一、回顾测试工具类,发现在每添加一个单元格,都会新建一个Cell单元格对象,每个Cell里还会添加一个Paragraph段落对象,7*17W*2 ≈ 240W,这些对象都会被分配在堆内存中,因为对象实例总是存储在堆中。因此,这个操作会对堆内存造成显著影响。如果堆内存不足以容纳这么多对象,程序可能会抛出OutOfMemoryError

        第二,可以看到,每创建一个Cell,都会进行一次I/O操作,这也严重影响了系统性能。

        第三, fileName 如果涉及未创建目录,也会抛出 java.io.FileNotFoundException,所以,还需要对方法进行改造。

三、方法优化 

3.1.优化思路 

3.1.1.分块处理数据

        不要一次性加载所有数据到内存中。相反,你应该分块或分页加载数据,并为每块或每页数据创建PDF内容。这样,你可以控制内存使用,并避免因内存溢出而导致的错误。

3.1.2.使用流式API

        iText7提供了流式API,允许你逐步构建PDF文档,而不是一次性将所有内容加载到内存中。这对于处理大量数据特别有用。我上面的创建方式就是流式API,其核心思路就是:

  1. 创建Document对象:首先,你需要创建一个Document对象,它代表你要生成的PDF文档。

  2. 使用Table:在流式API中,你仍然使用Table类来创建表格,但是你会以不同的方式添加内容。

  3. 创建Cell对象:对于每个单元格,你可以创建一个Cell对象,并设置其内容和样式。

  4. 添加CellTable:然后,将单元格的Cell对象添加到Table中。

  5. Table添加到Document:最后,将表格添加到文档中。

3.1.3.优化字体和图像的使用

        如果你在PDF中使用了大量字体或图像,确保它们被有效地重用,而不是为每个页面或每个元素都加载一个新的实例。

3.1.4.减少复杂的布局和格式

        复杂的布局和格式可能会增加PDF生成的时间和内存使用。尽量使用简单的布局和格式,或考虑在必要时使用分页和表格来组织数据。

3.1.5.使用缓存

        对于重复使用的对象(如字体、颜色、样式等),考虑使用缓存来减少内存分配和垃圾收集的开销。

3.1.6.异步处理或多线程

        如果可能的话,你可以考虑使用异步处理或多线程来并行处理数据。这样,你可以同时处理多个数据项,而不是一个接一个地顺序处理。但请注意,多线程操作可能会增加代码的复杂性,并需要处理线程安全和同步问题。

3.1.7.监控和调优

        使用性能分析工具来监控你的代码,并找出可能的瓶颈。根据分析结果,对代码进行调优,以提高PDF生成的速度和效率。

3.1.8.考虑其他解决方案

        如果iText7无法满足你的性能需求,你可能需要考虑其他解决方案,如使用数据库报告工具或专门的PDF生成库(如Aspose.PDF、FOP等)。

3.1.9.升级硬件和配置

        确保你的服务器或开发机器具有足够的RAM和CPU资源来处理大量数据。根据需要调整JVM参数,如堆大小(Xmx),以优化内存使用。

3.1.10.测试和验证

        在将解决方案部署到生产环境之前,确保在测试环境中充分测试你的代码。验证生成的PDF文件的准确性和完整性,并测试在不同数据量和配置下的性能。

3.2.工具类优化

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/313754.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

改变 centos yum源 repo

centos 使用自带的 repo 源 速度慢&#xff0c;可以改为国内的&#xff0c;需要改两个地方 centos7.repo CentOS-Base.repo 首先备份/etc/yum.repos.d/CentOS-Base.repo mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup下载对应版本repo文件…

NameNode锁细粒度优化在B站的实践

1. 背景 随着业务的高速发展&#xff0c;针对HDFS元数据的访问请求量呈指数级上升。在之前的工作中&#xff0c;我们已经通过引入HDFS Federation和Router机制实现NameNode的平行扩容&#xff0c;在一定程度上满足了元数据的扩容需求&#xff1b;也通过引入Observer NameNode读…

Quarto Dashboards 教程 2:Dashboard Layout

「写在前面」 学习一个软件最好的方法就是啃它的官方文档。本着自己学习、分享他人的态度&#xff0c;分享官方文档的中文教程。软件可能随时更新&#xff0c;建议配合官方文档一起阅读。推荐先按顺序阅读往期内容&#xff1a; 1.quarto 教程 1&#xff1a;Hello, Quarto 2.qu…

C语言扫雷游戏完整实现(上)

文章目录 前言一、新建好头文件和源文件二、实现游戏菜单选择功能三、定义游戏函数四、初始化棋盘五、 打印棋盘函数六、布置雷函数七、玩家排雷菜单八、标记功能的菜单九、标记功能菜单的实现总结 前言 C语言从新建文件到游戏菜单&#xff0c;游戏函数&#xff0c;初始化棋盘…

【C语言】深入解析选择排序算法

一、算法原理二、算法性能分析三、C语言实现示例四、总结 一、算法原理 选择排序&#xff08;Selection Sort&#xff09;是一种简单直观的排序算法。它的工作原理是不断地选择剩余元素中的最小&#xff08;或最大&#xff09;元素&#xff0c;放到已排序的序列的末尾&#xff…

普乐蛙VR航天航空体验馆VR双人旋转座椅元宇宙VR飞船

多长假来袭&#xff01;&#xff01;想为门店寻找更多新鲜有趣的吸粉体验&#xff1f;想丰富景区体验&#xff1f;别着急&#xff0c;小编为你准备了一款爆款设备——时光穿梭机&#xff0c;720无死角旋转&#xff01;&#xff01;吸睛、刺激体验&#xff0c;将亲子、闺蜜、情侣…

微信小程序酒店选择日期和入住人数(有效果图)

效果图 app.vue onLaunch:function(options){this.defaultcache()}defaultcache(){// 入住信息缓存var arr this.getDateTime();var ReserVation {reservType:0,//1 人数 2日期InCheckin:{},//入离日期peopleArr:[{title:成人,num:2},{title:儿童,num:0},{title:宝子,num:1…

宁盾LDAP统一用户认证与单点登录:构建高效安全的企业身份认证

在信息化时代&#xff0c;企业面临着众多的应用系统和数据资源&#xff0c;如何有效地管理和保护这些资源&#xff0c;确保信息安全和高效利用&#xff0c;成为了企业信息化建设的核心问题。LDAP统一用户认证和单点登录&#xff08;SSO&#xff09;作为一种高效、安全的身份验证…

全开源小狐狸Ai系统 小狐狸ai付费创作系统 ChatGPT智能机器人2.7.6免授权版

内容目录 一、详细介绍二、效果展示1.部分代码2.效果图展示 三、学习资料下载 一、详细介绍 测试环境&#xff1a;Linux系统CentOS7.6、宝塔、PHP7.4、MySQL5.6&#xff0c;根目录public&#xff0c;伪静态thinkPHP&#xff0c;开启ssl证书 具有文章改写、广告营销文案、编程…

一个java项目中,如何使用sse协议,构造一个chatgpt的流式对话接口

前言 如何注册chatGPT&#xff0c;怎么和它交互&#xff0c;本文就不讲了&#xff1b;因为网上教程一大堆&#xff0c;而且你要使用的话&#xff0c;通常会再包一个算法服务&#xff0c;用来做一些数据训练和过滤处理之类的&#xff0c;业务服务基本不会直接与原生chatGPT交互。…

Git操作与异常处理

文章目录 常用操作1、代码拉取2、代码提交3、暂存区状态4、提交代码5、推送远程仓库 异常处理【1】报错信息&#xff1a;Cannot pull into a repository with state: MERGING【2】报错信息&#xff1a;You have not concluded your merge (MERGE_HEAD exists)【3】报错信息&…

BGP的基本概念和工作原理

AS的由来 l Autonomous System 自治系统&#xff0c;为了便于管理规模不断扩大的网络&#xff0c;将网络划分为不同的AS l 不同AS通过AS号区分&#xff0c;AS号取值范围1&#xff0d;65535&#xff0c;其中64512&#xff0d;65535是私有AS号 l IANA机构负责AS号的分发 AS之…

NumPy简单学习(需要结合书本)

NumPy简单学习&#xff08;需要结合书本&#xff1a;Python数据分析与应用&#xff09; 文章目录 NumPy简单学习&#xff08;需要结合书本&#xff1a;Python数据分析与应用&#xff09;前言导库&#xff1a; 一、大概内容1.掌握NumPy数组对象ndarray&#xff08;1&#xff09;…

Excel 公式的定义、语法和应用(LOOKUP 函数、HLOOKUP 函数、VLOOKUP 函数;MODE.MULT 函数; ROUND 函数)

一、公式的定义和语法 二、公式的应用 附录 查找Excel公式使用方法的官方工具【强烈推荐&#xff01;&#xff01;&#xff01;】&#xff1a;Excel 函数&#xff08;按字母顺序&#xff09;【微软官网】 excel 函数说明语法LOOKUP 函数在向量或数组中查找值LOOKUP(lookup_va…

Linux-文件系统

1. 物理结构 计算机的存储硬件有很多&#xff0c;这里讲磁盘。 磁盘的物理结构大致分为&#xff1a; 磁盘&#xff08;数据存储&#xff09;磁头音圈马达主轴 所有的数据都存储在磁盘上&#xff0c;磁盘有很多片&#xff0c;每一个面都有对应的磁头来对数据进行更改 磁头是…

轻松处理文件名,告别重复命名烦恼!一键覆盖复制操作,让文件管理更高效!

我们每天都在与大量的文件打交道。从工作文档到生活照片&#xff0c;从学习资料到娱乐视频&#xff0c;每一个文件都承载着我们的记忆和辛勤付出。然而&#xff0c;随着文件数量的不断增加&#xff0c;文件名冲突、重复命名等问题也愈发突出&#xff0c;给我们的文件管理带来了…

Python:解析pyserial串口通讯

简介&#xff1a;串行接口简称串口&#xff0c;也称串行通信接口或串行通讯接口&#xff08;通常指COM接口&#xff09;&#xff0c;是采用串行通信方式的扩展接口。串行接口 &#xff08;Serial Interface&#xff09;是指数据一位一位地顺序传送。其特点是通信线路简单&#…

DC-DC电源芯片规格书上的各种参数详解

1.输出电压精确度 输出电压的精确度,也被称为设定点精度,它描述了输出电压的允许误差。该参数通常是在常温,满载和额定输入电压的条件下测得的,它是这样定义的: 输出电压之所以产生误差,是因为元器件本身存在误差,特别是输出端的分压电阻,它将输出电压降低后比PWM比较…

【白盒测试】单元测试的理论基础及用例设计技术(6种)详解

目录 &#x1f31e;前言 &#x1f3de;️1. 单元测试的理论基础 &#x1f30a;1.1 单元测试是什么 &#x1f30a;1.2 单元测试的好处 &#x1f30a;1.3 单元测试的要求 &#x1f30a;1.4 测试框架-Junit4的介绍 &#x1f30a;1.5 单元测试为什么要mock &#x1f3de;️…

BGP配置和应用案例

策略路由的配置步骤 l 策略路由的配置步骤如下&#xff1a; 创建route-map 通过ACL匹配感兴趣的数据&#xff0c;定义策略动作 在指定接口下通过ip policy 命令应用route-map l 最终实现对通过该接口进入设备的数据进行检查&#xff0c;对匹配的数据执行规定的策略…