Apache PDFBox 是一个开源的 Java 库,用于处理 PDF 文档。它提供了一系列强大的功能,包括创建、渲染、拆分、合并、加密、解密 PDF 文件,以及从 PDF 中提取文本和元数据等。PDFBox 支持 PDF 1.7 标准,并且兼容大多数现代 PDF 格式和特性。
1、使用 Maven 集成 PDFBox
在 pom.xml 文件中引入依赖
<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.24</version> <!-- 请检查最新的版本 -->
</dependency>
2、编写工具类
package cn.iocoder.yudao.module.contract.service.content;import com.fasterxml.jackson.databind.ObjectMapper;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDPageContentStream;
import org.apache.pdfbox.pdmodel.common.PDRectangle;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;
import org.apache.pdfbox.rendering.PDFRenderer;
import org.springframework.http.ResponseEntity;import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.ByteArrayInputStream;
import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Base64;
import java.util.List;public class PDFBoxUtil {/*** 加载 PDF 文档*/public static PDDocument loadPdf(byte[] input) throws IOException {return PDDocument.load(input);}/*** 添加印章到 PDF 文档中** @param document PDF 文档对象* @param imageByteArray 印章图像的二进制数据* @param x 横坐标* @param y 纵坐标* @param h 高度* @param pageIdx 页码* @throws IOException 异常*/public static void addStampToPdf(PDDocument document, byte[] imageByteArray, int x, int y, int h, int pageIdx) throws IOException {// 加载签章图像PDImageXObject pdImage = PDImageXObject.createFromByteArray(document, imageByteArray, "签章");// 获取 PDF 文档的第一个页面PDPage page = document.getPage(pageIdx);// 计算签章图像的尺寸float desiredHeight = h; // 目标高度float scale = desiredHeight / pdImage.getHeight();// 创建一个内容流以添加签章try (PDPageContentStream contentStream = new PDPageContentStream(document, page, PDPageContentStream.AppendMode.APPEND, true, true)) {// 在 PDF 页面上绘制签章图像contentStream.drawImage(pdImage, x, y, pdImage.getWidth() * scale, pdImage.getHeight() * scale);}// 可选:也可以向 PDF 添加一个签名字段
// addSignatureField(document);}/*** 将 BufferedImage 转换为字节数组** @param image 要转换的图像* @return 字节数组*/private static byte[] imageToBytes(BufferedImage image) {try (ByteArrayOutputStream os = new ByteArrayOutputStream()) {ImageIO.write(image, "png", os);return os.toByteArray();} catch (IOException e) {throw new RuntimeException("Failed to convert image to bytes", e);}}/*** 裁剪图像** @param image 要裁剪的图像* @param page PDF 页面* @param x 开始裁剪的横坐标* @param y 开始裁剪的纵坐标* @param w 需要裁剪的宽度* @param h 需要裁剪的高度* @return 裁剪后的图片*/private static BufferedImage cropImage(BufferedImage image, PDPage page, int x, int y, int w, int h) {PDRectangle mediaBox = PDRectangle.A4; // 使用默认的 A4 大小// 将 PDF 单位转换为图像坐标int width = (int) (mediaBox.getWidth() * (image.getWidth() / page.getMediaBox().getWidth()));int height = (int) (mediaBox.getHeight() * (image.getHeight() / page.getMediaBox().getHeight()));// 裁剪图像return image.getSubimage(x, y, width - w, height - h);}/*** 将 PDF 转换为多个图片** @param pdfBytes PDF 二进制数据* @param dpi DPI 值* @return 裁剪后的图片列表* @throws IOException 异常*/public static List<byte[]> convertPdfToImages(byte[] pdfBytes, int numberOfPages, int dpi, int x, int y, int w, int h) throws IOException {List<byte[]> croppedImages = new ArrayList<>();try (PDDocument document = PDDocument.load(new ByteArrayInputStream(pdfBytes))) {PDFRenderer renderer = new PDFRenderer(document);if (numberOfPages == 0) {numberOfPages = document.getNumberOfPages();}for (int i = 0; i < numberOfPages; i++) {// 渲染页面BufferedImage image = renderer.renderImageWithDPI(i, dpi); // 300 DPI// 裁剪图像BufferedImage croppedImage = cropImage(image, document.getPage(i), x, y, w, h);byte[] croppedImageBytes = imageToBytes(croppedImage);croppedImages.add(croppedImageBytes);}}return croppedImages;}/*** 将 PDF 转换为 Base64 编码的 JSON** @param fileContent PDF 二进制数据* @param x 开始裁剪的横坐标* @param y 开始裁剪的纵坐标* @param w 需要裁剪的宽度* @param h 需要裁剪的高度* @return Base64 编码的 JSON* @throws Exception 异常*/public static ResponseEntity<String> convertPdfToBase64(byte[] fileContent, int x, int y, int w, int h) throws Exception {List<byte[]> imageBytesList = convertPdfToImages(fileContent, 0, 300, x, y, w, h);List<String> base64Images = new ArrayList<>();for (byte[] imageBytes : imageBytesList) {String base64Image = Base64.getEncoder().encodeToString(imageBytes);base64Images.add(base64Image);}ObjectMapper mapper = new ObjectMapper();String jsonResult = mapper.writeValueAsString(base64Images);return ResponseEntity.ok().body(jsonResult);}
}
3、编写控制器用于浏览器直接打开
第五步会编写控制器用于在 VUE 前端预览 PDF 文件
/*** 测试添加数字签名** @param filename 文件名* @param x x坐标* @param y y坐标* @param h 高度* @param i 宽度*/@GetMapping("/stamp/{filename}/p")@Parameter(name = "x", description = "添加签名的 x 坐标", required = true, example = "x")@Parameter(name = "y", description = "添加签名的 y 坐标", required = true, example = "y")@Parameter(name = "h", description = "签名的显示高度", required = true, example = "h")@Parameter(name = "i", description = "签名所在页数下标", required = true, example = "i")public ResponseEntity<ByteArrayResource> stampTest(@PathVariable String filename, @RequestParam("x") Integer x, @RequestParam("y") Integer y,@RequestParam("h") Integer h, @RequestParam("i") Integer i) throws Exception {// 从数据库中获取文件内容,这里需要修改为你们自己的获取方式来获取源 PDF 文件的字节数组byte[] fileContent = fileApi.getFileContent(4L, filename);ByteArrayOutputStream out = new ByteArrayOutputStream();// 添加数字签名try (PDDocument document = PDFBoxUtil.loadPdf(fileContent)) {// 这里需要修改为你们自己的获取方式来获取签名文件的字节数组byte[] imageByteArray = fileApi.getFileContent(4L, "2c095928083c5ee82e6e229089892191d7790a3a42616dfd5a49daae68c27f41.png");PDFBoxUtil.addStampToPdf(document, imageByteArray, x, y, h, i);document.save(out);} catch (IOException e) {e.printStackTrace();}// 创建 ByteArrayResourceByteArrayResource resource = new ByteArrayResource(out.toByteArray());return ResponseEntity.ok().header(HttpHeaders.CONTENT_DISPOSITION, "inline; filename=\"" + filename + "\"").contentType(MediaType.APPLICATION_PDF).body(resource);}
4、浏览器测试
直接打开连接http://IP:端口/你们自己的控制器前缀/stamp/文件名/p?x=100&y=200&h=80&i=1进行测试
5、编写控制器用于在 VUE 前端预览 PDF 文件
我这边在预览的时候不想保留边距、页眉、页脚的数据,所以有裁剪参数,不需要的话需要自行修改
/*** 根据合约名称获取合约 PDF 文件,并返回图片的 Base64 编码** @param filename合约标识* @return 图片的 Base64 编码*/@GetMapping(value = "/get/{filename}", produces = MediaType.IMAGE_PNG_VALUE)@Parameter(name = "x", description = "每一页开始裁剪的 x 横坐标", required = true, example = "x")@Parameter(name = "y", description = "每一页开始裁剪的 y 纵坐标", required = true, example = "y")@Parameter(name = "h", description = "每一页需要裁剪掉的高度 h", required = true, example = "h")@Parameter(name = "w", description = "每一个需要裁剪掉的宽度 w", required = true, example = "w")public ResponseEntity<String> getPageImage(@PathVariable String filename, @RequestParam("x") int x, @RequestParam("y") int y,@RequestParam("h") int h, @RequestParam("w") int w) {// 从数据库中获取文件内容,这里需要修改为你们自己的获取方式来获取源 PDF 文件的字节数组byte[] fileContent = fileApi.getFileContent(4L, filename);try {return PDFBoxUtil.convertPdfToBase64(fileContent, x, y, w, h);} catch (IOException e) {throw new RuntimeException("获取 PDF 文件截图异常", e);} catch (Exception e) {throw new RuntimeException("读取 PDF 文件异常", e);}}
6、编写 VUE 代码
<template><Dialog :title="dialogTitle" v-model="dialogVisible"><div v-if="formLoading">{{message}}</div><div id="pdf-container"></div></Dialog>
</template>
<script setup lang="ts">defineOptions({ name: 'ContentWXPreview' })const dialogVisible = ref(false) // 弹窗的是否展示
const dialogTitle = ref('') // 弹窗的标题
const formLoading = ref(false) // 表单的加载中
const message = ref('数据正在加载请稍后 ... ...')/** 打开弹窗 */
const open = async (title: string, code: string) => {dialogVisible.value = truedialogTitle.value = title + '_预览'formLoading.value = truetry {fetch('http://IP:端口/你们自己的控制器前缀/stamp/文件名/p?x=250&y=188&w=520&h=385', {method: 'GET',headers: {'Content-Type': 'application/octet-stream'}}).then(response => response.text()).then(base64Images => {const container = document.getElementById('pdf-container')if (container) {container.innerHTML = '' // 清空容器const images = JSON.parse(base64Images)images.forEach(base64Image => {let img = document.createElement('img')img.src = `data:image/png;base64,${base64Image}`container.appendChild(img)})}formLoading.value = false})} finally {formLoading.value = false}
}
defineExpose({ open }) // 提供 open 方法,用于打开弹窗
</script><style lang="scss">
#pdf-container {display: flex;flex-direction: column;align-items: center;
}#pdf-container > img {max-width: 100%;
}
</style>
7、预览显示
扩展:虽然 PDFBox 很强大,但是在读取文件、文件识别、文字替换等方面使用起来不是特别方便,需要有一定的学习成本。对于我这边偶尔开发 PDF 文档处理半路子来说太难了,所以会在SpringBoot 集成 SpirePDF 实现文本替换-CSDN博客中说明如何使用 Spider.PDF 进行文本替换