java实现解析pdf格式发票

为了减少用户工作量及误操作的可能性,需要实现用户上传PDF格式的发票,系统通过解析PDF文件获取发票内容,并直接将其写入表单。以下文章记录了功能实现的代码。

发票样式

在这里插入图片描述

发票内容解析

引用Maven

使用pdfbox

<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.24</version> <!-- 请检查最新版本 -->
</dependency>

获取PDF内容

设置 sortByPosition 为 true 可以按文本位置提取内容,否则获取到的内容错乱,无法获取到真正需要的内容

    @RequestMapping("uploadReceiptsTest")@ResponseBodypublic Map<String,String> uploadReceiptsTest() throws Exception{String filePath = "D:/apache-tomcat-8.5.98/webapps/tspspic/发票文件/24372000000145100092.pdf"; // 保存路径PDDocument document = PDDocument.load(new File(filePath));PDFTextStripper pdfStripper = new PDFTextStripper();// 排序文本行按其位置pdfStripper.setSortByPosition(true);String text = pdfStripper.getText(document);document.close();Map<String, String> map = pdfStr(text);return map;}

文本内容(部分内容以*替代)

public static void main(String[] args) {String invoiceInfo = "电子发票(普通发票) 发票号码:******\n" +"开票日期:******\n" +"购 名称:****** 销 名称:******\n" +"买 售\n" +"方 方\n" +"信 统一社会信用代码/纳税人识别号:****** 信 统一社会信用代码/纳税人识别号:******\n" +"息 息\n" +"项目名称 规格型号 单 位 数 量 单 价 金 额 税率/征收率 税 额\n" +"******* 100ml:5g 袋 800 4.070796 3256.64 13% 423.36\n" +"******\n" +"合 计 ¥3256.64 ¥423.36\n" +"价税合计(大写) 叁仟陆佰捌拾圆整 (小写)¥3680.00\n" +"批号:******/ 生产日期:2024-05-15/ 有效期至:2026-04-30/ 含税单价:4.6000/ 生产厂家:******/ 批准文号:******/\n" +"备 注\n" +"开票人:王宁\n" +"王宁";

解析文件内容,返回数据

初版测试
    public Map<String,String> pdfStr(String invoiceInfo) {//因解析出的括号不确定为中文还是英文,统一替换为英文字符invoiceInfo = invoiceInfo.replaceAll("(","(").replaceAll(")",")");// 定义正则表达式模式Pattern patternInvoiceNumber = Pattern.compile("发票号码:(\\d+)");Pattern patternInvoiceDate = Pattern.compile("开票日期:(\\d{4}年\\d{1,2}月\\d{1,2}日)");Pattern patternBuyerName = Pattern.compile("购 名称:(.+?) 销 名称:(.+?)\n");//由上图可以发现“项目名称 规格型号 单 位 数 量 单 价 金 额 税率/征收率 税 额”所需要的内容在下一行数据,使用笨方法直接获取“税额与合计”之间的数据通过之后的空格分割进行获取数据Pattern patternItemDetails = Pattern.compile("税 额\\s+(.*?)合 计", Pattern.DOTALL);Pattern patternTotal = Pattern.compile("\\(小写\\)¥(\\d+(\\.\\d+)?)");Pattern patternBatchNumber = Pattern.compile("批号:(.+?)/");Pattern patternProductionDate = Pattern.compile("生产日期:(\\d{4}-\\d{1,2}-\\d{1,2})/");Pattern patternExpirationDate = Pattern.compile("有效期至:(\\d{4}-\\d{1,2}-\\d{1,2})/");Pattern patternTaxIncludedPrice = Pattern.compile("含税单价:(\\d+(\\.\\d+)?)");Pattern patternManufacturer = Pattern.compile("生产厂家:(.+?)/");Pattern patternApprovalNumber = Pattern.compile("批准文号:(.+?)/");Pattern patternIssuer = Pattern.compile("开票人:(.+)");// 创建Matcher对象Matcher matcherInvoiceNumber = patternInvoiceNumber.matcher(invoiceInfo);Matcher matcherInvoiceDate = patternInvoiceDate.matcher(invoiceInfo);Matcher matcherBuyerName = patternBuyerName.matcher(invoiceInfo);Matcher matcherItemDetails = patternItemDetails.matcher(invoiceInfo);Matcher matcherTotal = patternTotal.matcher(invoiceInfo);Matcher matcherBatchNumber = patternBatchNumber.matcher(invoiceInfo);Matcher matcherProductionDate = patternProductionDate.matcher(invoiceInfo);Matcher matcherExpirationDate = patternExpirationDate.matcher(invoiceInfo);Matcher matcherTaxIncludedPrice = patternTaxIncludedPrice.matcher(invoiceInfo);Matcher matcherManufacturer = patternManufacturer.matcher(invoiceInfo);Matcher matcherApprovalNumber = patternApprovalNumber.matcher(invoiceInfo);Matcher matcherIssuer = patternIssuer.matcher(invoiceInfo);// 提取数据String invoiceNumber = "";String invoiceDate = "";String buyerName = "";String sellerName = "";String productName = "";String specification = "";String unit = "";int quantity = 0;double unitPrice = 0.0;double amount = 0.0;String taxRate = "";double taxAmount = 0.0;double total = 0.0;String batchNumber = "";String productionDate = "";String expirationDate = "";double taxIncludedPrice = 0.0;String manufacturer = "";String approvalNumber = "";String issuer = "";if (matcherInvoiceNumber.find()) {invoiceNumber = matcherInvoiceNumber.group(1);}if (matcherInvoiceDate.find()) {invoiceDate = matcherInvoiceDate.group(1);}if (matcherBuyerName.find()) {buyerName = matcherBuyerName.group(1);sellerName = matcherBuyerName.group(2);}// 处理项目名称、规格型号、单位、数量、单价、金额、税率/征收率、税额if (matcherItemDetails.find()) {String itemDetailsLine = matcherItemDetails.group(1).trim();itemDetailsLine = itemDetailsLine.replace("\n"," ");String[] details = itemDetailsLine.split(" "); // 按空格分割if (details.length >= 8) { // 确保有足够的字段//因部分名称过长,换行数据解析到最后进行拼接productName = details[0].trim(); // 项目名称if (details.length >= 9){productName = details[0].trim()+details[8].trim(); // 项目名称}specification = details[1].trim(); // 规格型号unit = details[2].trim(); // 单位quantity = Integer.parseInt(details[3].trim()); // 数量unitPrice = Double.parseDouble(details[4].trim()); // 单价amount = Double.parseDouble(details[5].trim()); // 金额taxRate = details[6].trim(); // 税率/征收率taxAmount = Double.parseDouble(details[7].trim()); // 税额System.out.println("项目名称: " + productName);System.out.println("规格型号: " + specification);System.out.println("单位: " + unit);System.out.println("数量: " + quantity);System.out.println("单价: " + unitPrice);System.out.println("金额: " + amount);System.out.println("税率/征收率: " + taxRate);System.out.println("税额: " + taxAmount);}}if (matcherTotal.find()) {total = Double.parseDouble(matcherTotal.group(1));}if (matcherBatchNumber.find()) {batchNumber = matcherBatchNumber.group(1);}if (matcherProductionDate.find()) {productionDate = matcherProductionDate.group(1);}if (matcherExpirationDate.find()) {expirationDate = matcherExpirationDate.group(1);}if (matcherTaxIncludedPrice.find()) {taxIncludedPrice = Double.parseDouble(matcherTaxIncludedPrice.group(1));}if (matcherManufacturer.find()) {manufacturer = matcherManufacturer.group(1);}if (matcherApprovalNumber.find()) {approvalNumber = matcherApprovalNumber.group(1);}if (matcherIssuer.find()) {issuer = matcherIssuer.group(1);}// 输出其他结果System.out.println("发票号码: " + invoiceNumber);System.out.println("开票日期: " + invoiceDate);System.out.println("购买方名称: " + buyerName);System.out.println("销售方名称: " + sellerName);System.out.println("价税合计: " + total);System.out.println("批号: " + batchNumber);System.out.println("生产日期: " + productionDate);System.out.println("有效期至: " + expirationDate);System.out.println("含税单价: " + taxIncludedPrice);System.out.println("生产厂家: " + manufacturer);System.out.println("批准文号: " + approvalNumber);System.out.println("开票人: " + issuer);}
优化代码
  • Map存储正则表达式:将所有正则表达式模式和对应的字段名称存储在一个Map中,遍历Map并执行匹配,从而避免了为每个字段都写单独的匹配代码。

  • 抽取通用逻辑:将匹配逻辑抽象成一个通用方法,简化了代码结构,减少了重复代码。

  • 处理商品详情:在匹配完itemDetails后,再拆分字符串并填充对应的字段。

    public static Map<String, String> pdfStr(String invoiceInfo) {invoiceInfo = invoiceInfo.replaceAll("(", "(").replaceAll(")", ")");// 定义正则表达式模式Map<String, String> patterns = new HashMap<>();patterns.put("invoiceNumber", "发票号码:(\\d+)");patterns.put("invoiceDate", "开票日期:(\\d{4}年\\d{1,2}月\\d{1,2}日)");patterns.put("buyerName", "购 名称:(.+?) 销 名称:(.+?)\n");patterns.put("itemDetails", "税 额\\s+(.*?)合 计");patterns.put("total", "\\(小写\\)¥(\\d+(\\.\\d+)?)");patterns.put("batchNumber", "批号:(.+?)/");patterns.put("productionDate", "生产日期:(\\d{4}-\\d{1,2}-\\d{1,2})/");patterns.put("expirationDate", "有效期至:(\\d{4}-\\d{1,2}-\\d{1,2})/");patterns.put("taxIncludedPrice", "含税单价:(\\d+(\\.\\d+)?)");patterns.put("manufacturer", "生产厂家:(.+?)/");patterns.put("approvalNumber", "批准文号:(.+?)/");patterns.put("issuer", "开票人:(.+)");// 提取数据Map<String, String> result = new HashMap<>();for (Map.Entry<String, String> entry : patterns.entrySet()) {Pattern pattern = Pattern.compile(entry.getValue(), Pattern.DOTALL);Matcher matcher = pattern.matcher(invoiceInfo);if (matcher.find()) {result.put(entry.getKey(), matcher.group(1).trim());}}// 处理项目名称、规格型号、单位、数量、单价、金额、税率/征收率、税额if (result.containsKey("itemDetails")) {String[] details = result.get("itemDetails").replace("\n", " ").split(" ");if (details.length >= 8) {result.put("productName", details[0].trim() + (details.length > 8 ? details[8].trim() : ""));result.put("specification", details[1].trim());result.put("unit", details[2].trim());result.put("quantity", details[3].trim());result.put("unitPrice", details[4].trim());result.put("amount", details[5].trim());result.put("taxRate", details[6].trim());result.put("taxAmount", details[7].trim());}}// 打印结果for (Map.Entry<String, String> entry : result.entrySet()) {System.out.println(entry.getKey() + ": " + entry.getValue());}return result;}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/397903.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot - 在Spring Boot中实现灵活的API版本控制(下)_ 封装场景启动器Starter

文章目录 Pre设计思路ApiVersion 功能特性使用示例配置示例 ProjectStarter Code自定义注解 ApiVersion配置属性类用于管理API版本自动配置基于Spring MVC的API版本控制实现WebMvcRegistrations接口&#xff0c;用于自定义WebMvc的注册逻辑扩展RequestMappingHandlerMapping的类…

前端CSS画图形

我以前一直很好奇&#xff0c;这些下拉菜单中的小箭头是怎么实现的&#xff0c;直到我看到了进阶的CSS。 OK&#xff0c;let me tell you hao to do. 想要实现这个效果&#xff0c;方法很多&#xff0c;我知道的就两个&#xff1a; 图片作弊法&#xff0c;CSS妙用法 图片作弊…

uni-app 开发App时调用uni-push 实现在线系统消息推送通知 保姆教程

一、引言 在开发App时避免不了需要推送系统通知&#xff0c;以提高用户的使用体验。在自己的一个工具型的小app上全流程接入了uni-push2.0的推送能力&#xff0c;做个记录&#xff0c;以防后期需要用到。在阅读本教程前最好先看看官方文档&#xff0c;结合官方文档使用&#xf…

下载免费设计素材,有这7个网站就够了

7个免费设计素材网站&#xff0c;这些网站提供了大量的免费资源&#xff0c;包括图片、字体、图标、模板等&#xff0c;涵盖了多种风格和主题&#xff0c;能够满足不同设计师和创作者的需求。无论是用于个人项目还是商业用途&#xff0c;这些网站都能给你提供丰富的选择&#x…

10步搞定Python爬虫从零到精通!

学习Python网络爬虫可以分为以下几个步骤&#xff0c;每一步都包括必要的细节和示例代码&#xff0c;以帮助你从零开始掌握这一技能。 第一步&#xff1a;理解网络爬虫基础 什么是网络爬虫&#xff1f; 网络爬虫是一种自动化程序,用来从互联网上收集数据.它通过发送 HTTP 请求…

【数据结构】五、树:7.哈夫曼树、哈夫曼编码

3.哈夫曼树和哈夫曼编码 文章目录 3.哈夫曼树和哈夫曼编码3.1带权路径长度3.2哈夫曼树的定义和原理3.3哈夫曼树的构造代码实现 3.4特点3.5哈夫曼编码压缩比代码实现 3.6哈夫曼树-C 3.1带权路径长度 #mermaid-svg-yeVKyVnDwvdIc5ML {font-family:"trebuchet ms",verda…

CSS 实现两边固定宽,中间自适应

0. **Flexbox 实现**&#xff1a; css复制代码.container { display: flex; } ​ .fixed { width: 200px; /* 两边固定宽度 */ } ​ .flexible { flex: 1; /* 中间自适应 */ } html复制代码<div class…

数据科学 - Sklearn库总结

1. 前言 通过上几章对数据预处理的理解&#xff0c;最后来到我们数据分析的核心之一&#xff0c;机器学习。 机器学习涵盖了许多方面&#xff0c;如若每一次处理都是通过手写代码的方式去处理我们的数据集是十分繁琐&#xff0c;复杂的。但在scikit-learn库中&#xff0c;提供…

带你彻底搞懂useLayoutEffect的使用场景

开篇第一句: useLayoutEffect 可能会影响性能。尽可能使用 useEffect。 useLayoutEffect 是 useEffect 的一个版本&#xff0c;在浏览器重新绘制屏幕之前触发。 使用方法 useLayoutEffect(setup, dependencies?)调用 useLayoutEffect 在浏览器重新绘制屏幕之前进行布局测量&…

lvs详解及实例配置

目录 1.什么是负载均衡 1.1为什么用负载均衡 1.2.负载均衡类型 1.2.1.四层负载均衡 1.2.2.七层负载均衡 1.3 四层和七层的区别 2.LVS介绍 2.1LVS 的优势与不足 2.2LVS 核心组件和专业术语 3.ipvsadm命令 4.LVS集群中的增删改 4.1.管理集群服务中的增删改 4.2.管理集…

用户态tcp协议栈四次挥手-服务端发送fin时,客户端不返回ac

问题&#xff1a; 四次挥手时&#xff0c;服务端发送fin后&#xff0c;客户端不发送ack&#xff0c;反而过了2min后发了个rst报文 62505是客户端&#xff0c;8889是服务端 解决&#xff1a; 服务端返回fin报文时带上ack标记

数据结构(邓俊辉)学习笔记】优先级队列 03——完全二叉堆:结构

文章目录 1.完全二叉树2.结构性3.形神具备4.堆序性 1.完全二叉树 在上一节我们看到&#xff0c;就优先级队列的实现方式而言&#xff0c;采用基本的向量结构并不足够&#xff0c;而采用更高级的树形结构&#xff0c;虽然完全可以高效率地实现优先级队列&#xff0c;但却有杀鸡…

Codeforces Round 961 【C. Squaring】

C. Squaring 题目大意&#xff1a; 给你一个长度为n的数组&#xff0c;求最少次操作&#xff0c;使得数组&#xff08;非严格&#xff09;递增。一次操作&#xff1a;Ai 变为 Ai^2。 不可能实现输出-1。 关键思路&#xff1a; 分子分母同时取对数&#xff0c;比值不变。 …

流量日志分析

流量分析 [陇剑杯 2021]jwt&#xff08;问1&#xff09; 要求是通过流量分析判断网站使用的认证方式 在筛选http之后&#xff0c;发现有get请求&#xff0c;要认证方式就需要看请求流量包中的token 然后查看token tokeneyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpZCI6MTAwOD…

动手学深度学习7.3 网络中的网络(NiN)-笔记练习(PyTorch)

以下内容为结合李沐老师的课程和教材补充的学习笔记&#xff0c;以及对课后练习的一些思考&#xff0c;自留回顾&#xff0c;也供同学之人交流参考。 本节课程地址&#xff1a;26 网络中的网络 NiN【动手学深度学习v2】_哔哩哔哩_bilibili 本节教材地址&#xff1a;7.3. 网络…

三层架构与解耦——IoCDI机制【后端 7】

三层架构与解耦——IoC&DI机制 在软件开发领域&#xff0c;三层架构&#xff08;Controller、Service、Dao&#xff09;是一种广泛采用的架构模式&#xff0c;它通过将应用程序分为三个主要层次来组织代码&#xff0c;旨在提高代码的可维护性、复用性和可扩展性。而解耦&am…

怎么用dos编译python

无论windos还是Linux只要安装了python&#xff0c;配置好了环境变量&#xff0c;则在命令行输入python这个命令的时候就会进入交互模式。在这个模式下可以进行一些简单的python代码编写。退出可以使用exit()方法。 Python程序是可以执行的&#xff0c;例如下面代码&#xff0c…

文心一言 VS 讯飞星火 VS chatgpt (323)-- 算法导论22.4 4题

四、证明或反证下述论断&#xff1a;如果有向图G包含环路&#xff0c;则在算法TOPOLOGICAL-SORT(G)所生成的结点序列里&#xff0c;图G中与所生成序列不一致的“坏”边的条数最少。如果要写代码&#xff0c;请用go语言。 文心一言&#xff1a; 首先&#xff0c;我们需要明确几…

春秋云镜CVE-2023-38836

打开靶场环境 点击发现一个登陆框&#xff0c;弱口令试一下 发现账号密码为admin,password 随便点击点击 Media发现这里可以上传文件上传木马试试 <?php eval($_POST["wjq"]); ?> 发现不能上传php文件 php内容 修改他的格式 抓包绕过一下 302就可以其实已经…

同态加密和SEAL库的介绍(六)BGV 方案

前面介绍 BFV 和 CKKS 加密方案&#xff0c;这两者更为常用。并且也解释了 Batch Encoder 和 级别的概念&#xff0c;这对接下来演示 BGV 会很有帮助。 一、BGV简介 BGV (Brakerski-Gentry-Vaikuntanathan) 方案 是一种基于环学习同态加密&#xff08;RLWE&#xff09;问题的加…