aspose通过开始和结束位置关键词截取word另存为新文件

 关键词匹配实体类:

@Data
@EqualsAndHashCode(callSuper = false)
public class TextConfig implements Serializable {private static final long serialVersionUID = 1L;/*** 开始关键词,多个逗号分隔*/private String textStart ;/*** 结束关键词,多个逗号分隔*/private String textEnd ;/*** 包含关键词,多个逗号分隔*/private String textInclude ;/*** 不包含关键词,多个逗号分隔*/private String textExclude ;}
import com.aspose.words.*;
import lombok.Data;
import lombok.EqualsAndHashCode;
import lombok.SneakyThrows;
import lombok.extern.slf4j.Slf4j;
import org.apache.commons.io.FileUtils;
import java.io.*;
import java.nio.charset.StandardCharsets;
import java.util.List;
import java.util.*;@EqualsAndHashCode(callSuper = false)
@Slf4j
@Data
public class WordResolve extends Document {/*** 查找文本类型另存为word* @param filePathName  文件保存路径* @param copyFirst     是否复制关键词开始节点* @param copyLast      是否复制关键词结束节点*/@SneakyThrowspublic File findBetweenFile(TextConfig textConfig, String filePathName, boolean copyFirst, boolean copyLast) {List<Paragraph> paragraphs = getAllParagraph();Integer[] sec = findBetweenIndex(textConfig,getAllText());if(sec == null){return null;}Document doc = new Document();Body body = doc.getFirstSection().getBody();body.removeAllChildren();NodeImporter importer = new NodeImporter(this, doc, ImportFormatMode.KEEP_SOURCE_FORMATTING);Paragraph first = paragraphs.get(sec[0]);Paragraph last = paragraphs.get(sec[1]);List<CompositeNode<?>> parentNodes = new ArrayList<>(20);boolean startCopying = false;//读取文档的所有节点NodeCollection<?> allNodeList = this.getChildNodes(NodeType.ANY, true);for (int i = 0, j = allNodeList.getCount(); i < j; i++) {Node node = allNodeList.get(i);try{if (node == first) {startCopying = true;if(!copyFirst){continue;}}if (node == last && !copyLast) {// 到达结束节点后停止复制break;}if (startCopying) {boolean append = true;for (CompositeNode<?> parentNode : parentNodes) {NodeCollection<?> childNodes = parentNode.getChildNodes(node.getNodeType(), true);if(childNodes.contains(node)){append = false;break;}}if(append){try{body.appendChild(importer.importNode(node, true));}catch (Exception e){log.error("插入节点出错:{}",e.getMessage());//ignore}}}if (node == last) {// 到达结束节点后停止复制break;}}finally {if(startCopying && node.isComposite()){CompositeNode<?> compositeNode = (CompositeNode<?>) node;if(!parentNodes.contains(compositeNode)){parentNodes.add(compositeNode);}}}}File file = FileUtils.getFile(filePathName);doc.save(filePathName);return file;}/*** 查找文本类型解析规则的开始结束段落索引* @param   strings word全部段落,每个段落的文本*/public Integer[] findBetweenIndex(TextConfig textConfig, List<String> strings){String textStart = textConfig.getTextStart();String textEnd = textConfig.getTextEnd();//规定开始关键词必须包含哪些文字,多个逗号分隔(作为附加判断,可为空)textInclude = StringUtil.defaultString(textConfig.getTextInclude(), "").replace(",", "");//规定结束关键词必须不包含哪些文字,多个逗号分隔(作为附加判断,可为空)textExclude = StringUtil.defaultString(textConfig.getTextExclude(), "").replace(",", "");String[] in = StringUtil.isBlank(textInclude) ? null : textInclude.split(",");String[] out = StringUtil.isBlank(textExclude) ? null : textExclude.split(",");//满足开始位置和结束位置的全部关键词索引List<Integer> startArr = new ArrayList<>();List<Integer> endArr = new ArrayList<>();for (int i = 0; i < strings.size(); i++) {String text = strings.get(i);if (text.contains(textStart)) {startArr.add(i);}if (text.contains(textEnd)) {endArr.add(i);}}//进行包含和非包含的判断过滤if(!startArr.isEmpty() && !endArr.isEmpty()){for (Integer start : startArr) {for (Integer end : endArr) {//中间至少隔了一个段落if(start + 1 < end){StringJoiner jo = new StringJoiner("\n");for (int i = start + 1; i < end; i++) {jo.add(strings.get(i));}String word = jo.toString();boolean match = true;if(in != null){for (String s : in) {if(!word.contains(s)){match = false;break;}}}if(match && out != null){for (String s : out) {if(word.contains(s)){match = false;break;}}}if(match){return new Integer[]{start,end};}}}}}return null;}/*** 拿到文档全部段落文本*/public List<String> getAllText(){List<String> strings = new ArrayList<>();getAllParagraph().forEach(a-> strings.add(StringTool.safeToString(a.getText(), "")));return strings;}/*** 拿到文档全部段落*/public List<Paragraph> getAllParagraph(){if(allParagraph == null){allParagraph = findNodeByType(NodeType.PARAGRAPH, Paragraph.class);}return allParagraph;}
}

使用方式:

word文档内容如下:

要截取标题三和标题四之间的内容,生成新的word,代码如下:

public class Test {public static void main(String[] args) throws Exception{//验证license//new AsposeLicense().validate();//读取word文件WordResolve word = new WordResolve(new File("C:\\Users\\zhou\\Desktop\\测试.docx"));TextConfig detail = new TextConfig();detail.setTextStart("poi导出大数据量问题、写入速度慢");detail.setTextEnd("国密验签失败");File betweenFile = word.findBetweenFile(detail, "C:\\Users\\zhou\\Desktop\\betweenFile.docx", false, false);System.out.println(betweenFile);}}

 截取保存的文件如下:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/232262.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Gitee

Gitee码云 0. 笔记说明1. Gitee概述2. Gitee和GitHub3. 创建Git远程仓库4. 分享已有项目到Gitee5. 文件恢复和合并6. 文件push或pull冲突7. 添加项目成员 0. 笔记说明 该笔记以IDEA 2023专业版进行操作需提前注册好个人gitee账号安装好IDEA的相关gitee插件或者安装Git Bash软件…

算法训练day60|单调栈part0

参考&#xff1a;代码随想录 84.柱状图中最大的矩形 要求当前柱形的左右两边第一个比他小的位置 对于高度为5的柱子&#xff08;index为2&#xff09; mid 他的左边第一个比他小的柱子为1&#xff0c;index为1 left 他的右边第一个比他小的柱子高度为2&#xff0c;index为4…

玩转贝启科技BQ3588C开源鸿蒙系统开发板 —— 编译构建及此过程中的踩坑填坑(1)

接前一篇文章&#xff1a;玩转贝启科技BQ3588C开源鸿蒙系统开发板 —— 代码下载&#xff08;2&#xff09; 本文主要参考&#xff1a; BQ3588C_代码下载 上一回完成了代码下载&#xff0c;本回开始进行编译构建。 1. 编译构建 &#xff08;1&#xff09;执行prebuilts 在源…

万字长文谈自动驾驶bev感知(一)

文章目录 prologuepaper listcamera bev :1. Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D2. M2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Birds-Eye View Representation3. BEVDet: High-Pe…

计算机网络期末复习——计算大题(一)

个人名片&#xff1a; &#x1f981;作者简介&#xff1a;一名喜欢分享和记录学习的在校大学生 &#x1f42f;个人主页&#xff1a;妄北y &#x1f427;个人QQ&#xff1a;2061314755 &#x1f43b;个人邮箱&#xff1a;2061314755qq.com &#x1f989;个人WeChat&#xff1a;V…

SpringCloud微服务架构,适合接私(附源码)

一个由商业级项目升级优化而来的微服务架构&#xff0c;采用SpringBoot 2.7 、SpringCloud 等核心技术构建&#xff0c;提供基于React和Vue的两个前端框架用于快速搭建企业级的SaaS多租户微服务平台。 架构图 项目介绍 用户权益 仅允许免费用于学习、毕设、公司项目、私活等。…

dotdotdot插件快速实现多行文本的省略

jQuery.dotdotdot 前言 在“css新增文本样式&#xff08;完整&#xff09;”这篇&#xff0c;我们介绍了text-overflow属性省略多余的文本。用text-overflow属性可以直接省略单行文本&#xff0c;但省略多行文本&#xff0c;单独使用CSS是无法实现&#xff0c;今天我们介绍一…

海外分支访问国内服务器系统慢怎么办?

在全球业务不断扩张的今天&#xff0c;企业面临着海外分支访问国内总部服务器系统慢的问题。为了解决这一挑战&#xff0c;我们引入了lxway全球系统专网产品&#xff0c;为企业提供高效、安全的全球网络连接方案。通过解析技术瓶颈和专网的优势&#xff0c;本文将揭示如何借助先…

imgaug库指南(五):从入门到精通的【图像增强】之旅

引言 在深度学习和计算机视觉的世界里&#xff0c;数据是模型训练的基石&#xff0c;其质量与数量直接影响着模型的性能。然而&#xff0c;获取大量高质量的标注数据往往需要耗费大量的时间和资源。正因如此&#xff0c;数据增强技术应运而生&#xff0c;成为了解决这一问题的…

手机上连网络转接app,电脑连接手机,共用网络转接app的办法

方法一&#xff0c;&#xff08;不推荐&#xff09; 因为太简单了所以写一下 电脑安装MuMu模拟器&#xff0c;之后安装网络转接app&#xff0c;这个模拟器设置了从电脑上安装app和&#xff0c;安卓与电脑同步文件夹功能&#xff0c;实现文件共享。所以直接用就可以了。 方法二…

CP_AutoSar目录

目录 一、RTE二、模式和状态管理三、BSW四、工具链相关五、杂项六、优化相关 一些笔记和日常记录。有部分未包含在此目录中。 一、RTE [AutoSar]基础部分 RTE 01 介绍 [AutoSar]基础部分 RTE 02 S/R Port 显式/隐式 [AutoSar]基础部分 RTE 03 C/S Port 同步/异步 [AutoSar]基…

5.vue学习笔记(数组变化的侦测+计算属性+Class绑定)

文章目录 1.数组变化的侦测1.1.变更方法1.2.替换一个数组 2.计算属性计算属性缓存vs方法 3.Class绑定3.1.绑定对象3.2.多个对象的绑定形式3.3.绑定数组3.4.数组与对象 1.数组变化的侦测 1.1.变更方法 vue能够侦听响应式数组的变更方法&#xff0c;并在它们被调用时出发相关的…

私有云平台搭建openstack和ceph结合搭建手册

OpenStack与云计算 什么是云&#xff1f; 如何正确理解云&#xff0c;可以从以下几个方面。 云的构成。 用户&#xff1a;对用户而言是透明无感知的&#xff0c;不用关心底层构成&#xff0c;只需要知道利用云完成自己任务即可。 云提供商&#xff1a;对云资产管理和运维。 云…

深度学习|3.6 激活函数 3.7 为什么需要非线性激活函数

激活函数 主要有sigmoid函数、tanh函数、relu函数和leaky relu函数 tanh函数相比sigmoid函数是具有优势的&#xff0c;因为tanh函数使得输出值的平均值为0&#xff0c;而sigmoid函数使得输出值的平均值为1/2&#xff0c;对下一层来说tanh输出的0更好进行处理。 激活函数tanh…

UICollection Compositional Layout全详解

本文字数&#xff1a;8325字 预计阅读时间&#xff1a;45分钟 01 Collection View Layout全详解 UICollectionView在iOS中是构建复杂布局的强大工具。iOS13中引入的 UICollectionViewCompositionalLayout为创建自定义布局提供了全新的可能性。本文将深入探讨Compositional Lay…

ES6的默认参数和rest参数

✨ 专栏介绍 在现代Web开发中&#xff0c;JavaScript已经成为了不可或缺的一部分。它不仅可以为网页增加交互性和动态性&#xff0c;还可以在后端开发中使用Node.js构建高效的服务器端应用程序。作为一种灵活且易学的脚本语言&#xff0c;JavaScript具有广泛的应用场景&#x…

第14课 利用openCV快速数豆豆

除了检测运动&#xff0c;openCV还能做许多有趣且实用的事情。其实openCV和FFmpeg一样都是宝藏开源项目&#xff0c;貌似简单的几行代码功能实现背后其实是复杂的算法在支撑。有志于深入学习的同学可以在入门后进一步研究算法的实现&#xff0c;一定会受益匪浅。 这节课&#…

从零学Java - 接口

Java 接口 文章目录 Java 接口1.接口的语法1.1 与抽象类的区别 2.如何使用接口?2.1 接口的使用规范 3.什么是接口?3.1 常见关系 4.接口的多态性5.面向接口编程5.1 接口回调 6.特殊接口6.1 常量接口6.2 标记接口 7.接口的好处 补充面向对象 七大设计原则 1.接口的语法 接口&a…

数字IC后端实现之Innovus TA-152错误解析(分频generated clock定义错误)

**ERROR: (TA-152): A latency path from the ‘Fall’ edge of the master clock at source pin… Error Code TA-152 在数字IC后端实现innovus中我们经常会看到这类Error&#xff0c;具体信息如下所示。 Error Message **ERROR: (TA-152): A latency path from the ‘Fa…

Linux的基本指令(5)

目录 bc指令 uname指令 压缩解压相关的指令 zip指令 unzip指令 tar打包压缩指令 tar解压解包指令 ​编辑​编辑sz&rz 热键 关机命令 安装&#xff1a;yum install -y 指令 bc指令 bc命令可以很方便的进行浮点运算 Linux中的计算器 uname指令 语法&#xff1a;un…