java文本比较解决方案

参考资料

VBA计算页码和行号icon-default.png?t=N7T8https://learn.microsoft.com/zh-cn/office/vba/api/word.wdinformation


概述:

最近在做word文档对比的,总结了几种解决方案,记录一下

在java中,常用的文本对比方案有如下几种:

差异比较工具小部分修改合理性大片段修改合理性修改部分定位便捷性容错度
java-diff
beyondCompare
WPS
git

总结:

  • git/jgit 适用于整个段落的增删改,但是对段落内部的细节处理捕捉欠佳,如果一整段话仅仅修改了一个字,那么也会认为是段落的替换;
  •  WPS的比较 适用于细节字符的增删改,但是对大片段落的增删改捕捉欠佳, 如果是一段话替换成了另一段话,那么不会被识别为段落的替换,而是找到里面的相似部分,表现为内部某些字符的增删改;
  • 建议两种插件结合着使用,可以使用字符串相似度等插件,来做到取长补短的效果

具体介绍:

如果对比的word,可以使用VBA进行解析,见本人的VBA系列文章,这里就不做赘述。

1.java-diff

        java-diff-utils网上教程其实很多,这里是一个例子

2. beyondCompare

        beyondCompare是一款PC版的文件对比工具,或许可以尝试用VBA来进行调用,参考文章:

  • Jacob调用Windows桌面软件(Adobe系列,CAD,ABBYY FineReader 等)

3. WPS

        WPS有word对比功能,在Word软件中的审阅→比较选项

可以使用VBA来使用此功能,参照文档,

下面是一段jacob代码

package com.example.worddemo.test.jacob;import com.example.worddemo.test.jacob.enums.FileMacroEnum;
import com.example.worddemo.utils.IdUtil;
import com.jacob.activeX.ActiveXComponent;
import com.jacob.com.ComThread;
import com.jacob.com.Dispatch;
import com.jacob.com.Variant;/*** @program: word-demo* @description: 文档对比  最简单方式的文档对比方式* @author: wjl* @create: 2024-03-26 14:36**/
public class CompareDocuments {// 这里需要根据当前环境安装的是 MicroSoft Office还是WPS来选择// 如果安装的是WPS,则需要使用 KWPS.Application// 如果安装的是微软的 Office,需要使用 Word.Applicationprivate static final String MS_OFFICE_APPLICATION = "Word.Application";private static final String WPS_OFFICE_APPLICATION = "KWPS.Application";public static void main(String[] args) {ComThread.InitSTA();  // 初始化 COM 线程FileMacroEnum macroEnum = FileMacroEnum.WORD_2003_DOC;String targetPath = "D:\\"+ IdUtil.upper()+macroEnum.getSuffix();String sourceWordPath =  "D:\\3.doc";String targetWordPath =  "D:\\3 - 1.doc";try {ActiveXComponent app = new ActiveXComponent( WPS_OFFICE_APPLICATION);app.setProperty("Visible", new Variant(false));Dispatch docs = app.getProperty("Documents").toDispatch();Dispatch sourceDoc = Dispatch.invoke(docs, "Open", Dispatch.Method, new Object[] {sourceWordPath, new Variant(false), new Variant(true)} , new int[1]).toDispatch(); //打開word文檔Dispatch targetDoc = Dispatch.invoke(docs, "Open", Dispatch.Method, new Object[] {targetWordPath, new Variant(false), new Variant(true)} , new int[1]).toDispatch(); //打開word文檔// 然后进行比较  只填写必须的 其他的使用默认值Dispatch compareDoc = app.invoke("CompareDocuments", new Variant(sourceDoc), new Variant(targetDoc)).toDispatch();// 然后将 比较后的文档进行保存Dispatch.call(compareDoc, "SaveAs", targetPath, macroEnum.getMacro());Dispatch.call(compareDoc, "Close", false);Dispatch.call(sourceDoc, "Close", false);Dispatch.call(targetDoc, "Close", false);app.invoke("Quit",0);}catch (Exception e) {e.printStackTrace();}finally {ComThread.Release();  // 释放 COM 线程}System.out.println("转换后的文件路径为:"+targetPath);}
}

4.git

java使用Git功能,可以使用Jgit插件,参照本人文档

5.总结

  • 如果两个文档只是细枝末节的差异,没有大段落的差异,使用WPS比较即可
  • 如果只有大段落的增删,建议使用Jgit
  • 如果两者都有,建议WPS和Jgit结合着使用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/379895.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构--二叉树收尾

目录 1.二叉树的销毁 2.层序遍历 2.1深度优先搜索 2.1.1满(完全)二叉树引入 2.1.2什么是广度优先搜索 2.2广度优先搜索 2.2.1基本思路 2.2.2代码解析 3.完全二叉树的判断 3.1思路分析 3.2原理剖析 3.3代码分析 4.逆推二叉树结构 1.二叉树的销…

惠海H5112A降压恒流芯片IC 60V72V80V100V转24V36V48V多路共阳输出景观LED点光源

H5112A是一款外围电路简单的多功能平均电流型LED恒流驱动器,适用于5-90V电压范围的非隔离式大功率恒流LED驱动领域。芯片采用了平均电流模式控制,输出电流精度在士3%;输出电流对输入输出电压以及电感不敏感;芯片内部集成了环路补偿,外围电路更…

网络编程-TCP 协议的三次握手和四次挥手做了什么

TCP 协议概述 1. TCP 协议简介 TCP(Transmission Control Protocol,传输控制协议)是一种面向连接的、可靠的、基于字节流的传输层通信协议。 TCP 协议提供可靠的通信服务,通过校验和、序列号、确认应答、重传等机制保证数据传输…

自动化测试高级控件交互方法:TouchAction、触屏操作、点按,双击,滑动,手势解锁!

在自动化测试领域中,TouchAction 是一种非常强大的工具,它允许我们模拟用户在设备屏幕上的各种触摸事件。这种模拟不仅限于简单的点击操作,还包括滑动、长按、多点触控等复杂的手势。 点按与双击 点按和双击是触屏设备上最基本的操作之一。…

【AMD/Xilinx】FPGA远程烧录调试工具安装及使用

问题描述 在学习工作中,本人遇到了连接FPGA的服务器电脑没有Vivado或Vivado版本较低,导致没办法查看ila的情况。在这种情况下一方面重新安装Vivado需要占用大量存储空间,另一方面使用远程桌面软件连接服务器电脑的画质较为模糊,影…

走进数组的奇妙之旅

引言: 在前几篇文章中,我们深入探讨了函数的奥秘。在讲述函数知识的过程中,我们邂逅了一个新的概念,你或许还记得在演示 strcpy函数时,出现的这行代码:char1[20]{0};。当时,你是否感到好奇&…

PHP萌宠之家微信小程序系统源码

🐾萌宠之家微信小程序🐾 —— 铲屎官们的温馨小窝✨ 🏠【一键开启萌宠乐园】🏠 亲们,是不是每次刷手机都忍不住想看看那些软萌可爱的毛孩子?现在,有了“萌宠之家”微信小程序,你的…

通信流程:https【SSL/TLS】,git仓库【https/SSH】,蓝牙【面对面快传/AirDrop】

目录 HTTPS HTTP(80端口) SSL/TLS协议(传输层,443端口) 密文传输:SSL的后续版本TLS TLS1.2握手 1.摘要算法(散列函数 Hash Function):验证信息的完整性,不可逆 第三方认证 引…

数据结构之初始二叉树(2)

找往期文章包括但不限于本期文章中不懂的知识点: 个人主页:我要学编程(ಥ_ಥ)-CSDN博客 所属专栏:数据结构(Java版) 二叉树的前置知识(概念、性质、、遍历) 通过上篇文章的学习,我们…

iOS——MRC与ARC以及自动释放池深入底层学习

MRC与ARC再回顾 在前面,我们简单学了MRC与ARC。MRC指手动内存管理,需要开发者使用retain、release等手动管理对象的引用计数,确保对象在必要时被释放。ARC指自动内存管理,由编译器自动管理对象的引用计数,开发者不需要…

如何用EXCEL自动解方程/方程组?利用 矩阵乘法X=A-*B,X=mmult(minverse(A), B)

目录 问题的由来 1 数据 → 模拟分析 → 单变量求解 1.1 找一个单元格填入公式 1.2 功能入口 1.3 选择单变量求解,分别填入内容 1.4 求解 1.5 这个感觉用处不大 2 重点介绍,用EXCEL进行矩阵运算解方程的操作 2.1 运用EXCEL进行矩阵运算&…

Sentinel-1 Level 1数据处理的详细算法定义(四)

《Sentinel-1 Level 1数据处理的详细算法定义》文档定义和描述了Sentinel-1实现的Level 1处理算法和方程,以便生成Level 1产品。这些算法适用于Sentinel-1的Stripmap、Interferometric Wide-swath (IW)、Extra-wide-swath (EW)和Wave模式。 今天介绍的内容如下: Sentinel-1 L…

操作系统内核源码杂谈篇:临界区

临界资源,是指同一时刻只能由一个线程(linux下为进程)访问的资源,而临界区就是为了确保临界资源访问是单一数据流。 临界区的代码执行,也就是进行原子操作,不会被打断。 先分析RTOS的运行架构&#xff0c…

人工智能算法工程师(高级)课程1-单类目标识别之人脸检测识别技术MTCNN模型介绍与代码详解

大家好,我是微学AI,今天给大家介绍一下人工智能算法工程师(高级)课程1-单类目标识别之人脸检测识别技术MTCNN模型介绍与代码详解。本文深入探讨了基于PyTorch的人脸检测与识别技术,详细介绍了MTCNN模型、Siamese network以及center loss、sof…

qml 实现一个listview

主要通过qml实现listvie功能&#xff0c;主要包括右键菜单&#xff0c;滚动条&#xff0c;拖动改变内容等&#xff0c;c 与 qml之间的变量和函数的调用。 main.cpp #include <QQuickItem> #include <QQmlContext> #include "testlistmodel.h" int main…

Java里的引用详解

1.体验方法引用 方法引用的出现原因 在使用Lambda表达式的时候&#xff0c;我们实际上传递进去的代码就是一种解决方案&#xff1a;拿参数做操作 那么考虑一种情况&#xff1a;如果我们在Lambda中所指定的操作方案&#xff0c;已经有地方存在相同方案&#xff0c;那是否还有必要…

PHP房产中介租房卖房平台微信小程序系统源码

​&#x1f3e0;【租房卖房新选择】揭秘房产中介小程序&#xff0c;一键搞定置业大事&#xff01;&#x1f3e1; &#x1f50d;【开篇&#xff1a;告别繁琐&#xff0c;拥抱便捷】&#x1f50d; 还在为找房子跑断腿&#xff1f;为卖房发愁吗&#xff1f;今天给大家安利一个超…

JavaScript 获取 url(get)参数

https://andi.cn/page/621584.html

pytorch学习(八)Dataset加载分类数据集

我们之前用torchvision加载了pytorch的网络数据集&#xff0c;现在我们用Dataset加载自己的数据集&#xff0c;并且使用DataLoader做成训练数据集。 图像是从网上下载的&#xff0c;网址是 点这里&#xff0c;标签是图像文件夹名字。下载完成后作为自己的数据集。 1.加载自己…

PyTorch 深度学习实践-循环神经网络基础篇

视频指路 参考博客笔记 参考笔记二 文章目录 上课笔记基于RNNCell实现总代码 基于RNN实现总代码 含嵌入层的RNN网络嵌入层的作用含嵌入层的RNN网络架构总代码 其他RNN扩展基本注意力机制自注意力机制&#xff08;Self-Attention&#xff09;自注意力计算多头注意力机制&#xf…