Java 实现将Word 转换成markdown

日常的开发中，需要将word 等各类文章信息转换成格式化语言，因此需要使用各类语言将word 转换成Markdown

1、引入 jar包

  <dependency><groupId>org.apache.poi</groupId><artifactId>poi-ooxml</artifactId><version>5.2.3</version></dependency>

2、使用以下代码进行编写

package com.nd.ai.test.service.utils;import com.alibaba.fastjson.JSONObject;
import com.nd.ai.test.service.dto.apitest.FileMarkdownDTO;
import org.apache.commons.compress.utils.Lists;
import org.apache.poi.xwpf.usermodel.*;import java.io.*;
import java.util.List;
import java.util.UUID;/*** @ClassName WordToMarkdownConverter* @Author Administrator*/
public class WordToMarkdownConverter {public static FileMarkdownDTO convertWordToMarkdown(String wordPath) throws IOException {List<String> imagePathList = Lists.newArrayList();FileMarkdownDTO dto = new FileMarkdownDTO();try  {File file = new File(wordPath);String uuid = UUID.randomUUID().toString();String outputFilePath = file.getParent() + File.separator + uuid + ".md";File outputFile = new File(outputFilePath);FileInputStream fis = new FileInputStream(file); // Corrected to read the input fileXWPFDocument document = new XWPFDocument(fis);FileWriter writer = new FileWriter(outputFile);dto.setMdPath(outputFilePath);String imageDir = file.getParent() + File.separator + uuid + "-images";new File(imageDir).mkdirs(); // Create image directoryfor (IBodyElement element : document.getBodyElements()) {if (element instanceof XWPFParagraph) {processParagraph((XWPFParagraph) element, writer, imageDir, imagePathList);} else if (element instanceof XWPFTable) {processTable((XWPFTable) element, writer, imageDir, imagePathList);}}writer.close();// 增加读取mardkown 文件内容// Read the content of the generated Markdown fileStringBuilder markdownContent = new StringBuilder();try (BufferedReader br = new BufferedReader(new FileReader(outputFile))) {String line;while ((line = br.readLine()) != null) {markdownContent.append(line).append("\n");}}dto.setMarkdownContent(markdownContent.toString());dto.setParserStatus("success");} catch (IOException e){dto.setParserStatus("error");throw new IOException(e);}dto.setFileImagePathList(imagePathList);return dto;}private static void processParagraph(XWPFParagraph paragraph, FileWriter writer, String imageDir,List<String> imageNamePath) throws IOException {String content = processParagraphContent(paragraph, imageDir,imageNamePath);if (content.isEmpty()) return;// 处理标题和列表样式String style = paragraph.getStyle();if (style != null && style.startsWith("Heading")) {int level = Math.min(Character.getNumericValue(style.charAt(7)), 6);StringBuilder heading = new StringBuilder();for (int i = 0; i < level; i++) {heading.append("#");}heading.append(" ").append(content).append("\n\n");writer.write(heading.toString());
//            writer.write("#".repeat(level) + " " + content + "\n\n");} else if (isListParagraph(paragraph)) {String listMark = getListMark(paragraph);writer.write("* " + listMark + " " + content + "\n");} else {writer.write(content + "\n\n");}}private static String getListMark(XWPFParagraph para) {int indentLevel = para.getNumIlvl() != null ? para.getNumIlvl().intValue() : 0;String numFmt = para.getNumFmt(); // 获取列表编号格式// 处理有序列表if ("decimal".equals(numFmt) || "upperRoman".equals(numFmt)) {StringBuilder prefixBuilder = new StringBuilder();for (int i = 0; i < indentLevel * 4; i++) {prefixBuilder.append(" ");}String prefix = prefixBuilder.toString();return prefix + ".";}// 处理无序列表else {String bullet;switch (para.getNumFmt()) {case "bullet":bullet = "•"; // 实心圆点break;default:bullet = "-"; // 默认用减号break;}StringBuilder prefixBuilder = new StringBuilder();for (int i = 0; i < indentLevel * 4; i++) {prefixBuilder.append(" ");}return prefixBuilder.toString() + bullet;}}private static boolean isListParagraph(XWPFParagraph paragraph) {return isOrderedList(paragraph) || isUnorderedList(paragraph); // 如果没有找到对应的样式，则不可能是列表段落}private static boolean isOrderedList(XWPFParagraph paragraph) {if (paragraph.getNumFmt() != null) {String numFmt = paragraph.getNumFmt();return "decimal".equals(numFmt) || "upperRoman".equals(numFmt) || "lowerRoman".equals(numFmt) ||"upperLetter".equals(numFmt) || "lowerLetter".equals(numFmt);}return false;}private static boolean isUnorderedList(XWPFParagraph paragraph) {if (paragraph.getNumFmt() != null) {String numFmt = paragraph.getNumFmt();return "bullet".equals(numFmt);}return false;}private static void processTable(XWPFTable table, FileWriter writer, String imageDir,List<String> imageNamePath) throws IOException {StringBuilder mdTable = new StringBuilder();List<XWPFTableRow> rows = table.getRows();for (int i = 0; i < rows.size(); i++) {XWPFTableRow row = rows.get(i);mdTable.append("|");// 处理每个单元格for (XWPFTableCell cell : row.getTableCells()) {StringBuilder cellContent = new StringBuilder();// 处理单元格内的段落for (XWPFParagraph para : cell.getParagraphs()) {cellContent.append(processParagraphContent(para, imageDir,imageNamePath).replace("\n", "<br>"));}mdTable.append(cellContent.toString().trim()).append("|");}mdTable.append("\n");// 添加表头分隔线if (i == 0) {mdTable.append("|");for (int j = 0; j < row.getTableCells().size(); j++) {mdTable.append(" --- |");}mdTable.append("\n");}}writer.write(mdTable + "\n\n");}private static String processParagraphContent(XWPFParagraph paragraph, String imageDir,List<String> imageNamePath) throws IOException {StringBuilder sb = new StringBuilder();for (XWPFRun run : paragraph.getRuns()) {// 处理图片for (XWPFPicture picture : run.getEmbeddedPictures()) {sb.append(saveImage(picture, imageDir,imageNamePath)).append(" ");}// 处理文本样式String text = run.getText(0);if (text == null) continue;text = applyTextStyles(run, text);sb.append(text);}String content = sb.toString().trim();// 处理有序列表和无序列表if (isListParagraph(paragraph)) {String listMark = getListMark(paragraph);content ="* " + listMark + " " + content;}return content;}private static String applyTextStyles(XWPFRun run, String text) {if (run.isBold()) text = "**" + text + "**";if (run.isItalic()) text = "*" + text + "*";if (run.getUnderline() != UnderlinePatterns.NONE) text = "__" + text + "__";return text;}private static String saveImage(XWPFPicture picture, String imageDir,List<String> imageNamePath) throws IOException {XWPFPictureData picData = picture.getPictureData();String fileName = "img_" + UUID.randomUUID() + "." + picData.suggestFileExtension();File output = new File(imageDir, fileName);imageNamePath.add(output.getPath());try (FileOutputStream fos = new FileOutputStream(output)) {fos.write(picData.getData());}return "![" + fileName + "](" + imageDir + "/" + fileName + ")";}public static void main(String[] args) throws Exception {System.out.println(JSONObject.toJSONString( convertWordToMarkdown("word path")));}
}

获得信息

{
"fileImagePathList":["文件中图片路径1","文件中图片路径2"],
"markdownContent": "markdwon 信息",
"mdPath": "markdown文件地址"
}

运行上方的程序将会得到
1、解析文件中所有图片信息，保存到下方的地址
2、将word 文档转换成markdown
3、获取markdown 文件

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/42754.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

Java 实现将Word 转换成markdown

相关文章

iPhone mini，永远再见了

监控易一体化运维：监控易机房管理，打造高效智能机房

概率与决策理论

Python 学习路线推荐

如何让DeepSeek-R1在内网稳定运行并实现随时随地远程在线调用

SpringCloud+Mybatis-Plus+Docker+RabbitMQ+Redis+Elasticsearch黑马商城

01 相机标定与相机模型介绍

如何在 Postman 中正确设置 Session 以维持用户状态？

免费使用！OpenAI 全量开放 GPT-4o 图像生成能力！

【JavaScript】八、对象

C++指针（五）完结篇

DataGear 企业版 1.4.0 发布，数据可视化分析平台

windows第十八章菜单、工具栏、状态栏

局域网共享失败？打印机/文件夹共享工具

C++中使用CopyFromRecordset将记录集拷贝到excel中时，如果记录集为0个，函数崩溃，是什么原因

torchvision中数据集的使用

d2025328

C++20新特性：std::assume_aligned详解

洛谷P1706 全排列题解

yum install 报错（CentOS换源）：