Word文档处理:用Python轻松提取Word文档图文数据

将内容从Word文档中提取出来可以方便我们对其进行其他操作,如储将内容存在数据库中、将内容导入到其他程序中、用于AI训练以及制作其他文档等。使用Spire.Doc for Python提供了一个简单的方法直接提取Word文档中的文本内容,包括文本和图片,而不需要大量的复制粘贴操作,也不需要复杂的代码。本文将介绍如何使用简单的代码实现从Word文档中提取文本和图片内容并保存。

  • 从Word文档中提取文本内容并写入TXT文件
  • 从Word文档中提取图片并保存

引入Spire.Doc for Python

使用此工具操作Word文档之前,需要先将其引入到项目中。可以从Spire.Doc for Python官方网站下载,或直接pip安装。代码如下:

pip install Spire.Doc

从Word文档中提取文本内容并写入TXT文件

Spire.Doc for Python中的Document.GetText()方法可以获取Word文档中的所有文本并返回字符串,我们可以将返回的字符串写入到文本文件中进行保存。操作步骤如下:

  • 创建 Document 的对象。
  • 使用 Document.LoadFromFile() 方法载入Word文档。
  • 使用 Document.GetText() 方法获取文档中的文本。
  • 将获取的文本写入文本文件。

代码示例

from turtle import st
from spire.doc import *
from spire.doc.common import *def WriteAllText(fname:str,text:List[str]):fp = open(fname,"w")for s in text:fp.write(s)fp.close()inputFile = "示例.docx"
outputFile =  "获取的文本.txt"#创建Document的对象
document = Document()#载入Word文档
document.LoadFromFile(inputFile)#获取文档中的文本
text = document.GetText()#将文本写入文本文件
WriteAllText(outputFile, text)
document.Close()

提取结果
从Word文档中提取文本内容

从Word文档中提取图片并保存

提取图片的操作相对复杂一些,需要判断文档元素子对象是否为图片或复合对象,如果是图片则保存,如果是复合对象则继续判断其中的子对象是否为图片。操作步骤如下:
创建文档对象

  • 创建 Document 的对象。
  • 使用 Document.loadFromFile() 方法加载 Word 文档。
  • 创建一个复合对象队列并将文档元素放入其中。
  • 创建一个列表来存储提取的图像。
  • 遍历文档元素,并通过遍历每个节点的子对象来检查是否为复合对象或图片对象。
  • 检查子元素是否为图片对象。如果是,则提取其图像数据并将其添加到提取的图像列表中。
  • 检查子元素是否为图片对象。如果是,则将其添加到队列中,继续判断。
  • 保存图片到文件夹。

代码示例

import queue
from spire.doc import *
from spire.doc.common import *
import osoutputPath = "Images/"
inputFile = "示例.docx"if not os.path.exists(outputPath):os.makedirs(outputPath)#创建Document的对象
document = Document()#载入Word文档
document.LoadFromFile(inputFile)#创建一个队列并将文档元素放入其中
nodes = queue.Queue()
nodes.put(document)#创建一个列表
images = []#循环遍历文档元素
while nodes.qsize() > 0:node = nodes.get()for i in range(node.ChildObjects.Count):#获取文档元素的子对象child = node.ChildObjects.get_Item(i)#判断子对象是否为图片if child.DocumentObjectType == DocumentObjectType.Picture:picture = child if isinstance(child, DocPicture) else NonedataBytes = picture.ImageBytes#添加到列表中images.append(dataBytes)#判断子对象是否为复合对象elif isinstance(child, ICompositeObject):#添加到队列中nodes.put(child if isinstance(child, ICompositeObject) else None)#保存图片
for i, item in enumerate(images):fileName = "Image-{}.png".format(i)with open(outputPath+fileName,'wb') as imageFile:imageFile.write(item)
document.Close()

提取结果
从Word文档中提取图片

以上是关于如何使用Spire.Doc for Python从Word文档中提取文本和图片的介绍。Spire.Doc for Python还支持非常多的文档操作,可以前往官网了解,也可以前往Spire.Doc论坛参与讨论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/195051.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Airtest:各平台的剪切板功能汇总

1. 前言 一直以来,大家都还挺关注 Airtest是否有剪切板功能 的。从Airtest1.3.1版本起,我们新增了Android、iOS设备的剪切板功能,自此,3大平台的剪切板功能就齐全啦。 正好趁这个机会,我们给各大平台的剪切板功能做个…

测试Bard和ChatGPT关于法规中劳动时间的规定,发现chatgpt更严谨

Bard是试验品,chatgpt是3.5版的。 首先带着问题,借助网络搜索,从政府官方网站等权威网站进行确认,已知正确答案的情况下,再来印证两个大语言模型的优劣。 想要了解的问题是,在中国,跟法定工作…

装机必备!这5款免费软件,你值得拥有!

​ 目前win7渐渐退出视野,大部分人都开始使用win10了,笔者在日常的工作和使用中,为了能够让效率的大提升,下载了不少软件,以下的软件都是个人认为装机必备,而且都是可以免费下载。 1.屏幕亮度调节——Twin…

Netty+SpringBoot 打造一个 TCP 长连接通讯方案

项目背景 公司某物联网项目需要使用socket长连接进行消息通讯,捣鼓了一版代码上线,结果BUG不断,本猿寝食难安,于是求助度娘,数日未眠项目终于平稳运行了,本着开源共享的精神,本猿把项目代码提炼…

python爬取网站数据,作为后端数据

一. 内容简介 python爬取网站数据,作为后端数据 二. 软件环境 2.1vsCode 2.2Anaconda version: conda 22.9.0 2.3代码 链接: 三.主要流程 3.1 通过urllib请求网站 里面用的所有的包 ! pip install lxml ! pip install selenium ! pip install…

【数据结构】希尔排序(最小增量排序)

👦个人主页:Weraphael ✍🏻作者简介:目前正在学习c和算法 ✈️专栏:数据结构 🐋 希望大家多多支持,咱一起进步!😁 如果文章有啥瑕疵 希望大佬指点一二 如果文章对你有帮助…

蓝桥杯 大小写转换

islower/isupper函数 islower和issupper是C标准库中的字符分类函数&#xff0c;用于检查一个字符是否为小写字母或大写字母 需要头文件< cctype>,也可用万能头包含 函数的返回值为bool类型 char ch1A; char ch2b; //使用islower函数判断字符是否为小写字母 if(islower(…

Flutter NestedScrollView 、SliverAppBar全解析,悬浮菜单的应用

在我们开发过程中经常会使用到悬浮菜单的使用&#xff0c;当我们滑动到指定位置后&#xff0c;菜单会自动悬浮。 实现效果如下&#xff08;左为滑动前、右为滑动后&#xff09;&#xff1a; 上述便是通过NestedScrollView 、SliverAppBar实现的效果&#xff0c;通过两个控件我…

文件包含_具体场景、zip、php相关问题

具体场景—上传可控的文件 具体场景—远程文件包含 具体场景—伪协议

基于plc的柔性制造系统供料检测单元的设计(论文+源码)

1.系统设计 本次基于plc的柔性制造系统供料检测单元的设计&#xff0c;其系统结构框图如图2.1所示&#xff0c;系统采用西门子S7-200 型号的PLC作为主控制器&#xff0c;并结合温度传感器&#xff0c;重量传感器&#xff0c;限位开关&#xff0c;变频器等器件来构成整个系统&a…

0基础如何学习软件测试?10分钟给你安排明白

先上一张学习路线&#xff1a; 在测试行业已经呆了5年多了&#xff0c;也算得上行业经验资深了吧&#xff0c;基本上也是摸清了这个行业的发展。 所以今天也想对有转行想法的朋友分享一下经验&#xff0c;能够让你对这个行业有个大致的了解和对以后的发展有所规划&#xff0c;…

07.智慧商城——商品详情页、加入购物车、拦截器封装token

01. 商品详情 - 静态布局 静态结构 和 样式 <template><div class"prodetail"><van-nav-bar fixed title"商品详情页" left-arrow click-left"$router.go(-1)" /><van-swipe :autoplay"3000" change"onCha…

机械人必须要了解的丝杆螺母参数

丝杆螺母是机械中重要的零部件之一&#xff0c;主要用于将旋转运动转化为直线运动&#xff0c;或者将直线运动转化为旋转运动。只有正确了解丝杆螺母的参数&#xff0c;才能进行选型。 1、螺纹规格&#xff1a;丝杆螺母的螺纹规格是按照国家标准进行分类的&#xff0c;常见的有…

HTTP HTTPS 独特的魅力

目录 HTTP协议 HTTP协议的工作过程 首行 请求头&#xff08;header&#xff09; HOST Content-Length​编辑 User-Agent&#xff08;简称UA&#xff09; Referer Cookie 空行 正文&#xff08;body&#xff09; HTTP响应详解 状态码 报文格式 HTTP响应格式 如何…

Fourier分析导论——第5章——实数据R上的Fourier变换(E.M. Stein R. Shakarchi)

第5章 实数域ℝ上的Fourier变换 The theory of Fourier series and integrals has always had major difficulties and necessitated a large math- ematical apparatus in dealing with questions of con- vergence. It engendered the development of methods of summa…

Mysql分组查询每组最新的一条数据

在工作中遇到一个问题&#xff0c;需要查出每个公司最新的那条数据。 所以需根据公司进行分组&#xff1a; 未进行分组时&#xff1a; select a.id, b.name companyName, result_asset ,result_liability ,result_net_asset, a.create_time ,a.is_deleted from bus_proper…

企业APP软件定制开发的关键步骤|网站小程序搭建

企业APP软件定制开发的关键步骤|网站小程序搭建 在当今数字化快速发展的时代&#xff0c;企业越来越意识到拥有自己的APP软件对于提高业务效率和用户体验的重要性。然而&#xff0c;企业APP软件定制开发并不是一项简单的任务&#xff0c;它需要经过一系列关键步骤来确保最终的产…

解锁编程潜能:探索亚马逊CodeWhisperer,打造编程世界的声音引导者

文章目录 前言一、什么是 Amazon CodeWhisperer&#xff1f;二、如何使用CodeWhisperer&#xff1f;安装CodeWhisperer插件配置CodeWhisperer生成注释和文档 总结 前言 随着CHATGPT的一声巨响&#xff0c;大语言模型已经成为了一个备受瞩目的创新应用。亚马逊云科技作为全球领…

Hive Lateral View explode列为空时导致数据异常丢失

一、问题描述 日常工作中我们经常会遇到一些非结构化数据&#xff0c;因此常常会将Lateral View 结合explode使用&#xff0c;达到将非结构化数据转化成结构化数据的目的&#xff0c;但是该方法对应explode的内容是有非null限制的&#xff0c;否则就有可能造成数据缺失。 SE…

十大热门骨传导蓝牙耳机排行榜,精选最佳的五款骨传导蓝牙耳机

排行榜十大热门骨传导耳机&#xff0c;哪些才是综合实力最强的骨传导耳机&#xff1f; 近年来&#xff0c;骨传导耳机越来越受欢迎。由于骨传导耳机不需要插入耳朵&#xff0c;用户能够同时感知周围环境的声音&#xff0c;不会完全隔绝外界&#xff0c;增加了使用时的安全性。…