20230809在WIN10下使用python3将DOCX文件转换为TXT文件

20230809在WIN10下使用python3将DOCX文件转换为TXT文件
2023/8/9 11:38


python docx txt

 

 


https://blog.51cto.com/u_16175446/6620474
如何实现Python读取word内容转为TXT的具体操作步骤


如何实现Python读取word内容转为TXT的具体操作步骤 原创
mob649e81576de12023-07-04 14:08:13
文章标签PythonWordtxt文件文章分类Python后端开发阅读数234

Python读取word内容转为TXT
作为一名经验丰富的开发者,我很乐意教会你如何使用Python读取word内容并将其转换为txt格式。下面是整个流程的步骤和需要使用的代码。

步骤
步骤    描述
步骤 1    安装Python-docx库
步骤 2    打开Word文档
步骤 3    读取文档内容
步骤 4    将内容保存为txt文件
代码解释
步骤 1: 安装Python-docx库
Python-docx是一个Python库,可以用于读取、查询和修改Microsoft Word 2007以上版本的docx文件。在开始之前,首先需要安装Python-docx库。在命令行中运行以下命令:

pip install python-docx
1.
步骤 2: 打开Word文档
要打开Word文档,我们需要使用Python-docx库中的Document类。以下是打开Word文档的代码:

from docx import Document

doc_path = "path_to_your_word_file.docx"
doc = Document(doc_path)

 


请将path_to_your_word_file.docx替换为你要读取的Word文档的完整路径。

步骤 3: 读取文档内容
在这一步中,我们将使用Document对象的paragraphs属性来访问文档的每个段落,然后使用text属性来获取段落的文本内容。以下是读取文档内容的代码:

text_content = ""
for paragraph in doc.paragraphs:
    text_content += paragraph.text


在上述代码中,我们创建了一个空字符串变量text_content,然后使用for循环遍历文档中的每个段落。通过访问paragraph.text属性,我们可以获取每个段落的文本内容,并将其添加到text_content字符串中。

 

步骤 4: 将内容保存为txt文件
最后一步是将读取的内容保存为txt文件。以下是将内容保存为txt文件的代码:

txt_file_path = "path_to_save_txt_file.txt"
with open(txt_file_path, "w") as txt_file:
    txt_file.write(text_content)

 


请将path_to_save_txt_file.txt替换为你希望保存txt文件的完整路径。

在上述代码中,我们使用open函数打开一个txt文件,并将其赋值给txt_file变量。然后,我们使用write方法将之前读取的内容text_content写入txt文件中。

至此,你已经完成了将Word内容转换为txt的整个过程。

希望这篇文章能帮助到你,让你能够轻松地使用Python读取Word文档并将其内容转换为txt格式。如果还有其他问题,请随时提问。

 


txt2docx1.py【删除了全部的换行符号!】

from docx import Document

doc_path = "path_to_your_word_file.docx"
doc = Document(doc_path)


text_content = ""
for paragraph in doc.paragraphs:
    text_content += paragraph.text


txt_file_path = "path_to_save_txt_file.txt"
with open(txt_file_path, "w") as txt_file:
    txt_file.write(text_content)

 

 


txt2docx2.py【处理完成换行了】

from docx import Document

doc_path = "path_to_your_word_file.docx"
doc = Document(doc_path)


text_content = ""
for paragraph in doc.paragraphs:
    text_content += paragraph.text
    text_content += '\n'


txt_file_path = "path_to_save_txt_file.txt"
with open(txt_file_path, "w") as txt_file:
    txt_file.write(text_content)

 

 

 

 

 


txt2docx3utf8.py【处理UTF8编码】

from docx import Document

doc_path = "path_to_your_word_file.docx"
doc = Document(doc_path)


text_content = ""
for paragraph in doc.paragraphs:
    text_content += paragraph.text
    text_content += '\n'


#with open("path_to_save_utf8_file.txt", "w", encoding="UTF-8") as utf8_file:
#txt_file_path = "path_to_save_txt_file.txt"
#with open(txt_file_path, "w") as txt_file:
txt_file_path = "path_to_save_txt+utf8_file.txt"
with open(txt_file_path, "w", encoding="UTF-8") as txt_file:
    txt_file.write(text_content)

转存为TXT文件,以ANSI编码和以UTF-8编码的,内容比对相同!

 


docx2txt2all.py/docx2txt+ansi3all.py【处理当前目录的DOCX为ANSI编码的TXT】

# coding=utf-8
import os

import docx


# 获取当前目录
path = os.getcwd()
# 查看当前目录下所有文件
files = os.listdir(path)

# 遍历所有文件
for file in files:
    # 判断文件是否为 txt 文件
    #if file.endswith('.txt'):
    if file.endswith('.docx'):
        # 构建新的文件名
        #new_file = file.replace('.txt', '.json')
        #new_file = file.replace('.docx', '.srt')
        new_file = file.replace('.docx', '.txt')
        # 重命名文件
        #os.rename(os.path.join(path, file), os.path.join(path, new_file))


        from docx import Document
        
        #doc_path = "path_to_your_word_file.docx"
        #doc = Document(doc_path)
        doc = Document(file)
        
        
        text_content = ""
        for paragraph in doc.paragraphs:
            text_content += paragraph.text
            text_content += '\n'
        
        
        #txt_file_path = "path_to_save_txt_file.txt"
        #with open(txt_file_path, "w") as txt_file:
        with open(new_file, "w") as txt_file:
            txt_file.write(text_content)


utf8docx2tx4all.py【处理当前目录的DOCX为UTF8编码的TXT】

# coding=utf-8
import os

import docx


# 获取当前目录
path = os.getcwd()
# 查看当前目录下所有文件
files = os.listdir(path)

# 遍历所有文件
for file in files:
    # 判断文件是否为 txt 文件
    #if file.endswith('.txt'):
    if file.endswith('.docx'):
        # 构建新的文件名
        #new_file = file.replace('.txt', '.json')
        #new_file = file.replace('.docx', '.srt')
        new_file = file.replace('.docx', '.txt')
        # 重命名文件
        #os.rename(os.path.join(path, file), os.path.join(path, new_file))


        from docx import Document
        
        #doc_path = "path_to_your_word_file.docx"
        #doc = Document(doc_path)
        doc = Document(file)
        
        
        text_content = ""
        for paragraph in doc.paragraphs:
            text_content += paragraph.text
            text_content += '\n'
        
        
        #txt_file_path = "path_to_save_txt_file.txt"
        #with open(txt_file_path, "w") as txt_file:
        #with open(new_file, "w") as txt_file:
        #txt_file_path = "path_to_save_txt+utf8_file.txt"
        #with open(txt_file_path, "w", encoding="UTF-8") as txt_file:
        with open(new_file, "w", encoding="UTF-8") as txt_file:
            txt_file.write(text_content)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/82071.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

为什么会觉得CSS比JavaScript难?

前言 是的,就像你问题中描述的,“用起来没有底,有填不完的坑”,这大概就是css难的地方,因为css关乎的是页面整体的一个ui设计,暂且不说本身关于css的内容是非常繁杂的,主要是页面的设计是考验创…

flutter开发实战-实现首页分类目录入口切换功能

。 在开发中经常遇到首页的分类入口,如美团的美食团购、打车等入口,左右切换还可以分页更多展示。 一、使用flutter_swiper_null_safety 在pubspec.yaml引入 # 轮播图flutter_swiper_null_safety: ^1.0.2二、实现swiper分页代码 由于我这里按照一页8…

Element的el-select下拉框多选添加全选功能

先看效果图 全选: 没有选中时: 选中部分: 作者项目使用的是vue3写法,如果是vue2的自己转换一下 html代码: js代码: 拓展 另一种方法,如果不想使用勾选框,可以试试下面的方…

PPG心率血氧检测健康型沙发方案

《中国心血管健康与疾病报告2021》数据显示,我国心血管病患病人数已达 3.3 亿。目前,心脑血管病 死亡占城乡居民总死亡原因的首位,农村为46.7%,城市为44%。老年人是心脑血管病的主要发病体,老年 人患心脑血管病的几率较…

2023牛客暑期多校训练营7-c-Beautiful Sequence

思路: ,则有,也就是说只要知道A1就可以求任意A。由于A是升序排列,所以对于任意,二进制所包含1的最高位第k位来说,表明与第k位相反,要大一些,所以它的第k位为1,的第k位为…

问题解决和批判性思维是软件工程的重要核心

软件工程的重心在于问题解决和批判性思维(合理设计和架构降低复杂度),而非仅局限于编程。 许多人误以为软件工程就只是编程,即用编程语言编写指令,让计算机按照这些指令行事。但实际上,软件工程的内涵远超…

85. 最大矩形

题目描述 给定一个仅包含 0 和 1 、大小为 rows x cols 的二维二进制矩阵,找出只包含 1 的最大矩形,并返回其面积。 示例 1: 输入:matrix [["1","0","1","0","0"],["1…

HBase Shell 操作

1、基本操作 1.1、进入HBase客户端命令行 前提是先启动hadoop集群和zookeeper集群。 bin/hbase shell 1.2、查看帮助命令 helphelp 查看指定命令的语法规则 查看 list_namespace 的用法(‘记得加单引号’) help list_namespace 2、namespace 我们…

python文件操作

文章目录 一 文件的编码认识二 python文件操作2.1 open()打开函数2.2 mode常用的访问模式2.3 open函数的文件对象2.4 文件读操作2.5 练习案例:单词计数 三 文件的写入四 操作综合案例4.1 需求4.2 实现思路4.3 参考代码1.04.4 参考代码2.0 一 文件的编码认识 文件编码…

分享windwosServer2012R--ISO镜像下载地址(含激活教程)

windowsServer2012R----急速网盘下载地址:点击下载 提取码:888999 激活下载:点击下载 提取码:888999

ElasticSearch 7.4学习记录(基础概念和基础操作)

若你之前从未了解过ES,本文将由浅入深的一步步带你理解ES,简单使用ES。作者本人就是此状态,通过学习和梳理,产出本文,已对ES有个全面的了解和想法,不仅将知识点梳理,也涉及到自己的理解&#xf…

Java事件监听机制

这里写目录标题 先进行专栏介绍再插一句 开始喽事件监听机制分析观察者模式观察者模式由以下几个角色组成:观察者模式的工作流程如下:观察者模式的优点包括:观察者模式适用于以下场景:总结 事件监听机制的工作流程如下&#xff1a…

喆啡酒店十周年丨啡越时间限,ALL BY 10VE!

啡越时光热爱为伴 十年前,秉持对咖啡馆文化及复古风格的喜爱,喆啡酒店创造全新的Coffetel品类,将充满「温暖」「愉悦」「咖啡香」的格调体验带给消费者,成为无数人「旅途中的啡凡存在」。 十年间,喆啡酒店以热爱化为…

【深度学习】SMILEtrack: SiMIlarity LEarning for Multiple Object Tracking,论文

论文:https://arxiv.org/abs/2211.08824 代码:https://github.com/WWangYuHsiang/SMILEtrack 文章目录 AbstractIntroductionRelated WorkTracking-by-DetectionDetection methodData association method Tracking-by-Attention Methodology架构概述外观…

【vue3】基础知识点-setup语法糖

学习vue3&#xff0c;都会从基础知识点学起。了解setup函数&#xff0c;ref&#xff0c;recative&#xff0c;watch、comptued、pinia等如何使用 今天说vue3组合式api&#xff0c;setup函数 在学习过程中一开始接触到的是这样的&#xff0c;定义数据且都要通过return返回 <…

[保研/考研机试] KY102 计算表达式 上海交通大学复试上机题 C++实现

描述 对于一个不存在括号的表达式进行计算 输入描述&#xff1a; 存在多组数据&#xff0c;每组数据一行&#xff0c;表达式不存在空格 输出描述&#xff1a; 输出结果 示例1 输入&#xff1a; 6/233*4输出&#xff1a; 18思路&#xff1a; ①设立运算符和运算数两个…

Windows环境下通过 系统定时 执行脚本方式 压缩并备份文件夹 到其他数据盘

环境配置 压缩时需要使用7-zip进行调用&#xff0c;因此根据自己电脑进行安装 官网&#xff1a;https://www.7-zip.org/ 脚本文件 新建记事本文件&#xff0c;重命名为git_back_up.bat echo off rem 设置utf-8可以正常显示中文 chcp 65001 > nulrem 获取当前日期和时间&…

使用动态规划实现错排问题-2023年全国青少年信息素养大赛Python复赛真题精选

[导读]&#xff1a;超平老师计划推出《全国青少年信息素养大赛Python编程真题解析》50讲&#xff0c;这是超平老师解读Python编程挑战赛真题系列的第15讲。 全国青少年信息素养大赛&#xff08;原全国青少年电子信息智能创新大赛&#xff09;是“世界机器人大会青少年机器人设…

大数据Flink(五十七):Yarn集群环境(生产推荐)

文章目录 Yarn集群环境(生产推荐) 一、准备工作

Clickhouse 存储引擎

一、常用存储引擎分类 1.1 ReplacingMergeTree 这个引擎是在 MergeTree 的基础上&#xff0c;添加了”处理重复数据”的功能&#xff0c;该引擎和MergeTree的不同之处在于它会删除具有相同主键的重复项。 特点: 1使用ORDERBY排序键作为判断重复的唯一键 2.数据的去重只会在合并…