达叔926词汇pdf单词提取、保存

需求:将pdf中的单词,通过正则表达式提取,保存到excel将excel文件另存为.csv格式,导入到anki制成卡牌学习。

注:因为本人是业余,水平有限,如果讲解有错误,欢迎指正。另外,本文使用的926词汇pdf资料请自行准备。

目录

全部代码

代码效果 

提前准备

pdf文件与内容导入

pdf文件导入

pdf内容导入

正则匹配|内容筛选

将结果存入Excel


全部代码

import pdfplumber
import re
import openpyxlad=[]
k=[]
for l in range(1,19):adress=f"D:/BaiduNetdiskDownload/李达926逐词精讲-词汇{l}笔记.pdf"ad.append(adress)pdf = pdfplumber.open(adress)print(f'正在写入{adress}')for i in range(len(pdf.pages)):page = pdf.pages[i]wk = page.extract_text()k.append(wk)
wb = ''.join(k)
wb = wb.replace('改变就橙啦橙啦,大学生学习成长平台'," ")
num = re.findall('(\d+).*?\[', wb)
text = re.findall('\d+(.*?)\[', wb)
chinese = re.findall('](.*?)【真题例句',wb,re.S)   #re.S的作用是使匹配包含换行符\n、\t,即空格与换行xs = openpyxl.Workbook()
xl = xs.active
xl.title = '达叔926'
xl['A1']='序号'
xl['B1']='英文'
xl['C1']='中文|助记'
q=2
for a,b,c in zip(num,text,chinese):xl.cell(q,1,a)xl.cell(q,2,b)xl.cell(q,3,c)q+=1
xs.save('达叔926.xlsx')

代码效果

处理的pdf内容:

 处理结果:


提前准备

import pdfplumber  #处理pdf的包
import re          #正则表达式处理包
import openpyxl    #操作excel的包

        使用的软件(IDE)是Pycharm

        系统为Windows11

        pdfplumber的安装:pip install pdfplumber

pdf文件与内容导入

pdf文件导入

ad=[]
for l in range(1,19):adress=f"D:/BaiduNetdiskDownload/李达926逐词精讲-词汇{l}笔记.pdf"ad.append(adress)

        代码中,我使用的了绝对路径。因为pdf共有18个,所以我需要for循环遍历,将文件的绝对地址通过append函数压入一个列表

pdf内容导入

k = []
pdf = pdfplumber.open(adress)         #将导入的pdf打开for i in range(len(pdf.pages)):   #获取pdf总页数,并遍历page = pdf.pages[i]            #打开pdf对应页数wk = page.extract_text()       #获取对应页数的文本内容k.append(wk)                   #将内容压入列表
wb = ''.join(k)                       #将列表的内容遍历拼接并转为字符串类型

        将pdf的全部内容压入一个列表后,通过.join函数将列表遍历拼接转为字符串类型,为接下来正则匹配做准备。

        另外如果pdf中的内容有图片或表格,那你就不能单纯的使用page.extract_text()。例如,处理pdf表格,需要使用page.extract_table()。其他具体用法请参考其它更专业的博客文章。

正则匹配|内容筛选

wb = wb.replace('改变就橙啦橙啦,大学生学习成长平台'," ") #将其他无关内容替换成空格
num = re.findall('(\d+).*?\[', wb)                     #匹配单词前的序号
text = re.findall('\d+(.*?)\[', wb)                    #匹配英文单词
chinese = re.findall('](.*?)【真题例句',wb,re.S)        #匹配中文释译和助记方法

re.S是正则的一种匹配模式,作用是防止匹配的内容中第一个就是换行符(空格、换行)而导致返回空列表。(注:正则表达式中的“.”能匹配任意字符,但换行符除外。当时没少因为这个知识点吃苦头)

改:(\d+).*?\[ 中的+是防止匹配到空格。*匹配目标出现0次或多次;+匹配目标出现1次或多次。

将结果存入Excel

xs = openpyxl.Workbook()
xl = xs.active
xl.title = '达叔926'
xl['A1']='序号'        #第一行、第一列单元格写入序号,以下作用类似
xl['B1']='英文'
xl['C1']='中文|助记'
q=2
for a,b,c in zip(num,text,chinese):xl.cell(q,1,a)    #通过openpyxl包的cell函数将内容写入对应的单元格;.cell(行,列,内容)xl.cell(q,2,b)xl.cell(q,3,c)q+=1
xs.save('达叔926.xlsx')

        这里使用的是openpyxl,具体的使用方法请参考相应的文档。

        zip函数能同时遍历三个及以上的列表,并一一对应的形成新列表。注:请保证列表的长度一致,不然会发生一些意外。

        另,生成的xlsx会保存在你的代码根目录下,如果要保存到其他地方,可以使用with方法。


总结

        其实,代码写到这里主体的功能基本实现了,但是还有很大优化空间。例如,将单词词性匹配出来,可这对我来说有一定难度,因为pdf里有很多一词多意和一个单词既能是名词又能是动词的情况。又例如将中文释义和助记方法分别匹配,等等。最后只要将excel文件另存为csv格式后导入anki(bilibili上有人讲解过)即可,那么请看看我的最终成品吧。(虽然细节处理的不好)

2022-11-15 22-03-27_x264

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/59304.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Instant economics 即时经济 经济学人中英双语对照精读笔记

文 / 王不留(微信公众号:王不留) 选自TE20211023,Leaders Instant economics 即时经济 A realtime revolution in economics could make the world better off. 经济领域的实时革命可以让世界更好。 Better off 更好的状态 Does…

chatgpt赋能python:Python图片处理-打造一张酷炫的图片

Python图片处理-打造一张酷炫的图片 作为一名有10年Python编程经验的工程师,我一直对Python图片处理领域深入研究,今天我想谈论一下如何利用Python给图片添加一些酷炫的效果。本篇文章将介绍一些Python库和技术来处理图片,即使您是一个初学者…

数字营销人如何使用ChatGPT提升效能?

在数字营销的领域,速度、专业和创意是决定成功的关键因素。今天,我们就来看看如何利用ChatGPT提升数字营销人的工作效能。 ●此图片由Lexica 自动生成,输入:White collar workers who are working crazy overtime 1. 优化文案创作…

起底算力产业链,谁撑起了数字经济的繁荣?

图片|Photo by introserv ©自象限原创 作者|程心、罗辑 编辑|云天明 “过去一年我国数字经济规模突破50万亿,占GDP比重提升至41.5%,超过我们经济比重的四成。数字经济正在成为时代的重要增量之一。” 6月20日,在《时代的增…

张勇主导阿里变革:设六大业务集团还均可上市 打造敏捷组织

雷递网 雷建平 3月28日 阿里巴巴集团正在发起阿里历史上最大规模的组织变革,广度、深度前所未有。 2023年3月28日晚,阿里巴巴集团董事局主席、CEO张勇作出了决定:将成立阿里云智能、电商、海外、本地生活服务、菜鸟、大文娱六大业务集团和多家…

大模型的淘金时代,HPE给出了一份智能经济“奇点”攻略

进入2023年,ChatGPT引发了一个新的AI时代——大模型时代。陆奇说:“我已经跟不上大模型时代的狂飙速度了!”大模型引发了AI产业整体升级换代,各种大模型层出不穷,科技公司纷纷入局,AI创业公司再次雨后春笋般…

文心一言的蝴蝶振翅,云计算的飓风狂飙

ChatGPT带来的多米诺效应正在不断涌现。社会各界都在关注一系列问题,比如中国版ChatGPT什么时候能来到?其效果如何?类ChatGPT应用的投资与创业前景会怎样?相关产品能带来哪些应用价值? 随着百度文心一言等产品相继官宣…

大厂赶超ChatGPT

ChatGPT上线的两百天里,国内大模型发展开启“狂飙”模式。 据称,中国10亿参数规模以上的大模型已发布79个。 大模型进化场,讲究一个百模混战:百度文心大模型已进化至3.5形态;阿里通义千问构建家族模式;京…

语音合成数据解决方案助您获取专属AI声音

在2020年小米开发者大会(MIDC)上,小米宣布小爱同学5.0正式上线。小爱同学在声音体验上做了很多创新,如奶萌泡芙童声、多情感语音、粤语合成、定制声音等。 在语音合成技术的支持下,小爱同学做了很多创新 小爱同学声音…

whisper 语音识别AI 声音To文字

whisper介绍 Whisper 是一个由 OpenAI 训练并开源的神经网络,功能是语音识别,能把语音转换为文字,在英语语音识别方面的稳健性和准确性接近人类水平。 1、Whisper支持语音转录和翻译两项功能并接受各种语音格式,模型中、英、法、德、意、日等主流语言上…

人工智能:通过Python实现语音合成的案例

今天给大家介绍一下基于百度的AI语音技术SDK实现语音合成的案例,编程语言采用Python,希望对大家能有所帮助! 注册百度AI平台应用 百度AI开放平台-全球领先的人工智能服务平台 首先登陆自己的百度账户,打开百度的AI开发平台页面 搜…

2023年,这几个AIOps新趋势不容忽视

文源自于公众号——布博士(擎创科技资深产品专家) 前言: 近年来,人工智能技术的研究和行业应用急剧上升。即使看起来人工智能技术似乎只是一种来自电影中的幻想,但无可否认的是人工智能技术已经在我们生活的各个方面得…

移动端(iOS,android)上那些炒股软件的K线图,分时图,都是怎么实现的?

具体回答网址: http://www.zhihu.com/question/30989362 类似的K线图有没有开源的控件?可以参考腾讯的自选股,百度股市通这两个进行说明。 添加评论 分享 按投票排序 按时间排序 7 个回答 20赞同 反对,不会显示你的姓名 臧其龙…

K线形态识别_下探上涨

写在前面: 1. 本文中提到的“K线形态查看工具”的具体使用操作请查看该博文; 2. K线形体所处背景,诸如处在上升趋势、下降趋势、盘整等,背景内容在K线形态策略代码中没有体现; 3. 文中知识内容来自书籍《K线技术分析》…

HQChart使用教程30-K线图如何对接第3方数据1

K线图如何对接第3方数据1 数据接口NetworkFilter说明K线图网路协议列表周期和复权全部使用后台数据小程序,及第3放app平台对接注意事项httpA股数据对接教程(付费文章)HQChart代码地址 数据接口 HQChart 提供一个网络协议过滤接口, HQChart请求数据前会调用这个网络…

Tradingview使用心得和使用教程 k线图的好工具

Tradingview是用来开发k线图的好工具,功能非常强大。此文章记录一些心得和坑。TradingView允许您在自己的网站上使用自己的图表库,并拥有自己的数据源。 1、vue集成jsapi和传统的html集成jsapi,代码逻辑上是不一样的。 2、如果开启了preset…

K线买入信号有哪些?

K线组合方式多种多样,对于国际现货贵金属投资者而言,如果能找到实战价值最高的看涨K线组合,就能更有效地捕捉到上涨行情中的做多机会。接下来,小编将分享了七种投资者必须知道的K线看涨的买入信号,肯定对大家盘感的增强…

房产中介、房屋租赁、房屋买卖APP(H5)

房产APP(H5),包含管理后台、移动端APP(H5) 后台管理模块包含功能 客户管理 客户列表,设置、查询客户基本信息等。 小区管理 小区列表,设置、查询小区基本信息,上传小区详情图&a…

房地产中介在未来会被取代吗?

房地产中介,既是一个劳动密集型行业,又是一个信息密集型行业。 “劳动密集”与“信息密集”貌似是一对儿矛盾的概念,可在房地产中介这里却和谐地统一在了一起。试想,当购房者面对、筛选令人眼花缭乱的海量房地产信息时&#xff0c…

技术专家的成功创业秘籍:怎样成为百万(美元)富翁?

曾经撰写过《Windows System Services》等专业技术书的 Marshal Bain,其实是位极为多才多艺的老兄。他创办的 How Stuff Works早已成为著名的内容型网站,获奖无数,而且成功为大公司收购,创业成功。他写的少儿科普图书 The Teen…