不管是上学还是上班,有时不可避免需要看英文文章,特别是在写毕业论文的时候。比较头疼的是把专业性很强的英文pdf文章翻译成中文。我记得我上学的时候,是一段一段复制,或者碰到不认识的单词就百度翻译一下,非常耗费时间。本文提供批量识别pdf中英文的方法,后续文章实现自动pdf英文转中文文档,敬请期待。
文章目录
- 一、安装pdfplumber库
- 二、识别单个pdf的内容
- 1 识别单页的内容
- 2 识别所有页的内容
- 三、识别文件夹中所有pdf的内容
一、安装pdfplumber库
识别pdf中的内容,需要用到pdfplumber库,所以首先安装pdfplumber库,常规代码如下:
pip install pdfplumber
但是在安装过程会报如下错误:
上网找了一下资料,发现可以使用国内的镜像进行安装
国内的一些pip源:
阿里云 http://mirrors.aliyun.com/pypi/simpl