【python爬虫】批量识别pdf中的英文，自动翻译成中文上

【python爬虫】批量识别pdf中的英文，自动翻译成中文上

news/2024/12/25 23:36:34/文章来源:https://blog.csdn.net/qq_32532663/article/details/132653169

不管是上学还是上班，有时不可避免需要看英文文章，特别是在写毕业论文的时候。比较头疼的是把专业性很强的英文pdf文章翻译成中文。我记得我上学的时候，是一段一段复制，或者碰到不认识的单词就百度翻译一下，非常耗费时间。本文提供批量识别pdf中英文的方法，后续文章实现自动pdf英文转中文文档，敬请期待。

文章目录

- 一、安装pdfplumber库
- 二、识别单个pdf的内容
- - 1 识别单页的内容
  - 2 识别所有页的内容
- 三、识别文件夹中所有pdf的内容

一、安装pdfplumber库

识别pdf中的内容，需要用到pdfplumber库，所以首先安装pdfplumber库，常规代码如下：

pip install pdfplumber

但是在安装过程会报如下错误：

上网找了一下资料，发现可以使用国内的镜像进行安装

国内的一些pip源：
阿里云 http://mirrors.aliyun.com/pypi/simpl

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/128482.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

PatchMatchNet 学习笔记译文深度学习三维重建

PatchMatchNet 学习笔记译文深度学习三维重建

9 PatchMatchNet CVPR-2021 patchmatchnet源码下载 PatchMatchNet 代码注释版下载链接（注释非常详细，较源码结构有调整，使用起来更方便） PatchMatchNet-CVPR-2021（源码、原文+注释+译文+批注） 9.0 主要特点金字塔，基于传统的PatchMatch算法，精度高，速度快 Pa…

阅读更多...

后端SpringBoot+前端Vue前后端分离的项目（二）

后端SpringBoot+前端Vue前后端分离的项目（二）

前言：完成一个列表，实现表头的切换，字段的筛选，排序，分页功能。目录一、数据库表的设计编辑二、后端实现环境配置 model层 mapper层 service层 service层单元测试 controller层三、前端实现 interface接…

阅读更多...

网管实战⑼：配置华为S5720交换机

网管实战⑼：配置华为S5720交换机

配置好汇聚交换机后，需要根据单位情况配置具体的接入交换机。自从2019年12月底配置好交换机后，基本上都没有怎么操作交换机了。那时候使用的是H3C交换机，主要是H3C S7706、H3C S5120、H3C S5130、H3C S5500、H3C S3600等型号的交换机&#x…

阅读更多...

快速排序详解

快速排序详解

前言快排是不稳定的排序，快排的适用场景是无序的序列，例如此时有一个数组是有序的 / 逆序的，此时的快排效率是最慢的。过程： 找一个基准值，找的过程就以挖坑法的方式填坑，第一次排序以挖坑发填完坑之后&a…

阅读更多...

mfc 浮动窗口

mfc 浮动窗口

参考 MFC模拟360悬浮窗加速球窗口

阅读更多...

yolo物体检测系列实战1：yolo-v1整体思想与网络架构

yolo物体检测系列实战1：yolo-v1整体思想与网络架构

1、物体检测经典方法 two-stage（两阶段）：Faster-rcnn Mask-Rcnn系列one-stage（单阶段）：YOLO系列最核心的优势：速度非常快，适合做实时检测任务！但是缺点也是有的&#x…

阅读更多...

ue5 物理场的应用

ue5 物理场的应用

cable mat wpo particle 流体粒子 choas 破损刚体布料 cloud abp blueprint riggedbody 体积雾毛发全局的局部的非均匀的连续变化的也可以多个叠加从全局到范围除了vector还有scalar的值也就是0--1的黑白灰的值但是最终输出的值的类型还是取决于这个一…

阅读更多...

渗透测试漏洞原理之---【不安全的反序列化】

渗透测试漏洞原理之---【不安全的反序列化】

文章目录 1、序列化与反序列化1.1、引入1.2、序列化实例1.2.1、定义一个类1.2.2、创建对象1.2.3、反序列化1.2.4、对象注入 2、漏洞何在2.1、漏洞触发2.1.2、定义一个类2.1.3、定义一个对象2.1.3、反序列化执行代码 2.2 为什么会这样 3、反序列化漏洞攻防3.1、PHP反序列化实例…

阅读更多...

51单片机的简易计算器数码管显示仿真设计( proteus仿真+程序+原理图+报告+讲解视频）

51单片机的简易计算器数码管显示仿真设计( proteus仿真+程序+原理图+报告+讲解视频）

51单片机的简易计算器数码管显示仿真设计 1.主要功能：2.仿真3. 程序代码4. 原理图5. 设计报告6. 设计资料内容清单&&下载链接 51单片机的简易计算器数码管显示仿真设计( proteus仿真程序原理图报告讲解视频） 仿真图proteus7.8及以上程序编译器…

阅读更多...

MySQL主从分离读写复制

MySQL主从分离读写复制

在高负载的生产环境里，把数据库进行读写分离，能显著提高系统的性能。下面对MySQL的进行读写分离。试验环境 A机：IP:192.168.0.1 mysql版本：mysql-5.6.4,主数据服务器（只写操作） B机：IP:192.…

阅读更多...

智慧公厕破解公共厕所管理的“孤岛现象”

智慧公厕破解公共厕所管理的“孤岛现象”

在现代社会中，公共厕所是城市管理中的一项重要任务。然而，经常会出现公厕管理的“孤岛现象”，即每个公厕都是独立运作，缺乏统一的管理和监控机制。针对这一问题，智慧公厕的出现为解决公共厕所管理难题带来了新的方案。…

阅读更多...

新版edge浏览器读取谷歌浏览器上的历史记录

上一篇：(3条消息) 新版edge浏览器读取谷歌浏览器上的历史记录_learningbilibili的博客-CSDN博客https://blog.csdn.net/learningbilibili/article/details/123662218 关于上次的读取历史记录的问题是现在的edge浏览器最近的版本更新后出现了每次启动时从 Google Chr…

阅读更多...

MySQL无法查看系统默认字符集以及校验规则

MySQL无法查看系统默认字符集以及校验规则

show variables like character_set_database; show variables like collation_database;这个错误信息表示MySQL在尝试访问performance_schema.session_variables表时，发现该表不存在。这个问题可能是由于MySQL的版本升级导致的。解决这个问题的一种方法是运行mysql…

阅读更多...

文心一言 VS 讯飞星火 VS chatgpt （89）-- 算法导论8.3 2题

文心一言 VS 讯飞星火 VS chatgpt （89）-- 算法导论8.3 2题

二、用go语言，下面的排序算法中哪些是稳定的：插入排序、归并排序、堆排序和快速排序?给出一个能使任何排序算法都稳定的方法。你所给出的方法带来的额外时间和空间开销是多少？ 文心一言： 在Go语言中，以下排序算法是…

阅读更多...

回归预测 | MATLAB实现MPA-BiGRU海洋捕食者算法优化双向门控循环单元多输入单输出回归预测（多指标，多图）

回归预测 | MATLAB实现MPA-BiGRU海洋捕食者算法优化双向门控循环单元多输入单输出回归预测（多指标，多图）

回归预测 | MATLAB实现MPA-BiGRU海洋捕食者算法优化双向门控循环单元多输入单输出回归预测（多指标，多图） 目录回归预测 | MATLAB实现MPA-BiGRU海洋捕食者算法优化双向门控循环单元多输入单输出回归预测（多指标，多图&a…

阅读更多...

7X24即时新闻监测

7X24即时新闻监测

即时新闻----是我们最快获取新闻内容的重要途径。一般内容简短精悍，更新频率高，很多字少事大的新闻首先在即时新闻里体现。即便是为我们及时获取新闻资讯带来方便，但我们仍然不可能一直盯着即时新闻页面看吧。我们希望当有重要新闻事件时&…

阅读更多...

如何从任何苹果、Windows或安卓设备访问iCloud照片

如何从任何苹果、Windows或安卓设备访问iCloud照片

本文介绍了如何在各种设备上访问iCloud照片库，包括iPhone和iPad、Mac、Windows PC和Android设备。说明适用于iOS 13及以上版本、iPadOS 13及以上、macOS Big Sur（10.16）和Catalina（10.15）、Windows 10或11以及Android 10。从iPhone、iPod Touch和iPad访问iCloud照片照…

阅读更多...

ensp综合实验

ensp综合实验

目录标题 1、网段划分2、配置所有的接口ip3、配置所有的环回4、配置全网可达5、测试是否全网通6、配置第3问中不写静态路由，也能访问5.5.5.07、配置PC1-PC4的IP地址自动获取DHCP8.Client可以通过DNS获取文件8、将AR5的80端口与Client进行端口映射，绑定为…

阅读更多...

sentinel blockHandler不生效

sentinel blockHandler不生效

sentinel blockHandler不生效: package org.bc.sentinel.controller;import com.alibaba.csp.sentinel.annotation.SentinelResource; import com.alibaba.csp.sentinel.slots.block.BlockException; import org.apache.commons.lang3.RandomUtils; import org.springfram…

阅读更多...

计算机网络原理网络层

计算机网络原理网络层

一，网络层的几个重要概念 1，网络层提供的两种服务在计算机网络领域，网络层应该向运输层提供怎样的服务（“面向连接”还是“无连接”）引起了长期的争论。争论的焦点就是：在计算机通信中，可靠交…

阅读更多...

最新文章

推荐文章