学姐写毕业论文,图表在PDF上,复制下来格式全乱,头疼了一晚,幸亏有我

@Author:Runsen

最近认识了一位漂亮同级的学姐,当学姐确定研究生录取的那一刻,以为即将走上人生巅峰

结果毕业论文还没写,从此开启了写论文之路。

于是高高兴兴地去知网下载论文和图表,结果知网不友好,提供了全是CAJ和PDF格式。

学姐只好一张一张的从PDF复制下面


学姐说:这不就是CV大法吗?

当学姐复制到Excel,瞬变爆炸!

结果一行就复制粘贴完成了,一个论文足足有13个表,头疼了一晚。

于是,第二天通过闲鱼认识了我i,艾特我能不能帮她将几篇论文的表提取到excel中,正所谓面子最重要,其实我啥也不会,在茫茫的互联网中寻找方法,发现还是写代码简单粗暴。于是,就发现了Camelot

Camelot

Camelot是一个Python库和一个命令行工具,它可以轻松提取出在PDF文件中的数据表,查看其官方文档和Github存储库。

安装camelot

pip install camelot-py

报错,那肯定需要安装ghostscript第三方模块:pip install ghostscript

这里,还需要在Windows 10上安装ghostscript exe后运行:https://www.ghostscript.com/download/gsdnld.html

C:\Users\Administrator>python
Python 3.8.5 (default, Sep  3 2020, 21:29:08) [MSC v.1916 64 bit (AMD64)] :: Anaconda, Inc. on win32Warning:
This Python interpreter is in a conda environment, but the environment has
not been activated.  Libraries may fail to load.  To activate this environment
please see https://conda.io/activationType "help", "copyright", "credits" or "license" for more information.
>>> from ctypes.util import find_library
>>> find_library("gs")
'libgs.so.9'
>>>

下面 打开一个新的Python文件,在当前目录中有一个PDF文件,名为“ 123456.pdf”,这是一个普通的PDF页面,其中包含很多张表。让我们在Python中提取它:

import camelot
file = "123456.pdf"
tables = camelot.read_pdf(file)

read_pdf()函数提取PDF文件中的所有表,将该表打印为Pandas DataFrame

# 将第一个表打印为Pandas DataFrame
print(tables[0].df)
# 导出为CSV
tables[0].to_csv("123456.csv")
# 分别导出为Excel(扩展名为.xlsx)
tables[0].to_excel("123456.xlsx")
# 全部以zip格式导出
tables.export("123456.csv", f="csv", compress=True)

Tabula

学姐说安装有点复杂,有没有简单的方法,当然有啊,除了Camelot,Tabula也可以轻松提取出在PDF文件

安装非常简单

pip install tabula-py

具体实现的代码如下所示

import tabula
import os
tables = tabula.read_pdf("123456.pdf", pages="all")
# 将它们保存在文件夹中
folder_name = "tables"
if not os.path.isdir(folder_name):os.mkdir(folder_name)
# 迭代提取的表并分别导出为excel
for i, table in enumerate(tables, start=1):table.to_excel(os.path.join(folder_name, f"table_{i}.xlsx"), index=False)# 将PDF文件的所有表转换为单个CSV文件
# 支持的output_formats是“ csv”,“ json”或“ tsv
tabula.convert_into("123456.pdf", "output.csv", output_format="csv", pages="all")
# 将文件夹中的所有PDF转换为CSV格式
# pdfs文件夹应该存在于当前目录中
tabula.convert_into_by_batch("pdfs", output_format="csv", pages="all")

学姐说好妙啊,头疼了一晚,遇见我真的幸运啊

那是当然,学姐说,那我要好好的关注你了。

感谢学姐的关注,你们呢?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/63582.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数学建模 latex 图片以及表格排版整理(overleaf)

无论是什么比赛,图片和表格的格式都非常重要,这边的重要不只是指规范性,还有抓住评委眼球的能力。 那么怎样抓住评委的眼球? 最重要的一点就是善用图片和表格(当然撰写论文最重要的是逻辑,这个是需要长期…

aigc - 文化衫设计

团队要用aigc设计个文化衫,就是给些提示词,然后让ai自动生成能够包含这些提示词的文化衫出来 二、第二版 思路:收集了30多张文化衫,然后用两种方式生成提升词:一个是自然语言描述这件t-short,一个是全名词…

基于图像的虚拟试衣:VITON:An Image-based Virtual Try-on Network(2018)

[paper]VITON: An Image-based Virtual Try-on Network(2018) [code]VITON 效果 网络结构 人的量化表示 人姿态热图 人的姿态用18个关键点表示。为了利用空间布局,每个关键点都将进一步转换为热图,关键点周围11x11领域设置为1,其他位置区域设…

10个最顶尖的专业服装设计软件(外国)

外文原文连接:点击打开链接 原文是2013年的英文文章,时间比较靠后,但是作为参考,也可以帮助我们了解一下计算机辅助设计在服装设计上的应用。 时尚服装设计软件。不管是专业的服装设计师,还是业余爱好者都可以轻松满…

Unity Metaverse(五)、Avatar数字人换装系统的实现方案

文章目录 🎈 前言🎈 如何将RPM中编辑的Avatar导入到Unity🎈 如何提取模型中的Mesh网格、Material材质、及Texture贴图🎈 如何提取RPM网页中的图片资源🎈 资源配置 🎈 前言 随着元宇宙概念的火热&#xff0c…

【互动多媒体】应用形式(二)体感换装/虚拟试衣

应用描述 体感换装/虚拟试衣就是让用户能够通过简单的操作,看到显示设备重的自己,虚拟地穿上了衣服、装备,以求品牌价值传递或是服饰的试穿体验。 体感换装放在第二项去说,主要是因为它一方面和互动拍照是相关联的,另…

豆瓣网电影信息的抓取

分析 通过上面两张图片可以发现 第一页url:https://movie.douban.com/top250?start0&filter 第二页url:https://movie.douban.com/top250?start25&filter 由此类推 第n页url https://movie.douban.com/top250?startn-1然后25&filter 代…

豆瓣电影简单评分模型-从收集数据到建模分析

思路: 从豆瓣上抓取数据【主要是评分,只是那个人数的百分比和最终评分,不过够用了】 一、收集数据 起始URL:https://movie.douban.com/j/new_search_subjects?sortU&range0,10&tags&start0 【注,爬取的对…

抓取豆瓣的电影排行榜TOP100

1 #!/usr/bin/env python2 # -*- coding:utf-8 -*-3 """4 一个简单的Python爬虫, 用于抓取豆瓣电影Top前100的电影的名称5 Anthor: Andrew Liu6 Version: 0.0.17 Date: 2014-12-048 Language: Python2.7.89 Editor: Sublime Text2 10 Operate: 具体操作请看READ…

爬取豆瓣电影Top250影片信息

爬取豆瓣电影Top250影片信息 查看影片的详细信息爬取过程需安装的包确定爬取地址发送请求头解析数据保存数据完整代码 查看影片的详细信息 进入豆瓣电影Top250,选择某一影片,右击,选择“检查元素”。 爬取过程 需安装的包 安装requests、…

豆瓣电影详情数据爬取

这次的爬虫我们来看url携带多个参数的页面爬取 打开豆瓣电影排行榜官网,这里我选择了喜剧类型,发现只要将鼠标下滚翻到该页面最底部,滚轮就会重新跳到中间,相当于浏览器又发送了请求,重新加载一个页面,对应…

豆瓣电影top250信息爬取

摘要 python的网络爬虫可以方便抓取网页的消息,本文以豆瓣网站为例,实现了python网络爬虫抓取豆瓣电影排行榜top250的过程,以及其中遇到的问题和解决过程。 1.引言 网络爬虫又称网络蜘蛛,或网络机器人。是一种按照一…

基于Python的豆瓣中文影评差评分析

资源下载地址:https://download.csdn.net/download/sheziqiong/86773473 资源下载地址:https://download.csdn.net/download/sheziqiong/86773473 1. NLP NLP(Natural Language Processing)是指自然语言处理,他的目的…

基于电影《少年的你》豆瓣影评数据的爬取与分析

目标网站:豆瓣电影 目标网址:https://movie.douban.com/subject/30166972/comments?statusP 目标数据:(1)评价 (2)日期 (3)评论 (4)评论点赞 …

爬取豆瓣电影前十页的好评一般差评

分析一波 爬取的地址:https://movie.douban.com/subject/26588308/comments 分别找出好评、一般、差评的评论: 通过地址栏分析,评论的类型和percent_type有关: 好评为h一般为m差评为l 但是我们想找的是在全部里面寻找好评一般和差…

豆瓣电影当中的电影详情数据

打开豆瓣电影,点击当中的排行榜,相应的类型选择为喜剧类型,当前的数据如果不使用数据解析来实现的话,会不会通过阿贾克斯请求来请求到json形式相应的电影数据呢? 当滚轮拖动到底部的时候,发现滚轮很快就变动…

针对豆瓣TOP前250电影做的简单的数据分析~

~~~~~~内容参考如下使用python抓取豆瓣top250电影数据进行分析 - 简书 https://www.jianshu.com/p/720b193a5c2b #导入库,三大常用数据分析库 import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib#读取保存本地的excel文件…

电影评分数据集的分析

目录 数据集的获得使用工具项目流程 数据集的获得 进入该网址:https://grouplens.org/datasets/movielens/ 找到如下part: 点击ml-100k.zip进行数据集的下载 在本地解压后,将会看到如下内容: 但我们目前只需要三个文件&#…

爬取豆瓣电影的评论

好久没有爬虫了,今天突然叫爬豆瓣,有点懵了,不过看了看以前爬的,一葫芦画瓢整了一个这个。bs4和requests yyds! 分析一波 爬取的地址:https://movie.douban.com/subject/26588308/comments 每次翻页可以看到…