ython自动化办公(一):滴滴行程单信息提取存入excel表格
提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加
例如:第一章 Python 机器学习入门之pandas的使用
提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
- 前言
- 一、提取滴滴行程单信息创建EXCEL表单
- 二、使用步骤
- 1.引入库
- 2.读入数据
- 3.存入Excel
- 4.多张PDF存入EXCEL的操作
- 总结
前言
自动化办公是目前python除了爬虫另一个热门领域,今天我们开始记录自动化办公学习的点点滴滴,希望大家能在这个学到新的知识。
提示:以下是本篇文章正文内容,下面案例可供参考
一、提取滴滴行程单信息创建EXCEL表单
我们这篇文章的目的主要是涉及到自动化办公中关于PDF和EXCEL的运用。什么最基本的操作就不讲了,讲义网上一大堆,主要还是分析一下实际应用过程中的问题。
目的:员工出差过程中打车形成了一堆PDF版本的滴滴行程单,作为一个有强迫症的工程师,必须要把这些行程单整理好啦,财务报销也需要这样的信息数据。
二、使用步骤
1.引入库
代码如下(示例):首先需要导入的库是PYPDF2和pdfplumber两个PDF文件处理库。
import PyPDF2
import pdfplumber
2.读入数据
大家打车都有一个行程单吧,这可是出行的凭证哦。
代码如下(示例):
from openpyxl import Workbook
with pdfplumber.open("行程报销单.pdf") as p:page = p.pages[0]table = page.extract_table()print(table)
我们利用pdfplumber这个工具可以方便的把pdf文件中的表格提取出来。
3.存入Excel
利用openpyxl的appand功能,将信息存入Excel。
workbook = Workbook()sheet = workbook.activefor row in table:sheet.append(row)workbook.save(filename = "new_pdf.xlsx")
完整代码如下:
# -*- coding: utf-8 -*-
# Author: 咚宝学编程
# 发布时间:2021-04-13
# 作品:原创
import PyPDF2
import pdfplumber
from openpyxl import Workbook
with pdfplumber.open("行程报销单.pdf") as p:page = p.pages[0]table = page.extract_table()print(type(table))workbook = Workbook()sheet = workbook.activefor row in table:sheet.append(row)workbook.save(filename = "new_pdf.xlsx")
4.多张PDF存入EXCEL的操作
有些朋友肯定说了,我可不止一张行程单怎么办?我们可以提取新PDF“行程单2”的内容然后添加到新生成的newpdf2这个EXCEL文件就可以了。注意去掉第一行内容,这个是重复的。
代码如下:
# -*- coding: utf-8 -*-
import PyPDF2
import pdfplumber
from openpyxl import Workbook,load_workbook
with pdfplumber.open("行程报销单2.pdf") as p:page = p.pages[0]table = page.extract_table()print(table[1:])
data =table[1:]
workbook = load_workbook(filename='new_pdf.xlsx')
sheet = workbook.active
for row in data:sheet.append(row)
workbook.save(filename = "newpdf2.xlsx")
我们可以得到下面的表格数据: