Python3,5行代码,Chatxxx能对PDF文件进行旋转、提取、合并等一系列操作,看了这篇,80岁老奶奶走路都不扶墙了。

ChatPDF的妙用

  • 1、引言
  • 2、代码实战
    • 2.1 原理
    • 2.2 安装
    • 2.2 示例
      • 2.2.1 创建PDF文件
      • 2.2.2 旋转PDF文件
      • 2.2.3 拆分PDF文件
      • 2.2.4 合并PDF文件
      • 2.2.5 提取PDF文件内容
  • 3、总结

1、引言

小屌丝:鱼哥,最近干啥了?
小鱼:最近? 你指的多近?
小屌丝:就是 这几天?
小鱼:这几天 我在搬砖啊。
小屌丝:那前几天呢?
小鱼:前几天,我五一假期,我也在搬砖。
小屌丝:鱼哥,你…。
在这里插入图片描述

小鱼:我确实这样的啊。
小屌丝:那换一个话题,ChatGPT搞得怎么样?
小鱼:ChatGPT各个大厂不都在搞,你想了解的,ChatGPT都能回答。
小屌丝:鱼哥,你…!
小鱼:这就是ChatGPT的强大之处啊,事实也是如此呢。
小屌丝:好吧, 那我想提取PDF文档的内容。
小鱼:这篇:《Python3,9行批量提取PDF文件的指定内容,这种操作,保证人见人爱….》
小屌丝:我是人民币玩家, 我要更高级的。
小鱼:这… 容我看一下
小屌丝:看啥?
小鱼:看你账户余额还剩多少,是不是该充值了。
小屌丝:鱼哥,你…!
小鱼:充满,给你想要的高级感…
在这里插入图片描述

小屌丝:嘿嘿 … 充满…

2、代码实战

2.1 原理

说到 ChatPDF,大部分同学的第一反应就是, 不好意思,我不知道。
但是,说到ChatGPT,那你可能说,这我必须知道啊, OPenAI公司的产品,并且现在这么爆火,我还能不知道呢。

既然知道ChatGPT,那ChatPDF就不难理解了。
其实,ChatPDF就是ChatGPT的一个衍生产品。

小屌丝:既然是ChatGPT的衍生产品,那,工作原理是啥样的呢?
小鱼:工作原理不难,也就2套把大象放冰箱的步骤吧。

在这里插入图片描述

  • 1、ChatPDF读取PDF文件内容,并将其转换成文本(可以是.txt)格式;
  • 2、ChatPDF对提取的文本内容进行清理和标准化,如:分段、分句等;
  • 3、使用OpenAI的Embeddings API将每个分段转换为向量,这个向量将对文本中的语义进行编码,以便于与问题的向量进行比较;
  • 4、使用OpenAI的Embeddings API将问题转换为一个向量,并与每个分段的向量进行比较,以找到最相似的分段。这个相似度计算可以使用余弦相似度等常见的方法进行;
  • 5、将找到的最相似的分段与问题作为prompt,调用OpenAI的Completion API,让ChatGPT学习分段内容后,再回答对应的问题;
  • 6、会将ChatGPT生成的答案返回给用户,完成一次查询。

小屌丝:没想到,实现流程确实挺easy的。
小鱼:大河弯弯向东流,牛牛向前冲 ~ ~

2.2 安装

上一章节我们知道了什么是ChatPDF,以及运行流程,
接下来,就得实际操作操作了 。

当然,涉及到第三方库, 老规矩,安装走起。

pip install chatpdf

然后就是等待着安装。

其它安装方式,直接看这两篇:

  • Python3,选择Python自动安装第三方库,从此跟pip说拜拜!!
  • Python3:我低调的只用一行代码,就导入Python所有库!

因为chatPDF需要安装一会(我不会说这个过程很"短暂")。

2.2 示例

安装完成,我们就看看chatPDF的能耐。

2.2.1 创建PDF文件

代码示例

# -*- coding:utf-8 -*-
# @Time   : 2023-05-06
# @Author : Carl_DJ'''
实现功能:使用chatPDF的基本方法,创建PDF文件
''''--------->创建PDF文件<---------'
from chatpdf import ChatPDF#文件名字
file_name = './data/TestDemo.pdf'
pdf = ChatPDF()
#添加页数
pdf.add_page()
#设置字体
pdf.set_font("Arial", size=12)
#设置内容
pdf.cell(200,10,txt='Hello, Python')
#输出内容
pdf.output(file_name)

2.2.2 旋转PDF文件

代码示例

# -*- coding:utf-8 -*-
# @Time   : 2023-05-06
# @Author : Carl_DJ'''
实现功能:使用chatPDF的基本方法,实现旋转PDF文件内容
''''--------->旋转PDF文件内容<---------'
from chatpdf import rotate_pages#pdf源文件
pdf_file = './data/input.pdf'#输出的文件
output_file = './data/output.pdf'#旋转的页码
pages = [1, 3]#旋转角度设置
rotation_angle = 270rotate_pages(pdf_file, output_file, pages, rotation_angle)

2.2.3 拆分PDF文件

代码示例

# -*- coding:utf-8 -*-
# @Time   : 2023-05-06
# @Author : Carl_DJ'''
实现功能:使用chatPDF的基本方法,实现拆分PDF文件内容
''''--------->拆分PDF文件<---------'
from chatpdf import split#需要拆分的pdf源文件
pdf_file = 'input_demo.pdf'#拆分后的pdf保存的文件夹
output_folder = './data/output'split(pdf_file,output_folder)

2.2.4 合并PDF文件

代码示例

# -*- coding:utf-8 -*-
# @Time   : 2023-05-06
# @Author : Carl_DJ'''
实现功能:使用chatPDF的基本方法,实现合并PDF文件内容
''''--------->合并PDF文件<---------'
#获取所有文件
file1 = './data/demo1.pdf'
file2 = './data/demo2.pdf'
file3 = './data/demo3.pdf'#列表展示所有需要合并的pdf文件
pdf_file_list = [file1,file2,file3]
#合并后输出文件名称
output_file = 'output_demo.pdf'merge(pdf_file_list,output_file)

2.2.5 提取PDF文件内容

代码示例

# -*- coding:utf-8 -*-
# @Time   : 2023-05-06
# @Author : Carl_DJ'''
实现功能:使用chatPDF的基本方法,实现提取PDF文件内容
''''--------->提取PDF文件<---------'
from chatpdf import extract_pages#待提取的pdf源文件
pdf_file = 'input.pdf'#输出提取的pdf文件内容
output_file = './data/output.pdf'
#提取的源文件的页码
pages = [1,3,5,7,10]extract_pages(pdf_file, output_file, pages)

小屌丝:鱼哥,我记得你还写过一篇,专门提取PDF文档内容的博文。
小鱼:嗯,你的记性还挺好,确实写过,就是下面这篇。

  • Python3,9行批量提取PDF文件的指定内容,这种操作,保证人见人爱…

当然,关于对PDF文档的操作,也可以看小鱼的其他博文:

  • Python3:为了200块钱生活费,我破解了媳妇的加密PDF文件,然而看到内容,我…有点慌了~~
  • Python3,2行代码,多种方法,直接把网页内容转换成PDF文档和图片。
  • Python3,2段代码,给pdf文件添加水印,原来watermark还可以这么玩。》

3、总结

看到这里, ChatPDF库的介绍就完成了。
其实ChatPDF库的功能,不止我说的这几个功能哦,还有:

  • PDF文件加密
  • PDF文件解密

在当前ChatGPT爆火的当下,作为技术er,我们多多少少都需要了解一些AI的知识。
即使白~ 嫖~ ChatGPT的使用次数, 也是可以的。
当然, 作为小鱼,肯定不会做(bai piao )的事情,但是,学习的脚步,却从未停止。

我是小鱼

  • CSDN 博客专家
  • 阿里云 专家博主
  • 51CTO 博客专家
  • 51认证讲师
  • 认证金牌面试官
  • 职场培训规划师

关注,带你学习更多更有趣的Python知识。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/17022.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt赋能python:Python实现多关键词搜索PDF文件

Python实现多关键词搜索PDF文件 概述 在今天的数字化社会中&#xff0c;很多信息都以数字化的形式存储在PDF文件中。这让我们在搜索特定信息时面临很多挑战&#xff0c;特别是当我们需要同时搜索多个PDF文件并集中检索这些文件时。 在这篇文章中&#xff0c;我们将介绍如何使…

零代码编程:用ChatGPT将PDF文件的表格批量转为Excel表格

电脑中有几百个PDF文件&#xff0c;文件内容格式一致&#xff0c;每个PDF文件第一页是一个表格。想把这几百个PDF文件里面的表格都提取出来&#xff0c;转为excel表&#xff0c;该怎么办&#xff1f; 打开ChatGPT&#xff08;一定要用GPT4&#xff0c;编程能力很强。相比之下&a…

chatgpt赋能python:Python抓取PDF内容:一个全面的指南

Python 抓取 PDF 内容&#xff1a;一个全面的指南 引言 Python 作为一种广泛使用的编程语言&#xff0c;已经拥有了许多应用功能。其中之一是抓取 PDF 文件的内容。 PDF 文件在今天的数字化世界中使用广泛&#xff0c;使得从 PDF 文件中提取内容变得尤其重要&#xff0c;对于…

ChatGPT-4模型读取PDF/网页链接实测结果!

联网和插件功能使用 直接在设置里面&#xff0c;把这两个开关开起来 联网功能&#xff1a; 3.5不会的东西是不会自动联网搜索的&#xff0c;Plus4.0可以进行联网搜索答案 插件功能&#xff1a; 首先在Settings里面把Plugins进行安装&#xff0c;选中要安装的插件&#xff0c;直…

a16z深度分析:AI 将创造哪些新的游戏玩法?

来源/a16z 编译/Nick 早期关于游戏中的生成式 AI 革命的讨论主要集中在 AI 工具如何提高游戏创作者的效率&#xff0c;使得游戏的制作速度比以前更快、规模更大。从长远来看&#xff0c;我们认为&#xff0c;AI 不仅能改变创造游戏的方式&#xff0c;还能改变游戏本身的性质。 …

ChatGPT对金融业将产生哪些影响?

黄浦区金融办 2023-05-22 02:30 发表于上海 近期人机互动模型ChatGPT进入应用领域&#xff0c;意味着人工智能的发展达到了新高地。那么&#xff0c;人工智能在金融领域的应用与未来发展趋势如何&#xff1f;会给金融机构带来哪些挑战&#xff1f;日前&#xff0c;《金融时报》…

OpManager 实时网络监控

网络是全球企业背后的基础。它在为您的员工提供行政服务以及为各大洲的客户提供服务方面发挥着关键作用。网络可帮助您将信息保存在一个集中位置 - 需要和限制所有其他入站请求的人员可以访问。那么&#xff0c;您如何提供持续的一流最终用户体验并维护快速发展的网络呢&#x…

使用 LangChain、Pinecone 和 LLM(如 GPT-4 和 ChatGPT)构建基于文档的问答系统

目录 一、简介 二、为什么语义搜索GPT问答比微调GPT更好&#xff1f; 2.1、更广泛的知识覆盖&#xff1a; 2.2、特定于上下文的答案&#xff1a; 2.3、适应性 2.4、更好地处理模糊查询 三、LangChain 模块 四、设置环境 五、加载文档 六、分割文档 七、使用 OpenAI 嵌入…

ChatGPT 启示录:AI 已经把人类逼退到了信仰和宗教的边界上了?

哲学的滑落 哲学之初&#xff0c;研究的对象是客观存在的物质实体&#xff0c;物体是不依赖于人们思想的东西。后来康德、叔本华等说物自体不可知&#xff0c;于是哲学家离开客体&#xff0c;转而研究人这一主体&#xff0c;研究人们内在感知到的表象世界。 到了维特根斯坦这里…

特斯拉因辅助驾驶发生致命车祸;APUS发布AiLMe大模型;欧洲成立人工智能研究中心来监督大型平台丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 APUS多模态大模型“AiLMe”发布 4月19日&#xff0c;APUS发布自研多模态人工智能大模型“AiLMe”。据介绍&#xff0c;AiLMe参数已达千亿规模&#xff0c;具备对文本、图像、视频、音频的理解和生成能力。针对具…

关于生成式人工智能服务管理的一些思考

&#xff08;本文阅读时间&#xff1a;&#xff16;分钟&#xff09; 01 生成式AI是我这几个月的重点研究领域&#xff0c;我也先后发表了20多篇文章&#xff0c;20来条视频节目&#xff0c;现在也在写作一本相关书籍&#xff0c;在业界也有那么一点点影响。 所以当生成式人工智…

马斯克低头了?改口此前评价比亚迪“做的不好”!

整理 | 朱珂欣 出品 | CSDN程序人生&#xff08;ID&#xff1a;coder_life&#xff09; 不得不说&#xff0c;互联网是带记忆的。 近日&#xff0c;有网友“挖”出一条 YouTube 上的“考古”视频 —— 特斯拉 CEO 马斯克评价比亚迪汽车“做的不好”。 令人没想到的是&#x…

【人工智能】AI 人工智能技术近十年演变发展历程

人工智能技术近十年演变发展历程 过去十年对于人工智能(AI)领域来说是一段激动人心的多事之秋。对深度学习潜力的适度探索变成了一个领域的爆炸性扩散,现在包括从电子商务中的推荐系统到自动驾驶汽车的对象检测以及可以创建从逼真的图像到连贯文本的所有内容的生成模型。 …

马斯克:我将开发不会消灭人类的 AI!

整理 | 王子彧 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 在怒喷 OpenAI 是盈利性组织&#xff0c;训练的 AI 说谎&#xff0c;闭源、不安全之后&#xff0c;亿万富翁埃隆马斯克表示&#xff1a;“他将推出一个名为 TurthGPT 的 AI 聊天机器人&#xff0c;以…

“偷”代码建起公司、学历造假、6天拿下1亿美元却拖欠工资,这位AI独角兽CEO屡遭质疑后亲自回应了...

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年5月份全网热门报告合集 无需翻墙&#xff0c;无需注册&#xff0c;ChatGPT4直接使用 ChatGPT提词手册&#xff0c;学完工作效率提升百倍 马斯克谈AI&#xff1a;中美差…

任正非再谈ChatGPT:今后职场只有两种人,一种是会用AI的人,另一种...

作者| Mr.K 编辑| Emma 来源| 技术领导力(ID&#xff1a;jishulingdaoli) 近日&#xff0c;任正非在接受采访时说&#xff1a;“ChatGPT对我们的机会是什么&#xff1f;它会把管道流量撑大&#xff0c;这样我们的5G产品就有市场需求。” 任总还强调&#xff1a;“今后职场上…

写自己的故事,帮别人说话

点击 欧盟IT那些事 关注我们 公告&#xff1a;因企鹅审核规定&#xff0c;本公众号从《德国IT那些事》更名为《欧盟IT那些事》。 世界很乱&#xff0c;安静了一年。 今年一年几乎没怎么动笔写作&#xff0c;以至于有人怀疑这个公众号博主是不是和小姨子跑路了&#xff1f; 没有…

研报复现 | Alpha是否存在于日内股价跳跃中?

今年9月&#xff0c;方正证券在其名为《个股股价跳跃及其对振幅因子的改进》的研报中提到&#xff1a; 股票市场中&#xff0c;由于利好或利空消息的不断到达&#xff0c;叠加投资者情绪的影响&#xff0c;股票价格经常会表现出突然的大幅波动。股价跳跃常常被用来描述和衡量这…

《恒盛策略》外资巨头突然出手!又有炒股软件罢工

刚刚&#xff0c;又有炒股软件出事&#xff01; 据新浪财经&#xff0c;今日有网友表示&#xff0c;一家头部券商APP无法登录&#xff0c;客服电话无法打通&#xff0c;在线客服无法接通。东方财富刚出事没多久&#xff0c;又产生这种事情&#xff0c;终究是为什么&#xff1f;…

Ai数字人浪潮来袭,超写实数字人系统出世,为企业打造定制化服务

数字人概念首次出现在80年代&#xff0c;最初在音乐领域应用&#xff0c;使用手绘技术进行生成。随着时间的推移&#xff0c;传统手绘被CG和动作捕捉等技术取代&#xff0c;从而使虚拟数字人的制作变得更加简化并降低成本。因此&#xff0c;虚拟数字人产业进入产业化探索阶段。…