pdfGPT|无需阅读,让 PDF 和自己对话

目前 ChatGPT 无法直接与外部数据进行交互。如果我们能将自己的数据投喂给它,并且让它根据数据与我们对话,那么我们就能将 ChatGPT 变成自己的知识库。这种方法将使 ChatGPT 更加智能化和可定制化,更好地满足用户的需求。

因 OpenAI gpt-3.5-turbo模型有 4096 个 tokens 的限制,我们不能将一个大文本传递给 OpenAI。一个好的解决方法是使用 embeddings,但这会消耗我们的 tokens。而本文介绍的 pdfGPT,使用universal-sentence-encoder改进 embeddings。每次用户输入问题时,他会搜索文档中相关连的内容,然后将它传递给 ChatGPT,由 ChatGPT 回答用户的问题。

是什么

pdfGPT 允许用户使用 ChatGPT 与上传的 PDF 文件进行交流。该应用程序智能地将文档分成更小的块,并使用强大的Deep Averaging Network Encoder来生成 embeddings。

pdfGPT 对 pdf 文件内容进行语义搜索,并将最相关的 embeddings 传递给 ChatGPT。pdfGPT 自定义逻辑生成精确的回答。回答内容会将引用信息所在的文件页码放在方括号([])中,从而增加回答的可信度,并有助于快速定位相关信息。

开源地址:

https://github.com/bhaskatripathi/pdfGPT

项目 UML

![[Pasted image 20230429221641.png]]

项目流程图

![[Pasted image 20230429221705.png]]

使用体验

这次我们依然白嫖Google colab的服务。现在让我们来体验下 pdfGPT 的能力吧。

安装依赖

!git clone https://github.com/bhaskatripathi/pdfGPT.git
!python -m pip install --upgrade pip!pip install PyMuPDF
!pip install numpy
!pip install scikit-learn
!pip install tensorflow
!pip install tensorflow-hub
!pip install openai
!pip install gradio

这里直接根据依赖文件 pip install -r requirements.txt 时,会出现意料之外的报错。懒得去理会报错原因,我们直接手动安装这些依赖即可。

启动

%cd pdfGPT
!python app.py

项目通过 gradio 展示。我们直接根据表单提示,输入 OpenAI API key,并且上传我们的 PDF 文件或者输入文件的 URL 地址。然后我们在问题表单填入我们的问题,和 PDF 文件进行交流。

我以之前写的 C 站数据分析文章生成的 PDF 文件为例,我们向它提问:chilloutmix 是什么。它正确的返回了答案,并且标注了数据出处所在的页码。

![[Pasted image 20230429214531.png]]

我们可以修改代码,添加 gradio 的 launch 参数share=True,向朋友分享自己的服务。添加 OpenAI key 输入框参数 type="password",使得前端输入 key 时,不明文展示在前端。

不足

当我们上传中文 PDF 大文件时,会出现openai.error.InvalidRequestError 报错。我们可以使用 OpenAI 官方提供的tiktoken 库计算 tokens 来拆分文本,以解决这个问题。这里大家自行处理。

总结

本文介绍了 pdfGPT ,并体验了它的能力。它向我们展示了通过投喂 PDF 文件内容给 ChatGPT,让他成为我们私人知识库的能力。
虽然它还有很大的不足,但它只是个 demo,大家可以自由探索。

本文转载自个人公众号:AI 不懂生命本质

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/22732.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

学生作业形同虚设!ChatGPT作弊成风!OpenAI:正在自研审核工具

本文来源 机器之心 编辑:泽南、蛋酱 「对学生有负面影响」,这么大责任 OpenAI 可担不起。 语言生成模型来了,学校的作业会不会从此变得形同虚设?近日,纽约市教育官员宣布禁止学生在公立学校使用 ChatGPT 的事件引发了…

聚观早报|马斯克将TruthGPT挑战ChatGPT;腾讯披露自研芯片新进展

今日要闻:马斯克将TruthGPT挑战ChatGPT;苹果在印度年销售额近60亿美元;腾讯披露自研芯片沧海最新进展;特斯拉中国工厂普通工人月薪约1万元;飞猪将直接向阿里CEO张勇汇报 马斯克将TruthGPT挑战ChatGPT 4 月 18 日消息&…

微信公众号(一)每日推送详细教程(含实时定位,天气预报,每日英语,纪念日等,可快速自定义消息模板并指定订阅者类型发送)

微信公众号(一)每日推送,天气推送 (含实时定位,天气预报,每日英语,纪念日等,可快速自定义消息模板并指定订阅者类型发送),另有小白网页版配置 版本介绍1. 相关…

《花雕学AI》用AI创造清晨的美好:ChatGPT+DALL-E 2 生成“早上好”的场景图

早晨是一天中最美好的时刻,也是最适合与AI对话的时刻。想象一下,当你醒来,打开手机,就能看到一个AI为你生成的“早上好”的场景图,是不是很温馨?这就是ChatGPTDALL-E 2(新Bing) 的魅…

我踩过的那些坑,浅谈一下如何更优雅地使用 Linux

前言 相信很多尝鲜过桌面 Linux 系统的朋友,对它一个很深刻的印象就是稳定性差:不知道怎么就把系统搞崩了,又找不到问题的具体原因和解决方法,只能尝试重装,直到心力交瘁地回到了 Windows 或 macOS。但另一方面&#…

李开复筹组 AI 2.0 全新平台,“零一万物”重磅上线!

「如同 Windows 带动了 PC 普及,Android 催生了移动互联网的生态,AI 2.0 将诞生比移动互联网大十倍的平台机会,将把既有的软件、使用界面和应用重写一次,也将诞生新一批 AI-first 的应用,并催生由 AI 主导的商业模式」…

AIGC领域最大收购:Databricks 13亿美元收购MosaicML,成立仅2年员工60人

Databricks CEO表示:“该交易旨在将企业数据与服务连接起来,帮助它们构建自己更便宜的语言模型。” 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 大数据巨头 Databricks 宣布以 13 亿美元收购人工智能初创公司 MosaicML。…

2022年智源社区年度热点推荐丨新春集锦

本文为2022年最受智源社区小伙伴喜爱的文章,根据文章质量和热门程度等维度计算得出。还有AI大佬的全年总结盘点总结,也一并推荐给你。虎年除旧,兔年迎新,藉此机会、智源编辑组全员谨祝大家新春快乐! 2022 智源社区20篇…

估值超 80 亿独角兽爆雷!靠“吹牛”骗取 10 亿融资,2000 万月活中 95% 是“机器人”...

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) “一家初创型企业,想要获得 10 亿融资,需要具备什么?” 对于这个问题,曾放话对标 Facebook 的即时通讯应用 IRL(IN REAL LIFE)来…

AIGC大记事【2023-0625】【第五期】:《时代》专访ChatGPT之父:人工智能影响经济还需要很多年

大咖观点: 《时代》专访ChatGPT之父:人工智能影响经济还需要很多年孙正义:我每天和ChatGPT聊天,一场巨大革命即将到来,软银“终将统治世界!”刘慈欣谈 ChatGPT:人类的无能反而是人类最后的屏障A…

GPT4结对编程实战,鹅厂一线研发真实使用感受

ChatGPT4相比ChatGPT3.5在逻辑推理能力上有很大的进步,其代码生成能力颇为优越。因此作者尝试在工作中某些不涉密的基础工作上,应用ChatGPT4来提升研发效率,简单尝试之后发现其在不少场景是有效的。本文将向大家展示如何充分利用 ChatGPT-4 结…

借助ChatGPT提高编程效率指南

一、借助ChatGPT提高编程效率指南 随着计算机技术的飞速发展,编程已经成为了现代社会中一个非常重要的技能。对于许多人来说,编程不仅是一项工作技能,而且是一种生活方式。然而,即使是最有经验的程序员,也会在编写代码…

20230521 AI 一周大事件汇总

🚀 ChatGPT 上线联网和插件功能 OpenAI宣布将在这周推出联网和插件功能,位于Alpha和Beta通道的ChatGPT Plus用户都可使用70多个上线的插件。 更新意味着ChatGPT将利用最新的信息和资讯为使用者提供服务。 上线的ChatGPT插件种类涵盖了行程安排助理、代…

【LLM系列】00:斯坦福 Alpaca 模型介绍及其复现

简介 西风吹老洞庭波,一夜湘君白发多。醉后不知天在水,满船清梦压星河。小伙伴好,我是微信公众号《小窗幽记机器学习》的小编:卖核弹的小女孩。更多、更新文章欢迎关注微信公众号:小窗幽记机器学习。后续会持续输出模…

批量提取某音视频文案(二)

牙叔教程 简单易懂 之前写过一篇 批量提取某音视频文案 , 在之前的教程中, 我用的是微软的语音转文字功能, 今天我们换个方法, 使用 逗哥配音 的 文案提取 功能 准备工作 下载视频和音频 我在github找到的是这个仓库 https://github.com/Johnserf-Seed/TikTokDownload 注意一…

关于职场中的面试,要是遇到这些问题时,应该怎么回

(点击即可收听) 关于职场中的面试,要是遇到这些问题时,应该怎么回 平常多学一点,面试入职时就少踩一点坑,无论是去面试还是换工作,怎么样去回答面试官,遇到此类的问题,能够应付自如 1. 你觉得这份工作你能胜任? 首先,无论你在面试过程当中表现怎么样,一定要非常坚定,一定可以 …

ChatGPT偷家:Stack Overflow正被程序员抛弃,访问量一个月骤降3200W

金磊 Pine 发自 凹非寺量子位 | 公众号 QbitAI Stack Overflow,正在被程序员们抛弃。 你没听错。 这个全球知名的开发者问答网站,仅在一个月时间内,访问量骤降3200万! 甚至现在的搜索量仅是它巅峰时期的三分之一…… 为何会突然如…

ChatGPT与讯飞星火大模型:AI语言模型的巅峰之作

尊敬的家人朋友们,大家好! 今年,我们不得不提的一个热门话题就是ChatGPT,这是一款基于语言模型的人机对话系统。它在工作和生活中给我们带来了极大的便利。作为一名从事IT行业的人,我深切体会到了它在技术和文本处理方…

ChatGPT的前世今生,简单明了

...... 版权声明 转自水木人工智能学堂,版权属于原作者,仅用于学术分享 文章精选: 图灵是如何设计出图灵机的,背后的故事和对我们的启发是什么,估计99%的人不知ChatGPT之后,教育向何处去?图灵奖…

快看ChatGPT的前世今生

文 / 高扬(微信公众号:量子论) 从ChatGPT正式发布,这五个月以来,大家已经体会到了它的强大。 感谢大家的认可,我也做了多场一对一指导,通过一个小时的纯干货手把手指导和实践,大家已…