手把手教你用 ChatGPT plugin 打造一个人知识库系统(一)

为什么需要个人知识库?

大概有很多人跟我一样,被现在信息过载弄得非常焦虑。很自然想到通过整理的方式来对抗信息过载,试图使用各种知识管理工具来整理这些信息,但最后折腾完各种工具后,才发现根本用不起来。因为这些工具常常需要我们按照预设的框架去管理和整理我们的信息,而这些框架可能并不完全符合我们的需求,缺乏足够的灵活性。

所以我在想,是否存在这样一种方案?既不改变我们现有摄入处理信息的方式,又能在整理信息时帮助我们链接和管理我们历史的知识。在大模型语言出现之前,这可能是难以实现的。但现在以 OpenAI 为代表的语言模型,具备了这个能力,他们能非常精准地理解你的自然语言。因此,我们完全可以不必关心整理这一趴,所有的知识点都可以散落一地,我们只在需要它的时候,捡起我想要的。

这么做的好处在于,它可以给你的大脑减负。而那些收藏夹吃灰系列的内容,也有被再度回收利用的可能。总之就是,拿来当第二大脑,真的超级适合!并且,通过提问的方式去使用它也非常符合直觉。另外我在成本上也做了验证,具体步骤在这里👉 ChatGPT 插件做个人知识库的成本计算,3.7K 的中文字数,收了 2 分钱,太良心了好吧?


原理介绍

为了方便之后更好地使用它,我们还是需要提前了解两个基本概念,有技术背景的童鞋可以跳过这一趴

什么是嵌入 (embedding)

简而言之,嵌入就是一个向量,它是可以被机器理解的数字列表。将自然语言映射成这样的向量,可以帮助机器理解词的含义以及词与词之间的关系。

3932c8ac91c2b7291bade8739f1e9e85.jpeg

比如下面三句话,在二维向量空间中,它们的位置大概如图示中这样👇🏻,其中「猫吃老鼠」、「猫吃咀嚼型动物」和「🐱😋🐭」,在空间中的位置是相近的,而「小吉爱吃鱼」这句话则在空间中位置则相对较远。这还只是在二维空间中,OpenAI 的 text-embedding-ada-002 模型的空间向量有 1536 个维度。因此,在更多维度的加持和上下文的帮助下,它基本上可以准确地检索出我们想要的结果。

bf9be6e23f72b6d7ffc7df3665fcf62e.jpeg

在做个人知识库的场景中,当我们发起一个提问时,问题首先被转换成一个向量,然后去向量数据库中检索到我们最相关的向量块,再结合 OpenAI 自身的总结摘要能力,将我们想要的内容总结成方便理解的自然语言返回给我们。


什么是向量数据库(vector database

向量数据库是一种将信息存储为向量或数字数组的数据库。每一条信息都被表示为一个向量,其中向量中的每一个数字对应于数据的一个特定属性或特征。

在这种情况下,你可以使用一个向量作为索引来从数据库中搜索和检索数据。查询向量不需要与数据库向量完全匹配。数据库引擎可以有效地检索由接近的向量索引的数据。在我们的情况下,它检索的是与你的问题语义相关的块。


设计思路

本教程基于官方的开源项目 ChatGPT-retrieval-plugin,为了方便理解,我画了一下原理图,并解释其中的各个模块的作用。原理图如下 👇🏻

613afc2746976cd6d828fae46b7a6ea1.jpeg

首先,你需要将你的文档或文本,通过官方的向量映射语言模型转换成向量,并存到向量数据库中。当你想要检索数据库中的内容时,只要导入你开发的插件,然后向正常使用 ChatGPT 一样使用即可,插件会将你的聊天内容分割成查询的词,然后通过 Api 调用 text-embedding-ada-002-v2 模型,将查询词转换成向量,接着去数据库中,查找语义相关的问题区块,并在查询到结果后,经过整理返回给你

4ce5ef52c3b45ab968a678d11782bd6a.jpeg

运行的最终效果图如上所示,本教程前半部分这一节主要解释其原理,下一节将进入实战环节,带你一步一步搭建一个本地可运行的知识库检索插件。敬请期待~

第二部分已经发布到我的个人博客上了,你可以可以提前去我的博客上查看👇🏻


www.bmms.me


参考资料

  • New and improved embedding model

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15683.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

简单实现一个ChatGPT Plugin

OpenAI对ChatGPT Plus用户开放了Plugin的权限。初步体验下来虽然bug不少,不过效果很不错,是一个较为成熟的feature。个人认为,ChatGPT Plugin的体验要远优于New Bing(bing还要继续努力..) 今天从零开始开发一个ChatGPT Plugin&am…

ChatGPT Plugin发布,这东西到底是干嘛的?里面的逻辑是什么?

前言 chatGPT目前的明显问题是不能够获取新知识,也没有办法和外界交互,而plugin就是来解决这个问题的。 chatgpt-retrieval-plugin 插件的基本信息 这是最新开源的一个plugin,里面有几个核心点 第一个是插件的定义 我不逐句翻译了&#…

chatgpt赋能powershell

最近chatgpt非常火爆,获得超高曝光度的同时,也让大家对ai和ai工具有了新的认识。关于chatgpt,可以参考这篇文章。 今天主要推荐一个可以与powershell集成的ai工具,其后端也是openai的服务,可以有效提高工作效率。 Po…

ChatGPT算法护航,拿不到年薪25W全额退!

最近因ChatGPT爆火,使得很多人非常的焦虑,下面是我看到的一位好朋友心情!不知道大家是否也有同样的心情!~ 感觉很多人在看到ChatGPT时都有这样的担忧,这样的担忧是不是源自于神经网络如果参数量足够大&…

搭个ChatGPT算法模型,离Java程序员有多远?

除了大家都想体验一下这款智能的 ChatGPT AI,也有很多互联网公司开始搭建自己的 ChatGPT,但真的挺担心最后整出来的不是 ChatGPT 而是 ChatPPT。为此我也想研究下 ChatGPT 是怎么做出来的,都说是模型和数据训练,那我能训练吗&…

基于java记账管理系统(论文+PPT+源码)

本 科 毕 业 设 计(论文) 题 目:记账管理系统 专题题目:记账管理系统 本 科 毕 业 设 计(论文)任 务 书 题 目: 记账管理系统 专题题目(若无专题则不填)&#xff1a…

为了搞懂ERP,我连问 ChatGPT 30个问题,通透!

我对ERP有很多的疑问,这次向ChatGPT请教,连问30个问题,瞬间觉得通透了很多,以下是我的问题和ChatGPT的回复,分为概念篇、架构篇和生态篇三部分,希望能带给你新的启示。 一、概念篇 1、ERP是什么&#xff1f…

安卓app源码和设计报告——简易记账本

课 程 设 计(实训)说 明 书 题目实现简易记账本功能 专 业班 级学生姓名同组学生指导老师 课程设计(实训)评语 学生姓名 专业 班级 2 题目 实现简易记账本功能 评语: 成绩: 优良中及格不及格出勤20%…

ChatGPT来抢财务饭碗?别慌!对话企业聊聊财务数字化

10大职业将被ChatGPT取代,财务也位居其中?有媒体和机构整理,最有可能被取代的职业有:技术工种、媒体工作者、法律工作者、市场研究分析师、教师、财务、交易员、平面设计师、会计师、客服。你感受到职业危机了吗? 当下…

不止ChatGPT,这些GPT 官方助力的潜力股同样值得拥有

我很惊讶于 OpenAI 创投基金主页面的简陋,或许他们更关注于做事吧。对于 OpenAI 的第一组投资来说,人工智能实验室已使用其 1 亿美元的基金投资了至少 12 家公司,很多公司的产品状态尚处于“Join Waitlist”状态,下面我带你了解一…

Java——Linux使用Docker部署若依前后端分离版【保姆级教程】

目录 一、项目规划与前置工作 1.1、docker所需镜像 1.2、使用工具 1.3、防火墙与安全组的配置 1.4、域名解析、备案、SSL证书的准备(可选) 二、Docker和镜像安装 2.1、Docker安装 2.1.1、检查环境 2.1.2、搭建gcc环境(gcc是编程语言译器&am…

面向数据安全共享的联邦学习研究综述

开放隐私计算 摘 要:跨部门、跨地域、跨系统间的数据共享是充分发挥分布式数据价值的有效途径,但是现阶段日益严峻的数据安全威胁和严格的法律法规对数据共享造成了诸多挑战。联邦学习可以联合多个用户在不传输本地数据的情况下协同训练机器学习模型&a…

好再来点餐APP源码和设计报告

大作业文档 项目名称:好再来点餐专业:班级:学号:姓名: 目 录 一、项目功能介绍3 二、项目运行环境3 1、开发环境3 2、运行环境3 3、是否需要联网3 三、项目配置文件及工程结构3 1、工程配置文件3 2、工程结构…

Java 编写的个人记账网站 完整源码 附带详细的设计报告

今天为大家分享一个java语言编写的个人记账网站,目前系统功能已经很全面,后续会进一步完善。整个系统界面漂亮,有完整得源码,希望大家可以喜欢。喜欢的帮忙点赞和关注。一起编程、一起进步 开发环境 开发语言为Java,开…

Vue2+3入门到实战

作为IT技术相关行业不可或缺的岗位之一,前端开发工程师就业前途广阔,一直是很多同学心中转行的首选行业。但很多人还没开始,便被一系列问题难倒了,比如:前端该如何入门?路线图是怎样的?想要找到…

尝试用 ChatGPT 完整的实现一个 Serverless 后端工程

❝ 本文转自 Xiaowen.Z 的博客,原文:https://xiaowenz.com/blog/2023/04/coding-with-chatgpt-pilot/,版权归原作者所有。欢迎投稿,投稿请添加微信好友:cloud-native-yang 写在前面 因为从过年开始,断断续续…

只因为给我打了0.1分,重新撸了个记账小程序

2019年的时候和朋友出去旅行,因为需要A账单,所以前一天开发了一个记账小程序,时间匆忙,就随便完成基础记账和AA计算功能后就上线,旅行结束后也就没用过了,前几天无意登录,发现被打了1.0分。 叔能…

总体设计(软件项目)

1.引言 1.1编写目的 由前面的需求分析,得出了系统的基本需求,要实现整个系统,需要对用户的需求进行设计,概要设计主要是利用比较抽象的语言对整个系统进行概括,确定对系统的物理配置,确定整个系统的处理流…

ChatGPT是什么,一文读懂ChatGPT

ChatGPT是个啥? 近期很多朋友后台私信GPT如何访问,我在网上找到一个免梯子的GPT,使用起来还是挺顺畅的,有需要的可以尝试使用,传送门,界面也挺清新的 近期,OpenAI 发布了 ChatGPT,是一个可以对话的方式进行交互的模型,因为它的智能化,得到了很多用户的欢迎。ChatG…

ChatGPT实战:如何进行高难度沟通

最近发现了一个很实用的 ChatGPT 在职场中的应用场景——高难度沟通。对于一个没有什么经验的职场人来说,在第一次面对催促项目进度、礼貌地告诉甲方你们给的钱实在太少了、向老板反馈最近加班太多了等等沟通场景,会很手足无措。 有了 ChatGPT 之后&…