利用DocsGPT快速搭建一个问答式的文档检索服务

docsGPT 示例

基于企业内部独有的知识库,进行智能的客服问答,毫无疑问是 ChatGPT 出圈以后,所有公司想要融入 ChatGPT 技术时的第一反应。可惜 ChatGPT 实际上是一个基于大语言模型实现的,包括很多其他功能的,完整的聊天产品。并没有直接的接口让用户导入完整的知识库。

此外,openai 提供的 GPT3 接口服务,也必须一直联网使用。对部分传统的 toB 服务产品依然不太友好。有趣的是,业界似乎也都不推荐使用 GPT3 的 fine-tuning 方式,甚至据说 fine-tuning 方式加入新训练数据后反而会导致通用文本的生成能力下降。

DocsGPT 开源项目,针对这种情况,采用 GPT3 接口,配合 faiss 向量搜索引擎和 langchain 模型库,快速实现了一个针对技术文档的智能客服。可以作为这类产品的基础原型,供大家参照。项目地址是https://github.com/arc53/DocsGPT

首先,我们把这个项目clone到本地,DocsGPT项目分为后台服务和前台页面两部分,当我们进入项目文件夹后,/application 文件夹中是后台服务的相关代码,使用python语言编写,frontend文件夹中则是前端页面的相关代码,编译前端文件需要预先安装nodejs。

我们首先启动后台服务:进入 /application 文件夹,然后使用命令 pip install -r requirements.txt 安装好依赖。复制 .env_sample 文件为 .env 文件,编辑文件,把文件中的 yout_api_key替换成自己的 OpenAI API 的 API key。

然后执行 python app.py 命令启动后台服务,服务默认使用 5001 端口。

接下来我们编译前端页面,回到项目根目录,进入frontend 文件夹下,使用 npm install 安装依赖,将 .env.development 文件中 VITE_API_HOST 的地址从 https://docsapi.arc53.com 改为刚才启动的后台服务地址 http://localhost:5001:

最后使用 npm run dev 命令启动前端页面服务。

这个时候,页面和后台服务都启动完成了,我们去浏览器中看看效果吧!打开浏览器,输入前台页面启动时终端窗口提示的地址 http://127.0.0.1:5173/,我们就打开了DocsGPT的主页面。

刚进入界面,会提示我们输入 OpenAI API Key,

输入以后会提示我们选择使用哪个已经训练好的文档,这里我们选择python3.11.1作为文档数据源,然后点击 Save 按钮保存。

这个时候我们就能完整的看到 DocsGPT 的交互页面了,我们会发现,这个页面和 ChatGPT 的对话页面长得非常相似,功能区域划分也是一致的。左侧导航栏分为对话列表和菜单两部分,右侧为对话主界面,主界面的下部正中间为聊天对话输入框。

由于我们还没训练自己的文档,所以现在也查不出什么内容,接下来我们先自己训练一份文档看看效果。DocsGPT支持的用于训练的文档格式还是很多的,基本囊括了市面上文档所涉及的各种格式:.rst, .md, .mdx, .pdf, .docx, .csv, .epub, .html,我们用python的一个非常好用的库 requests 的文档举个例子,看看训练以后在DocsGPT中能有什么表现。

首先将 requests 这个库下载到本地,在 DocsGPT 项目的 scripts/ 目录下创建名为inputs 的文件夹,并requests的文档文件拷贝到这个目录下,由于DocsGPT在训练时是递归查找文档文件的,所以我们不必将所有文件平铺。

接下来我们回到scripts/目录并创建一个.env文件,如同之前一样,把 OpenAI API Key 更新到文件中对应的位置,OPENAI_API_KEY=API Key。接着我们运行pip install requirements.txt 安装训练所需依赖,安装完成后运行 python ingest.py ingest 命令开始训练。当然,因为训练使用了OpenAPI的 gpt-3.5-turbo 模型生成矢量数据,所以需要花费一定的金额,具体的金额在命令执行完token切分的时候,会在终端提示,我们选择同意后才会真正扣费并进行训练和生成矢量数据库数据文件。

我们选择 Y 以后,稍等片刻就会出现训练进度条。

等待训练完成以后我们发现scripts/目录下出现outputs/inputs/目录,进入目录后我们就能看到新生成的 .faiss 为后缀的矢量数据文件以及 .pkl 后缀的索引文件。我们将这两个文件复制到项目根目录下的 application/ 文件夹下,替换原有同名文件,然后在 application/ 文件夹下重新启动后台服务。这个时候我们就可以去页面上看看效果了!

这样,我们就利用DocsGPT搭建完成了一个问答式的文档检索服务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/68620.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

成绩管理系统

suan.h文件代码 #pragma once #define _CRT_SECURE_NO_WARNINGS #undef UNICODE #undef _UNICODE #include <stdio.h> #include <stdlib.h> #include <graphics.h> #include <time.h> #include <conio.h> #include<iostream> #include&l…

360全景热点panolens.js 实现代码

本片主要介绍360全景热点基于panolens.js 实现的代码&#xff0c;主要通过如下步骤实现&#xff1a; 1&#xff0c;引入核心js库 <script src"js/three.min.js"></script><script src"js/panolens.min.js"></script> 2&#xff0…

2020年360亿条数据遭泄露 网络安全产业风口要来了

[网络安全重磅福利&#xff1a;入门&进阶全套282G学习资源包免费分享&#xff01;](https://mp.weixin.qq.com/s/BWb9OzaB-gVGVpkm161PMw ) 数据被视为21世纪的“钻石矿”&#xff0c;蕴含着巨大的动能&#xff0c;并且具有边际效应递增的特点&#xff0c;在不断的流动共享…

360腾讯计算机比赛,巅峰对决 腾讯电脑管家VS360详尽评测

【IT168 评测】提起目前国内杀毒软件市场&#xff0c;可谓群雄割据&#xff0c;从老一批的瑞星、卡巴斯基、360&#xff0c;到近些年崛起的腾讯电脑管家似乎在杀毒界也风起云涌&#xff0c;近期业界又有消息称电脑管家获得AV-TEST认证&#xff0c;包揽了国际四大权威杀毒测试奖…

奇虎360软件阻止腾讯电脑管家启动,3Q大战将再度上演?

今天下午值班&#xff0c;使用同事的电脑上网。开机进入桌面后看见系统托盘区冒出360安全卫士和360杀毒软件的图标&#xff0c;立马全部退出。到腾讯电脑管家官网下载了安装程序进行安装。 安装程序窗口在安装进度达到99%后&#xff0c;忽然就消失了&#xff0c;系统托盘区也没…

本周大新闻|John Carmack从Meta离职,OPPO发布双目AR一体机仅38g

本周大新闻&#xff0c;AR方面&#xff0c;微软已向客户承诺新款HoloLens&#xff1b;NASA成立Joint AR项目&#xff0c;计划在宇航服头盔中加入AR功能&#xff1b;OPPO Air Glass 2发布&#xff0c;双目光波导仅38g&#xff1b;Rokid开设全球首家品牌旗舰店&#xff1b;谷歌为…

周鸿祎亲自站台,360年度新旗舰究竟有何特别?

众所周知&#xff0c;360自从推出手机之后&#xff0c;每一代产品都以高性价比著称。即便是在竞争早已趋于白热化的智能手机红海市场&#xff0c;360手机依然能够占有一席之地。 不过&#xff0c;虽然360手机已经迭代到了N7系列&#xff0c;但是“红衣教主”周鸿祎在发布会上露…

腾讯360

尊敬的360用户&#xff1a; 360推出扣扣保镖的本意&#xff0c;是为了让QQ更安全更好用。而腾讯公司的 举措让用户陷入两难&#xff0c;这有悖于我们的初衷。 为了避免让用户做两难的抉择&#xff0c;360决定暂时召回扣扣保镖产品。 对给您带来的不便&#xff0c;我们非常抱歉…

12月24日科技资讯|12306 回应软件崩了;微信发布新版本,朋友圈可“斗图”;Ant Design 3.26.4 发布

「极客头条」—— 技术人员的新闻圈&#xff01; CSDN 的读者朋友们早上好哇&#xff0c;「极客头条」来啦&#xff0c;快来看今天都有哪些值得我们技术人关注的重要新闻吧。扫描上方二维码进入 CSDN App 可以收听御姐萌妹 Style 的人工版音频哟。 一分钟速览新闻点&#xff…

360安全卫士上线新功能: 一周电脑安全动态全掌握

在互联网行业高速发展的今天&#xff0c;不管你从事何种行业&#xff0c;都离不开电脑办公&#xff0c;更不用说在生活娱乐中电脑所发挥的巨大作用&#xff0c;可以说电脑已经成了我们生活中必备的一部分。 电脑跟人类一样&#xff0c;不良的使用习惯、外来攻击都会给电脑健康…

OPPO Watch新品将于9月16日正式发布

2021 年 9 月 15 日&#xff0c;中国&#xff0c;深圳——OPPO今日宣布&#xff0c;OPPO Watch系列新款产品&#xff0c;将于 9 月 16 日在OPPO秋季新品发布会正式发布。 新款OPPO Watch将主打健康监测功能&#xff0c;可以实时监测用户的身体健康数据&#xff0c;并提供的健康…

腾讯会议发布3.0版本;微软将推出元宇宙产品;Firefox启动最大WebRTC升级|WebRTC风向

点击一键订阅《云荐大咖》专栏&#xff0c;获取官方推荐精品内容&#xff0c;学技术不迷路&#xff01; 近年来&#xff0c;实时音视频快速发展&#xff0c;WebRTC做为实时音视频的标准也快速发展&#xff0c;从直播到通讯&#xff0c;其应用场景也在不断丰富。如果您关注实时音…

360测试之美技术分享大会(第十季)圆满结束(附直播回放及PPT分享链接)

疫情居家&#xff0c;何以解忧&#xff1f;在线分享&#xff0c;也是一种不出家门可了解技术动态天下事的绝佳途径&#xff0c;对测试感兴趣的同学看过来哟~ 为了应对疫情影响&#xff0c;第十季测试之美技术分享大会于2022年12月3日上午九点半在360幕印平台准时开播。本次大会…

第六届 Techo TVP 开发者峰会暨腾讯云大数据峰会来啦

引言 50 年前&#xff0c;数据库管理系统、关系型数据库诞生&#xff0c;数据处理效率大大提升。数据库软件开始被应用于业务数据处理。20 年前&#xff0c;单机存储能力遭遇瓶颈&#xff0c;分布式存储计算架构成为主流。Apache Hadoop 成为大数据技术的代名词。 10 年前&…

360和腾讯QQ的那场战争!

阅读本文大概需要10分钟。 这是我的10年程序人生的第五篇&#xff0c;记录一场惊心动魄的商业大战&#xff1a;3Q大战。 在中国互联网历史上&#xff0c;3Q大战是标志性的一战&#xff0c;堪称互联网第一次世界大战。 彼时洋哥还是一个工作不到两年的基层员工&#xff0c;有幸…

腾讯安全威胁情报品牌发布会召开 打造开放、共享的情报生态圈

近年来&#xff0c;全球网络安全威胁态势愈发严峻&#xff0c;安全事件层出不穷&#xff0c;企业传统的安全防御策略显得越来越力不从心。如何快速高效应对持续性的网络威胁&#xff0c;构建更具实战和联动能力的威胁情报能力&#xff0c;实现安全防御上的“化被动为主动”&…

TCP连接中TIME_WAIT状态过多原因分析

1.time_wait状态过多原因 在高并发短连接的TCP服务器上&#xff0c;当服务器处理完请求后立刻主动正常关闭连接。主动关闭的一方在发送最后一个 ack 后就会进入TIME_WAIT 状态 停留2MSL&#xff08;max segment lifetime&#xff09;的时间&#xff0c;这个场景下&#xff0c;会…

服务器出现大量 TIME_WAIT,如何解决

经常在服务器发现一些连接出现 TIME_WAIT 状态&#xff0c;那么为什么会有 TIME_WAIT状态&#xff0c;它是如何产生的&#xff1f;大量的 TIME_WAIT 有什么危害&#xff1f;如何排查&#xff1f;如何优化&#xff1f;带着这些问题逐步分析&#xff1a; 1. TCP 连接回顾 TCP 创建…

【已解决】vagrant up下载box速度太慢的解决方法

文章目录 有自己思想&#xff0c;拒绝纯复制黏贴&#xff01;&#xff01;&#xff01; 有自己思想&#xff0c;拒绝纯复制黏贴&#xff01;&#xff01;&#xff01; 有自己思想&#xff0c;拒绝纯复制黏贴&#xff01;&#xff01;&#xff01; 一、问题背景二、处…

我用Python爬虫获取数据,分析双色球中奖概率,差点就中了

很多人喜欢买彩票,但是经常买彩票的人要么想着一夜暴富,要么想着改变命运,要么是娱乐娱乐,但是小编也要提醒大家一句,哪里能赚钱,哪里就有奸商,做事须谨慎。 前两天,在网上看到一个有意思的问题:彩票预测靠谱么?为什么还有那么多的人相信彩票预测? 暂且不说,彩票预…