基于GPT3.5实现本地知识库解决方案-利用向量数据库和GPT向量接口-实现智能回复并限制ChatGPT回答的范围

原文:基于GPT3.5实现本地知识库解决方案-利用向量数据库和GPT向量接口-实现智能回复并限制ChatGPT回答的范围 - 腾讯云开发者社区-腾讯云

标题有点长,但是基本也说明出了这篇文章的主旨,那就是利用GPT AI智能回答自己设置好的问题

既能实现自己的AI知识库机器人,又能节省ChatGPT调用的token成本费用。

代码仓库地址

document.ai: 基于GPT3.5的通用本地知识库解决方案

下面图片是整个流程:

导入知识库数据

利用openai的向量接口生成向量数据,然后导入到向量数据库qdrant

这段代码会将指定目录下的所有文件读取出来,然后将文件中的文本内容进行分割,分割后的结果会被传入到 

to_embeddings函数中,该函数会使用 OpenAI 的 API 将文本内容转换为向量。最后,将向量和文件名、文件内容一起作为一个文档插入到 Qdrant 数据库中。

具体来说,这段代码会遍历 ./source_data目录下的所有文件,对于每个文件,它会读取文件内容,然后将文件内容按照 #####进行分割

分割后的结果会被传入到 to_embeddings函数中。

to_embeddings函数会使用 OpenAI 的 API 将文本内容转换为向量,最后返回一个包含文件名、文件内容和向量的列表。

接下来,将向量和文件名、文件内容一起作为一个文档插入到 Qdrant 数据库中。

其中,count变量用于记录插入的文档数量,client.upsert函数用于将文档插入到 Qdrant 数据库中。

需要在目录里创建.env文件,里面放OPENAI_API_KEY

OPENAI_API_KEY=sk-Zxxxxxxxxddddddddd

from qdrant_client import QdrantClient
from qdrant_client.http.models import Distance, VectorParams
from qdrant_client.http.models import PointStruct
from dotenv import load_dotenv
import os
import tqdm
import openaidef to_embeddings(items):sentence_embeddings = openai.Embedding.create(model="text-embedding-ada-002",input=items[1])return [items[0], items[1], sentence_embeddings["data"][0]["embedding"]]if __name__ == '__main__':client = QdrantClient("127.0.0.1", port=6333)collection_name = "data_collection"load_dotenv()openai.api_key = os.getenv("OPENAI_API_KEY")# 创建collectionclient.recreate_collection(collection_name=collection_name,vectors_config=VectorParams(size=1536, distance=Distance.COSINE),)count = 0for root, dirs, files in os.walk("./source_data"):for file in tqdm.tqdm(files):file_path = os.path.join(root, file)with open(file_path, 'r', encoding='utf-8') as f:text = f.read()parts = text.split('#####')item = to_embeddings(parts)client.upsert(collection_name=collection_name,wait=True,points=[PointStruct(id=count, vector=item[2], payload={"title": item[0], "text": item[1]}),],)count += 1

复制

查询知识库数据

这是一个基于flask的web应用,主要功能是根据用户输入的问题,从Qdrant中搜索相关的文本,然后使用openai的ChatCompletion API进行对话生成,最后将生成的回答返回给用户。

from flask import Flask
from flask import render_template
from flask import request
from dotenv import load_dotenv
from qdrant_client import QdrantClient
import openai
import osapp = Flask(__name__)def prompt(question, answers):"""生成对话的示例提示语句,格式如下:demo_q:使用以下段落来回答问题,如果段落内容不相关就返回未查到相关信息:"成人头疼,流鼻涕是感冒还是过敏?"1. 普通感冒:您会出现喉咙发痒或喉咙痛,流鼻涕,流清澈的稀鼻涕(液体),有时轻度发热。2. 常年过敏:症状包括鼻塞或流鼻涕,鼻、口或喉咙发痒,眼睛流泪、发红、发痒、肿胀,打喷嚏。demo_a:成人出现头痛和流鼻涕的症状,可能是由于普通感冒或常年过敏引起的。如果病人出现咽喉痛和咳嗽,感冒的可能性比较大;而如果出现口、喉咙发痒、眼睛肿胀等症状,常年过敏的可能性比较大。system:你是一个医院问诊机器人"""demo_q = '使用以下段落来回答问题:"成人头疼,流鼻涕是感冒还是过敏?"\n1. 普通感冒:您会出现喉咙发痒或喉咙痛,流鼻涕,流清澈的稀鼻涕(液体),有时轻度发热。\n2. 常年过敏:症状包括鼻塞或流鼻涕,鼻、口或喉咙发痒,眼睛流泪、发红、发痒、肿胀,打喷嚏。'demo_a = '成人出现头痛和流鼻涕的症状,可能是由于普通感冒或常年过敏引起的。如果病人出现咽喉痛和咳嗽,感冒的可能性比较大;而如果出现口、喉咙发痒、眼睛肿胀等症状,常年过敏的可能性比较大。'system = '你是一个医院问诊机器人'q = '使用以下段落来回答问题,如果段落内容不相关就返回未查到相关信息:"'q += question + '"'# 带有索引的格式for index, answer in enumerate(answers):q += str(index + 1) + '. ' + str(answer['title']) + ': ' + str(answer['text']) + '\n'"""system:代表的是你要让GPT生成内容的方向,在这个案例中我要让GPT生成的内容是医院问诊机器人的回答,所以我把system设置为医院问诊机器人前面的user和assistant是我自己定义的,代表的是用户和医院问诊机器人的示例对话,主要规范输入和输出格式下面的user代表的是实际的提问"""res = [{'role': 'system', 'content': system},{'role': 'user', 'content': demo_q},{'role': 'assistant', 'content': demo_a},{'role': 'user', 'content': q},]return resdef query(text):"""执行逻辑:首先使用openai的Embedding API将输入的文本转换为向量然后使用Qdrant的search API进行搜索,搜索结果中包含了向量和payloadpayload中包含了title和text,title是疾病的标题,text是摘要最后使用openai的ChatCompletion API进行对话生成"""client = QdrantClient("127.0.0.1", port=6333)collection_name = "data_collection"load_dotenv()openai.api_key = os.getenv("OPENAI_API_KEY")sentence_embeddings = openai.Embedding.create(model="text-embedding-ada-002",input=text)"""因为提示词的长度有限,所以我只取了搜索结果的前三个,如果想要更多的搜索结果,可以把limit设置为更大的值"""search_result = client.search(collection_name=collection_name,query_vector=sentence_embeddings["data"][0]["embedding"],limit=3,search_params={"exact": False, "hnsw_ef": 128})answers = []tags = []"""因为提示词的长度有限,每个匹配的相关摘要我在这里只取了前300个字符,如果想要更多的相关摘要,可以把这里的300改为更大的值"""for result in search_result:if len(result.payload["text"]) > 300:summary = result.payload["text"][:300]else:summary = result.payload["text"]answers.append({"title": result.payload["title"], "text": summary})completion = openai.ChatCompletion.create(temperature=0.7,model="gpt-3.5-turbo",messages=prompt(text, answers),)return {"answer": completion.choices[0].message.content,"tags": tags,}@app.route('/')
def hello_world():return render_template('index.html')@app.route('/search', methods=['POST'])
def search():data = request.get_json()search = data['search']res = query(search)return {"code": 200,"data": {"search": search,"answer": res["answer"],"tags": res["tags"],},}if __name__ == '__main__':app.run(host='0.0.0.0', port=3000)

复制

原文地址:基于GPT3.5实现本地知识库解决方案-利用向量数据库和GPT向量接口-实现智能回复并限制ChatGPT回答的范围-唯一在线客服系统-私有云独立部署在线客服系统源码-网站客服系统

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/28859.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【关于ChatGPT的30个问题】18、ChatGPT对于用户隐私的保护措施如何?/ By 禅与计算机程序设计艺术

18、ChatGPT对于用户隐私的保护措施如何? 目录 18、ChatGPT对于用户隐私的保护措施如何?

c++ 旅行商问题(动态规划)

目录 一、旅行商问题简介旅行商问题问题概述问题由来 二、基本思路三、实现1、状态压缩2、状态转移 四、代码五、复杂度分析 一、旅行商问题简介 旅行商问题 TSP,即旅行商问题,又称TSP问题(Traveling Salesman Problem)&#xff…

ChatGPT 最佳实践指南之:系统地测试变化

Test changes systematically 系统地测试变化 Improving performance is easier if you can measure it. In some cases a modification to a prompt will achieve better performance on a few isolated examples but lead to worse overall performance on a more representa…

医疗健康大数据:应用实例与系统分析

来源:网络大数据 1 、概述 随着信息技术和物联网技术的发展、个人电脑和智能手机的普及以及社交网络的兴起,人类活动产生的数据正以惊人的速度增长。根据国际数据公司(International DataCorporation,IDC)的报告,仅2011年&#xf…

夏季达沃斯论坛《2023年十大新兴技术报告》正式公布

来源:悦智网 该报告概述了未来3-5年内有望对社会产生积极影响的技术。该报告的范围不仅仅描述了技术及其相关的风险和机遇,还包括了对每项技术如何对人类、地球、繁荣、产业和公平产生影响的定性评估。 在夏季达沃斯论坛(世界经济论坛第十四届…

音视频技术开发周刊 | 292

每周一期,纵览音视频技术领域的干货。 新闻投稿:contributelivevideostack.com。 谷歌将 AI 芯片团队并入云计算部门 追赶微软和亚马逊 OpenAI推出的ChatGPT获得一定成功,微软是OpenAI的重要投资者,它将ChatGPT植入必应搜索&#…

CollovGPT——人工智能工具颠覆传统室内设计行业

作为线上室内设计领先的平台,Collov一直致力于使用先进的技术重新定义「室内设计」:让室内设计不再是一种奢侈品,而是每一个人都可以享受的生活体验。 经过两年的迭代和开发,我们现在正式上线CollovGPT — 一款基于Stable Diffusi…

扩散模型和Transformer梦幻联动!一举拿下新SOTA

作者丨羿阁 萧箫 来源丨量子位 导读 “U-Net已死,Transformer成为扩散模型新SOTA了!” 就在ChatGPT占尽AI圈风头时,纽约大学谢赛宁的图像生成模型新论文横空出世,收获一众同行惊讶的声音。 MILA在读ML博士生Ethan Caballero 论文…

92K Star !AI 都完全不需要咱们人类了?

Auto-GPT 究竟是一个开创性的项目,还是一个被过度炒作的 AI 实验?本文为我们揭开了喧嚣背后的真相,并揭示了 Auto-GPT 不适合实际应用的生产局限性。 作者:Jina AI 创始人兼 CEO 肖涵博士 译者: 新智元编辑部 原文链接…

揭秘 Auto-GPT 喧嚣背后的残酷真相!

Auto-GPT 究竟是一个开创性的项目,还是一个被过度炒作的 AI 实验?本文为我们揭开了喧嚣背后的真相,并揭示了 Auto-GPT 不适合实际应用的生产局限性。 本文来自 Jina 官方投稿,作者为 Jina AI 创始人兼 CEO 肖涵博士,如…

通过ChatGPT使用Mermaid.js生成时间序列图、组织结构图等

1、用mermaid.js 生成京东网站改版时间序列图 以下是使用Mermaid.js生成的京东网站改版时间序列图: gantttitle 京东网站改版时间序列图dateFormat YYYY-MM-DDsection 基础功能改版登录注册界面 :done, 2018-01-15, 10d购物车页面优化 :done, 2018-02-10, 10d商…

淘汰ChatGPT的Auto-GPT是炒作?自己跑代码,不需要人类,GitHub已破5万星

视学算法报道 编辑:编辑部 【导读】Auto-GPT究竟是一个开创性的项目,还是一个被过度炒作的AI实验?这篇文章为我们揭开了喧嚣背后的真相,并揭示了Auto-GPT不适合实际应用的局限性。 这两天,Auto-GPT——一款让最强语言…

AIPRM for ChatGPT 提示词模板扩展工具实践

(1)基本介绍 AIPRM for ChatGPT是一个Chrome浏览器扩展程序,基于Chromium内核开发的浏览器都可以使用该扩展,比如微软的Edge浏览器等。 在AIPRM的帮助下,我们可以在ChatGPT中一键使用各种专门为网站SEO、SaaS、营销、…

惊!掌握通义千问的关键,从这些必知内容开始!

今年快过半了,要说顶流话题还得是ChatGPT,相关话题的热度居高不下,而其从GPT-3.5到GPT-4的升级,也让我们深刻了解了什么叫一代版本一代神,从GPT-3.5到GPT-4,真的就是一个跨阶级式的升级。 技术内涵 ChatGPT…

讯飞星火大模型申请及测试:诚意满满

“ 大家好,我是可夫小子,关注AIGC、读书和自媒体。解锁更多ChatGPT、AI绘画玩法。加:keeepdance,备注:chatgpt,拉你进群。 最近国产大模型跟下饺子似,隔几天就发布一个。厂家发布得起劲&#xf…

拍摄电话?窃听邮件?了解社会工程学攻击和你可能受到的风险

数据来源 本文仅用于信息安全的学习,请遵守相关法律法规,严禁用于非法途径。若观众因此作出任何危害网络安全的行为,后果自负,与本人无关。 社会工程学 社会工程学-渗透测试 社会工程学作用 亦思社会工程学 你注册过哪些网站&…

文心千帆为你而来

1. 前言 3月16号百度率先发布了国内第一个人工智能大语言模型—文心一言。文心一言的发布在业界引起了不小的震动。而文心一言的企业服务则由文心千帆大模型平台提供。文心千帆大模型平台是百度智能云打造出来的一站式大模型开发与应用平台,提供包括文心一言在内的…

第二弹进阶吴恩达 ChatGPT Prompt 技巧

第一弹笔记在这里: 总结吴恩达 ChatGPT Prompt 免费课程 今天分享第二弹,进阶篇。 第一点,任务序列化。 通常看完一篇长文,脑子里往往充满无数疑问。急切想知道所有答案,必须列一个问题清单。对话式问法,对…

CVPR2023论文速递(2023.3.22)!已接入ChatGPT总结!共31篇!

整理:AI算法与图像处理 CVPR2023论文和代码整理:https://github.com/DWCTOD/CVPR2023-Papers-with-Code-Demo 欢迎关注公众号 AI算法与图像处理,获取更多干货: 大家好, 最近正在优化每周分享的CVPR论文, 目前考虑按照不同类别去分…

Python与ChatGPT

Python的用途非常广泛,很多应用场景都可以使用 python 来满足自己的需求,比如自己平常使用 Python 来做网络应用后端开发、做批量处理小工具、做测试软件等,而目前非常热门的 ChatGPT 也与 python 有很大的关系。 据了解,在ChatG…