基于openai打造公司内部知识库问答机器人

ChatGPT概念

OpenAI是一家AI研究和部署公司,开发了一个针对普通用户的ChatGPT的免费对话式AI机器人产品,该产品基于GPT-3.5模型,同时也推出了一个付费的ChatGPT Plus产品,该产品基于GPT-4模型。很明显,在国内是使用不了ChatGPT的,需要科学上网,并且注册账号需要海外手机号。当然以上也是能解决的,虚拟手机注册或者直接买号。

ChatGPT的接口

OpenAI推出了针对开发者的API接口,这是供程序代码去调用的,不是面向普通人的。我们经常看到的国内版ChatGPT,就是对API接口的界面包装再出售会员。
目前,公开对外使用的是GPT-3.5模型的API接口,GPT-4模型的接口处于测试阶段,开发者需要申请权限加入等待列表,审核通过的才可以访问。

调用接口的问题

由于国内和OpenAI互相封禁对方,所以开发者的程序运行在国内服务器,是访问不了GPT-3.5模型接口的。现在只有两种办法,一是程序部署在海外服务器,二是调用部署于海外服务器的中转代理服务。
还有一个问题也不好解决,那就是调用模型接口是按使用量收费的,而充值需要使用海外信用卡才可以。想要解决这个问题,可以使用虚拟信用卡或者代充(很不稳定,容易封号),或者使用第三方代理服务。

企业专属知识库

知识库是利用上下文嵌入的形式对GPT进行训练。
训练内容可以通过后台上传文档,存入自己本地专属知识库。
GPT会根据自己企业的专属知识库回答问题。这样就可以让GPT来回答自己企业的知识,实现企业的智能化客服助理

上传文档训练的原理:

  • 程序读取上传的文档内容,按字数分块调用OpenAI向量接口获取向量数据,存入向量数据库
  • 用户使用自然语言查询,向量化自然语言,向量搜索数据库,整合后发送给OpenAI的chat接口

上传网址训练的原理:

  • 程序读取网址的所有内容,去除html标签,分割后调用OpenAI向量化接口,内容和网址一并存入向量数据库
  • 用户使用自然语言查询,向量化自然语言,向量搜索数据库,整合后发送给OpenAI的chat接口
  • 拿到内容后,把参考网址附在内容下面

调用OpenAI以下两个接口

知识库服务基于GPT-3.5模型接口,并且时刻关注国内大模型动态,随时开发接入。
知识库服务主要基于以下两个接口:
OpenAI 聊天接口( /v1/chat/completions )
OpenAI 向量生成接口( /v1/embeddings )

Fine-tuning和Embedding的区别

  • 微调就像你通过学习准备考试,是一种长期记忆,但过了一周后考试来临,模型可能会忘记袭击,或者记错它从来没有读过的事实。

  • 嵌入就像记笔记,是一种短期记忆,当考试的时候,你把笔记带上,随时翻看笔记,对于笔记上有的内容可以得到准确的答案。

  • 另外嵌入的搜索提问方式相对于微调有一个缺点就是它每次附带的文本数量是有限制的,因为除了原始的问题,它还需要带上搜索出来的问题,GPT-3.5是4K(大约5页),GPT-4最大是32K(大约40页)。
    就好比你有成书的教科书可以借鉴,但每次却只能翻看其中几页笔记。

  • 如果你想构建一个对大量文本问答的系统,OpenAI建议“搜索-问”(Search-Ask)的方法。
    也就是先在本地文档库中Search,拿到本地的数据结果,再去Ask,把搜索结果和问题一起交给GPT,这样GPT可以根据你提供的内容以及它模型中的数据,一起将结果返还给你。

至于如何搜索,并非一定要基于向量的搜索,可以有多重搜索方式:

  • 基于关键字搜索
  • 基于图形的搜索
  • 基于向量的搜索

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/22613.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

稚晖君刚拿了百度投资,估值被曝已超独角兽

衡宇 发自 凹非寺 “华为天才少年”稚晖君创业项目,刚被百度风投投了! 量子位获悉,稚晖君创业项目智元机器人,日前完成了第三轮融资,市场估值被曝在十几亿美元左右。 天眼查App显示,本轮新增股东包括李彦宏…

40亿个QQ号,限制1G内存,如何去重?

40亿个QQ号,限制1G内存,如何去重? 40亿个unsigned int,如果直接用内存存储的话,需要: 4*4000000000 /1024/1024/1024 14.9G ,考虑到其中有一些重复的话,那1G的空间也基本上是不够用…

一次读完半本「三体」!GPT-4最强竞品突然升级10万token,啃论文代码演示全搞定...

视学算法报道 编辑:编辑部 【导读】GPT-4 32K还没用上,ChatGPT最强竞品已经秒读「了不起的盖茨比」了。 在GPT-4 32K还在内测阶段,OpenAI的劲敌直接把上下文长度打了上去。 就在今天,初创公司Anthropic宣布,Claude已…

自从Notion有了AI……

“Notion AI是一款极其强大且易于使用的工具,可以帮助您整理知识,撰写文档和记录笔记。它为您提供了一个可以实现简单快捷导航的用户界面,使您可以轻松访问和管理所有的文件和资源。它还提供了一系列强大的功能,包括个性化定制&am…

100 美元“骗走” 15% 股份?估值 10 亿美元的创业独角兽 Stability AI 联合创始人起诉 CEO...

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 2022 年 8 月,一款名为 Stable Diffusion 的开源文本生成图像模型横空出世,惊艳四座。 一定程度,它的出现加速了 OpenAI 想更早推出 ChatGPT 的决心。 而就是这样一款…

HTML情人节表白代码,给女朋友的电子情书代码,女朋友表白代码

HTML情人节表白代码,给女朋友的电子情书代码,女朋友表白代码,可更换照片及表白内容。 使用方法 1、表白对话在assets/dialog.json 2、女朋友照片放在img中,直接替换即可 3、代码包需要放在WEB服务器里运行,本地用浏览器直接打开…

一封来自Java程序员的情书

点击上方“程序员小灰”,选择“置顶公众号” 有趣有内涵的文章第一时间送达! 本文转载自公众号 Hollis 一直以来程序员都给大家以高智商低情商,不懂得浪漫不会哄女生开心的形象。但是,我觉得程序员都是浪漫的。对于这种错误观念&…

Python表白妙招,把情书写进她的照片里

前言 我的好兄弟们,2022年可算是过去了,这不马上要过年了吗 就是说,各位兄弟有对象了吗,没有的回家还要面对亲戚的各种提问 退一步来说,有心仪的人吗,如果有的话,就来看看这篇 程序员的表白小…

为生信写的Python简明教程 | 视频3

开源生信 Python教程 生信专用简明 Python 文字和视频教程 源码在:https://github.com/Tong-Chen/Bioinfo_course_python 目录 背景介绍 编程开篇为什么学习Python如何安装Python如何运行Python命令和脚本使用什么编辑器写Python脚本Python程序事例Python基本语法 数…

生信入门一对一,数据操作带你飞

前段时间有个朋友问了我一个问题,“如何从一个大的 FASTA 文件中提取给定的一系列基因的 ID”,她用 ChatGPT搜索了问题,拿到了代码,发给我看了下,ChatGPT写的确实好,刚开始学的人估计都写不了这么好&#x…

在生信中利用Chat GPT/GPT4

论文链接Ten Quick Tips for Harnessing the Power of ChatGPT/GPT-4 in Computational Biology | Papers With Code 之前在paper with code上比较火的一篇文章,最近要给生科的学长学姐们个分享所以把这个翻了翻,原文自认为废话比较多,于是选…

一只产品汪的低代码学习之路(一):ChatGPT眼中的低代码有多牛?

写在前面 作为一只本科财务,研究生信管半路出家的产品汪 “啥也不懂”和“就会写写SQL”已经成为了我工作属性的代名词 “可以但没必要”“you can you up,no can no bibi”“你到底懂不懂”是开发拒绝我的三板斧。 秉承着不蒸馍馍争口气的优良传统&…

【差异表达分析】差异表达分析标准不标准化这是一个问题(含其其它报错问题)

前言 在一开始学习基因差异表达分析时,老师就强调用raw count做差异分析,相关文献和资料我也保存了不少,我之前弄清楚log2/cpm与count fpkm等不是在一个水平上讨论的问题,但是具体用的时候还是要栽个跟头才能印象深刻。 我在复现…

PointNet++阅读笔记

(PointNet是PointNet结构的改良,它增强了对点云模型细节的捕捉能力) 摘要:PointNet并没有捕捉到点云的局部结构,而本文介绍了一种分层神经网络,用于捕捉点云的局部特征。 Introduction 背景:…

云平台网络——应用部署(一)

(可有可无的)引言 昨天完成了对学校集群的相关鉴权以后,大致理解了如何使用SSH登入教学集群,今天则是在此基础上进一步完成相关应用的部署,包括但不限于conda以及torch等和机器学习建模相关的软件安装,由于是第一次成功在云计算平…

用小学数学带你感受人工智能的魅力

AI因你而升温,记得加个星标哦! 大家好,我是泰哥。在ChatGPT火爆出圈后,越来越多的人对人工智能、深度学习、神经网络等名词更加好奇,身边的朋友最近也频繁的问我,AI究竟为什么如此强大? 偷个懒&…

精选| 2023年1月R新包推荐(第72期)

译:黄小伟,目前就职于杭州有赞 知乎专栏:中国R语言社区 |30,000关注、300万阅读 2023年1月,165个R包收录于CRAN,环比增长42.4%,本月Top 40 R包分为14个类别,详细介绍如下&#xff1a…

我用Echarts图表分析巴西队历年战绩,预测卡塔尔世界杯能否夺冠

🐱 个人主页:不叫猫先生 🙋‍♂️ 作者简介:前端领域新星创作者、阿里云专家博主,专注于前端各领域技术,共同学习共同进步,一起加油呀! 💫系列专栏:vue3从入门…

陶哲轩甩出调教GPT-4聊天记录,点击领取大佬的研究助理!

Datawhale干货 方向:GPT-4高级调教,来源:量子位 鹅妹子嘤,天才数学家陶哲轩搞数学研究,已经离不开普通人手里的“数学菜鸡”GPT了! 就在他最新解决的一个数学难题下面,陶哲轩明确指出自己“使用…

ESP8266还可以这样玩

作者:晓宇,排版:晓宇 微信公众号:芯片之家(ID:chiphome-dy) 01 巨型ESP8266 ESP8266几乎无人不知,无人不晓了吧,相当一部分朋友接触物联网都是从ESP8266开始的&#xff…