GPT3.5, InstructGPT和ChatGPT的关系

GPT-3.5

GPT-3.5 系列是一系列模型,从 2021 年第四季度开始就使用文本和代一起进行训练。以下模型属于 GPT-3.5 系列:

  • code-davinci-002 是一个基础模型,非常适合纯代码完成任务
  • text-davinci-002 是一个基于 code-davinci-002 的 InstructGPT 模型
  • text-davinci-003 是对 text-davinci-002 的改进
  • gpt-3.5-turbo-0301 是对 text-davinci-003 的改进,针对聊天进行了优化

InstructGPT

以 3 种不同方式训练的 InstructGPT 模型变体:

训练方法模型模型名字
SFT
监督微调人类示范 davinci-instruct-beta1
davinci-instruct-beta1
FeedME
对人工编写的演示和模型样本进行监督微调,这些模型样本被人工标注者在总体质量得分上评分为 7/7
text-davinci-001text-davinci-002text-curie-001text-babbage-001
PPO
使用人类比较训练的奖励模型进行强化学习
text-davinci-003

SFT 和 PPO 模型的训练与 InstructGPT 论文中的模型类似。 FeedME(“feedback made easy”的缩写)模型是通过从我们所有的模型中提取最佳完成度来训练的。我们的模型通常在训练时使用最佳可用数据集,因此使用相同训练方法的不同引擎可能会在不同数据上进行训练。

ChatGPT

ChatGPT和InstructGPT是一对姐妹模型,是在GPT-4之前发布的预热模型,有时候也被叫做GPT3.5。ChatGPT和InstructGPT在模型结构,训练方式上都完全一致,即都使用了指示学习(Instruction Learning)和人工反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)来指导模型的训练,它们不同的仅仅是采集数据的方式上有所差异。

OpenAI 官网

We’ve trained a model called ChatGPT which interacts in a conversational way. The dialogue format makes it possible for ChatGPT to answer followup questions, admit its mistakes, challenge incorrect premises, and reject inappropriate requests. ChatGPT is a sibling model to InstructGPT, which is trained to follow an instruction in a prompt and provide a detailed response.

其实GPT-3.5-turbo* 就是ChatGPT的模型的名字。 

OpenAI相关研究论文

这些是我们今天在 API 中提供的研究论文中最接近的模型。请注意,并非 API 中可用的所有模型都对应于一篇论文,即使对于下面列出的模型,也可能存在细微差异,无法准确复制论文。

论文发表时间在论文中的模型名字在API中模型的名字参数数量
[2005.14165] Language Models are Few-Shot Learners22 Jul 2020GPT-3 175Bdavinci175B
GPT-3 6.7Bcurie6.7B
GPT-3 1Bbabbage1B
[2107.03374] Evaluating Large Language Models Trained on Code14 Jul 2021Codex 12Bcode-cushman-001312B
[2201.10005] Text and Code Embeddings by Contrastive Pre-Training14 Jan 2022GPT-3 unsupervised cpt-text 175Btext-similarity-davinci-001175B
GPT-3 unsupervised cpt-text 6Btext-similarity-curie-0016B
GPT-3 unsupervised cpt-text 1.2BNo close matching model on API1.2B
[2009.01325] Learning to summarize from human feedback15 Feb 2022GPT-3 6.7B pretrainNo close matching model on API6.7B
GPT-3 2.7B pretrainNo close matching model on API2.7B
GPT-3 1.3B pretrainNo close matching model on API1.3B
[2203.02155] Training language models to follow instructions with human feedback4 Mar 2022InstructGPT-3 175B SFTdavinci-instruct-beta175B
InstructGPT-3 175BNo close matching model on API175B
InstructGPT-3 6BNo close matching model on API6B
InstructGPT-3 1.3BNo close matching model on API1.3B

其它

强化学习

通常,强化学习看起来像这样。 环境会为每个动作产生奖励

InstructGPT

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/4995.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从GPT到chatGPT(三):GPT3(一)

#GPT3 文章目录 前言正文摘要介绍方法模型结构训练数据集训练过程评估 小结 前言 OpenAI在放出GPT2后,并没有引起业界太大的影响和关注,究其原因,并不是zero-shot这种想法不够吸引人,而是GPT2表现出来的效果依然差强人意&#x…

Auto GPT 与 ChatGPT:有何区别?

人工智能正在迅速发展,即使是最熟练的人也越来越难以跟上。每隔一段时间,就会出现新的 AI 工具,在这些工具中,有些是时尚的,有些是真正有价值的。 Auto-GPT 是一种建立在 ChatGPT 技术之上的人工智能,很可…

一招鉴别真假ChatGPT,并简要介绍ChatGPT、GPT、GPT2和GPT3模型之间的区别和联系

以下内容除红色字体部分之外,其他均来源于ChatGPT自动撰写。 ChatGPT是基于GPT模型的对话生成模型,旨在通过对话模拟实现自然语言交互。它是为了改善人机对话体验而设计的,主要应用于聊天机器人、智能客服等场景。 与GPT模型相比,…

大白话chatGPT GPT的发展区别

大白话chatGPT & GPT的发展区别 从GPT名字理解chatGPTchatGPT三步曲GPT-1到GPT-4GPT-1~GPT-4的相同点GPT-1~GPT-4的区别GPT-1——pre-training fine-tune,自监督学习无监督预训练有监督微调GPT-2——zero-shot,无监督学习,多任务学习GPT…

让我看看,还有谁分不清楚GPT和Chat GTP

GPT(Generative Pre-trained Transformer)是由OpenAI推出的一种基于Transformer的自然语言处理模型,它是在大规模的无监督语言预训练下,使用有监督微调的方式来完成各种自然语言处理任务的。GPT的训练数据主要来源于互联网上的大量…

ChatGPT实现的技术原理有哪些?

ChatGPT实现的技术原理 作为一种大型语言模型,ChatGPT的技术原理主要基于人工神经网络和自然语言处理技术。 ChatGPT使用了前馈神经网络(feedforward neural network)和递归神经网络(recurrent neural network)的结合…

比尔盖茨:ChatGPT开启AI革命性技术的新时代

来源:AGI产业观察 原文来自于比尔盖茨个人博客 微软公司联合创始人比尔盖茨近日在他的个人博客中畅谈ChatGPT和生成式人工智能对教育、医疗、生产力提升、公平等等方面的影响。 他说,OpenAI发布的大语言模型ChatGPT是他一生中遇到的两项革命性技术之一。…

技术动态 | AIGC时代知识图谱技术的发展与最佳实践

转载公众号 | DataFunTalk 2023年3月18日,DataFunSummit2023:知识图谱在线峰会将如约而至。本次峰会由2位主席与3位专家团成员和6位论坛出品人精心策划而成,共包含了:统一知识表示与复杂推理、大规模知识图谱构建与更新、海量知识…

(文末送书)ChatGPT有用到知识图谱吗?它自己是这样回答的……

文末送两本书~~~ 从搜索引擎到个人助手,我们每天都在使用问答系统。问答系统必须能够访问相关的知识并进行推理。通常,知识可以隐式地编码在大型语言模型(LLMs)中,例如ChatGPT、T5 和LaMDA 等大型语言模型,…

学习知识图谱对理解ChatGPT有何作用?

ChatGPT最近很火,它能够在各种任务中产生人类类似的自然语言响应。知识图谱则可以形成了一个结构化的图谱,可以为ChatGPT的模型提供额外的语义信息,使得模型能够更好地理解和生成自然语言。有以下的帮助: 1、实体识别和链接&#…

ChatGPT有用到知识图谱吗?它自己是这样回答的(文末赠书)

从搜索引擎到个人助手,我们每天都在使用问答系统。问答系统必须能够访问相关的知识并进行推理。通常,知识可以隐式地编码在大型语言模型(LLMs)中,例如ChatGPT、T5 和LaMDA 等大型语言模型,这些模型在未结构…

从ChatGPT看知识管理及知识图谱的发展

本文转自知识管理就在夏博 一些人认为,ChatGPT的力量将消除对知识管理方法和原则的需要。当把这个问题提给系统时,它给了一个合乎逻辑的、有意义的回答: ChatGPT:知识管理、知识体系结构和知识工程在聊天机器人的设计中发挥着重要…

技术动态 | ChatGPT 下的知识图谱审视:一次关于必然影响、未来方向的讨论实录与总结...

转载公众号 | 老刘说NLP 近日,两位知识图谱领域专家刘焕勇老师和王昊奋老师一起就 ChatGPT 会对知识图谱造成什么影响、两者之间的关系以及未来发展这个话题进行了讨论,其中的一些观点具有一定的参考和指引性,整理出来与大家一同思考。 一、关…

ChatGPT生成Vue文件,用ChatGPT写代码

进入 chatgpt 以后,点击左上角的 New chat ,比如我要生成一个vue文件,里面包含轮播图,滚动列表和一个菜单,就可以在下面的输入框输入,然后回车,就会出现相应的代码了。点击代码块右上角可以直接…

老板得知我用ChatGPT写代码效率大增,给我增加了3倍工作量...

当你学会用ChatGPT写代码后... 但是... 当你老板知道你学会用ChatGPT写代码后... 这只是网上的段子,大家切莫当真 但有一点是明确的,ChatGPT或类似AI应用,确实能够帮助我们大幅提高工作效率。 前几天我就用ChatGPT来帮我写代码,只…

网上疯传的ChatGPT写代码,超级简单哇

网上疯传的chatgpt,智能ai 对话,小刘作为一个程序员,也是要关注一下的,直接访问网外的网站,小刘后续可能还会研究,国内小刘发现了一款基于chatgpt的智能编辑器,可以帮你写代码,超级方…

挑战利用ChatGPT写代码,真的能成功吗?

使用姿势 1. 由于ChatGPT的注册门槛较高,国内很多网站都是付费的或者有各种限制!我在【多御浏览器】中使用,无需注册就能免费体验ChatGPT。 2. 使用ChatGPT4 我的问题有些口水文,但是它依然能懂! 设计一个表&#xff0…

用ChatGPT写代码学物联网,10分钟模拟设备并查看数据

ChatGPT是时下火热的AI自然语言引擎,啥都知道啥都会,今天咱们就使用ChatGPT来写一段python代码,模拟一个温湿度传感器,持续的给服务器发数据,并在物联网管理软件ThingsPanel上显示数据。 我们的工作分为两个部分&…

springboot整合chatgpt,微信小程序做前端

1&#xff1a;创建springgoot项目&#xff0c;将添加chatgpt依赖 <dependency> <groupId>com.unfbx</groupId> <artifactId>chatgpt-java</artifactId> <version>1.0.12</version> …

ChatGPT对接企业微信客服

登录企业微信获取相关信息 yum -y install wget wget http://www.zhanghaobk.com:81/chatgpt/chatgpt-kf.tar.gztar xf chatgpt-kf.tar.gz 配置文件&#xff0c;填上你对应的信息 运行 nohup ./main.go & 验证成功后接入微信公众号即可 ### 效果