InstructGPT:chatGPT的姊妹模型

1.简介

本文根据2022年《Training language models to follow instructions with human feedback》翻译总结的,文中提出了InstructGPT,从文章标题也可以看出来训练模型采用了人类指导反馈的数据。

因为chatGPT说是InstructGPT的姊妹模型,所以了解下InstructGPT。InstructGPT的第一步训练是基于GPT-3。最终实验结果InstructGPT好于GPT-3。

InstructGPT的构建由下图所示的三个步骤构成。
1)第一步会基于GPT-3训练出来一个Supervised fine-tuning (SFT)模型。第一步的训练数据由我们雇佣的40个标注者根据提示(prompt)编写期望的输出构成(demonstrations)。这些标注者在应聘前会进行筛选测试。训练数据大约有1万3千个训练prompt,来自于API或者标注者手写的。
2)第二步是训练一个Reward modeling (RM)模型,训练数据是模型输入prompt后对应输出的排名(有多个模型输出,也是标注者对其进行的手工排序)。大约有3万3千个训练prompt,来自于API或者标注者手写的。
3)第三步是使用强化学习(Reinforcement learning (RL))针对RM模型优化SFT模型。首先获得一个prompt,然后SFT模型生成一个输出,然后RM模型针对这个输出计算一个奖励,然后这个奖励用来继续更新SFT模型(使用PPO方法)。这步没有使用标注数据,主要是前面两个有使用标注数据。PPO数据只使用了来自API的3万1千个训练prompt.
在这里插入图片描述

我们将来自于人类反馈的强化学习简称为RLHF(reinforcement learning from human feedback):使用人类的偏好作为奖励信号来微调模型。

我们有如下发现:
1)标注者相对于GPT-3的输出更喜欢InstructGPT;
2)相对于GPT-3,InstructGPT在真实性方面有改善;
3)InstructGPT在毒性输出上有小的改善,在RealToxicityPrompts数据上有验证。
4)通过修改我们的RLHF 微调过程,我们可以最小化在公共NLP数据上的衰退表现。
5)我们的模型对于没有产生训练数据的标注者,也有很好的泛化能力。
6)公共NLP数据不能反应我们的语言模型如何使用的。
7)除了对RLHF 微调分布表现好外,InstructGPT对于输入指示也有很好的泛化性。
8)InstructGPT依然会产生错误。比如对于错误的引导输入会产生非期望的输出。

2.数据

下表是第一步训练数据prompt的分类统计。
在这里插入图片描述

3.模型

3.1.RM

Reward modeling (RM)模型)损失函数如下,大体就是比较输入prompt x对应的两个输出y,按照标注的偏好进行训练:
在这里插入图片描述

3.2.RL

我们使用PPO方法微调SFT模型。
为了克服在公共NLP数据上的衰退表现,我们实现混合预训练的梯度到PPO梯度,这种方法我们叫做PPO-ptx,也就是InstructGPT。

损失函数如下:
在这里插入图片描述

4.结果

对API promt的结果。可以看到PPO-ptx(InstructGPT)好于GPT。
在这里插入图片描述

示例

输入prompt,输出结果。有点像问答系统。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/1342.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【ChatGPT】ChatGPT的核心算法原理图文解析、大模型训练过程和数据集来源

目录 ChatGPT的核心算法、模型和数据来源 一、引言:ChatGPT的概述与背景

超越ChatGPT:大模型的智能极限

在此前《大型语言模型的涌现能力》、《ChatGPT进化的秘密》两篇文章中,符尧剖析了大型语言模型的突现能力和潜在优势,大模型所带来的“潜在的”范式转变,并拆解了ChatGPT演进的技术路线图。 在本文中,作者以终为始分析了大模型的智…

ChatGPT概述:从模型训练到基本应用的介绍

ChatGPT概述:从模型训练到基本应用的介绍 目录 本文是对ChatGPT的由来、训练过程以及实际落地场景的解释,主要内容包括如下三个方面: 1、ChatGPT是什么 2、ChatGPT的原理 3、ChatGPT的思考 4、ChatGPT的应用 ChatGPT是什么 ChatGPT可能是近…

ChatGPT背后的模型三兄弟

ChatGPT作为最接近强人工智能的系统,具有强大的信息理解和信息抽象总结能力,在这个信息过剩的时代,为我们提供了一个非常好的智能辅助工具。在我们日常的工作中,怎么充分的利用ChatGPT等类似的智能系统,会给我们生活和…

ChatGPT 的工作原理:机器人背后的模型

这篇对支持 ChatGPT 的机器学习模型的温和介绍,将从大型语言模型的介绍开始,深入探讨使 GPT-3 得到训练的革命性自我注意机制,然后深入研究人类反馈的强化学习,使 ChatGPT 与众不同的新技术。 大型语言模型 ChatGPT 是一类被称…

ChatGPT类模型汇总

❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博…

训练自己的ChatGPT 语言模型(一).md

0x00 Background 为什么研究这个? ChatGPT在国内外都受到了广泛关注,很多高校、研究机构和企业都计划推出类似的模型。然而,ChatGPT并没有开源,且复现难度非常大,即使到现在,没有任何单位或企业能够完全复…

chatgpt4模型介绍

在当今信息爆炸的时代,人们越来越多地依赖计算机和互联网与他人进行交流。然而,传统的计算机交互方式常常显得呆板和不自然,难以满足人们对于智能、自然对话的需求。为了解决这一问题,OpenAI推出了ChatGPT,这是一种能够…

ChatGPT模型采样算法详解

ChatGPT模型采样算法详解 ChatGPT所使用的模型——GPT(Generative Pre-trained Transformer)模型有几个参数,理解它们对文本生成任务至关重要。其中最重要的一组参数是temperature和top_p。二者控制两种不同的采样技术,用于因果…

ChatGPT探索系列之二:学习GPT模型系列的发展历程和原理

文章目录 前言一、GPT的起源GPT系列 二、GPT的原理1. GPT原理:自注意2. GPT原理:位置编码3. GPT原理:Masked Language Modeling4. GPT原理:预训练5. GPT原理:微调6. GPT原理:多任务学习 三、GPT模型的风险与…

一文读懂chatGPT模型原理(无公式)

每天给你送来NLP技术干货! 来自:JioNLP 点击这里进群—>加入NLP交流群 (本文是chatGPT原理介绍,但没有任何数学公式,可以放心食用) 前言 这两天,chatGPT模型真可谓称得上是狂拽酷炫D炸天的存…

LeCun:ChatGPT无法实现通用人工智能,但ALM技术路线可以!

文 | 天于刀刀 ChatGPT 将加速通用人工智能的实现。—— 邱锡鹏 在上周刚刚结束的 2023 全球人工智能开发者先锋大会(GAIDC)上,作者有幸亲身参与大模型技术与应用分论坛,并在现场聆听了来自业界和学界一众大佬的精彩讲座。 在会上…

chatgpt的历史问答记录消失的解决之道

刚刚使用发现我的历史会话记录都没有了,我旁边的一个朋友也没有了。 网上查了一下,很多网友,居然也没有历史记录了。 这是故意而为之,还是误操作删除记录,更有可能是不是装了插件引起的。无意当中发现了一个方法&…

ChatGPT报错解决

背景:登录后无法正常交流,报错内容为: Something went wrong. If this issue persists please contact us through our help center at help.openai.com 如图所示: 解决方法: 1. 不关闭代理的情况下Log out再Log in&a…

chatGPT Access denied访问被拒绝(已解决)

这个网站可以直接进入ai聊天,但是功能只有语言模块,我试用了一下作为文字训练可以使用。ChatGPT Online - AI Chat GPThttps://chatgpt.org/chat 然后是网站尚Access denied 解决办法 首先要使用海外的原生IP进行全局代理,不要使用各大云平…

这20种职业ChatGPT无法取代!

李开发在《AI未来进行式》一书中分析了AI存在明显不足的三大短板,即便到了2042年,AI可能仍然无法完全掌握这些能力。 第一、创造力。AI不具备进行创造、构思以及战略性规划的能力。尽管AI非常擅长针对单一领域的任务进行优化,使目标函数达到最…

聊聊ChatGPT无法取代的7个工作

ChatGPT——全世界都在谈论的非常流行的人工智能工具。自从 2022 年 11 月 30 日推出以来,ChatGPT 就被证明是执行复杂任务并简化它们的一体式工具。无论是通过 UPenn 的沃顿商学院 MBA 考试,撰写常春藤盟校入学论文,还是完成简单的任务&…

OpenAI 宣布部分解除 ChatGPT 无法联网限制,引入插件策略,会带来什么变化?

OpenAI 发布 ChatGPT Plugins (ChatGPT 插件集) 昨天凌晨,OpenAI 发布 ChatGPT Plugins (ChatGPT 插件集),它能将 ChatGPT 连接到第三方应用程序) 这是 AI 的 App Store 时刻,AI 经历了「iPhone」时刻后,如今也有了应用商店。 这…

我破除了 ChatGPT 无法联网的魔咒!

公众号关注 “GitHubDaily” 设为 “星标”,每天带你逛 GitHub! 前阵子我写过一篇文章,介绍了几种无需安装 ChatGPT Plugin,即可让其轻松破除无法联网的魔咒。 最近看到不少同学对此感兴趣,因此我把这几个方案汇总完善…