InstructGPT方法简读

InstructGPT方法简读

引言

仅仅通过增大模型规模和数据规模来训练更大的模型并不能使得大模型更好地理解用户意图。由于数据的噪声极大,并且现在的大多数大型语言模型均为基于深度学习的“黑箱模型”,几乎不具有可解释性和可控性,因此,大模型很可能会输出虚构的、有害的,或者对用户无用的结果。换句话说,大模型并没有与用户对齐(aligned)。本文提出了一种通过微调人类反馈来调整语言模型和用户在广泛任务中的意图的方法。从一组标注员编写的 prompt 和通过 OpenAI API 提交的 prompt 开始,本文收集了人类标注的所需模型行为的数据集,使用该数据集通过有监督学习来微调 GPT-3。然后,由标注员对模型输出的回答质量进行排序,得到一个问答质量排序数据集。使用该数据集来训练一个评分模型,为回答质量进行打分。最后结合评分模型,使用强化学习来进一步微调第一步有监督微调过的模型。得到的模型称为InstructGPT。

从 GPT 到 InstructGPT/ChatGPT:对齐(align),不仅仅是简单的语言模型(LM),而能够进行对话。

优化目标:3H:Helpful、Honest、Harmless。三点优化目标要求模型输出人类想要的信息,分别是有用、诚实和无害。

方法

如图 1 所示,由 GPT 到 InstructGPT 的训练共有三个步骤,分别是第一阶段有监督微调、第二阶段奖励模型训练、第三阶段根据 PPO 近端算法进行强化学习训练。接下来将分别从三个阶段的数据集、模型和训练目标出发,介绍 InstructGPT 的完整训练过程。

在这里插入图片描述

InstructGPT的三个训练步骤

数据集

数据集的收集过程如下。首先使用初步模型,发布内测版接口给用户使用,收集问题(prompt)。根据这些问题构建数据集:

  1. 请标注工直接写问题的答案,用于微调训练 SFT 模型,~13k;
  2. 将问题输入 LM,生成多个答案,请标注工对这些答案的质量进行排序,用于训练 RM 模型,~33k;
  3. 不需要标注工,RM 模型对 LM 进行强化学习训练,~31k;

模型与训练目标

SFT(Supervised Fine-Tuned)

16ep,虽然 ep1 就过拟合了,但是由于是用于后续的训练步骤,而非最终模型,因此不怕过拟合。

RM(Reward Model)

在 SFT 模型的基础上进行微调,输出层改为 FC,最后输出一个标量值,表示问答质量得分(reward)。

该模型的训练数据是标注工标注的回答质量排序,而非具体的标量得分,损失函数为成对排序损失(pairwise ranking loss):
loss ( θ ) = − 1 ( K 2 ) E ( x , y w , y l ) ∼ D [ log ⁡ ( σ ( r θ ( x , y w ) − r θ ( x , y l ) ) ) ] \text{loss}(\theta)=-\frac{1}{\begin{pmatrix}K\\2\end{pmatrix}}E_{(x,y_w,y_l)\sim D}[\log(\sigma(r_\theta(x,y_w)-r_\theta(x,y_l)))] loss(θ)=(K2)1E(x,yw,yl)D[log(σ(rθ(x,yw)rθ(x,yl)))]
其中 r θ ( x , y ) r_\theta(x,y) rθ(x,y) 是参数为 θ \theta θ 的 RM 模型对于问答对 ( x , y ) (x,y) (x,y) 的评分, y w , y l y_w,y_l yw,yl 是一对回答,其中 y w y_w yw 的质量相对更好, D D D 是标注员标注的问答质量排序数据集。该损失函数的优化目标就是 RM 需要对较好的回答给出更高的评分。

强化学习训练最终的 LM 模型

该阶段强化学习的目标函数为
objective ( ϕ ) = E ( x , y ) ∼ D π ϕ R L [ r θ ( x , y ) − β log ⁡ ( π ϕ R L ( y ∣ x ) / π S F T ( y ∣ x ) ) ] + γ E x ∼ D pretrain [ log ⁡ ( π ϕ R L ( x ) ) ] \text{objective}(\phi)=E_{(x,y)\sim D_{\pi_\phi^{RL}}}[r_\theta(x,y)-\beta\log (\pi_\phi^{RL}(y|x)/\pi^{SFT}(y|x))]+\gamma E_{x\sim D_\text{pretrain}}[\log(\pi_\phi^{RL}(x))] objective(ϕ)=E(x,y)DπϕRL[rθ(x,y)βlog(πϕRL(yx)/πSFT(yx))]+γExDpretrain[log(πϕRL(x))]
其中 π ϕ R L \pi_\phi^{RL} πϕRL 是要学习的 RL 策略(即最终的 InstructGPT 模型), π S F T \pi^{SFT} πSFT 是经过第一步有监督训练之后的模型, D pretrain D_\text{pretrain} Dpretrain 是预训练时的数据分布。式中二三两项分别是 KL 惩罚项和语言建模预训练正则项,分别用来约束模型参数不要与 π S F T \pi^{SFT} πSFT 差距太大,重新使用预训练阶段的语言建模作为优化目标,保证模型的通用 NLP 能力。 β \beta β γ \gamma γ 分别是控制这两项的权重参数。

LM 模型对给定问题生成答案。目标函数共有三项,分别是

  1. 最大化 RM 评分值
  2. KL 散度正则项,使得模型与 SFT 模型的输出接近
  3. LM 预训练(原 GPT 训练) 正则项

Ref

  • Training language models to follow instructions with human feedback

  • InstructGPT 论文精读【论文精读·48】

  • ChatGPT/InstructGPT详解

  • 关于Instruct GPT复现的一些细节与想法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/48455.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

歌评-《Rex Incognito 尘世闲游》-陈致逸

时隔一周时间了,终于又找到了时间来更新我的歌评内容。 虽然身被学校关了起来,但是心里还是在歌曲的梦幻世界中畅游hhh。 今天我们来听的歌曲也是 The Stellar Moments 闪耀的群星OST专辑中的一首,代表了璃月城岩王帝君钟离的一首歌曲《尘世闲…

chatgpt赋能python:Python拍照——提高摄影效果的利器

Python拍照——提高摄影效果的利器 在现代社会中,摄影这门艺术已经成为了大众喜爱的一种娱乐和创造的活动。随着技术的不断进步,拍照的方式也不断地发生着变化。而Python编程语言正是一种帮助我们提高摄影效果的利器。下面就让我们来看看,Py…

GPT-4突然降智,爆料OpenAI重新设计构架,用MOE降本增效,官方辟谣网友却不买账...

编辑:润 Lumnia 【导读】最近众多网友反应GPT-4不好用了,后悔充值了。后来网友爆出OpenAI采用MOE重新设计了构架,导致性能收到影响,但是官方一直没有明确答复。 最近一段时间,很多OpenAI的用户反应,GPT-4变…

chatgpt赋能python:Python怎么装Matplotlib

Python怎么装Matplotlib Matplotlib是针对Python语言的绘图库,用于绘制二维图形和三维图形。这个库提供了多种不同的绘图选项,允许用户自由绘制不同类型的图表。Matplotlib是Python科学计算生态系统中最常用的绘图工具之一。 为什么要使用Matplotlib&a…

chatgpt赋能Python-python模块查看

介绍 Python 是一门非常流行且受欢迎的编程语言,它有许多优秀的特性和功能,使其得到了众多开发人员和企业的认可。其中,Python 的模块是一个非常重要的概念,它们允许我们组织和扩展我们的代码库,并在多个项目中重复使…

chatgpt赋能python:Python为坐标轴命名——让图表更加清晰易懂

Python 为坐标轴命名——让图表更加清晰易懂 在数据可视化中,为坐标轴命名是非常重要的。这不仅可以帮助您向读者传达信息,还可以让图表更加清晰易懂。Python 已成为数据科学领域最受欢迎的编程语言之一,并且其绘图库提供了灵活的选项来为坐…

软件开发计划书

1.引言 1.1背景 汽车作为交通工具,在人们的日常行为生活中发挥着极为重要的作用。近十年来,汽车也越来越普遍,不再是一种奢侈品。而很多人也都把汽车当做了一个小家。而当前汽车室内的管理还不够智能化,人们在使用汽车的时候也会…

私域流量企业团队运营工作规划方案甘特图表格

私域流量企业团队运营工作规划方案甘特图表格 网盘文档下载地址https://pan.baidu.com/s/1WJ5XnWCfarPYe8xagY88Cw?pwdw56h 主要分享其中的三个思维模型,第一,先胜而后战,第二至人而不至于人,第三胜可知不可为,听起来…

如何打造一份it项目计划书

一份专业的IT项目计划书应该包括以下几个部分: 一、项目背景 二、主要任务 三、工作量评估 四、项目计划 五、项目交付件 六、附件 七、价格 八、需求变更管理 一、项目背景 项目的相关介绍。可以从以下几个方面来写: 为什么要做这个项目? 项…

60个项目管理甘特图模板,可编辑,可下载

今天和大伙分享的是60个可编辑的 项目管理甘特图 可更改 可下载 这么多样式 总有一款适合你 ↓↓↓ 项目管理甘特图部分样板查看 项目管理套表 ......

【App设计】互联网+商业计划书

原计划书地址:https://pan.baidu.com/s/1VhlZJhgiC89plJ02yRD_9g 今天我们来谈谈共享图书App的设计 首先该APP的主体功能有借书、还书、社区、社区等。 界面原型如下:(这个界面是我大三做的校园app的界面,比较通用,…

最全面、最系统的商业计划书指南

目 录 1 为什么写好商业计划书很重要? 2 你的想法会被投资人拿走或抄袭吗? 3 什么时候需要准备商业计划书? 4 商业计划书写多少页最合适? 5 PPT,WORD,PDF用哪种格式? 6 商业计划书先写什么&…

商业计划书文档+PPT公开下载

包含商业PPT模板,很多创业比赛的商业计划书,有需要的直接下载吧! 阿里云盘分享https://www.aliyundrive.com/s/Nzrtg7687r2

最全面测试计划书模板

XX项目名称 测试计划 文章目录 XX项目名称 测试计划1.测试背景2.测试目标3.测试范围4.测试输出文档5.测试工具6.测试规模以及工作量分析7.测试进程7.1 测试流程表7.2 测试过程描述a.测试计划阶段b.测试用例阶段c.测试阶段d.测试总结阶段 8.测试进度及时间资源9.测试轮次安排10.…

体验 GPT-4 后,回顾 OpenAI 发展历程及感悟

从 ChatGPT Plus 发布第一天就开始重度使用,刚刚和新发布的 GPT-4 进行了 20 多轮对话,来简单介绍下这几个模型背后的技术,并且分享下感受。 GPT 在发展历程中,一共经历了 4 个阶段,分别是 1、2、3、4。这几个阶段分别…

Gavin老师Transformer直播课感悟 - Rasa对话机器人项目实战之教育领域Education Bot项目Debugging进阶实战(六十二)

本文继续围绕工业级业务对话平台和框架Rasa,对Rasa对话机器人项目实战之教育领域Education Bot项目Debugging过程中关于NLU组件加载运行,各个policies如何进行预测,ResponseSelector如何选择response等内容进行详细分析。 一、Rasa对话机器人项目实战之教育领域Education Bo…

openai接口调用chatgpt的api,python版本

openai开放了chatgpt的api接口供程序调用,python版本的调用方法和参数说明的代码如下所示: import openai # api_key每个账号都可以生成一个对应的api_key拥有免费的5刀流量 # 生成api_key的地址:https://platform.openai.com/account/api-k…

java怎么调用openai接口

OpenAI提供了一个REST API,可以通过Java调用。可以使用Java的HttpClient类来发送HTTP请求,以调用OpenAI API。具体步骤如下: 1. 创建一个HttpClient对象,用于发送HTTP请求。 2. 构造一个HttpPost对象,指定OpenAI API的…

亚马逊AWS与凯捷、富通云腾、神州泰岳达成战略合作

亚马逊旗下公司Amazon Web Services, Inc. (AWS) 在AWS 2019年度合作伙伴峰会上宣布拓展中国合作伙伴生态的战略步骤,分别与凯捷咨询(中国)有限公司(Capgemini,中文简称凯捷)、富通云腾科技有限公司&#x…

【​观察】全国首个智能语义平台上线 神州泰岳开放语义技术的“图谋”之大...

申耀的科技观察 读懂科技,赢取未来! 如果说过去十年是互联网颠覆商业模式的十年,那么未来十年人工智能则有极大的可能接棒互联网,成为新的风口并产生新的商业机会。 而在这个过程中,被公认为人工智能“皇冠上的明珠”的…