Paper简读 - ChatGPT相关的InstructGPT

欢迎关注我的CSDN:https://blog.csdn.net/caroline_wendy
本文地址:https://blog.csdn.net/caroline_wendy/article/details/128866056

发表于NLP会议:NeurlPS,EMNLP

  • EMNLP: Empirical Methods in Natural Language Processing,自然语言处理中的经验方法
  • NeurlPS: Neural Information Processing Systems,神经信息处理系统

ChatGPT

ChatGPT: Optimizing Language Models for Dialogue,优化对话的语言模型

  • ChatGPT:https://openai.com/blog/chatgpt/
  • GPT:Generative Pre-trained Transformer,生成式预训练Transformer

We’ve trained a model called ChatGPT which interacts in a conversational way. The dialogue format makes it possible for ChatGPT to answer followup questions, admit its mistakes, challenge incorrect premises, and reject inappropriate requests. ChatGPT is a sibling model to InstructGPT, which is trained to follow an instruction in a prompt and provide a detailed response.

  • 我们已经训练了一个名为 ChatGPT 的模型,以对话方式进行交互。对话格式,使 ChatGPT 可以回答后续问题、承认错误、挑战不正确的前提,和拒绝不适当的请求等。 ChatGPT 是 InstructGPT 的兄弟模型,经过训练,可以按照提示中的说明(Instruction),进行操作并提供详细的响应。

发表时间:2022.3.4

InstructGPT: Training language models to follow instructions with human feedback

  • 训练语义模型以服从带有人类反馈的指示

语言模型的有效性、安全性。

A diagram illustrating the three steps of our method: (1) supervised fine-tuning (SFT), (2) reward model (RM) training, and (3) reinforcement learning via proximal policy optimization (PPO) on this reward model. Blue arrows indicate that this data is used to train one of our models. In Step 2, boxes A-D are samples from our models that get ranked by labelers. See Section 3 for more details on our method.

  • 说明我们方法的三个步骤的图表:
    • (1) 监督微调(Supervised Fine-Tuning,SFT)。
    • (2) 奖励模型(Reward Model,RM)训练。
    • (3) 在奖励模型上,通过近端策略优化 (Proximal Policy Optimization,PPO) 进行强化学习。
  • 蓝色箭头,表示此数据,用于训练我们的模型之一。在第 2 步中,方框 A-D 是来自我们的模型的样本,这些样本由标注者进行排序。有关我们方法的更多详细信息,请参阅第 3 节。

image-20230202171407880

Step1: Collect demonstration data, and train a supervised policy. 收集示范数据,训练监督政策。

  1. A prompt is sampled from out prompt dataset. -> Explain the moon landing to a 6 years old.

    • 一个提示是从提示数据集中采样的。 -> 向 6 岁的孩子解释登月
  2. A labeler demonstrates the desired output behavior. -> Some people went to the moon…

    • 打标人员证明所需的输出行为。-> 有些人去了月球… (人工)
  3. This data is used to fine-tune GPT-3 with supervised learning. -> SFT-Text

    • 这些数据用于使用监督学习对GPT-3进行微调。 -> SFT,Supervised Fine-Tuning,监督微调
    • 将问题和答案的文本,放到一起微调,标注答案很贵。

Step2: Collect comparison data, and train a reward model. 收集对比数据,训练奖励模型。

  1. A prompt and several model outputs are sampled. -> Explain the moon landing to a 6 years old.

    • Explain gravity…,解释重力

    • Explain war…,解释战争

    • Moon is natural satellite of…,月球是天然卫星

    • People went to the moon…,人类去月球

    • 一个提示是从提示数据集中采样的。 -> 向 6 岁的孩子解释登月

    • 例如,使用集束搜索(beam search),采样答案。

  2. A labeler ranks the outputs from best to worst. -> D > C > A = B

    • 打标人员将输出从最好到最差进行排序。
    • 数据标注变得简单,同样的标注成本下,得到更多的数据。
  3. This data is used to train our reward model. -> RM-Rank

    • 这些数据用于训练我们的奖励模型。
    • 问题和答案,一起输入模型,输出打分,进行排序。同时,使得生成的答案分数更高。

Step3: Optimize a policy against the reward model using reinforcement learning. 使用强化学习,针对奖励模型优化策略。

  1. A new prompt is sampled from the dataset. -> Write a story about frogs.
    • 从数据集中采样了一个新提示。 -> 写一个关于青蛙的故事。
  2. The policy generates an output. -> PPO - Once upon a time…
    • 该策略生成输出。 -> 近端策略优化 (Proximal Policy Optimization,PPO) - 从前…
  3. The reward model calculates a reward for the output. 奖励模型为输出计算奖励。
    • RM,奖励模型
  4. The reward is used to update the policy using PPO。 -> r k r_{k} rk
    • 奖励用于使用 PPO 更新策略。

技术要点:

  1. 如何标注文本数据?
  2. 如何标注排序数据?
  3. RM模型如何训练?
  4. RM模型和PPO模型,如何进行强化学习?

模型具有泛化性,和先验知识,Few-shot,工具,可用性,正常的地方。

Prompt Dataset:

  • 标注人员,写了很多问题。Plain、Few-shot、User-based。
  • 每个用户采集200个问题,用户ID,避免同时出现在训练集和测试集,过滤人名。
  • 内测版的模型,试用版本,发布子产品的思路,使用数据。

三个数据集:SFT Dataset (13k)、RM Dataset (33k)、PPO Dataset (31k)。

标注标准:helpfulness、truthfulness、harmlessness

  • Supervised fine-tuning (SFT),监督微调,训练16个epoch。
  • Reward modeling (RM),输出为1的线性层,1个标量奖励,模型由175B -> 6B。
    • Pairwise Ranking loss,log(sigmoid(y1-y2)),交叉熵,K=9,选择36对。
    • 9次前向,计算36次,4个答案。选择最好,softmax,容易overfitter
  • Reinforcement learning (RL),PPO,Proximal Policy Optimization,近端策略优化。
    • 强化学习里面,模型叫做Policy
    • π S F T \pi^{SFT} πSFT训练好的模型, π ϕ R L \pi^{RL}_{\phi} πϕRL需要学习的模型,最大化目标函数,更新之后,采样的数据是不一样的,标的排序,而不是标的Y。
    • 第1项:在线学习,人不停反馈,学一个函数替代人。
    • 第2项:结果和之前的,不要跑太远,KL散度,softmax概率的相似度。PPO的主要思想。
    • 第3项:原始数据集也不要放弃,原始的GPT3函数。

Reward modeling的Pairwise Ranking loss:

image-20230202190142186

Proximal Policy Optimization:

image-20230202191530148

参考文章:

  • NLP:《ChatGPT: Optimizing Language Models for Dialogue一种优化的对话语言模型》翻译与解读
  • AIGC:ChatGPT(一个里程碑式的对话聊天机器人)的简介(意义/功能/核心技术等)、使用方法(七类任务)、案例应用(提问基础性/事实性/逻辑性/创造性/开放性的问题以及编程相关)之详细攻略

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/2669.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文的查重到底怎么查?

随着社会对教育的重视程度不断提高,论文的查重也越来越严格。毕业论文查重率高将直接影响学生的正常毕业,期刊论文的查重率高将直接影响论文的顺利发表,因此很多人在撰写完论文初稿后就会进行自查降重,那么各类论文的查重标准是什么?论文查重到底是怎么查的呢?查重…

让ChatGPT干正事,如何查找靠谱的真文献写论文

文 / 高扬(微信公众号:量子论) 感谢大家的提问,这些问题可以促进我去探索和学习。 我在公众号里输出的文字其实也是我的学习笔记,特点比较突出:字少,图多,纯干货。 这也是咱们理工男…

ChatGPT小技巧:论文降重

免费查重网站 万方免费查重(应届生免费一次):chsi.wanfangtech.net PaperDay(标准版永久免费,旗舰版每日限免):www.paperday.cn 论文狗(每日免费一次):www.…

ChatGPT论文降重:从97%到5%

ChatGPT在学术论文方面的功能非常强大,能够一键辅助你完成各种复杂的学术任务和课题,然而ChatGPT在论文降重上的表现就像一个"傻子"。 当你用ChatGPT给论文降重的时候,你会发现他很不听话,即使你要求他不能有重复、相同…

教授误用 ChatGPT 来论文“查重”,学生:不仅挂科了,我差点拿不了毕业证!...

因为教授误用 ChatGPT,全班学生的毕业差点成为一个大问题。 整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 曾几何时,震慑无数学生的「学好数理化,走遍天下都不怕」Slogan 在 AI 互联网时代,正在变得失…

用chatgpt写insar地质灾害的论文,重复率只有1.8%,chatgpt4.0写论文不是梦

突发奇想,想用chatgpt写一篇论文,并看看查重率,结果很惊艳,说明是确实可行的,请看下图。 下面是完整的文字内容。 InSAR (Interferometric Synthetic Aperture Radar) 地质灾害监测技术是一种基于合成孔径雷达…

chatGPT优化论文会导致论文重复率升高,实测段落重复率从23.2%狂飙到70.7%

我们让chatGPT对段落文字换一种表述,得到的结果是,转换后的内容能够完整的合乎逻辑的表述,但重复率从23.2%狂飙到70.7%,因此不建议使用chapGPT来去重。 转换前的文字重复率:23.2% 转换后的重复率:70.7%…

超详细|ChatGPT辅助论文降重教程100%降至13%

超详细|ChatGPT辅助论文降重教程100%降至13% 1. ChatGPT指令1.1 同义词替换1.2 同义词替换改变语序1.3 扩充字段1.4 学术化内容1.5 扩充删减字段学术化内容 2. 重复率对比2.1 对比标记情况2.2 最终结果 1. ChatGPT指令 1.1 同义词替换 对比分析,发现ChatGPT中文的…

重磅来袭,ChatGPT官方的掌上神器目前仅支持IOS

今天凌晨,OpenAI 推出了 ChatGPT 的 iOS app,在这个开放的世界里,智能化的 AI 功能早已经突破了人类的想象力。而 ChatGPT 确实不会让我们失望,它的真「iPhone 时刻」来了!从现在起,我们可以在 iPhone 上使…

突发!OpenAI 重磅发布 ChatGPT iOS 客户端!无须手续费,直接开通Plus。

大家好,我是鱼哥! 今天凌晨,OpenAI又重磅宣布推出ChatGPT的 iOS移动版本。也就是说,从今天开始iOS用户将可以在手机和iPad上免费下载和使用ChatGPT。 整体来说,iOS移动端的ChatGPT主打简洁流畅的风格,全力提…

通俗易懂chatGPT原理

来自:无数据不智能 目前关于chatGPT的资料过于零散,没有详尽所有知识点、系统概述的文章,因此,笔者作了这篇总结性文章。 训练过程总览理清演化路径预训练(pretrain) GPT-3概述GPT 3模型的理念GPT-3如何学习数据集指令微调 (Instr…

最新出炉:台大李宏毅老师关于ChatGPT原理剖析的三部曲

李宏毅【生成式AI】ChatGPT 原理剖析 (1/3) — 对ChatGPT的常见误解 李宏毅【生成式AI】ChatGPT 原理剖析 (2/3) — ChatGPT背后的关键技术: 预训练 (Pre-train) 李宏毅【生成式AI】ChatGPT 原理剖析 (3/3) — ChatGPT 所带来的研究问题

ChatGPT原理详解+实操

言 ChatGPT已近火了快大半年了,从去年刚出来的时候小编就关注了一下,也具体的使用过,然后就惊为天人,再然后就没有然后了,因为小编那段时间沉迷于AIGC了。ChatGPT今年开年后更是火的一塌糊涂,无论是行业内…

ChatGPT原理剖析:InstructGPT详解

❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博…

ChatGPT原理简介

承接上文GPT前2代版本简介 GPT3的基本思想 GPT2没有引起多大轰动,真正改变NLP格局的是第三代版本。 GPT3训练的数据包罗万象,上通天文下知地理,所以它会胡说八道,会说的贼离谱,比如让你穿越到唐代跟李白对诗,不在一…

ChatGPT 原理解析:对ChatGPT的常见误解

本文目录: ChatGPT 原理解析:对ChatGPT 的常见误解 ChatGPT 原理解析:对ChatGPT 的常见误解 本文是台大李宏毅教授的深度学习课程的视频笔记。李宏毅教授的机器学习课程内行的都知道,大概是全世界最好、最完整的 Deep Learning 中…

ChatGPT原理简明笔记

学习笔记,以李宏毅的视频讲解为主,chatGPT的官方博客作为补充。 自己在上古时期接触过人工智能相关技术,现在作为一个乐子来玩,错漏之处在所难免。 若有错误,欢迎各位神仙批评指正。 chatGPT的训练分为四个阶段&#x…

ChatGPT原理解读

目录 GPT痛点基于人类反馈的强化学习机制(ChatGPT)step1:Fine-tune SFT模型step2:训练Reward模型step3:强化学习训练PPO模型 一些技术问题猜想ChatGPT的多轮对话能力ChatGPT的交互修正能力 GPT痛点 GPT作为一个通用大…

ChatGPT 基地

大家好,我是贺同学。 一直以来密切关注 ChatGPT 的趋势,最近相关的话题可谓是热度不减,并且相关的付费社群已经有雨后春笋般冒出来很多,但我最近发现一个比较独特的星球。 在这个星球里面,大家不搞噱头,而是…

关于安卓以及微软用户chatgpt上一篇文章如今第五点无法正常进入更新解决方法以及附加本地部署

目录 一、问题出现: 1、问题: 原因: 二、解决办法(本地部署chatgpt) 1、解决(国内网络使用真的chatgpt并非镜像)一次部署终生使用 第一步: ​编辑第二步: 三、实现结…