文献阅读:Training language models to follow instructions with human feedback

  • 文献阅读:Training language models to follow instructions with human feedback
    • 1. 文献工作简介
    • 2. 模型优化设计
    • 3. 实验结果
    • 4. 总结 & 思考
  • 文献链接:https://arxiv.org/abs/2203.02155

1. 文献工作简介

这篇文章是OpenAI在上年提出的一篇对于GPT3的改进文章,提出了InstructGPT。

其主体的思路应该是借鉴了Google的Flan。Google的Flan这个工作中提出,使用标注数据对预训练模型进行Finetune,即使对于标注数据没有涉及的新的领域任务,模型的效果也是可以提升的,也就是说,对于大模型而言,使用标注数据进行finetune可以进一步提升模型的泛化性。

另外,在InstructGPT当中,除了引入了标注数据进行finetune之外,文中还加入了强化学习的方式,使用人工数据来对模型进行了进一步的优化。

而关于模型的实际效果,除了文中给出的这些结果之外,另外一个相关的工作大概会更为广为人知,即ChatGPT。

这个牛逼的模型基本就是按照InstructGPT的方式进行训练然后放出端口的,其效果就无需赘述了,委实是有点牛逼了。

2. 模型优化设计

下面,我们来看一下文中具体给出的模型优化方案。

如前所述,InstructGPT模型的主要优化点包括了以下一些内容:

  1. 加入了多种任务的标注数据进行了finetune;
  2. 在Prompt的基础上加入了Instruct部分,进一步固化生成方向;
  3. 使用人工交互数据进行了强化学习;

整体的训练步骤如下图所示:

在这里插入图片描述

可以看到,整体上模型训练可以分为三部分:

  1. 使用监督数据进行finetune;
  2. 使用人类行为数据进行RM模型训练;
  3. 使用2中的RM模型对莫i选哪个进行强化学习优化;

而关于模型训练使用的数据,具体如下:

在这里插入图片描述

其中,表1是不同类型的数据分布,表2是使用的prompt样例。

3. 实验结果

下面,我们来看一下文中给出的实验结果。

首先,我们来看一下整体的人工评测效果如下:

在这里插入图片描述

在这里插入图片描述

可以看到:

  • Prompt、Finetune以及RL对于模型均表达为正向的效果。

然后,我们来看一下模型在公开数据集上的效果表达:

在这里插入图片描述

文中同样对不同的Prompt的效果进行了考察,得到结果如下:

在这里插入图片描述

最后,文中给出了一些具体的case对比如下:

在这里插入图片描述
在这里插入图片描述

可以看到:

  • 整体来看,InstructGPT对于具体任务的返回的返回结果表达上是是全面优于GPT3的。

4. 总结 & 思考

整体上来说,InstructGPT较之原版的GPT3在生成任务的指向性上更加明确,生成结果的正确性也更高,但即便如此,碍于GPT模型LLM的本质,它依然无法避免的可能会生成错误的结果,这方面很难彻底规避。

但即便如此,InstructGPT,或者说ChatGPT的效果确实毋庸置疑的,毕竟都让Google感觉惊慌了,我司也打算大规模加入到Edge以及Office软件当中,未来LLM的前景基本是没啥好质疑的了,虽然现阶段的LLM到底能否经得起使用,这方面我倒是暂时呈观望态度,虽然有点唱反调,但是毕竟做过生成任务,这方面对于LLM结果的可靠度实在是没有那么自信……

Anyway,让子弹再飞一会吧……

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/56372.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[工具分享] 如何快速的添加海外客户的whatsApp和line进入通讯录

很多做外贸的朋友经常需要和海外的朋友联系,我们经常有时候需要添加海外客户的whatsApp和line等海外社交软件更好的与客户沟通,其他的App呢也是类似的,一下分享的方法 第一步、首先下载软件: 腾讯网盘:https://share.weiyun.com…

高等数学(第七版)同济大学 习题8-5 个人解答

高等数学(第七版)同济大学 习题8-5 函数作图软件:Mathematica 1. 一球面过原点及 A ( 4 , 0 , 0 ) 、 B ( 1 , 3 , 0 ) 和 C ( 0 , 0 , − 4 ) 三点,求球面的方程及球心的坐标和半径 . \begin{aligned}&1. \ 一球面过原点及A…

高等数学——积分

目录 一,求积分 二,积分题目 三,积分表推导 (1)含有axb的积分 (2)含有的积分 (3)含有的积分 (4)含有(a>0)的积分 (5&#x…

高数教材班复习Hint(3.1-3.6)

Chapter 3 Lesson 1 H i n t 1 {Hint}^1 Hint1:微分中值定理——联系函数和导数 费马引理:对于邻域 U ( x 0 ) U(x_0) U(x0​),如果对于 f ( x ) ≤ f ( x 0 ) f(x) \leq f(x_0) f(x)≤f(x0​)(或 f ( x ) ≥ f ( x 0 ) f(x) \geq f(x_0) f…

《高等数学》 第七版 同济大学

《高等数学》 第七版 同济大学 上册 第一章 函数与极限 第一节 映射与函数 一 映射 映射概念 法则像原像定义域值域构成映射的三要素满射【映射】单射双射【一一映射】 逆映射与复合映射 只有单射才存在逆映射 二 函数 函数的概念 自变量 因变量 定义域 值域 对应法则…

高等数学(第七版)同济大学 习题10-4 (前7题)个人解答

高等数学(第七版)同济大学 习题10-4(前7题) 函数作图软件:Mathematica 1. 求 球 面 x 2 y 2 z 2 a 2 含 在 圆 柱 面 x 2 y 2 a x 内 部 的 那 部 分 面 积 . \begin{aligned}&1. \ 求球面x^2y^2z^2a^2含在圆…

高等数学(第七版)同济大学 习题10-2(中5题) 个人解答

高等数学(第七版)同济大学 习题10-2(中5题) 函数作图软件:Mathematica 11. 画 出 积 分 区 域 , 把 积 分 ∬ D f ( x , y ) d x d y 表 示 为 极 坐 标 形 式 的 二 次 积 分 , 其 中 积 分 区…

高数教材班复习Hint(1.1-1.7)

Chapter 1 Lesson 1 H i n t 1 : {Hint}^1: Hint1:单调函数一定有反函数。 P S : PS: PS:非单调的比如 y x 2 yx^2 yx2,反过来不具有函数性质。 H i n t 2 : {Hint}^2:…

T 基础 高数 上:函数

文章目录 !!!!!!导数公式表!!!!!!!!1.1 函数与反函数1.1.1 yf(x) xg(y)互为反函数 1.2基本初等函数1.2.1基本…

高等数学笔记

目录 1.1集合 1.2 函数 1.4数列极限 1.5函数的极限 1.6无穷小和无穷大 1.7极限的运算准则 1.8极限存在准则 定义一:夹逼定理 定义二:单调有界数列必有极限 1.8两个重要极限 第一个重要极限 第二个重要极限 1.9无穷小的比较 1.10函数的连续性 2.1导数的…

高数教材班复习Hint(1.8-2.5)

Chapter 1 Lesson 8 H i n t 1 {Hint}^1 Hint1:设函数 y f ( x ) yf(x) yf(x)在点 x 0 x_0 x0​的某邻域内有定义,如果 lim ⁡ Δ x → 0 Δ y lim ⁡ Δ x → 0 [ f ( x 0 Δ x ) − f ( x 0 ) ] 0 \lim\limits_{\Delta x \to 0}\Delta y\lim\limi…

高等数学(第七版)同济大学 习题8-4 个人解答

高等数学(第七版)同济大学 习题8-4 函数作图软件:Mathematica 1. 求过点 ( 4 , − 1 , 3 ) 且平行于直线 x − 3 2 y 1 z − 1 5 的直线方程 . \begin{aligned}&1. \ 求过点(4, \ -1, \ 3)且平行于直线\frac{x-3}{2}\frac{y}{1}\frac{…

高等数学笔记(上下)

目录 不定积分定积分微分方程线性微分方程解的结构常系数齐次线性微分方程常系数齐次线性微分方程特解的求法 计算机解法 不定积分 第一类换元积分法:灵感来自于复合函数的求导,利用中间变量替换得到复合函数的积分法:设 f ( u ) f(u) f(u)具…

五分钟了解GPT 模型背后的原理是什么?为什么 GPT 模型能生成有意义的文本?为什么 GPT 模型不会做简单的数学题?为什么有人担心 GPT 模型可能会危害人类?

五分钟了解GPT 模型背后的原理是什么?为什么 GPT 模型能生成有意义的文本?为什么 GPT 模型不会做简单的数学题?为什么有人担心 GPT 模型可能会危害人类? 0. 导读1. 为什么 GPT 模型能生成有意义的文本?2. 为什么 GPT 模…

图灵、图灵机和图灵测试

关注:灰质,有趣有料的AI技术分享 说到人工智能就不得不提到图灵,大家现在手头使用的智能手机、计算机都可以说是一种图灵机,即通过对输入进行计算得到输出的机器,图灵最早给出了这种机器形式化的定义和理论证明&#x…

2023年的深度学习入门指南(15) - 大模型的幻觉

2023年的深度学习入门指南(15) - 大模型的幻觉 大模型的能力最另人惊讶的,一个是强大的能力,另一个就是时不时一本正经地胡说八道。如果你用的是小一点的模型,可能还见过输出循环内容之类的情况。我们将这种生成不良内容的现象称为幻觉-hall…

a*算法代码 python,astar算法 python

这篇文章主要介绍了a*算法代码 python,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获,下面让小编带着大家一起了解一下。 1、python哪个版本opencv可以直接调用sift 这几天继续在看Lowe大神的SIFT神作&#xff…

GPT-2 面试题

简介 1、GPT-2 是什么?它是基于什么模型的? GPT-2 是一种人工智能的大型语言模型,由 OpenAI 在2019年提出。它是基于变压器(Transformer)模型的,使用了自注意力(Self-Attention)机…

最新闲鱼数据采集软件【2019年4月更新】

闲鱼采集软件可以采集商品标题、成色、用户名、地区、价格、链接等!无需登录,无屏蔽! 2019年3月初旧的接口全部不能用了,新的接口比较稀缺哦; 转载于:https://www.cnblogs.com/xtfnpgy/p/10778344.html

api接口—闲鱼搜索的数据

api接口,闲鱼搜索接口的数据 数据展示: