【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT

最近OpenAI公司的ChatGPT非常火爆,虽然正式的论文还没有发布,但是按照OpenAI一贯的工作思路,基于前期工作进行相应的改造,我们可以跟着沐神一起来看看InstructGPT,也算法对了解ChatGPT有个前期的知识储备。

instructGPT论文地址:

Training language models to follow instructions with human feedback

沐神视频链接:InstructGPT 论文精读【论文精读·48】

目录

摘要

介绍

数据集

模型

1)SFT

2)RM

RM损失函数

3)Reinforcement learning(RL)

RL损失函数


摘要

大型的语言模型效果虽然很好,但是会产生很多对用户不真实的,带有种族歧视的,甚至是有害的言论。而InstructGPT则是基于GPT3,在人工反馈的数据上训练了一版有监督的模型。效果是:1.3B 参数的 InstructGPT优于175B 参数的GPT-3,可以证明,通过人工反馈进行fine-tune是个有前景的方向。

介绍

instructGPT是如何工作的呢?

step1:

挑一些prompt,让标注者写答案,基于这部分数据使用GPT-3进行fine-tune,得到模型SFT(supervised fine-tune)

step2:

第一步可以得到一个还不错的模型,但是成本高,也无法穷尽所有答案,所以第二步则是由SFT模型对问题采样出几个答案(GPT-3得到词的概率,再通过beam search采样出4个答案),再由人工判断这几个答案的优劣,然后训练出一个奖励模型RM(reward model)

step3:

使用强化学习的框架优化得到输出的策略:使用RM模型计算reward,并用PPO(后面会讲)来更新策略。

数据集

 那么prompt是如何生成的呢?

1/Plain 让标注人员自己想---确保问题的多样性

2/Few-shot 让标注人员写指令,以及指令的答案。比如找出这段代码的错误。

3/User-based 标注人员根据用户让OpenAI回答的问题构建一部分prompt

用户问题分布:

基于这些数据,划分成了3个数据集:

1/ SFT,标注人员直接写答案,13k样本,API+人工标注

2/ RM,标注人员打分,33k样本,API+人工标注

3/PPO,31k样本,只有API的结果

然后开放在OpenAI的playground中,让用户使用,再根据用户ID收集一部分的问题(一个用户最多200个)。用户可能会针对一个问题,用不同的句子提问,所以根据用户ID划分不同的数据集,避免一个用户的问题同时出现在多个数据集中,污染结果。

这样就可以持续对模型进行迭代。

模型

InstructGPT中一共用到了3个模型

1)SFT

SET的训练比较简单,就是标注数据fine-tune,13k样本较少,结果会过拟合,但这个模型只是为了初始化后面的模型,后续发现过拟合反而对后续的训练反而是有帮助的。

2)RM

的话,输入是prompt和回答,输出是一个reward。用前面的SFT的模型,去除掉最后的softmax层,转而使用一个线性投影层得到一个输出为1的标量,这个标量就可以视作是RM中的reward。

RM损失函数

是一个比较常见的pair-wise ranking loss。

 这里的K取的是9,每个prompt产出9个回答,9个回答两两匹配中生成36个pair对,在损失函数中,第一项的分母中除以pair对数,为了就是平衡掉不同K值带来的影响。

注意:OpenAI之前的工作中用的K=4,这里用的是K=9,好处有:

  • 标注资源增长较少

        对于同一个问题,标注9个答案仅仅比4个多出了一些时间,因为节约了读题和理解题目的时间(我不是很认可啊,排序我觉得还挺麻烦的)

  • 6倍的训练数据

        9个答案能产生36个pair对,而4个答案却只能产生6个pair对,训练数据量增加了6倍。

  • 节约时间

      最费时间的是r_{\theta } (x,y_{w})的计算,9个回答只需要计算9次,但是能产出36个标量,相当于节省了4倍的时间。

相当于是标注资源增加不多的情况下,训练数据量变多,同时时间没有增加很多。

同时,前作是4个里面选最好的一个,会有过拟合的情况,这里改为全排序的话,帮助缓解过拟合。

3)Reinforcement learning(RL)

在强化学习的框架内,随着模型的更新,每次采样到的y是不一样的,相当于是强化学习的环境变了,那相应的,获得的奖励也变了。

RL损失函数

{\pi _{\phi }}^{RL}就是强化学习学到的结果

\pi ^{SFT}就是SFT学习到的结果

第一项:对于每个prompt,丢进RL模型中产生一个y,使用第二步的RM模型来计算r_{\theta } (x,y),这里的RM模型是模拟人类,对每个y给出一个实时反馈。

第二项:而RM训练时产生的y是来自于\pi ^{SFT},为了减小更新模型导致的数据分布不一致,所以第二项中使用了KL散度,使得模型学出来的结果和SFT的不要相差太多

最后一项:GPT-3原始的目标函数,使得整个模型能生成更有效回答的情况下,其他任务的性能不要下降太多。

前2项就是ppo模型,加上最后一项就是ppo-ptx模型。

沐神给了些其他建议:

1.大模型模型不稳定的话,使用小模型

2.与其使用不稳定的RL,不如在数据集上多下点功夫,多找人标注些数据集,效果也未必不好。

(ps:论文中间还提到了如何挑选标注人员,这个真的蛮重要的,低质的标注人员真的非常拖累整个项目进程。。。这个还有专门的论文讲这个事情,感兴趣的可以自己搜搜看)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/9849.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

李沐论文精度系列之十:GPT-4

文章目录 一、AIGC资讯速览1.1 Toolformer(2023.2.9)1.2 ChatGPT plugin1.3 LLaMA(2023.2.24)1.4 Visual ChatGPT(2023.3.8)1.5 GigaGAN(2023.3.9)1.6 Stanford Alpaca(2…

ViT论文逐段精读【论文精读】-跟李沐学AI

视频链接:ViT论文逐段精读【论文精读】_哔哩哔哩_bilibili ViT:过去一年,CV 最有影响力的工作 推翻了 2012 Alexnet 提出的 CNN 在 CV 的统治地位 有足够多的预训练数据,NLP 的 Transformer 搬运到 CV,效果很好 打…

血条加载!百度地图上线复苏指数;Quora推出问答机器人;腾讯绝悟成功用于医疗诊断;使用chatGPT生成推文;GitHub AI项目精选 | ShowMeAI资讯日报

👀日报合辑 | 🎡AI应用与工具大全 | 🔔公众号资料下载 | 🍩韩信子 📢 『百度地图 复苏指数』用大数据吹起人间烟火 随着疫情防控措施的调整优化,市民的出行和消费需求逐步回暖,各大城市日渐复…

火爆全网的[ChatGPT] ai studio可以玩啦

☆ 只需两步, Ai Studio上也可以玩[ChatGPT]了 ☆ 无需账号即可体验喽~ 【一定要选择最新版本的项目嗷!官方接口更新太快!】 据说诱导式可以得到匪夷所思的结果! 图源网络,仅供娱乐 0 Fork后进入项目 应用中心体验…

终于来了,OpenAI发布iOS版ChatGPT,支持语音提问

OpenAI发布了ChatGPT的iPhone版本,并承诺未来将发布安卓版本。 该软件免费使用,目前仅支持英语,在美国可以通过苹果商店下载后,在iOS操作系统的设备上使用,用户可以输入问题并接收来自聊天机器人(16.310, -0.34, -2.0…

爆火的ChatGPT,如何能打造一个属于自己的ai客服小程序

简单了解一下这个系统: 小程序中访问也比较方便安全,目前做的人还比较多,大家赶紧上车。 再次提醒风口项目不能犹豫,等你缓过神来,人家已经赚得盆满钵满了,但也不要头脑一热就搞,根据自己的资…

ChatGPT入门案例|张量流商务智能客服

本篇介绍了序列-序列机制和张量流的基本概念,基于中文语料库说明基于循环神经网络的语言翻译的实战应用。 01、序列-序列机制 序列-序列机制概述 序列-序列(Sequence To Sequence,Seq2Seq)是一个编码器-解码器 (Encoder-Decoder Mechanism)结构的神经网络,输入是序列(…

ChatGPT详聊IT服务台,AI可以取代人工么?

近期ChatGPT火爆出圈&#xff0c;在被更多人熟知的过程中&#xff0c;大家也提出了“未来AI是否会取代自身职位”的疑问。 那么&#xff0c;IT服务台的工作&#xff0c;未来会被人工智能取代吗&#xff1f; ⬇️以下内容均由ChatGPT输出⬇️ >IT服务台是怎么运营的< …

【基于ChatGPT+SpringBoot】打造智能聊天AI机器人接口并上线至服务器

&#x1f680; ChatGPT是最近很热门的AI智能聊天机器人 &#x1f680; 本文使用SpringBootOpenAI的官方API接口&#xff0c;自己实现一个可以返回对话数据的接口并上线服务器 &#x1f680; 用途方面相比于普通的聊天AI更加的广泛&#xff0c;甚至可以帮助你改BUG&#xff0c;写…

基于ChatGPT的私人助理机器人开发实战

你是否曾希望有一位私人助理来帮助管理知识或根据你的文档回答问题&#xff1f; 随着 OpenAI 最近发布的 GPT 3.5 系列 API&#xff0c;现在可以根据自己的数据构建自己的问答聊天机器人。 在本文中&#xff0c;我们将探讨如何使用 llama-index 和 GPT API 高效地构建文档问答…

AI 已死?不,AIGC 给我们带来了新的希望

爆款频出的 AIGC&#xff0c;2023 年能否延续热度&#xff1f; 文 | 刘雨洁、王与桐 编辑 | 石亚琼 封面来源&#xff5c;IC photo 2022 年的热门词汇有什么&#xff1f;AIGC 当之无愧位列其中&#xff0c;甚至将名列前茅。 从 5 月的 Disco Diffusion 和 DALLE2 引起的 AI 作画…

超导百年:物理学“圣杯”是如何诞生的?

最近科技圈流传的大新闻&#xff0c;大家都知道了吧&#xff1f; 简单来说&#xff0c;美国物理学会的三月会议上&#xff0c;来自罗彻斯特大学的Ranga Dias宣布&#xff0c;他们团队在近环境压强下实现了室温超导。 这个消息在中文互联网流传之后&#xff0c;很快就有了详细的…

树莓派离线下载

最近朋友买了一个私人网盘&#xff0c;可以用于资料的备份&#xff0c;也可以挂机下载&#xff0c;感觉还挺有趣的&#xff0c;自己也想折腾一下&#xff0c;利用树莓派搭载一个私人网盘&#xff0c;用于离线下载&#xff0c;折腾了半天终于弄好了&#xff0c;现在记录一下。 …

Linux Anaconda使用、离线安装包及其依赖库

Linux Anaconda使用、离线安装包及其依赖库 1. 以离线安装skimage包为例1.1 批量下载skimage包依赖库1.2 批量安装 2. Anaconda安装使用2.1下载安装2.2 使用2.2.1 查看Anaconda中已经安装的Python版本2.2.2 查看该环境中已经安装的包2.2.3 查看该环境中已有虚拟环境2.2.4 创建虚…

如何使用 ChatGPT4 学习 Python?

虽然 ChatGPT-4 可以提供支持和指导&#xff0c;但需要注意的是它是一种 AI 语言模型&#xff0c;而不是专门的 Python 学习平台。尽管如此&#xff0c;您仍然可以按照以下步骤使用 ChatGPT-4 来帮助您学习 Python&#xff1a; 熟悉 Python 基础知识&#xff1a;首先向 ChatGP…

送5本ChatGpt深度学习书籍

文末赠书 你听说了吗&#xff1f;微软市值一夜暴涨5450亿美元&#xff01; 难道是出现了什么颠覆人类的“黑科技”吗&#xff1f; 图1&#xff1a;微软股价变动 没错&#xff0c;就是这个令AI界发生震动的ChatGPT&#xff01; ChatGPT因其可以逼真地模拟人类语言、与用户可以自…

【3.0版本】用ChatGPT开发一个书籍推荐微信小程序(三)

文章目录 1 前言1.1 实现原理1.2 在小程序如何衔接1.3 技术架构 2 爬取数据2.1 根据书名爬取信息2.2 根据作者爬取信息2.3 根据类型爬取信息 3 讨论 1 前言 1.1 实现原理 万变不离其宗&#xff0c;还是相当于与ChatGPT交互问答&#xff0c;然后映射到小程序中&#xff0c;以下…

出海必知:跨境人必须知道的一个跨境电商推广常用渠道

目前大家通常首先会想到通过Facebook和Google的广告去为自己的跨境电商平台进行推广&#xff0c;但是大家往往会忽略“海外小红书” - Pinterest这一个热门且常用的渠道。对于现在做品牌出海以及跨境电商的卖家而言&#xff0c;Facebook和Google的价格和竞争力都太高了&#xf…

跨境电商如何制定社交媒体营销策略?

关键词&#xff1a;跨境电商&#xff0c;社交媒体营销&#xff0c;营销策略 社交媒体包罗万象&#xff0c;它并不像看起来那么简单。在制定促进业务的战略时&#xff0c;跨境电商新卖家很容易不知所措。尽管如此&#xff0c;创建一个成功的社交媒体营销策略并不一定是一个痛苦…

跨境电商社交媒体:选择合适的平台

正如您在使用社交媒体的九种方法中了解到的那样&#xff0c;跨境电商优先考虑社交媒体营销可能会更有利可图。有数十个平台可供选择&#xff0c;每个平台都迎合了具有不同兴趣、特征和位置的独特受众。 那么您应该关注哪个社交媒体平台以及如何以最大效率工作&#xff1f; 目…