InstructGPT

InstructGPT 论文精读【论文精读·48】_哔哩哔哩_bilibili更多论文:https://github.com/mli/paper-reading, 视频播放量 160552、弹幕量 803、点赞数 5846、投硬币枚数 4003、收藏人数 5253、转发人数 2664, 视频作者 跟李沐学AI, 作者简介 ,相关视频:GPT,GPT-2,GPT-3 论文精读【论文精读】,算法领域的“大力出奇迹”:ChatGPT!李宏毅教授重磅解读ChatGPT的底层逻辑!感兴趣的同学赶紧收藏学习了!,南丁格尔来了都得连夜买机票回国,ChatGPT原理剖析 李宏毅,【人物 | 李沐】亚马逊AI主任科学家,MXNet-Gluon深度学习框架【计算机科学】,ChatGPT:接下来,我要开始说真话了😋,男子喝酒喝进医院,医生:已没有抢救的必要,妻子当场崩溃,新版Bing——科研人的终极解决方案,高燃!chatGPT爆杀字节三面面试官!,chatgpt评价原神https://www.bilibili.com/video/BV1hd4y187CR/?spm_id_from=333.999.0.0&vd_source=4aed82e35f26bb600bc5b46e65e25c22instructGPT是在给定一定标注数据的情况下,如果通过有监督微调来使模型和用户输入达成align,并且很好的提升了效果。

instructGPT标注一些数据,来精调语言模型。

abstract: 大型语言模型可能会产生一些不真实有害不利于用户的信息,因此模型并不能很好的align用户。用fine-tuning with hunman feedback,在openai api上收集了一些人工prompts,并进行标注,精调了GPT3。此外,对模型输出进行了排序,人工对结果进行排序并且训练了一个强化学习模型,这个模型叫instructGPT。1.3B的InstructGPT要好过175B的GPT3。

1.introduction

大模型的目标函数是预测网上数据的下一个词,这和我们想让大模型根据人的提示去生成答案之间是有差距的。本文的核心目的就是想让用户的提示和大模型输出的结果更加align。 

第一步,人工给prompts写答案,并用这个数据来微调gpt3,这个叫sft,但是人工写答案是很昂贵的。第二步,使用模型输出prompt的多个结果,然后人工对结果进行标注,训练一个reward模型,模型输出一个分数,对生成的答案进行打分。第三步,进一步微调sft,使得sft的结果是reward模型中打分较高的那个。gpt3通过上面三步产生的就是instructGPT.

有监督微调,模型的泛化性不错。

2.method

dataset

标注问题写了一些prompt,训练了一个InstructGPT,把模型放出来让大家试用,大家试用的问题收集起来,作为新的prompts。产生了三个数据集,1.让标注人员标注一部分数据,2.一个RM数据集,只需要排序就可以了,3.训练强化模型数据,不需要标注,因为标注来源于RM的标注。训练sft是13k样本,训练RM是33k样本,训练PPO数据是31k样本。大概40个人标注。

上面左图是用户用api提问的问题,右边是部分问题的示例。

models

supervised fine-tuning(SFT),用13k数据微调GPT3,训了16轮,其实第一轮就过拟合了。

reward modeling(RM),从sft模型中去掉最后一层unembedding layer,去掉softmax,加一个线性层,把prompt的完整输出向量变成一个分数,用的6b的gpt3,不是175b的gpt3,175b的训练不了,用的pairwise ranking loss,实际上是一个排序模型,对于每个prompt生成9个回答。

refinement learning(RL),

πrl和πsft初始化是相同的,前者是要学习的模型,后者是精调的gpt3,输入x,经过πrl得到y,将x,y数据输入rm模型,希望此时y的分数是最大的,也就是说希望rl模型生成的答案总是分数最好的那个。x作为prompt,不变,但是模型每次采样到的y是变化的,rl的策略是变化的。

用了ppo的模型效果好很多。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/3249.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【记录】ChatGPT|使用技巧(更新至2023年2月8日)

昨天,2022年12月13日,在下午和晚上,ChatGPT 就开始因为请求过多而写到一半就崩溃,出现network error,可见它的关注度确实是越来越可观了。 正好最近世界杯,有博客活动,干脆也总结一下 ChatGPT 目…

Instruction Tuning(FLAN、instructGPT、chatGPT)

首页最近被chatGPT刷屏,但翔二博主左看右看发现很多想法似乎都是一脉相通的,于是连夜从存档中找了一些文章尝试理一理它的理论路线。 具身智能综述和应用(Embodied AI)多模态中的指令控制 同时想到今年在智源人工智能前沿报告&a…

ChatGPT助力软件开发

抛开Stack Overflow不谈,开发人员有了一个新的好朋友,它就是ChatGPT。ChatGPT是由人工智能驱动的语言模型,可以理解代码,还可以用自然语言回答问题。有了它,程序员再也不用在无尽的Stack Overflow页面和评论中搜索答案…

国内首个类ChatGPT模型MOSS被挤崩溃,团队致歉

2月20日,复旦团队发布国内首个类ChatGPT模型MOSS,引起不少网友关注,由于瞬时访问压力过大,MOSS服务器昨晚还被网友挤崩溃了。 2月21日,MOSS官网发布公告称,MOSS还是一个非常不成熟的模型,距离C…

多数据库管理工具哪家强?ChatGPT点评,第一位并不是Navicat

SQL逐渐成为职场必备的编程语言,相信大家都不陌生。SQL是一种结构化查询语言,是用于数据库之间通信的编程语言。每个数据库都有着自己独特的访问规则,但大体上是遵循SQL标准。 因此,辗转于不同的数据库之间,开发者或D…

ChatGPT,会是现实世界的MOSS吗?

最近,两个人工智能系统彻底火出了圈,成为许多网友热议的焦点。 一个是冷酷无情的“幕后主角”MOSS,一个是多才多艺的“全能网友”ChatGPT。 先来说说MOSS。今年春节档,科幻电影《流浪地球2》热映,电影中一个面试环节令…

MarioGPT自动生成“超级玛丽”;周鸿祎:ChatGPT可能产生意识;国内版ChatGPT复旦首发,但“非常不成熟”...

本周,AI业界又有哪些新鲜事? ChatGPT 国内版ChatGPT首发被复旦“抢注”,但非常不成熟? 虽然各大厂如火如荼地备战国内版“GPT”,但谁也没抢到这个“首发”:2 月 20 日晚,复旦大学自然语言处理实…

为Kubernetes集群部署一个ChatGPT机器人

点击上方“芋道源码”,选择“设为星标” 管她前浪,还是后浪? 能浪的浪,才是好浪! 每天 10:33 更新文章,每天掉亿点点头发... 源码精品专栏 原创 | Java 2021 超神之路,很肝~中文详细注释的开源…

ChatGPT崩了!全球宕机超12小时,打工人叫苦连天

ChatGPT崩了。 昨天半夜,来自全球各地的用户纷纷发现网站弹出报错警告,然后立刻无法使用。 即使是有特权的Plus账户也未能幸免。 一时之间,#chatgptdown#的话题刷屏。 不少重度用户表示很捉急: 没了你我的工作可咋整。 每过10分…

用ChatGPT三分钟免费做出数字人视频- 提升自媒体魅力

用ChatGPT三分钟免费做出数字人视频- 提升自媒体魅力 一、ChatGPT产生文案二、腾讯智影网站三、选择一个2D数字人四、粘贴文本五、编辑自定义,合成六、资源七、其他数字人平台推荐八、生成视频预览 本教程收集于:AIGC从入门到精通教程汇总 操作指引 Ch…

ChatGPT4生成数字人视频!

1、安装HeyGen插件 2、如何使用Heygen(GPT的回答) Heygen是一个插件,用于从文本生成虚拟人物视频。这个插件可以根据您提供的文本生成一个虚拟人物的视频。您可以选择虚拟人物的性别和肤色,以及为视频添加标题。 这是使用Heygen的…

2步轻松生成数字人视频,ChatGPT为你提供新体验

ChatGPT大家一定很熟悉。一经问出,便引起轩然大波。大量网友对其智能印象深刻。当然,很多网友也将其视为自己创造的工具。可以在实践中使用,可以节省大部分时间。比如有人用它2分钟生成一个视频,用它写各种文案,写小说…

【转】云计算、大数据和人工智能简介

转自华为ls,原作者yangsha 讲得非常棒。 链接http://sns.huaweils.com/post/threaddetail?threadid159#commentdetail-0 从目前技术潮流来看,一般谈云计算的时候会提到大数据、谈人工智能的时候会提大数据、谈人工智能的时候会提大数据……感觉三者之…

马斯克和扎克伯格线上约架,地点“票价”都已定;超10万个ChatGPT账号泄露;苹果推出Vision Pro开发工具|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

十分钟入门Go语言

本文旨在带大家快速入门Go语言,期望小伙伴们在花费十分钟左右通读全文后能对Go语言有一个初步的认知,为后续进一步深入学习Go奠定基础。 本文假设你完全没有接触过Go,你可能是一名精通其他编程语言的程序员,也可能是毫无编程经验、…

1,Java语言基础-Java语言概述和必要计算机知识

Java语言基础 Java语言概述 1,Java语言发展史 Java语言本质 Java是面向对象的高级语言,它是由c和c发展而来。 Java发展语言历史概述 Java 是由 James Gosling 在 Sun公司领导的小组开发的。2010 年 Sun 公司被 Oracle 收购。Java 最初被称为 Oak (橡…

关于 App Store 苹果商店价格的那些事(历上最全版)

作者:iHTCboy 一、前言 苹果 2022 年 12 月 6 日宣布 App Store 定价机制最重大升级,新增 700 个价格点。小编当时的总结和分析: App Store 新价格: 最低可设 $0.29 美元!最高可设 $10,000 美元!&#…

零基础手把手教你写NFT抢购软

前言 由于之前写过几篇文章,但是个人不是很满意,所以这次我打算把所有的知识汇总成一篇文章。可能会有很多地方写的不是很好,欢迎大家评论指出,我后续修正。 个人vx:http://wc.ljlju.cn/4ZGETK 抢购软件原理 我们在…

【STM32】HAL库:串口通信打印+SHT3x温湿度数据收集

操作系统:Windows 11 (x64) 微控制器:STM32F103C8T6 硬件外设: USB-to-TTL串口(CH340) 【STM32】标准库与HAL库对照学习教程八--串口通信详解__修成真的博客https://xiuchengzhen.blog.csdn.net/article/details/121429721 SHT3x温湿度模块…

PWA(Progressive web apps):Web技术实现类似原生应用 - 入门

PWA(Progressive web apps):Web技术实现类似原生应用 - 入门简介 前言 在(使用Google浏览器)访问一些网站时,有时右上角会弹出“安装应用”的按钮。 例如谷歌V8官网 如果我们点击“安装”,则会在桌面生成一个“快捷方…