【学习ChatGPT】2. GPT2、GPT3、InstructGPT

复习: Transformer、GPT1 https://blog.csdn.net/Citroooon/article/details/130048167?spm=1001.2014.3001.5501

GPT2

论文

gpt1 + larger dataset + more params + zero shot

gpt2在预训练模型结构上几乎没有变化,用了更大的数据集、更大的模型:
· 新的百万级数据集WebText, 比之前Bert用的book Corpus和Wikipedia要更大;
· 15亿参数的transformer解码器模型,之前Bert large是3亿+
目前语言模型的通病是泛化能力、迁移能力差,在一个数据集上训练出来的模型很难用于其他任务。所以提出了zero-shot的思想:不需要下游任务标注的任何信息来训练模型, 直接用与训练的模型对子任务做预测
什么是prompt?提示
(translate to french, english text, french text)
(answer the question, documents, questions, answer)

GPT3

技术报告

  1. 模型参数:
    175 billion param
    在这里插入图片描述
    随着模型参数的增加,batch size增加,学习率下降
  2. 模型结构
    预训练模型结构基本不变:GPT2 + Sparse Transformer
    few shots : 给几个子任务的样本(10-100),模拟人类的学习,但是不做梯度更新和微调,而是通过给example的方式(in-context learning)。
    在这里插入图片描述
  3. 数据集:
    在这里插入图片描述
    线性降低损失 需要指数增加数据量
    在这里插入图片描述
  4. 局限性:
    长文本生成的困难:很长的文本后面可能会重复前面的话
    每一次预测下一个词重要性是均匀的
    不可解释性
    gpt是在历史训练数据中找出与问题相似的文本吗

InstructGPT(GPT3.5)

技术报告 训练语言模型以服从人类的指示

1.背景:

大语言模型的安全性 有效性还是有待提高,不能很好地和人类align(拉齐?), 会有一些toxic的回答。语言模型的loss是预测下一词的概率分布,这个与我们的目标是misalign的

  1. 核心方法:
    fine-tuning with human feedback 强化学习, 人工标注了一个答案打分排名的数据集
    在这里插入图片描述
    step1: SFT 有监督的微调,用人类的问题和人类写好的答案来微调GPT3 (这个在模型看来是和学习文本一样的)
    step2: RM 奖励模型,把gpt生成的答案人工标注好坏的顺序
    step3: RLPPO 让SFT生成的答案获得尽可能高的分数
    效果:instructGPT模型比GPT3小100倍,但是效果更好

  2. 如何标注的数据集:略

  3. 模型

SFT: 有监督的微调, 把GPT3的prompt重新训练一遍,过拟合也没关系
RM:排序问题的loss: pairwise ranking loss
在这里插入图片描述
K= 9 , 9 个答案,选出36个pair来计算loss
如果y_w比y_l的排序高,要最大化他们之间奖励分数的差距

RL: PPO目标函数
在这里插入图片描述
· prompt x 输入到 π R L \pi_{RL} πRL 输出reward y , 最大化这个reward ,policy参数会更新
· 最小化 π R L \pi_{RL} πRL π S F T \pi_{SFT} πSFT 的KL散度,不要让更新跑太远
· γ \gamma γ控制的是 模型要更偏向原始数据 D p r e t r a i n D_{pretrain} Dpretrain一些

  1. 效果
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/7104.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【论文笔记】——从transformer、bert、GPT-1、2、3到ChatGPT

笔记脉络 从GPT到ChatGPT1.整体发展脉络2.transformer回顾-2017动机模型结构创新点算法原理 3.Bert回顾(2018-10)动机BERT模型结构 4.GPT-1 (2018-6)动机模型架构训练实验为什么使用transform的解码器?BERT和GPT都是基…

从GPT到chatGPT(三):GPT3(二)

GPT3(二) 前言 因为上一篇文章 从GPT到chatGPT(三):GPT3(一)阅读量挺高,给了我继续更新对该论文进行解读的莫大动力。这篇文章主要讲原论文的第三章(Results&#xff0…

GPT-3/ChatGPT复现的经验教训

作者:杨靖锋,现任亚马逊科学家,本科毕业于北大,硕士毕业于佐治亚理工学院,师从 Stanford 杨笛一教授。 译文由杨昊桐翻译,王骁修订。感谢靳弘业对第一版稿件的建议,感谢陈三星,符尧的…

ChatGPT与GPT3详细架构研究,语言模型背后的详细直觉和方法

Transformers正在席卷 NLP 世界,因为它是理解上下文的强大引擎。这些令人难以置信的模型正在打破多项 NLP 记录并推动最先进的技术发展。它们被用于许多应用程序,如机器语言翻译、NER、摘要、会话聊天机器人,甚至用于支持更好的搜索引擎。在我最近关于 Transformers 的帖子-…

GPT-3 论文阅读笔记

GPT-3模型出自论文《Language Models are Few-Shot Learners》是OpenAI在2020年5月发布的。 论文摘要翻译:最近的工作表明,通过对大量文本进行预训练,然后对特定任务进行微调(fine-tuning),在许多NLP任务和基准测试上…

如何利用GPT来发论文!!

听说,拥有顶会论文就仿佛自带“流量”。 很多大厂的校招已经明晃晃的说明有顶会等buff加成的同学优先考虑,甚至可以免笔试直接面试! 当然不仅仅是毕业进大厂需要高区论文作为背书,顶会自带流量的加持作用还体现在:本科…

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/128909400 GPT、GPT-2、GPT-3:Generative Pre-trained Transformer,生成式预训练Transformer Wiki: https://en.…

大学生用GPT-3写论文遭处罚!ChatGPT或引发学术圈大地震...

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>Transformer微信技术交流群 转载自:新智元 | 编辑:Aeneas 【导读】ChatGPT出炉后,引发了学术界的大恐慌,写论文这么溜的AI机…

ChatGPT专业应用:制作AI视频

正文共 856字,阅读大约需要 7分钟 自媒体内容创作者必备技能,您将在7分钟后获得以下超能力: 1.制作AI数字人画像 2.使用AI生产内容视频 Beezy评级 :A级 *经过寻找和一段时间的学习,一部分人能掌握。主要提升效率并…

ChatGPT热中的冷思考

欢迎关注博主 Mindtechnist 或加入【Linux C/C/Python社区】一起学习和分享Linux、C、C、Python、Matlab,机器人运动控制、多机器人协作,智能优化算法,滤波估计、多传感器信息融合,机器学习,人工智能等相关领域的知识和…

主机厂的“丈母娘思维”,迫使自动驾驶行业背离了“最优解” | 九章自动驾驶随笔之三...

交流群 | 进“传感器群/滑板底盘群/汽车基础软件群/域控制器群”请扫描文末二维码,添加九章小助手,务必备注交流群名称 真实姓名 公司 职位(不备注无法通过好友验证) 编辑 | 苏清涛 在需要“附庸风雅”、提升逼格的时候&#x…

互联网晚报 | B站将以播放时长代替播放次数;​“交个朋友”辟谣罗永浩已还清债务;苹果传统静音键被爆料将首次被取代...

B站将以播放时长代替播放次数 在B站14周年庆直播中,B站董事长兼CEO陈睿发表题为《很高兴遇见你》演讲。陈睿表示,播放分钟数比播放次数更能体现视频的质量,但是统计播放分钟数技术复杂度更高,成本更高。幸运的是,随着技…

数影周报:免费VPN泄露3.6亿条数据,句子互动获数百万美融资

本周看点:免费VPN泄露3.6亿条用户数据;推特信任与安全主管宣布辞职;宣亚国际宣布推出OrangeGPT;亚马逊日本将在关东地区开设两个新物流中心;句子互动完成数百万美元Pre-A轮融资...... 数据安全那些事 免费VPN泄露3.6亿…

万字报告拆解:Web3 浪潮风靡,NFT 找到新增长点,AIGC 如火如荼

划重点: 回顾2022年的科技圈,Web3浪潮风靡、XR逆势而行、新能源革新升级,AIGC爆发崛起,在这些新兴领域中,技术岗位需求持续增长,风险投资额依然增长强劲。 目前“NFT头像JPEG”成为行业入场者新的造富密码&…

3万字报告拆解:硅谷寒冬,投资人还在哪些赛道烧钱?|我在硅谷看未来

来源:腾讯科技 丨划重点 在全球疫情大考后,资本逐步回归理性,科技公司聚焦在更有价值和前景的领域。腾讯科技联合位于硅谷前线的创作者硅兔赛跑,总结2022年依旧发展火热的赛道,洞察科技的新风向: ①回顾202…

独立部署基于apiKey或accessToken的GPT聊天工具

最近chat-GPT的强大功能让人新潮澎湃,大家都在讨论,都想尝试一下。。。 奈何用不了!自己整整,内附具体步骤,如何用手机验证码注册,如何自己搭一个前端,nodejs后端,可以访问自己的GTP。 先上图: 自己搭的: 官网: 步骤一、用个代理 因为没这个无法访问GPT官网 忍…

怎样下载百度文库文章

百度文库的大部分文章都需要积分才能下载,并且无法复制,那么我们没有积分又想要复制或者下载百度文库的内容怎么办呢? 1.首先我们使用chrome浏览器打开文库地址。 2.然后我们右键选择打印。 然后我们在打印界面复制内容就可以了。

百度文库免费下载方法

百度文库免费下载方法 示例: 1.要下载的文档url地址: https://wenku.baidu.com/view/a1c77749ec3a87c24128c493?fromShare1 2.在url地址的baidu后面添加vvv 三个v http://wenku.baiduvvv.com/d/?urlhttp://wenku.baidu.com/view/a1c77749ec3a87c24128c…

如何下载百度文库的资料?

链接:https://pan.baidu.com/s/1KZ4yrTjNp3Bg1aT1iEyHOg 提取码:yvmj 使用方法 找到软件并打开软件。 将百度文库的文档链接输入到地址框即可,如下图。 下载完成后,在已下载中右击选择打开或者打开文件所在位置。 仅供个人学习…

百度文库下载地址

[1] baiduvvv: http://wenku.baiduvvv.com/doc/[2] V2EX: https://www.v2ex.com/t/552502[3] 文库免费下: http://www.ebuymed.cn/[4] 巴法下载:http://wenku.bemfa.com/[5] blpack: http://www.blpack.com/文章生成器