GPT-3 论文阅读笔记

GPT-3模型出自论文《Language Models are Few-Shot Learners》是OpenAI在2020年5月发布的。

论文摘要翻译:最近的工作表明,通过对大量文本进行预训练,然后对特定任务进行微调(fine-tuning),在许多NLP任务和基准测试上取得了实质性的进展。虽然这种方法在架构上通常与任务无关,但它对特定任务仍然需要有数千或数万个实例的微调数据集。相比之下,人类通常只能通过几个例子或简单的指令来执行一项新的语言任务,而当前的NLP系统在很大程度上仍然很难做到这一点。在本文中我们表明扩大语言模型的规模大大提高了任务无关的、few-shot的性能,有时与之前最先进的微调方法相比仍具有竞争力。具体来说,我们训练了GPT-3,这是一个具有1750亿个参数的自回归语言模型,比以前的任何非稀疏语言模型大10倍以上,并测试其在few-shot场景下的性能。对于所有任务,GPT-3在没有任何梯度更新或微调的情况下应用,任务和few-shot说明完全通过文本与模型交互。GPT-3在许多NLP数据集上实现了强大的性能,包括翻译、问答和完形填空任务,以及一些需要动态推理或领域自适应的任务,如解读单词、在句子中使用新词或执行三位数算术。同时,我们还讨论了GPT-3在few-shot学习仍然困难的一些数据集,以及GPT-3在大型网络语料库上训练时面临方法论问题的数据集。最后,我们发现GPT-3可以生成新闻文章的样本,人类评估人员很难将其与人类撰写的文章区分开来,我们讨论了这一发现和GPT-3的更广泛的社会影响。

在论文引言部分正式定义了在GPT-2就提过的不需要fine-tuning直接使用模型完成任务的思路,将其称为“In-context learning”:把预训练模型的输入当做特定任务的说明,也就是将自然语言指令、以及任务的几个示例(或0个示例)一起作为模型的输入,希望模型通过预测后面要输出什么来完成接下来的任务实例。

 Recent work [ RWC+19] attempts to do this via what we call "in-context learning", using the text input of a pretrained language model as a form of task specification: the model is conditioned on a natural language instruction and/or a few demonstrations of the task and is then expected to complete further instances of the task simply by predicting what comes next.

论文的第2部分,先定义了Few-Shot(FS)、One-Shot(1S)、Zero-Shot(0S),这三种方式都不允许对模型参数进行更新, 并用下图进行了示意,

Few-Shot(FS):对于指定的任务提供K个示例样本给模型,一般是10-100,因为模型的上下文token为2048,太多个样本就放不进模型里。

One-Shot(1S):对于指定的任务提供恰好1个示例样本给模型,  区分一次性和少样本和零样本的原因是它与一些任务被传达给人类的方式最匹配。例如,当要求人类在人工服务(例如 Mechanical Turk)上生成数据集时,通常会展示该任务。相比之下,如果没有给出示例,有时很难传达任务的内容或格式

Zero-Shot(0S):不提供任何示例样本给模型,只将任务描述输入到模型。

                                                     原论文中的Figure 2.1

论文中图2 说明了在不对模型做任何梯度更新和微调的情况下:1. 提供额外的自然语言描述可以提高模型效果(就是提供prompt); 2. 提供越多的样本数K也可以提高模型效果; 3. 模型大小的增加能显著提高few-shot的效果

                                                    原论文中的Figure 1.2

GPT-3 模型和架构

  • GPT-3的模型与GPT-2 几乎一样,只有一个例外:像Sparse Transformer 一样在transformer 中使用dense and locally banded sparse attention patterns。 
  • 一共训练了如下表所示的8个模型,最大的有1750亿个参数的模型被称为GPT-3,所有模型的上下文窗口token大小为n_{ctx} = 2048。下表中n_{param} 是模型参数,n_{layer} 是模型的层数,d_{model} 是每一个块的参数大小, n_{heads} 是多头注意力的个数,d_head是每个注意力头的大小。

                                                    原论文中的表2.1

训练数据集

数据集使用Common Crawl dataset,因为大小足够大到训练GPT-3,但是Common Crawl dataset的质量比较低,使用3个步骤来提到数据集的质量:

(1)下载 Common Crawl 2016 - 2019共41个shards的数据,根据与一系列高质量参考语料库的相似性过滤了掉部分语料

  • 使用逻辑回归训练了一个分类器,用WebText, Wikiedia 和 web books的语料当做正样本,使用没有过滤过的 Common Crawl当做负样本, 特征由spark标准分词器和HashingTF生成。然后使用这个分类器来预测Common Crawl的样本,得到一个分数,如果np.random.pareto(α) > 1 − document_score 就保留样本,选取了α=9,目的是留下大部分分类器评分高的文档,但是仍然包含了一些在分布外的文档。α是根据分类器在WebText上的分数分布来选取的。(并发现通过分布之外生成样本的损失来衡量的话,re-weighting 策略是增加了样本质量的)

(2)在文档级别、数据集内部和数据集之间执行了模糊重复数据消除,以防止冗余,并保持我们的作为过拟合的准确度量的验证集的完整性。

  • 使用spark的10 hashes的MinHashLSH 来对每个数据集进行模糊去重。将WebText从Common Crawl模糊移除,减少了10%左右的数据

(3)将已知的高质量参考语料库添加到训练组合中,以增强Common Crawl并增加其多样性,训练时各训练集的比例如下表

                                                          原论文中的Table 2.2

另外作者提到在训练过程中,数据集不是按大小成比例采样的,而是认为质量更高的数据集应该被更频繁地采样,因此CommonCrawl和Books2数据集在训练期间被采样不到一次,但其他数据集被采样2-3次。

训练过程:

  • 如上表中示意的,更大的模型会使用更大的batch size,同时使用更小的学习率。 使用训练过程中的梯度噪声尺度来指导选择batch size
  •  使用\beta_1 = 0.9, \beta_2 = 0.95, \epsilon=10^{-8} 的Adam 学习器
  • clip the global norm of the gradient at 1.0
  • use cosine decay for learning rate down to 10% of its value, over 260 billion tokens (after 260 billion tokens, training continues at 10% of the original learning rate.  There is a linear LR warmup over the first 375 million tokens
  • gradually increase the batch size linearly from a small value(32k tokens) to the full value over the first 4-12 billion tokens of training, depending on the model size.
  • all models use weight decay of 0.1 to provide a small amount of regulation
  • data are sampled without replacement during training to minimize overfitting
  • 为了提高计算效率,所有训练样本的序列长度都是n_{ctx} = 2048, 当文档的长度小于2048时,将多个文档合并成一个。对于由多个文档组成的序列,没有使用特殊的掩码,而是在一个文档结束处放置了一个结束符。
  • 使用混合模型并行方法来训练,训练是在Microsoft 提供的V100 GPU上进行的。 (a mixture of model parallelism within each matrix multiply and model parallelism across the layers of the network)

论文中的图3.1说明把模型参数增加2个数量级后,还是基本符合幂率分布(power-law)规律的

                                                     原论文中的Figure 3.1

论文第三部分是GPT-3模型在各个数据集上的效果;第四部分讨论了大模型是否仅仅是记住了训练样本;第五部分讨论模型的局限性;第6部分讨论大模型更广泛的影响,如被不良使用,公平及偏见、能耗使用。

参考资料

1. Brown, TomB., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020. “Language Models Are Few-Shot Learners.” arXiv: Computation and Language.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/7099.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何利用GPT来发论文!!

听说,拥有顶会论文就仿佛自带“流量”。 很多大厂的校招已经明晃晃的说明有顶会等buff加成的同学优先考虑,甚至可以免笔试直接面试! 当然不仅仅是毕业进大厂需要高区论文作为背书,顶会自带流量的加持作用还体现在:本科…

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/128909400 GPT、GPT-2、GPT-3:Generative Pre-trained Transformer,生成式预训练Transformer Wiki: https://en.…

大学生用GPT-3写论文遭处罚!ChatGPT或引发学术圈大地震...

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>Transformer微信技术交流群 转载自:新智元 | 编辑:Aeneas 【导读】ChatGPT出炉后,引发了学术界的大恐慌,写论文这么溜的AI机…

ChatGPT专业应用:制作AI视频

正文共 856字,阅读大约需要 7分钟 自媒体内容创作者必备技能,您将在7分钟后获得以下超能力: 1.制作AI数字人画像 2.使用AI生产内容视频 Beezy评级 :A级 *经过寻找和一段时间的学习,一部分人能掌握。主要提升效率并…

ChatGPT热中的冷思考

欢迎关注博主 Mindtechnist 或加入【Linux C/C/Python社区】一起学习和分享Linux、C、C、Python、Matlab,机器人运动控制、多机器人协作,智能优化算法,滤波估计、多传感器信息融合,机器学习,人工智能等相关领域的知识和…

主机厂的“丈母娘思维”,迫使自动驾驶行业背离了“最优解” | 九章自动驾驶随笔之三...

交流群 | 进“传感器群/滑板底盘群/汽车基础软件群/域控制器群”请扫描文末二维码,添加九章小助手,务必备注交流群名称 真实姓名 公司 职位(不备注无法通过好友验证) 编辑 | 苏清涛 在需要“附庸风雅”、提升逼格的时候&#x…

互联网晚报 | B站将以播放时长代替播放次数;​“交个朋友”辟谣罗永浩已还清债务;苹果传统静音键被爆料将首次被取代...

B站将以播放时长代替播放次数 在B站14周年庆直播中,B站董事长兼CEO陈睿发表题为《很高兴遇见你》演讲。陈睿表示,播放分钟数比播放次数更能体现视频的质量,但是统计播放分钟数技术复杂度更高,成本更高。幸运的是,随着技…

数影周报:免费VPN泄露3.6亿条数据,句子互动获数百万美融资

本周看点:免费VPN泄露3.6亿条用户数据;推特信任与安全主管宣布辞职;宣亚国际宣布推出OrangeGPT;亚马逊日本将在关东地区开设两个新物流中心;句子互动完成数百万美元Pre-A轮融资...... 数据安全那些事 免费VPN泄露3.6亿…

万字报告拆解:Web3 浪潮风靡,NFT 找到新增长点,AIGC 如火如荼

划重点: 回顾2022年的科技圈,Web3浪潮风靡、XR逆势而行、新能源革新升级,AIGC爆发崛起,在这些新兴领域中,技术岗位需求持续增长,风险投资额依然增长强劲。 目前“NFT头像JPEG”成为行业入场者新的造富密码&…

3万字报告拆解:硅谷寒冬,投资人还在哪些赛道烧钱?|我在硅谷看未来

来源:腾讯科技 丨划重点 在全球疫情大考后,资本逐步回归理性,科技公司聚焦在更有价值和前景的领域。腾讯科技联合位于硅谷前线的创作者硅兔赛跑,总结2022年依旧发展火热的赛道,洞察科技的新风向: ①回顾202…

独立部署基于apiKey或accessToken的GPT聊天工具

最近chat-GPT的强大功能让人新潮澎湃,大家都在讨论,都想尝试一下。。。 奈何用不了!自己整整,内附具体步骤,如何用手机验证码注册,如何自己搭一个前端,nodejs后端,可以访问自己的GTP。 先上图: 自己搭的: 官网: 步骤一、用个代理 因为没这个无法访问GPT官网 忍…

怎样下载百度文库文章

百度文库的大部分文章都需要积分才能下载,并且无法复制,那么我们没有积分又想要复制或者下载百度文库的内容怎么办呢? 1.首先我们使用chrome浏览器打开文库地址。 2.然后我们右键选择打印。 然后我们在打印界面复制内容就可以了。

百度文库免费下载方法

百度文库免费下载方法 示例: 1.要下载的文档url地址: https://wenku.baidu.com/view/a1c77749ec3a87c24128c493?fromShare1 2.在url地址的baidu后面添加vvv 三个v http://wenku.baiduvvv.com/d/?urlhttp://wenku.baidu.com/view/a1c77749ec3a87c24128c…

如何下载百度文库的资料?

链接:https://pan.baidu.com/s/1KZ4yrTjNp3Bg1aT1iEyHOg 提取码:yvmj 使用方法 找到软件并打开软件。 将百度文库的文档链接输入到地址框即可,如下图。 下载完成后,在已下载中右击选择打开或者打开文件所在位置。 仅供个人学习…

百度文库下载地址

[1] baiduvvv: http://wenku.baiduvvv.com/doc/[2] V2EX: https://www.v2ex.com/t/552502[3] 文库免费下: http://www.ebuymed.cn/[4] 巴法下载:http://wenku.bemfa.com/[5] blpack: http://www.blpack.com/文章生成器

如何下载百度文库文章

https://wenku.baidu.com/view/30267c4df121dd36a32d82f0.html 在“baidu”后加入“vvv”,变成: https://wenku.baiduvvv.com/view/30267c4df121dd36a32d82f0.html 点击下载即可。

手把手教你下载百度文库原格式版本

百度文库是我们上学时候最早接触的一个网站,那个时候我们更多是在上面找课后答案。 百度文库里面收集了很多的资料,方便我们解锁的时候来下载,但是下载的时候现在动不动就需要会员,对于还是学生的我们,没有那么多的金…

教大家如何下载百度文库文档

百度文库中的大部分文档都需要下载劵,或者开通VIP才能下载,今天教大家如何快速免费的去下载百度文库中的付费文档! 话不多说,直接上干货! 1.首先我们先得找到所需要下载百度文库中的文档,比如想要下载一个…

百度文库 复制文本 下载文档

不说废话 点击进入全屏选中文本 Ctrl cCrtl v 至于下载文档,我们可以通过多次复制的间接方式达到 喜欢或对你有帮助,请点个赞吧 。 我的个人网站 --> 点击访问 。 END

百度豆丁文档免费下载神器

平常我们下载百度收费文档都需要VIP才能下载,这里推荐一款下载神器,下载百度文库文档及豆丁收费文档均可免费下载,分享给有需要的童鞋。(手机不可用)两种方式可任选一种都可使用,功能一样。 一、冰点 百度…