【论文阅读】GPT系列论文详解

文章目录

  • GPT
    • Introduction
    • Framework
      • Unsupervised pre-training
      • Supervised fine-tuning
      • Task-specific input transformations
    • Experiment
  • Language Models are Unsupervised Multitask Learners(GPT-2)
    • Abs
    • Introduction
    • Approach
      • Dataset & Model
    • Results
  • Language Models are Few-shot Leaners(GPT-3)
    • Abstract

视频资源参考: mli/paper-reading: 深度学习经典、新论文逐段精读 (github.com)

GPT

Introduction

  • 用无监督文本时的一些困难
    • 不知道用什么样的目标优化函数(损失函数),没有普适性的目标函数
    • 怎样把学到的文本的表示传到下游的子任务中。NLP中子任务差别比较大,没有统一的表示使得表示能够用于所有的子任务上面
  • 本文使用 semi-supervised 方法
  • 使用的架构是 Transformer
    • 作者认为 Transformer在迁移学习时比RNN等更好,能够学习到更健壮的特征。是因为其有更结构化的记忆,能更好地处理长文本信息,从而能更好地抽取句子层面和段落层面的语义信息。
    • 在做迁移的时候,用的是任务相关的表示

Framework

Unsupervised pre-training

使用标准的语言建模(用前面的词预测下一个词)目标来最大化下面的似然:

在这里插入图片描述

  • k k k 是窗口大小
  • 使用的多层的 Transformer decoder。预测第 i i i 个词的时候,不会看到后面的词

在这里插入图片描述

  • U = ( u − k , ⋯ , u − 1 ) U=(u_{-k},\cdots,u_{-1}) U=(uk,,u1) 是 token 的上下文向量, n n n 是层数, W e W_e We 是 token 的 embedding 矩阵, W p W_p Wp 是位置 embedding 矩阵

与BERT的区别:BERT 用的不是标准的语言模型,在预测一个被 mask 的词时,既能看到前面的,也能看到后面的,所以使用 Transformer encoder预测未来比完形填空更难,GPT 的目标函数更难。(更难,但是天花板更高)

Supervised fine-tuning

在数据集中,每个序列都有一个 label y y y,我们给出序列,来预测 label

在这里插入图片描述

  • 输入被放到预训练的模型中,来获得最后一个 transformer block的输出 h l m h_l^m hlm,然后被送到一个额外的线性输出层(带有参数 W y W_y Wy)来预测 y y y

所以就是最大化下面的目标:

在这里插入图片描述

  • C C C 是数据集

我们发现,将语言建模作为微调的辅助目标有助于(a)改进监督模型的泛化,(b)加速收敛。因此,最终的目标为:

在这里插入图片描述

  • λ \lambda λ 是超参

在 fine-tuning 阶段唯一的额外参数是 W y W_y Wy 和 对分隔符 token 的 embedding

Task-specific input transformations

在这里插入图片描述

这里说的是如何将模型用于特定的任务(四个典型任务),其中 start,delim,extract 分别是 开始符,分隔符,抽取符,都是一些特殊的标记

  • Classification(分类):多分类
  • Entailment(蕴涵):三分类问题,前提 蕴涵/不蕴涵/不确定 假设
  • Similarity(相似):二分类问题,判断两段文字是不是相似。因此相似是对称的(a和b相似,b和a也相似),但是我们实验的时候会将文本设定先后顺序。所以我们先将a放前面,再将b放前面构造两个序列
  • Multiple Choice(多选):给n个答案,让模型选择认为正确的答案。做法是,如果有n个答案,就构造n个序列。每个序列都得到一个分数,最后用 softmax 得到正确答案的置信度。

这里的 Transformer 就是我们训练好的模型,可以看到,做下游任务时都不需要改变模型结构

Experiment

是在 BooksCorpus 数据集上训练出来的,里面有7000没有被发表的书

模型大小:用了 12 层 Transformer decoder,每一层的维度是 768。

  • Bert-base 用了 12 层 Transformer encoder,每一层维度也是 768。Bert-base 就是跟 GPT 来对比。
  • Bert-large 用了 24层,每一层维度是 1024,大小是 Bert-base 三倍。可以做这么大是因为它用了更大的数据集(BooksCorpus 800M words + English Wikipedia 2500M words)。

Language Models are Unsupervised Multitask Learners(GPT-2)

Abs

用了 WebText,有百万级别的文本,最大的 GPT-2 模型有 1.5B 参数。

本文的主要卖点是 zero-shot。

Introduction

主流任务都是在一个任务上收集一个数据集,然后来训练。这是因为,当前模型的泛化性都不是很好。Bert和GPT提出后,主流是在大的数据集上进行预训练,然后对子任务再 fine-tune。这仍然有两个问题

  • 在子任务上还是需要重新训练模型
  • 需要针对子任务收集数据集

这导致,模型在扩展到新任务时开销是比较大的。

GPT-2 还是做语言模型,但是在扩展到下游任务时,会有 zero-shot 的设定,不需要再重新训练模型

Approach

GPT中,在微调的时候引入了开始符,间隔符等特殊符号,这些是模型在预训练时候没有见到过的(微调的时候会进行学习)。现在 GPT-2 要做的是 zero-shot,模型在做下游任务时不能进行微调,因此不能引入这些特殊符号,否则模型就会很困惑,输入的形式应该更像自然语言,和之前相似

这就引入了 prompt(McCann et al 2018年提出),让一些自然语言,来充当一些符号的作用。

  • 比如翻译任务,可以写成一个序列:translate to french, english text, french text。这里又有明显的起始,分隔,又是正常的自然语言
  • 阅读理解任务,可以写成:answer the question, document, question, answer 是同样的道理

为什么可以工作(可能):

  • 模型足够强大,能够理解提示符
  • 在文本里面,这样的话可能也很常见

Dataset & Model

数据:Common Crawl是一个网页抓取项目,抓取网页供大家下载。但是信噪比低,有些网页可能就是垃圾网页。使用了 Reddit(算是一些已经过滤好的网页),最后得到4500万个链接,最终的数据集有800w文本,40GB。

因为数据量很大了,因此可以设计更大的模型。一共设计了 4 个。

在这里插入图片描述

Results

和别的做 zero-shot 的方法比

在这里插入图片描述

在这里插入图片描述

在一些任务上还不错,一些任务上差一些。但是随着模型大小的增加,效果还在变好。

Language Models are Few-shot Leaners(GPT-3)

Abstract

  • GPT-3的参数量有 175 billion(1750亿),比以往的非稀疏语言模型(权重可以有很多 0,这样是稀疏模型)大十几倍。

  • GPT-3在做子任务时不需要进行任何梯度更新或微调

  • 在所有的 NLP 任务上都取得了很好的成绩,而且能生成一些新闻的文章(人类很难区分是不是机器写的)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/70936.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

做知识付费,这十大知识付费平台一定要知道

做知识付费,这十大知识付费平台一定要知道 想成为李一舟、透透堂这样通过知识付费赚钱的人,一定要知道下面中国排名前十大知识付费平台,这里面呢,你完全能看到各类课程是怎么制作的,以及怎么从0到1做一个能赚钱的课程。…

知识付费哪个领域最火?

小说要花钱才能看了,电影也需要会员了,就连音乐都需要花钱才能听了。如此种种,在生活中比比皆是,时代的进步提升了大众的版权意识,尊重原创。而这也意味着,在以后越来越多的知识内容,都需要通过…

知识付费网课项目靠谱吗?为什么依然有人对它有偏见

知识付费网课项目,是近几年来特别热门的一种网络赚钱方式,从操作方式来讲,适合公司,适合工作室,也适合个人,越来越多的人靠知识付费网课分销项目月入过万。 这是时代的产物,是经济发展的产物,是自然的产物,尽管如此,当提到知识付费网课项目的时候,还是很多人对它有偏…

浅谈短剧授权推广,会简单视频剪辑即可。

什么是短剧推广?相信很多人在短视频平台都有看到过一些账号发布的像电视剧一样的短剧,内容时长短,集数多,作品左下方有个按钮,点击进去可以看全集,但要看后续需要像看小说或漫画一样去充值。 短剧推广就是对…

剪映VS会声会影哪个好用,视频剪辑软件剪映会声会影之间对比之

随着网络视频的发展,越来越多的人开始学习视频剪辑,毕竟技多不压身,而在众多剪辑软件中,剪映和会声会影是很适合新手使用的软件,那剪映与会声会影的区别有哪些?剪映会声会影哪个好用?下面就仔细…

CapCut_v2.0 国际版本剪映

这是一款免费的多合一视频编辑应用程序。可帮助您创建令人赞叹的视频,专业风格滤镜,一键轻松美颜,让生活一秒变大片! 从后台下载压缩包解压后,双击应用安装,然后根据上图勾选、同意,即可一键安装…

剪辑副业怎么接单?学完剪辑去哪里可以接单赚钱

我们熟悉了剪辑的流程之后呢,剪辑一条视频就只需要每天的两三个小时的时间。之后的项目多了话,还可能熟能生巧,进行高效率的剪辑。而根据目前市场上的价格,剪辑一个视频的价格在200到500之间不等。当然了,这种兼职的前…

OpenAI估值已达290亿美元:新一轮融资宣告完成

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>【计算机视觉】微信技术交流群 转载自:机器之心 因为 ChatGPT 的发布,OpenAI 成为了目前最炙手可热的创业公司,很多投资者都希望加入光荣的…

利用Python实现作业自动批改系统

在日常的工作和生活中,我们经常会遇到需要抠图的场景,即便是只有一张图片需要抠,也会抠得,我们不耐烦,倘若遇到许多张图片需要抠,那就今天教你用Python制作一款界面化的抠图小程序吧! 正文 PS 小故事 一…

​数字化转型升级之工业元宇宙与AIGC

月説小飞象交流会 生活就是,面对复杂,保持欢喜。心烦时,记住三句话:1、算了吧。2、没关系。3、会过去的。 内部交流│24期 数字化转型升级 工业元宇宙与AIGC data analysis ●●●● 分享人:李铁军 ‍ 现如今数字化不再…

AutoCV第四课:Python基础

目录 Python基础注意事项一、2023/4/4更新前言1.class1.1 基本介绍1.2 类的实例化1.3 魔法函数 2.生成器2.1 定义2.2 生成器函数2.3 生成器表达式 3.迭代器和可迭代对象3.1 迭代器3.2 可迭代对象3.3 区别和联系 4.装饰器4.1 定义和语法4.2 类作为装饰器4.2.1 形式14.2.2 形式2 …

为什么天蝎座出互联网大佬,我来告诉你原因!

互联网时代的统治者,天蝎座;说起天蝎座,相信大家都觉得很惊呀,为什么大部分互联网大佬都是天蝎座呢?因为天蝎座的管理力、判断力、忍耐力、责任感都是非常优秀的;他们斗志顽强,一旦决定要做到的…

果然天蝎座的人积分落户最容易...

欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定! 对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感…

中国电商现状 以及未来发展趋势

从20世纪90年代中国电子商务起步期开始,直到今日我国电商已经发展了20多年。经历了从具体的技术应用发展到相关产业的形成,并通过创新与协同发展融入国民经济的各个组成部分的发展历程。那么我国电商现状是怎么样的?未来的发展趋势又如何呢&a…

社交电商与传统电商的优势对比

1.获客方式的不同 传统电商以“货”为中心,以流量为王,依靠流量带动更多销售。 社交电商以“人”为中心,以社交分享为王。它是由社会关系形成的电商形态。它不以产品搜索和展示为销售模式,而是通过社交和用户分享形成口碑效应&a…

影响电商发展的重要因素及电商未来的发展可能

易观分析:自从互联网传入中国以后,特别是2000年以后,一直保持着非常快的演变速度,而以互联网为基础的电商则更是发展成了中国互联网的代表性行业。中国电商的发展不仅在初期有着非常高的增速,有着多样化的演进路线&…

跨境电商的行业现状与发展趋势分析

随着互联网的不断发展,跨境电商作为一种全新的商业模式已经逐渐崭露头角。跨境电商的出现,让越来越多的商家看到了扩大市场的机会,也为消费者提供了更加便利、更加优质的购物体验。本文将从跨境电商的定义、行业现状、发展趋势等方面进行探讨…

文心一言测试

介绍 测试百度文心一言回答问题的能力。 笔者做了上百次测试,结果大同小异,本文选取几个经典案例 案例1 你是谁,你的训练数据来源是?你的数据实时更新吗?案例2 案例3 写一个脚本,unity3d控制刚体小球&am…

“文心一言”API调用服务开放邀测

3月16日,百度于北京总部召开新闻发布会,主题围绕新一代大语言模型、生成式AI产品文心一言。大会现场透露,百度智能云即将面向企业客户开放文心一言API接口调用服务,现已正式开放预约。 百度创始人、董事长兼首席执行官李彦宏预告称…

文心一言vsChatGpt-学习Python编程能力

目录 前言 功能测试 1.你会接入广告吗? 2.“电车难题” 3.严刑逼供 4.死后还会有余生吗? 5.我们的宇宙真实吗? 6.我们有自由意志吗? 7.造物主存在吗? 编程能力 1.for循环 2.用python搭建一个博客网站 3.用python写一个鸡兔同笼的代码 4.用python可以做…