论文解读:GPT Understands, Too

论文解读:GPT Understands, Too

  虽然GPT在传统的预训练微调方面并没有在自然语言理解任务上达到最好的效果, 但是当使用我们提出的P-tuning方法时,便可以与BERT相媲美。P-tuning是一种新的微调方法,其使用可训练的连续空间内的prompt embeddings。在knowledge probing和superGLUE benchmark上得以提升。最重要的是,我们发现P-tuning也可以让BERT在小样本和监督学习上得以提升。且P-tuning可以在superGLUE的小样本任务上达到SOTA。

简要信息:

序号属性
1模型名称P-tuning
2所属领域自然语言处理;文本分类
3研究内容预训练语言模型;Prompt框架
4核心内容Prompt-based Fine-tuning
5GitHub源码https://github.com/THUDM/P-tuning
6论文PDFhttps://arxiv.org/pdf/2103.10385.pdf

核心要点:

  • template的构建:在离散的template上对部分token替换为可在连续空间微调的pseudo token;
  • 离散和连续的template token混合时,发现显式地插入一些anchor(领域有关的离散token)可以有助于template的优化;

一、动机

  • 语言模型可以在预训练阶段学习到上下文的表征信息,也包括其他方面的知识,例如语法、常识或者世界知识等。
  • 现如今预训练模型包括三种类型,分别是以GPT为代表的单向模型,以BERT为代表的双向模型,以及以XLNet为代表的混合模型(单双向复合);
  • GPT3于2020年下半年提出,其能够在少量样本甚至是0样本情况下获得较好的效果。其主要依赖于提出的新的微调范式(prompt-based和in-context learning)。这表明,即便是单向模型,如果使用合适的人工构建的prompt模板也是可以达到很好的自然语言理解目的;
    GPT模型包含巨大规模的参数,使得其很难被迁移,也很难被落地使用
  • 然而,如何选择handcrafted prompt temporary如同大海捞针,而且需要大量的验证集,同时也可能导致陷入局部最优。先前工作(包括chengdanqi的LM-BFF)致力于解决离散提示模板(discrete prompt temporary)的自动生成问题,然而作者认为,神经网络是连续的,离散的prompt会导致局部最优。
  • 同时作者发现,prompt模板发生细微的改变,都会对最终的结果产生戏剧性的变化。例如在knowledge probing任务中,可以生成一个文本提示模板,但是究竟哪一个模板合适?作者发现模板中增删一个token就会产生很大的性能差异。(这一部分与chengdanqi的LM-BFF的发现一样)

In this work, we propose a novel method– P-tuning– to automatically search prompts in the continuous space to bridge the gap between GPTs and NLU applications.1 P-tuning leverages few continuous free parameters to serve as prompts fed as the input to the pre-trained language models. We then optimize the continuous prompts using gradient descent as an alternative to discrete prompt searching.

  • 作者还发现,GPT并非只能生成数据,而无法实现自然语言理解,语言模型是包含许多世界知识和先验知识。

  综合上述,作者提出了新的方法P-tuning:

二、方法:P-tuning

在这里插入图片描述

  在一般场景下,给定一个token序列,通过随机MASK若干个token,并进行自监督训练,预测MASK部分的词;在预测阶段(例如分类),则输入的是整个文本序列,预测[CLS]对应的类别。

  如果在prompt-based场景下,则通常将下游任务转化为Mask Language Model任务,因此此时不需要引入额外的参数,但需要明确一个prompt模板。作者认为一个模板 T T T 就可以表示为一个token序列:

T = { [ P 0 : i ] , x , [ P i + 1 : m ] , y } T = \{[P_{0:i}], \mathbf{x}, [P_{i+1:m}], \mathbf{y}\} T={[P0:i],x,[Pi+1:m],y}

其中 x \mathbf{x} x 表示一个input text, y \mathbf{y} y 表示真实标签(或对应的词,输入时被替换为[MASK])。

  传统的使用离散的prompt搜索方法是直接将模板 T T T 的每个token映射为对应的embedding,然后为整个模板生成一个得分。而在P-tuning中,则将模板中的 P i P_i Pi 映射为一个可训练的参数 h i h_i hi(如上图所示),此时这部分的token则称为pseudo token(有的工作也叫做soft-prompt、virtual token等)。在优化过程中,认为这部分pseudo token也存在序列关系,因此使用双向LSTM对模板 T T T 中的pseudo token序列进行表征,则可以使用梯度下降法更新连续的参数。

  另外作者发现,加入一些anchor可以提升效果。理解为加入一些比较有代表性的token可以显示让模型知道预测的意图。

  • 先前的prompt generator是通过decoder等方法直接生成出显式的token词,然后将这些token对应的embedding喂入到BERT中参与微调。
  • 而P-Tuning的思路应该是不显式的生成这些prompt temporary具体的token词,而是在generator之前的encoder表征的向量来代替这些词,这样在BERT微调的时候可以让这些temporary也跟着微调,达到作者所谓的differential,可以传梯度了。

  P-tuning的具体代码细节可以简单描述为:

  • 输入一个句子,以及预先设计的一个离散的模板:The Disney film is good! It was [MASK].
  • 先使用BERT的分词工具分词,并获得input ids、position ids、attention masks等;
  • 对输入的template中,挑选一个(或多个)token作为pseudo token:The Disney film is good! [pseudo] was [MASK].其初始化可以直接使用原本的token embedding;
  • 对所有的pseudo token P i P_i Pi,喂入一层LSTM,并获得每个pseudo token输出的隐状态向量 h i h_i hi
  • 将整个句子喂入BERT embedding layer,对于pseudo token部分的token embedding,则使用 h i h_i hi 进行替换,最后喂入MLM中获得[MASK]位置的预测结果。

三、实验

4.1 knowledge probing (知识探索)

  典型代表是LAMA数据集,根据知识库中结构化三元组(事实)构建的完形填空类型的数据。例如三元组(Dante, born in, Florence)可以转化为一个完型填空句子“Dante was born in [MASK]”,语言模型则可以通过MLM来预测[MASK]标记对应的词
(1)设置

  • 作者首先使用LAMA-34k,其词汇包含了BERT的所有词汇,但与GPT有差异,作者又使用了LAMA-29K,则包括了GPT和BERT词汇的交集;
  • 作者根据AutoPrompt工作,在TRE-x数据集上训练了prompt seaching模块;
  • 在评估阶段,对于双向的语言模型(BERT),使用(3,sub,3,obj,3)模板,在单向语言模型(GPT),使用(3,sub,3,obj)模板,数字表示的是模板prompt的token数量。在本任务中,不使用anchor token

(2)分析
在这里插入图片描述

  作者对传统的fine-tuning和p-tuning进行了对比。选择四个对比模型(MP:manual prompt、FT:fine-tuning、MP+FT、P-tuning),发现P-tuning超过了另外三个基线,且在BERT和GPT上均达到最好。作者认为:

  • fine-tuning在微调时更新了所有模型参数,而P-tuning并不更新参数;
  • fine-tuning会导致灾难性遗忘,而P-tuning因为不更新参数,而是寻找一个更好的连续的模板;
  • 作者发现P-tuning与单向语言模型更有亲和力(affinity);

4.2 SuperGLUE

(1)设置

  • SuperGLUE中包含8个自然语言理解(NLU)任务,作者只使用7个。在fully supervision和few-shot 两个setting下完成实验,前者则使用所有训练集,后者则使用32个训练集,并选择32个样本作为验证集(与chengdanqi的设置相似)
  • 在NLU任务上,首先在不同位置初始化prompt的embedding,并与预训练模型一同微调;

(2)分析
在这里插入图片描述

  • 在fully supervision任务上(如上表Table3/4),p-tuning比其他方法好,而且发现在p-tuning方法之下,GPT比BERT更优;

在这里插入图片描述

  • 在few-shot任务上(如上表Table6),P-tuning比当前最好的PET模型在各个数据集上均得到很大的提升。结果表明few-shot效果与prompt的语义、形式、语法没有明显的关系;微小的变化可能造成实质性性能的差异

在这里插入图片描述

  • Table5表明了P-tuning相比现有的模型PET均有很好的表现,验证了在few-shot情境下,P-tuning相比人工选择模板来说,更加有效

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/70937.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【论文阅读】GPT系列论文详解

文章目录 GPTIntroductionFrameworkUnsupervised pre-trainingSupervised fine-tuningTask-specific input transformations Experiment Language Models are Unsupervised Multitask Learners(GPT-2)AbsIntroductionApproachDataset & Model Results Language Models are …

做知识付费,这十大知识付费平台一定要知道

做知识付费,这十大知识付费平台一定要知道 想成为李一舟、透透堂这样通过知识付费赚钱的人,一定要知道下面中国排名前十大知识付费平台,这里面呢,你完全能看到各类课程是怎么制作的,以及怎么从0到1做一个能赚钱的课程。…

知识付费哪个领域最火?

小说要花钱才能看了,电影也需要会员了,就连音乐都需要花钱才能听了。如此种种,在生活中比比皆是,时代的进步提升了大众的版权意识,尊重原创。而这也意味着,在以后越来越多的知识内容,都需要通过…

知识付费网课项目靠谱吗?为什么依然有人对它有偏见

知识付费网课项目,是近几年来特别热门的一种网络赚钱方式,从操作方式来讲,适合公司,适合工作室,也适合个人,越来越多的人靠知识付费网课分销项目月入过万。 这是时代的产物,是经济发展的产物,是自然的产物,尽管如此,当提到知识付费网课项目的时候,还是很多人对它有偏…

浅谈短剧授权推广,会简单视频剪辑即可。

什么是短剧推广?相信很多人在短视频平台都有看到过一些账号发布的像电视剧一样的短剧,内容时长短,集数多,作品左下方有个按钮,点击进去可以看全集,但要看后续需要像看小说或漫画一样去充值。 短剧推广就是对…

剪映VS会声会影哪个好用,视频剪辑软件剪映会声会影之间对比之

随着网络视频的发展,越来越多的人开始学习视频剪辑,毕竟技多不压身,而在众多剪辑软件中,剪映和会声会影是很适合新手使用的软件,那剪映与会声会影的区别有哪些?剪映会声会影哪个好用?下面就仔细…

CapCut_v2.0 国际版本剪映

这是一款免费的多合一视频编辑应用程序。可帮助您创建令人赞叹的视频,专业风格滤镜,一键轻松美颜,让生活一秒变大片! 从后台下载压缩包解压后,双击应用安装,然后根据上图勾选、同意,即可一键安装…

剪辑副业怎么接单?学完剪辑去哪里可以接单赚钱

我们熟悉了剪辑的流程之后呢,剪辑一条视频就只需要每天的两三个小时的时间。之后的项目多了话,还可能熟能生巧,进行高效率的剪辑。而根据目前市场上的价格,剪辑一个视频的价格在200到500之间不等。当然了,这种兼职的前…

OpenAI估值已达290亿美元:新一轮融资宣告完成

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>【计算机视觉】微信技术交流群 转载自:机器之心 因为 ChatGPT 的发布,OpenAI 成为了目前最炙手可热的创业公司,很多投资者都希望加入光荣的…

利用Python实现作业自动批改系统

在日常的工作和生活中,我们经常会遇到需要抠图的场景,即便是只有一张图片需要抠,也会抠得,我们不耐烦,倘若遇到许多张图片需要抠,那就今天教你用Python制作一款界面化的抠图小程序吧! 正文 PS 小故事 一…

​数字化转型升级之工业元宇宙与AIGC

月説小飞象交流会 生活就是,面对复杂,保持欢喜。心烦时,记住三句话:1、算了吧。2、没关系。3、会过去的。 内部交流│24期 数字化转型升级 工业元宇宙与AIGC data analysis ●●●● 分享人:李铁军 ‍ 现如今数字化不再…

AutoCV第四课:Python基础

目录 Python基础注意事项一、2023/4/4更新前言1.class1.1 基本介绍1.2 类的实例化1.3 魔法函数 2.生成器2.1 定义2.2 生成器函数2.3 生成器表达式 3.迭代器和可迭代对象3.1 迭代器3.2 可迭代对象3.3 区别和联系 4.装饰器4.1 定义和语法4.2 类作为装饰器4.2.1 形式14.2.2 形式2 …

为什么天蝎座出互联网大佬,我来告诉你原因!

互联网时代的统治者,天蝎座;说起天蝎座,相信大家都觉得很惊呀,为什么大部分互联网大佬都是天蝎座呢?因为天蝎座的管理力、判断力、忍耐力、责任感都是非常优秀的;他们斗志顽强,一旦决定要做到的…

果然天蝎座的人积分落户最容易...

欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定! 对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感…

中国电商现状 以及未来发展趋势

从20世纪90年代中国电子商务起步期开始,直到今日我国电商已经发展了20多年。经历了从具体的技术应用发展到相关产业的形成,并通过创新与协同发展融入国民经济的各个组成部分的发展历程。那么我国电商现状是怎么样的?未来的发展趋势又如何呢&a…

社交电商与传统电商的优势对比

1.获客方式的不同 传统电商以“货”为中心,以流量为王,依靠流量带动更多销售。 社交电商以“人”为中心,以社交分享为王。它是由社会关系形成的电商形态。它不以产品搜索和展示为销售模式,而是通过社交和用户分享形成口碑效应&a…

影响电商发展的重要因素及电商未来的发展可能

易观分析:自从互联网传入中国以后,特别是2000年以后,一直保持着非常快的演变速度,而以互联网为基础的电商则更是发展成了中国互联网的代表性行业。中国电商的发展不仅在初期有着非常高的增速,有着多样化的演进路线&…

跨境电商的行业现状与发展趋势分析

随着互联网的不断发展,跨境电商作为一种全新的商业模式已经逐渐崭露头角。跨境电商的出现,让越来越多的商家看到了扩大市场的机会,也为消费者提供了更加便利、更加优质的购物体验。本文将从跨境电商的定义、行业现状、发展趋势等方面进行探讨…

文心一言测试

介绍 测试百度文心一言回答问题的能力。 笔者做了上百次测试,结果大同小异,本文选取几个经典案例 案例1 你是谁,你的训练数据来源是?你的数据实时更新吗?案例2 案例3 写一个脚本,unity3d控制刚体小球&am…

“文心一言”API调用服务开放邀测

3月16日,百度于北京总部召开新闻发布会,主题围绕新一代大语言模型、生成式AI产品文心一言。大会现场透露,百度智能云即将面向企业客户开放文心一言API接口调用服务,现已正式开放预约。 百度创始人、董事长兼首席执行官李彦宏预告称…