论文阅读之Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(2020)

文章目录

  • Abstract
  • introduction
  • Setup
    • model
    • The Colossal Clean Crawled Corpus
    • Downstream Tasks
    • Input and Output Format
  • Experiments
  • 总结
  • 参考

文章标题翻译过来,大概是:用统一的文本到文本转换器探索迁移学习的极限。

确实挺极限的。

这篇文章主要探讨了通过文本到文本转换的统一框架来进行自然语言处理(NLP)的迁移学习技术。研究比较了预训练目标、体系结构、未标记的数据集、迁移方法等因素在数十个语言理解任务上的效果。针对多种基于英语的NLP问题进行的实验,包括问答、文本摘要和情感分类,表明使用未标记的文本数据进行无监督的预训练特别有效,因为这些数据广泛存在于互联网上。该论文还介绍了他们的“Colossal Clean Crawled Corpus”(C4),这是一个由网络上数百GB的干净英语文本组成的数据集,并使用它来训练多达110亿个参数的模型,文章提出的模型架构为“Text-to-Text Transfer Transformer”(T5),在许多基准测试上取得了SOTA的结果。该研究的重点是提供一个综合的视角,编制现有技术并创建一个NLP迁移学习的标准测试平台。该论文发布了其代码、数据集和预训练模型,以促进未来对NLP迁移学习的研究。

简单来说,文章提出了C4数据集和T5模型架构。就是希望“一招鲜,吃遍天”,希望通过一个模型解决NLP的各种子任务如情感分类、文本摘要等等,实现大一统。实际上目前已经差不多了,ChatGPT的表现已经可以说是标志着大一统了。但是他背后的技术复杂,成本也不是我们小打小闹能够承担的,所以还是好好读论文,好好学好好看。

Abstract

在这里插入图片描述
迁移学习是自然语言处理(NLP)中一种强大的技术,它首先在数据丰富的任务上对模型进行预训练,然后在下游任务上进行微调。迁移学习的有效性导致了方法、方法和实践的多样性。在本文中,我们通过引入一个统一的框架来探索NLP的迁移学习技术的前景,该框架将所有基于文本的语言问题转换为文本到文本的格式。我们的系统研究比较了几十项语言理解任务的预训练目标、体系结构、未标记数据集、迁移方法和其他因素。通过将我们的探索见解与规模和我们新的“Colossal Clean Crawled Corpus”相结合,我们在许多基准测试上取得了最先进的成果,包括摘要、问答、文本分类等。为了促进NLP迁移学习的未来工作,我们发布了数据集、预先训练的模型和代码。

introduction

在这里插入图片描述
我们工作的基本理念是将每一个文本处理问题都视为“文本对文本”问题,即将文本作为输入,并产生新的文本作为输出。这种方法受到了以前NLP任务统一框架的启发,包括将所有文本问题作为问答(McCann等人,2018)、语言建模(Radford等人,2019)或跨度提取Keskar等人(2019b)任务。至关重要的是,文本到文本框架允许我们将相同的模型、目标、训练程序和解码过程直接应用于我们考虑的每一项任务。我们通过评估各种基于英语的NLP问题的性能来利用这种灵活性,包括问答、文档
在这里插入图片描述
图1:我们的文本到文本框架的示意图。我们考虑的每一项任务,包括翻译、问答和分类,都被视为输入我们的模型文本,并对其进行训练以生成一些目标文本。这使我们能够在不同的任务集中使用相同的模型、损失函数、超参数等。它还为我们的实证调查中包含的方法提供了一个标准的试验台。

“T5”指的是我们的模型,我们称之为“文本到文本传输转换器”
在这里插入图片描述
总结和情感分类,仅举几个例子。通过这种统一的方法,我们可以比较不同迁移学习目标、未标记数据集和其他因素的有效性,同时通过扩大模型和数据集的规模来探索NLP迁移学习的局限性。

读到这里,大概应该知道,这篇文章的思路就是整理了一个很大的数据集,然后预训练了一个很大的模型,然后将不同的NLP的任务都归结为文本-文本的输出输出格式,从而统一不同的NLP的任务,例如想让他翻译,就在“translate xx to xx”: + 需要翻译的句子 输入,那么模型输出的文本就是翻译好的句子了;想让他做文本摘要,就将“summarize:”+文本输入,那么模型输出就是对应文本的摘要了。(prompt learning里的模板雏形显现了)

Setup

model

文章这里大段文字,盲猜这里没什么东西。

The Colossal Clean Crawled Corpus

这里讲了数据集的一些细节处理,目前对这个不太感兴趣,因为实验设置要求高,没机会训练这个模型,相信大家也应该对T5的细节更加关心。

Downstream Tasks

在这里插入图片描述
我们在这篇论文中的目标是衡量一般的语言学习能力。因此,我们研究了一组不同基准的下游性能,包括机器翻译、问答、抽象摘要和文本分类。具体来说,我们测量GLUE和SuperGLUE文本分类元基准的性能;美国有线电视新闻网/《每日邮报》摘要;SQuAD问答;以及WMT英语到德语、法语和罗马尼亚语的翻译。所有数据来源于TensorFlow数据集。

用了很多数据集。

Input and Output Format

在这里插入图片描述
为了在上述不同的任务集上训练单个模型,我们将我们考虑的所有任务转换为“文本到文本”格式,即向模型提供一些文本用于上下文或条件,然后要求模型生成一些输出文本的任务。该框架为预培训和微调提供了一致的培训目标。

具体而言,无论任务如何,模型都是以最大似然目标(使用“教师强迫”(Williams和Zipser,1989))进行训练的。为了指定模型应该执行的任务,我们在将任务特定的(文本)前缀添加到原始输入序列中,然后再将其输入到模型中。

注意这里,加了个前缀,其实就是相当于告诉模型这个是个什么任务。
在这里插入图片描述
例如,为了让模型将句子“That is good”从英语翻译成德语,模型将被输入“translate English to German: That is good. ”的序列,并被训练输出“Das ist gut”。对于文本分类任务,模型只需预测与目标标签对应的单个单词。例如,在MNLI基准上(Williams等人,2017),目标是预测一个前提是否暗示(“隐含”)、矛盾(“矛盾”)或两者都不暗示(“中立”)一个假设。经过预处理,输入序列变成了“mnli前提:我讨厌鸽子。假设:我对鸽子的感情充满了敌意。”,对应的目标词是“暗示”。请注意,如果我们的模型在文本分类任务中输出的文本与任何可能的标签都不对应,就会出现问题(例如,如果模型输出的是“汉堡包”,而任务的唯一可能标签是“隐含”、“中性”或“矛盾”)。在这种情况下,我们总是认为模型的输出是错误的,尽管我们从未在任何经过训练的模型中观察到这种行为。注意,用于给定任务的文本前缀的选择本质上是一个超参数;我们发现,改变前缀的确切措辞影响有限,因此没有对不同的前缀选择进行广泛的实验。图1显示了我们的文本到文本框架的示意图,其中包含一些输入/输出示例。我们在附录D中为我们研究的每一项任务提供了预处理输入的完整示例。

对于文本分类,文章说通过文章输出的内容来推测对文本的分类结果。(现在来看,其实就是需要prompt learning 的Verbalizer)以及文章提到,不同的提示语会对模型性能有影响,不过文章里说影响有限,但是还是会有影响,也就是template不同会影响模型,所以后面才会有各种研究离散template、连续template等等研究内容。

这边再把introduction的图1再放一下:
在这里插入图片描述
后面还讲了许多其他任务是怎么操作的,例如文本对应一个离散的数值,那么就将他四舍五入,然后映射成”x.x”(如“2.6”)这个字符串即可等等,点到为止,毕竟别人任务的难点在哪我也不太清楚了。

不过相信到这对T5有了一个比较大概的了解了:
模型输入:前缀(提示词)+输入文本
模型输出:文本(翻译、摘要等可以直接用,分类等可以通过简单的转换得到预测结果)

Experiments

后面做了很多实验,有关于模型参数大小的、数据集大小的、数据集种类的等等,眼花缭乱。
其中Fine-tuning Methods比较有意思。
在这里插入图片描述
在这里插入图片描述
有人认为,对模型的所有参数进行微调可能会导致次优结果,尤其是在低资源任务上(Peters等人,2019)。关于文本分类任务的迁移学习的早期结果主张只微调小分类器的参数,该小分类器由固定的预训练模型生成的句子嵌入(Subramanian等人,2018;Kiros等人,2015;Logeswaran和Lee,2018;Hill等人,2016;Conneau等人,2017)。这种方法不太适用于我们的编码器-解码器模型,因为必须训练整个解码器来输出给定任务的目标序列。相反,我们专注于两种替代的微调方法,它们只更新我们的编码器-解码器模型的参数的子集。

在这里插入图片描述
第一个是“适配器层”(Houlsby等人,2019;Bapna等人,2019),其动机是在微调的同时保持大部分原始模型的固定。适配器层是在变压器的每个块中的每个预先存在的前馈网络之后添加的附加密集ReLU密集块。这些新的前馈网络被设计成使得它们的输出维度与它们的输入相匹配。这允许它们被插入到网络中,而不需要对结构或参数进行额外的改变。微调时,仅更新适配器层和层规范化参数。这种方法的主要超参数是前馈网络的内维度d,它改变了添加到模型中的新参数的数量。我们用不同的d值进行实验。

(这不就是上篇读的文章里的东西吗,真是巧了这不是真的巧了吗)
在这里插入图片描述
我们考虑的第二种替代微调方法是“逐步解冻”(Howard和Ruder,2018)。在逐渐解冻的过程中,随着时间的推移,越来越多的模型参数会被微调。逐渐解冻最初应用于由单个层堆栈组成的语言模型体系结构。在这种设置中,在微调开始时,只更新最后一层的参数,然后在训练了一定数量的更新之后,还包括第二层到最后一层,以此类推,直到整个网络的参数被微调。为了使这种方法适应我们的编码器-解码器模型,我们并行地逐渐解冻编码器和解码器中的层,在这两种情况下都从顶部开始。由于我们的输入嵌入矩阵和输出分类矩阵的参数是共享的,所以我们在整个微调过程中都会更新它们。回想一下,我们的基线模型由编码器和解码器中的12层组成,并针对218个步骤。因此,我们将微调过程细分为12集,每集218/12个步骤,并在第n集从第12-n层训练到第12层。我们注意到,Howard和Ruder(2018)建议在每次训练后微调一个额外的层。然而,由于我们的监督数据集的大小变化如此之大,并且由于我们的一些下游任务实际上是许多任务(GLUE和SuperGLUE)的混合,因此我们采用了更简单的策略,即在每2^18/12个步骤后微调一个额外的层。

这些微调方法的性能比较如表10所示。
在这里插入图片描述
表10:仅更新模型参数子集的不同替代微调方法的比较。对于适配器层,d是指适配器的内部维度。
在这里插入图片描述
对于适配器层,我们使用32、128、512、2048的内部维度d来报告性能。根据过去的结果(Houlsby等人,2019;Bapna等人,2019),我们发现像SQuAD这样的低资源任务在较小的d值下工作良好,而高资源任务需要较大的维度才能实现合理的性能。这表明,只要维度被适当地缩放到任务大小,适配器层就可以是一种很有前途的技术,用于在更少的参数上进行微调。请注意,在我们的案例中,我们将GLUE和SuperGLUE分别视为一个单独的“任务”,通过连接它们的组成数据集,因此尽管它们包括一些低资源数据集,但组合的数据集足够大,需要很大的d值。我们发现,逐渐解冻导致所有任务的性能略有下降,尽管它确实在微调过程中提供了一些加速。通过更仔细地调整解冻时间表,可以获得更好的结果。

(所以说,到这prompt learning已经被肯定了?)

后面还有n多实验,有兴趣可以自己看……

总结

这篇文章确实很厉害,实验异常多,证明了pre-train+text-text这一框架的效果很好,考虑的各方面都很全面,所以文章也很长。确实挺极限的,以后有机会再多读几遍好了。

参考

https://arxiv.org/pdf/1910.10683.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/17183.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

好家伙!GPT-4 下周要来了!

转自:量子位 GPT-4 将在下周发布 3 月 9 日,微软德国 CTO Andreas Braun 在一场名为 “AI in Focus - Digital Kickoff” 的活动中表示,GPT-4 将在下周发布,将提供多模态模型。自 3 月初发布 Kosmos-1 以来,微软正在与…

Transformer:《Attention is all you need》(论文精读/原理解析/模型架构解读/源码解析/相关知识点解析/相关资源提供)

本文解读Transformer较为详细,是一篇两万字的长文,如果想看简短版的,请参考这篇文章 目录 1 相关背景 1.1 Transformer 1.2《Attention is all you need》 1.3 论文作者 1.4 Google brain 1.5 NIPS 1.6 BLEU score 2 摘要、结论…

独立产品灵感周刊 DecoHack #046 - 试试用 ChatGPT 写周刊

本周刊记录有趣好玩的独立产品设计开发相关内容,每周发布,往期内容同样精彩,感兴趣的伙伴可以 点击订阅我的周刊。为保证每期都能收到,建议邮件订阅。欢迎通过 Twitter 私信推荐或投稿。 💻 产品推荐 1. 转山 - 全自动…

亚马逊数据 各国亚马逊数据API 管理工具

什么是 API 管理? 应用程序编程接口管理(简称为“API 管理”)由一系列工具和服务组成,使开发人员和公司能够在安全的环境中构建、分析、操作和扩展 API。可以在本地、通过云或使用混合本地 – SaaS(软件即服务&#x…

跨境电商如何使用WhatsApp Business与客户沟通?这几个错误需要避免

关键词:跨境电商,WhatsApp Business,客户沟通 WhatsApp Business缩小了客户和企业之间的巨大差距,并提供了直接即时通信的媒介。与客户的个人互动确实帮助许多企业扭转了局面。但很多时候,错误的交流方式可能会使商业…

基于Android的个人健康管理系统

目 录 基于Android的个人健康管理系统 Personal Health Management System Based On Android 1 引言 1 1.1 课题背景 1 1.2 编写目的 1 1.3 关于Android 1 1.4 关于MVC框架 3 2 可行性研究 6 2.1 技术可行性 6 2.2 经济可行性 6 2.3 时间可行性 6 3 需求分析 7 4 总体设计 8 …

大健康生态应用PC管理后台、运动健康、医疗服务、商城系统、内容管理、健康数据统计、系统管理、医疗问诊、慢病管理、科室管理、问诊订单、医疗后台管理、挂号预约、体检订单、运动健康、疾病管理、血压、血糖

大健康生态应用PC管理后台/运动健康/医疗服务/商城系统/内容管理/健康数据统计/系统管理/医疗问诊/慢病管理/科室管理/问诊订单/医疗后台管理/挂号预约/体检订单/运动健康/疾病管理/血压/血糖/运动/睡眠/计步/心率/医院管理/医生管理 Axure原型演示及下载地址:Axur…

ai绘画软件免费的么?如何白嫖ai绘画?

关于ai绘画的大名,相信很多人都听说过吧?但大部分都是只闻其名,未闻其声,而且很多人也都不知道怎么去用ai绘画软件,去哪里用这个ai绘画软件,其实造成这样的原因,主要是这些ai绘画软件都是属于国…

cursor编辑器

openAI合作伙伴推出的,内置GPT-4的编辑器Cursor。 不需要你有openAI账号和key,你就可以白嫖。可以把他当成免费版的Copilot,代码能力完全不输后者,支持多种编程语言。 当然你也可把他当做chatgpt终端来用,白嫖AI聊天和…

巴比特 | 元宇宙每日必读:用户可绕过付费墙白嫖内容?ChatGPT紧急暂停Bing集成,AI背后的版权、道德问题何解?...

摘要:据 IT 之家 7 月 4 日报道,OpenAI 的聊天机器人 ChatGPT 在上周推出了一个新功能,叫“用 Bing 浏览(Browse with Bing)”。但这个功能很快就被发现有一个漏洞,用户可以利用 ChatGPT 绕过一些网站的付费…

拒绝“白嫖”!Stack Overflow 将矛头直指 ChatGPT 等产品:用了我的数据训练,得先给钱!...

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 打不过就加入! 继去年 12 月 Stack Overflow 称 ChatGPT 生成的答案正确率非常低并决定宣布临时封禁 ChatGPT 之后,其开始以另一种身份加入这场 AI 竞赛中。 据外媒 Wired 报道&…

ChatGPT紧急下线联网模式,曾被曝能白嫖付费网页

克雷西 发自 凹非寺量子位 | 公众号 QbitAI 用ChatGPT白嫖网页付费内容,马上就要行不通了。 就在昨天,OpenAI宣布,暂时禁用ChatGPT的官方网页浏览模式。 虽然公告说的很隐晦,但此次功能下架,主要目的就是针对“翻越付费…

轻松白嫖GPT-4,已经标星38K,不再害怕高昂的AI模型费用!

文章目录 白嫖GPT-4当前可白嫖站点 白嫖GPT-4 计算机专业学生xtekky在GitHub上发布了一个名为gpt4free的开源项目,该项目允许您免费使用GPT4和GPT3.5模型。这个项目目前已经获得了380000颗星。 开源地址:https://github.com/xtekky/gpt4free 简而言之&a…

这3个网站能够让你白嫖GPT4

1、perplexity(https://www.perplexity.ai/) 特点: 1)保存试用上限5次GPT4,每4小时恢复1次 2)试用需连接外网谷歌账号 3)可以查看其他用户的提出的热门问题 4)可以开启对话线程。在…

王琤:当数据治理遇上ChatGPT

以ChatGPT为代表的人工智能等技术正在“狂飙”,为全球带来一场翻天覆地的变革。4月27日在2023数据治理新实践峰会上,Datablau数语科技创始人&CEO王琤先生以《数据治理新实践与人工智能》为主题进行了分享,与参会同仁共同探索当数据治理遇…

免费AI工具推荐:Chat8

最近很火的ChatGPT,很多人想尝试但都无从入手,这里推荐一款免费使用的国内平替ChatGPT的AI聊天工具【Chat8】。 【Chat8官网介绍】 Chat8 是一款基于OpenAi的ChatGPT3.5接口开发的聊天网站,旨在为用户提供高效便捷的沟通体验。相较于ChatGPT&…

马云:你们只关心我回不回国,而我却关心ChatGPT对教育的冲击!

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 在中国互联网界,有两个人回国与否,牵动了成千上万人的神经。 一个是“明日回国贾跃亭”,另一个就是就是马云。 贾跃亭回国,遥遥无期。 但马云,则已经回国了。 根据…

业界讨论ChatGPT对教育带来的影响

连日来,ChatGPT在教育领域掀起了大讨论:有人大呼,学校教育被逼到了墙角;有人说,人工智能和ChatGPT让传统学校教育优势荡然无存;也有人批评说,ChatGPT算不得什么创新,比如图灵奖得主&…

ChatGPT对教育的变革与影响

我们所面临的挑战往往是我们最直接的痛点。那么,你是否曾经想过,教育可能正在经历一场由人工智能驱动的革命?是的,我说的就是ChatGPT,它正在改变教育的面貌。 回到2022年11月,OpenAI发布了ChatGPT。令人惊…

chatgpt赋能Python-python_member

Python Member:了解Python的会员机制 如果你是一个Python开发者,你可能已经很熟悉了Python的会员机制。Python Member是Python的会员计划,为Python社区激励开发者,提供更好的资源和支持。在这篇文章中,我们将详细介绍…