Meta提出全新参数高效微调方案,仅需一个RNN,Transformer模型GPU使用量减少84%!

近来,随着ChatGPT和GPT-4模型的不断发展,国内外互联网大厂纷纷推出了自家的大语言模型,例如谷歌的PaLM系列,MetaAI的LLaMA系列,还有国内公司和高校推出的一些大模型,例如百度的文心一言,清华的ChatGLM等模型。几乎隔几天就会有一个全新的大模型发布,但是对于研究者和开发者来讲,可能大家更关心的是在基础大模型训练、微调、推理和部署等实际落地方面上的创新。这就不得不谈到大模型底层的语言建模架构了,现如今,绝大多数大模型的基础架构,仍然使用6年前发表在NeurIPS上的Transformer。

随着模型规模和任务数量的增加,对整个Transformer模型进行微调也变得越来越昂贵。因此很多参数高效的迁移学习方法(Parameter Efficient Transfer Learning,PETL)被提出。本文来自Meta AI,提出了一种基于传统RNN架构的参数高效适应方法REcurrent ADaption(READ),具体来说,READ只需要在基础Transformer旁插入一个小型RNN网络,就可以实现高效的参数微调,模型无需再通过主干Transformer进行反向传播。作者通过一系列实验表明,READ在保持较高质量模型微调效果的同时,可以节省56%的训练显存消耗和84%的GPU使用量。

论文链接:

https://arxiv.org/abs/2305.15348

一、引言 

自2018年以来,大语言模型参数规模的增长速度相比GPU显存增长的速度快了近两个数量级,这使得入局大模型的门槛越来越高,配置一个足以放下大模型的“炼丹炉”的成本非常昂贵。只有少数资金的公司和机构才有能力对大模型进行训练和微调。为了降低这一门槛,PETL方法已经成为目前首选的方案,例如Adapter方法[1]通过在Transformer中插入小模块来减少模型需要更新的参数量。Soft Prompts方法[2]在模型输入embeddings后拼接小规模参数来达到类似的效果。还有受到广泛关注的Lora方法[3],通过低秩近似来最小化模型参数量,以及仅微调网络前几层中的偏执项的BitFit方法[4],下表展示了本文提出的READ方法与上述几种方法的微调代价对比结果。

从上表中看出,通过PETL方法的优化,模型的微调的成本相比完全微调已经大大降低。同时本文READ相比其他方法有着明显的优势,这得益于READ内部增加的小型RNN结构,在Transformer架构横行的今天,相对老旧的RNN展现出了强大的生命力。最近一个由华人主导的开源团队也发布了一个基于RNN架构的大语言模型RWKV[5],并且打出了与Transformer“鱼和熊掌兼得”的口号。

二、本文方法

2.1 什么是READ? 

本文提出的READ主要由一个标准的RNN和一个Joiner网络组成,READ网络的整体架构如下图所示。

2. 网络在优化过程中只涉及到RNN和前馈网络(FFN),且无需更新Self-Attention层。这提高了模型整体的可用性和训练效率,READ可以在任意的Transformer结构中即插即用。

3. 由于READ的循环网络特性,模型微调的可训练参数规模不随主干网络层数的增加而增加。两者的关系呈次线性增长。

4. READ可以在不修改主干Transformer网络中间结果的情况下进行计算。

2.2 READ如何起作用? 

三、实验效果 

本文的实验在GLUE基准的多个自然语言任务中进行,采用的基础Transformer架构为T5模型,RNN模型也使用了包含原始RNN,LSTM和GRU等多种循环神经网络结构。

3.1 READ方法在能耗显著较低的情况下表现优于其他方法 

下图展示了READ方法与其他PETL方法在GPU能耗降低情况下的性能对比,从下图左半部分我们可以看出,相比全微调(Full-tuning),READ可以将GPU使用量降低90%左右,GPU显存占用降低56%,同时模型的预测精度与原来保持一致。

虽然LoRA、BitFit或Adapter等PETL方法也可以明显减少可训练参数的数量,但它们并不能降低微调的计算成本,而这是PETL的主要优化目标。从上图右半部分我们可以看出,READ在训练过程中使用的显存占用非常小,图中主要展示了模型性能和显存占用之间的性能和空间权衡。与所有其他的baseline方法相比,READ实现了至少25%的训练显存优化,同时实现了更好的下游任务预测性能。

3.2 READ具有很强的可扩展性

如下图所示,与其他PETL方法相比,READ的可训练参数数量增长速度非常缓慢。随着T5骨干模型尺寸的增加,READ的参数数量呈现对数线性增长的趋势。这得益于READ的循环网络性质,使其微调参数规模与骨干网络层数无关,这使得READ在具体的工程实现中更适合于微调超大规模的Transformer模型。

3.3 READ在模型推理速度和显存占用方面也有很大的改进

如下图左半部分所示,READ相比其他PETL方法在模型推理阶段的显存占用更低,且推理速度也保持在一个较高的水平。此外,为了更全面地评估READ的推理显存占用,作者在下图右半部分展示了随着模型骨干网络尺寸的增加,推理显存占用的变化情况,相对于全微调方式,READ的推理显存增长几乎可以忽略不计。

四、总结 

本文针对大规模Transformer模型提出了一种全新的高效参数微调方法,称为REcurrent ADaption(READ)。READ方法不仅具有轻量化的特点,还能够在准确性方面与传统微调方法相媲美。READ通过引入RNN+Joiner模块的形式,使网络在微调时无需经过主干Transformer模型,显著降低了模型微调的GPU使用量,最高可以达到84%的节省效果。此外,READ还表现出了极强的扩展性,可以在几乎所有的Transformer结构上即插即用,而无需考虑修改原有模型中复杂的自注意力层。同时相对于全微调方法,READ可以降低56%的训练显存占用,这也进一步降低了深度学习工程师微调大模型的门槛。

参考 

[1] Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin De Laroussilhe, Andrea Gesmundo, Mona Attariyan, and Sylvain Gelly. Parameter-efficient transfer learning for nlp. In International Conference on Machine Learning, pages 2790–2799. PMLR, 2019

[2] Brian Lester, Rami Al-Rfou, and Noah Constant. The power of scale for parameter-efficient prompt tuning. arXiv preprint arXiv:2104.08691, 2021.

[3] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021

[4] Elad Ben Zaken, Shauli Ravfogel, and Yoav Goldberg. Bitfit: Simple parameter-efficient fine-tuning for transformer-based masked language-models, 2022.

[5] Peng B, Alcaide E, Anthony Q, et al. RWKV: Reinventing RNNs for the Transformer Era[J]. arXiv preprint arXiv:2305.13048, 2023.

作者:seven_

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/72448.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机社团活动展望未来,2018社团展望未来演讲稿范文

2018社团展望未来演讲稿范文 我们社团展望未来,就必须坚持社团活动的创新。以下是小编要与大家分享的社团展望未来演讲稿范文,供大家参考! 社团展望未来演讲稿范文(一) 不知不觉中,我加入到社团部这个大家庭中已有半年的时间。这半年&#xf…

我的专业我做主计算机演讲稿,我的未来我做主演讲稿

我的未来我做主演讲稿 演讲稿的写法比较灵活,可以根据会议的内容、一件事事后的感想、需要等情况而有所区别。在日常生活和工作中,演讲稿应用范围愈来愈广泛,在写之前,可以先参考范文,以下是小编精心整理的我的未来我做…

计算机社团竞选优势6,关于社团竞选演讲稿汇总六篇

关于社团竞选演讲稿汇总六篇 使用正确的写作思路书写演讲稿会更加事半功倍。在我们平凡的日常里,演讲稿应用范围愈来愈广泛,大家知道演讲稿的格式吗?下面是小编为大家整理的社团竞选演讲稿6篇,供大家参考借鉴,希望可以…

Meta「分割一切」超进化版来了!检测、分割、生成一切,狂揽2k星

编|桃子 好困源|新智元 Meta的SAM「分割一切」模型刚发布,国内团队就进行了二创,打造了一个最强的零样本视觉应用Grounded-SAM,不仅能分割一切,还能检测一切,生成一切。 Meta的「分割一切」模型…

粤港澳大湾区Microsoft Build 2023 After Party - 广州站

在经历过阳春三月一大波GPT带来的AI浪潮之后,今年的Build大会尤其令人期待。本次Build大会发布了超过50个新技术,尤其是在ChatGPT中支持Bing插件来提供联机搜索、Windows Copilot加入微软Copilot大家庭,提出Copilot Stack来便于搭建您自己的C…

学会这八个技术,你离BAT大厂不远了

红人榜第七期来咯~本期干货:HTTP、本周最受关注的技术关键词TOP8,往下看吧~ 在如今这个时间和知识都是碎片化的时代,C站根据C1-C4认证的成长路径,进行知识细化整理,形成系统化的知识图谱。 小编根据C1认证的成长路径…

互联网大佬谁编程排第一?周鸿祎:我应该可以排到前三名

10月24日是程序员节。在这一天,360集团创始人周鸿祎在社交平台发布动态为程序员点赞。 周鸿祎表示,未来,世界是架构在软件之上,是数字化的世界,每一个程序员都承担着重要的使命,用技术为国家解决一些“卡脖…

这个 GitHub Trending 让我在腾讯会议中“换脸成”任何人!来唠唠如何上手

前言: GitHub 上又火了个项目,蛮有趣的:可以让你在 ZOOM 、腾讯会议等等软件中“换脸”成别人。自己 fork 到本地,调了一调。作者封装的已经相当好了,当然了,像我这种 CRUD 程序员 AI 小白 肯定是要调一天…

周鸿祎评互联网大佬编程能力:我可以排前三

10月24日,也是一年一度的程序员节,360集团董事长兼CEO周鸿祎在B站发布了一段视频,讲述自己最早学习编程时的经历,以及关于程序员的故事。 在互联网程序圈出身的大佬们中,谁的编程能力最高?对此,…

分割一切还不够,还要视频跟踪一切,《清明上河图》也能轻松拿下

南方科技大学郑锋团队的这项研究:Track Anything ,很好的解决了 SAM 在视频领域的短板。 本月初,Meta 发布「分割一切」AI 模型(Segment Anything Model,简称 SAM),可以为任何图像或视频中的任何…

【深度学习】分割一切还不够,还要视频跟踪一切,《清明上河图》也能轻松拿下...

南方科技大学郑锋团队的这项研究:Track Anything ,很好的解决了 SAM 在视频领域的短板。 本月初,Meta 发布「分割一切」AI 模型(Segment Anything Model,简称 SAM),可以为任何图像或视频中的任何…

小孩上了半年小学,针对老师的评语总结,如何对症优化教育培养策略?chatGPT搜了一下,AI震惊了我

评语 班主任评语: 你是一个性格内向、聪明伶俐的男孩。平时能按时完成老师布置的作业,学习认真,成绩优良,做事认真。但有时自己的事情还不能自己完成,希望你以后可以独立起来,遇到问题多想办法&…

安卓APP源码和设计报告——体育馆预约系统

项目名称:体育馆体育场预约系统专业:班级:学号:姓名: 目 录 一、项目功能介绍3 二、项目运行环境3 1、开发环境3 2、运行环境3 3、是否需要联网3 三、项目配置文件及工程结构4 1、工程配置文件4 2、工程结构目…

波士顿人形机器人Atlas学会“跑酷”,身手超越大部分人类

最近,有外媒报道,波士顿动力公司发布了一则关于Atlas机器人“跑酷”的视频。 在视频中,机器人Atlas小跑单腿跳过障碍物,甚至面对前面的盒子,可以来个非常炫酷的“三连跳”,跳跃高度40厘米。 Atlas来个完美…

波士顿动力人形机器人会后空翻了

11月17日消息,据外媒报道,波士顿动力(BostonDynamics)开发的人形机器人Atlas本来是一个笨重的人形机器人,现在会后空翻了。 Atlas在过去的几年里进步非常大,它不仅学会了后空翻,而且变得更加轻便…

波士顿动力机器人齐秀舞姿,这是要成团出道?

2020-12-30 18:40:34 机器之心报道 作者:杜伟、魔王 距波士顿动力被韩国现代收购不到一个月的时间,这家致力于「酷炫」机器人研发的公司放出了新的视频。这次人形机器人 Atlas、机器狗 Spot 和双轮机器人 Handle 齐上阵,大秀舞姿。 波士顿动…

这10个要上天的人形机器人,哪个符合你心目中的“人设”?

原文:人工智能机器人联盟 2017-04-15 你的办公室什么时候会出现人形机器人? 人形机器人的研究起步于1960年代后期,目标是解决人形机器人的双足行走问题。从最初的“左手右手慢动作”的低级阶段到今天已经侵入军事、航天、护理、娱乐等领…

「人形机器人」赛博梦碎,资本不为想象力买单

NEW 关注剁手日记视频号 最新视频→【暮云白版DJI Pocket 2来啦】 来源|深响 文|陈文琦 据报道,今年6月底,软银在重组旗下的机器人业务(Softbank Robotics),而且在2020年8月已经停产了其最负盛名…

技术解析 | 特斯拉为什么押注人形机器人“擎天柱”?

特斯拉本次发布的人形机器人“擎天柱”采用了与特斯拉相同的完全自动驾驶系统FSD (Full Self-Driving) 以及Autopilot相关神经网络技术,通过传感器和计算机视觉,利用海量数据持续训练,动态感知周围世界,做出更佳决策。 灵活的机械…

人形机器人汇总

1 波士顿Atlas 第3版Atlas采用电源供电和液压驱动。 头上的激光雷达定位器和立体摄像机可以使Atlas规避障碍物、探测地面状况以及完成巡航任务。 波士顿动力制造的机器人,除了双足人形机器人 Atlas,还有四足机器人 Spot 和两轮人形机器人 Handle。 2 …