大模型微调技术(Adapter-Tuning、Prefix-Tuning、Prompt-Tuning(P-Tuning)、P-Tuning v2、LoRA)

        2022年11月30日,ChatGPT发布至今,国内外不断涌现出了不少大模型,呈现“百模大战”的景象,比如ChatGLM-6B、LLAMA、Alpaca等模型及在此模型基础上进一步开发的特定领域的大模型。今年3月15日,GPT-4发布后,也出现了一些多模态的大模型,比如百度的文心一言、讯飞星火认知大模型等等。

        要想训练一个针对特定领域的大模型,如果采用全量参数微调(Full Parameter Futuing)的方法,一方面需要大量的高质量数据集、另一方需要较高的算力,比如8块A100 80G GPU,甚至需要成百上千的GPU。一般的小企业或者高校研究所对此望而却步。

        那么,有没有不需要大量算力就能在特定领域数据上对大模型进行微调的方法呢?

        下面,给大家介绍几种常见的大模型微调方法:Adapter-Tuning、Prefix-Tuning、Prompt-Tuning(P-Tuning)、P-Tuning v2、LoRA。并介绍各种方法之间的效果对比。

1. Adapter-Tuning

        该方法出自2019年的论文“Parameter-Efficient Transfer Learning for NLP ”

        论文链接:https://arxiv.org/pdf/1902.00751.pdf

        github链接:GitHub - google-research/adapter-bert

        模型结构如上图左侧所示, 微调时冻结预训练模型的主体,由Adapter模块学习特定下游任务的知识。其中,Adapter模块结构如上图右侧所示,包含两个前馈层和一个中间层,第一个前馈层和中间层起到一个降维的作用,后一个前馈层和中间层起到升维的作用。

        Adapter调优的参数量大约为LM参数的3.6%。

2. Prefix-Tuning

        该方法出自2021年的论文“Prefix-Tuning: Optimizing Continuous Prompts for Generation”

        论文链接:https://arxiv.org/pdf/2101.00190.pdf

        github链接:GitHub - XiangLi1999/PrefixTuning: Prefix-Tuning: Optimizing Continuous Prompts for Generation

         上图展示了Full Parameter Finetuning与Prefix Tuning之间的区别,其中,红色部分是需要微调的参数,可以发现,Prefix Tuning只是在每个任务前有少量的prefix的参数,比如翻译任务,可以在每句话的前面加上“翻译:”来引导模型进行翻译功能。

        实验结果表明:

        (1)在完整的数据集上,Prefix-Tunning和Fine-Tuning在table-to-text上的结果是comparable的,而在summarization任务上,prefix-tuning的效果略有下降。但在low-data settings和unseen topics的情况下,Prefix-Tuning的效果更佳。

        (2)与Adapter-Tuning相比,Trefix-Tuning在相同的表现下只需调节更少的参数量。

        (3)不同的前缀长度有不一样的性能表现,在一定程度上长度越长,prefix的效果越明显,但也可能出现降低的问题。实验表明,prefix长度对推理速度影响不大,因为prefix上的attention是并行计算的。

        Prefix Tuning参数规模约为LM模型整体规模的0.1%。

3. Prompt-Tuning(P-Tuning)

        该方法出自论文2021年的论文“GPT Understands, Too”

        论文链接:https://arxiv.org/pdf/2103.10385.pdf

        github链接:https://github.com/THUDM/P-tuning

         上图展示了P-Tuning和Discrete Prompt Search之间的区别,也引出了P-Tuning提出的目的。因为离线的Prompt对于连续的神经网络只是次优解,prompt的词之间是彼此关联的,需要将其关联起来。于是,P-Tuning将一些伪prompt输入至LSTM中,然后利用LSTM的输出向量来替代原始的prompt token,然后一起输入至预训练语言模型中。而且,LSTM和随着预训练语言模型一起训练。

        论文中的实验结果表明:

        (1)基于bert-base模型,在5/7的数据集上,P-tuning的效果比finetune等更好。
        (2)基于gpt模型,在全部的数据集上,P-tuning的效果都比finetune等更好。
        (3)对比gpt-base和bert-base,在6/7的数据集上,基于P-tuning,gpt-base的效果都更好。
        (4)在自然语言理解任务上,双向模型比单向模型更好。
 

4. P-Tuning v2

        该方法出自于2022年的论文“P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks”

        论文链接:https://arxiv.org/pdf/2110.07602.pdf

        github链接:GitHub - THUDM/P-tuning-v2: An optimized deep prompt tuning strategy comparable to fine-tuning across scales and tasks

         上图中,左侧为P-Tuning,右侧为P-Tuning v2。P-Tuning v2与P-Tuning的不同之处在于:将只在第一层插入continuous prompt修改为在许多层都插入continuous prompt,层与层之间的continuous prompt是相互独立的。

        P-Tuning v2与Prefix-Tuning的改进之处在于,除了输入的embedding外,其它的Transformer层也加了前置的prompt。

        做出这种改进的原因:

        (1)先前的工作显示,Prompt tuning在normal-sized的预训练模型上效果一般。

        (2)现有的Prompt tuning方法在较难的文本序列问题上效果不好。

        经过这样的改进,模型可训练参数的量从0.01%增加到了0.1%~3%。

        实验结果表明:

        (1)P-tuning V2可以与传统Fine-tuning有差不多的效果。

        (2)Multi-task P-tuning V2效果更好,分析认为可能是变相的数据增强带来的影响。 

        (3)在不同的任务上的表现和prompt的长度有关系。

        (4)对LSTM/MLP层的重新参数化不一定有效,取决于任务和数据集。

5. LoRA

        LoRA(Low-Rank Adaptation)出自2021年的论文“LoRA: Low-Rank Adaptation of Large Language Models”

        论文链接:https://arxiv.org/abs/2106.09685

        github链接:https://github.com/microsoft/LoRA

   

        LoRA技术冻结预训练模型的权重,并在每个Transformer块中注入可训练层(称为秩分解矩阵),即在模型的Linear层的旁边增加一个“旁支”A和B。其中,A将数据从d维降到r维,这个r是LoRA的秩,是一个重要的超参数;B将数据从r维升到d维,B部分的参数初始为0。模型训练结束后,需要将A+B部分的参数与原大模型的参数合并在一起使用。

        LoRA微调的优点包括:

        (1)训练速度更快。

        (2)计算需求更低。

        (3)训练权重更小。

参考文献:

1.预训练模型微调 | 一文带你了解Adapter Tuning - 知乎  

2.论文阅读:Prefix-Tuning - 知乎 

3.Prefix-Tunning - 知乎 

4.【自然语言处理】【Prompt】P-tuning_BQW_的博客-CSDN博客  

5.P-tuning v1 v2_开心的火龙果的博客-CSDN博客 

6.P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks_Tsukinousag1的博客-CSDN博客

7.LoRA模型是什么?_黑风风的博客-CSDN博客  

8.LoRA: Low-Rank Adaptation of Large Language Models 简读 - 知乎  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37092.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FP独立站卖家怎么解决收款问题?挑选支付公司有何关注点?

2023年是充满希望又充满挑战的一年。这一年,新冠肺炎疫情恢复,经济慢慢复苏,对做跨境电商的卖家来说是个不错的机遇;但由于chatgpt人工智能的出现,F牌网站被检测出来的几率大大提高……让F牌独立站卖家最头疼的是&…

2023年8大公司数据泄露事件

数据安全一直是社会关注的热点问题,数据泄露事件的披露始终占据媒体的头条榜首。随着大数据、互联网、5G的迅速发展,为人类带来无限发展机遇的同时,也催生了大量的信息泄露事件。 当发生数据泄露事件时,他们攻破企业网络防线&…

AI浪潮下,企业如何保障数据安全,不泄露

随着数字经济蓬勃发展,数据对于企业的价值与重要性不断攀升,随之而来的数据安全风险也不断涌现。再加上ChatGPT诞生,推动ai算力技术大步跃进,而算力提升的背后是史诗量级规模的数据投入,数据量越大,用户数据…

奇瑞汽车回应要求员工周六上班:本意不是压榨员工;Google发布史上最大通才模型PaLM-E;Chrome 111发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

杭州一公司开20万月薪抢AIGC算法工程师;SpaceX「星舰」发射任务失败;华为宣布实现ERP自主可控,突破封锁|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

小心你的 OpenAI Key 被盗!

公众号关注 “GitHubDaily” 设为 “星标”,每天带你逛 GitHub! 今年随着 ChatGPT 发布,其强悍的能力也让 GPT-3.5/4 成为炙手可热的大语言模型,使得不少 AI 应用接入了 OpenAI 接口。当用户使用这些应用时,经常需要填…

百川智能王小川:大模型创业100天,我确认找到了属于我的「无人区」

4 月,王小川宣布下场,成立大模型公司「百川智能」。 6 月,百川智能发布 70 亿参数开源大模型,Baichuan-7B。 7 月,百川智能发布 130 亿参数开源大模型,Baichuan-13B。 两款模型在各种测评上都有不错的表现&…

看这里!解决你对“移动云杯”大赛的所有困惑

对于第二届“移动云杯”大赛 你是否还有很多问号? 不慌 跟着来看下面的大赛Q&A 解决你所有的困惑~ 本次Q&A主要用于解答大赛报名阶段基础问题,针对技术问题大赛组委会将在搜集用户开发问题后在社区论坛发布技术版FAQ,如还有其他问题可…

信号明确简单 顶底指标公式 通达信 副图 源码

顶底指标公式其实就是很简单,就是在股票价格最低时提示买入,逢高时显示抛售信号,但是顶底指标公式,很多人都会怀疑买卖信号出现的准确性,不多说,看下面解释吧。 【指标原理】 1、出现买入信号&#xff0c…

MACD神器 通达信指标公式 副图 源码 无加密 无未来

指标公式描述 MACD指标是人们喜欢的一个经典传统指标。MACD是用的最多的指标,有交易的地方都能看到他。但是又有多少人能够真正搞懂了这个指标,大部分人都是用来看个趋势就没有下文了。MACD看透主力这个指标能够帮助你看的更准,卖的更好&…

股票指标php源码,股票软件通达信精品指标公式-MACD转折点指标源码

公式源码: DIFF:(EMA(C,12)-EMA(C,26))*20,COLORWHITE,LINETHICK1; DEA:EMA(DIFF,9),COLORYELLOW,LINETHICK1; MACD1:2*(DIFF-DEA),NODRAW; MACD2:EMA((3*MACD12*REF(MACD1,1)REF(MACD1,2))/6,1); STICKLINE(MACD1>MACD2 AND MACD1>0,0,MACD1,0,0),COLORRED; …

分时图均价线计算公式源码,可以加载到K线图

一、分时图均价线简介 分时图其实就是1分钟图,但是和1分钟K线图有区别。分时图是以收盘价连成的线,但是1分钟K线图是以开高低收的K线形成的图形。如果把主图切换成收盘价,那么图形和分时图就一样了。 分时图上,除了以1分钟收盘价…

RSI指标各种买卖信号公式源码分享

相对强弱指数RSI是目前流行最广,使用最多的技术指标之一,他是技术分析大师威尔德创造的。RSI之所以流行最广,是因为他不但可以应用在股票市场,在期货和外汇市场也有较好的应用。 RSI是以一特定时期内股价的变动情况来推测价格未来…

基金买卖波段指标 主图 源码 效果图

使用说明: 适用同花顺软件使用,别的软件用要改编。 有未来。 效果图: 直接复制以下源代码,在公式管理器中新建指标公式,复制进去就可以用了(仅供参考): MA5:MA(CLOSE,5),ColorCCC…

Html5版全套股票行情图开源了

请使用支持html5的浏览器查看,推荐使用google chrom或者ipad体验,ie6,7,8都不支持html5 powered by yukaizhao K线图 滑块控制 K线图 触摸控制 请使用ipad体验效果 大分时图 小分时图 交易分析图 成交额分析图 交易分析图 项目地…

通达信波段主图指标公式,源码简洁原理却不简单

通达信波段主图指标公式的核心语句也就4句&#xff0c;后面的语句都是为了画图的。公式看起来比较简单&#xff0c;原理也比较巧妙&#xff0c;但是理解起来有些困难。 直接上源码&#xff1a; HH:HHV(H,5); LL:LLV(L,5); TH:BARSLAST(H>REF(HH,1)); TL:BARSLAST(L<REF(…

史上最全股票指标图文详解

目录 1、成交量&#xff08;VOL&#xff09;指标&#xff1a; 2、成交额指标&#xff1a; 3、MACD指标&#xff08;指数平滑异动平均数&#xff09;&#xff1a; 4、资金博弈&#xff1a; 5、资金趋势&#xff1a; 7、DDX&#xff1a; 8、DDY&#xff1a; 9、DDZ&#xff…

通达信反映资金变化资金趋势的指标公式源码

源代码&#xff1a; M:55; N:34; LC:REF(CLOSE,1); RSI:((SMA(MAX((CLOSE - LC),0),3,1) / SMA(ABS((CLOSE - LC)),3,1)) * 100); FF:EMA(CLOSE,3); MA15:EMA(CLOSE,21); VAR1:IF(YEAR>2038 AND MONTH>1,0,1); VAR2:REF(LOW,1)*VAR1; VAR3:SMA(ABS(LOW-VAR2),3,…

短期趋势自用经传捕捞季节 通达信指标公式副图 源码 贴图

指标公式描述 短期趋势自用经传捕捞季节 通达信指标公式副图 源码 贴图 图示: 指标源码&#xff1a; WY1001:(2*CLOSEHIGHLOW)/4; WY1002:EMA(WY1001,2); WY1003:EMA(WY1002,2); WY1004:EMA(WY1003,2); XYS0:(WY1004-REF(WY1004,1))/REF(WY1004,1)*100; STICKLINE(XYS0>0,X…

最准通达信强势顶底指标公式 副图 源码

【指标优势】 用波段表示股票走势情况&#xff0c;买卖信号提示明显&#xff0c;出现频率高且准确性高。 【指标劣势】 买点信号不是每次股票上涨都会出现&#xff0c;但是大涨基本都出现信号提示。 【指标用法】 黄色波段买入蓝色波段卖出。有“买”字提示就是买点信号&a…