lora:low-rank adaption of large language models

THUNLP 领读 ICLR 低秩微调大模型(LoRA)【OpenBMB论文速读】第3期_哔哩哔哩_bilibili💡用脑图!⏰十分钟!OpenBMB【论文速读】第3 期来了!本期领读人是清华大学自然语言处理实验室的本科生,带大家高效读完一篇关于“ 低秩微调 ”的大模型顶会论文🛎:LoRA: Low-Rank Adaptation of Large Language Models (ICLR 2022),如果大家觉得有帮助,欢迎一键三连~ 你的支持是我们制作的动力💕, 视频播放量 1201、弹幕量 0、点赞数 86、投硬币枚数 17、收藏人数 42、转发人数 4, 视频作者 OpenBMB, 作者简介 OpenBMB开源社区 大模型课程 AI最前沿 QQ群:735930538 公众号“OpenBMB开源社区”,相关视频:清华博后带你轻松吃透Prompt Tuning顶会大模型论文【OpenBMB论文速读】第 1 期,清华刘知远大模型十问,清华博后带读ACL提示预训练大模型论文【OpenBMB论文速读】第 2 期,会Excel 就能玩转大模型?你不知道的「模力表格」!,基于bert模型的NLP自然语言处理实战,原理+源码+论文解读,计算机博士带你吃透NLP!,太强了!Transformer保姆级教程,9小时终于学会了从零详细解读模型!自注意力机制/自然语言处理/Transformer代码/Transformer原理,【免费AI神器】劲爆标题自动生成?建议全网小编火速前往收藏,OpenPrompt:大模型提示学习利器【OpenBMB大模型工具箱】,93小时我居然就学会了自然语言处理教程!不愧是京东智联云的NLP顶级教程,将自然语言处理核心技术、基础知识、论文解读、代码复现讲的如此透彻!,NextHuman 1.3版本智能数字员工解决方案上线, 你想要有整合知识库+chatGPT的企业数字员工为你服务吗?https://www.bilibili.com/video/BV1Xg411473w/?spm_id_from=333.999.0.0&vd_source=4aed82e35f26bb600bc5b46e65e25c22

lora本质是对大模型微调的方法,

nlp处理的一个重要例子是对一般领域数据的大模型对特定任务或领域的适应。当预训练大模型很大时,重新训练所有模型参数的微调变得不可太行,例如gpt3的175B。提出的lora采用低秩分解矩阵,冻结了预训练模型的权重,并将低秩分解矩阵注入到transformer的每一层,减少了训练参数量。

如上图所示们对于某个线性层而言,左边是模型原有的参数,在训练过程中是冻结不变的,右边是lora方法增加的低秩分解矩阵。训练过程中,优化器只优化右边这一部分的参数,两边的矩阵会共用一个模型的输入,分别进行计算,最后将两边的计算结果相加作为模块的输出。不同于之前的参数高效微调的adapter,adapter是在模块的后面接上一个mlp,对模块的计算结果进行一个后处理,而lora是和模块的计算并行的去做一个mlp,和原来的模块共用一个输入。

根据之前的一些工作,发现大模型其实是过参数化的, 有更小的一个内在维度,于是文章做了一个假设,模型在任务适配过程中,参数的改变量是低秩的,在训练过程中,lora单独去学习这个改变量,而不是去学习模型的参数,通过把最终训练得到的参数分解为原参数W0和该变量deltaW进行相加,论文假设deltaW是低秩的,把deltaW进一步拆分为低秩矩阵A和低秩矩阵B,如图1所示,而在推理的过程中,由于模型参数已经固定不再变动,这时候把模型的改变量直接放到模型里,这样在推理的计算过程中,就避免了一次额外的矩阵乘法开销。就是想repvgg重参数化这样的操作,推理是改变量是直接加到原路径中的。在切换不同推理任务时,只需要从模型参数里减去当前任务的该变量,再换上新任务的改变量即可。

理论上lora可以支持任何线性层,包括transformer中的4个attention矩阵和2个feed forward中的矩阵,论文旨在attention上做了实验,它限制总参数量不变的情况下观察是在attention其中一个矩阵上,放一个更高秩的lora,还是在多个attention的矩阵上,分别放置低秩一点的lora效果好?结论是把秩分散到多个矩阵上,效果会优于集中在单个上的效果。至于在一般任务上很小的秩就可以和很大秩的效果,这也证明了作者一开始做出的改变量低秩的假设。

初始化一开始右边为0,也就意味着模型优化的初始点就和原本的大模型能够保持一致,这一点和controlnet中的zero convolution是一致的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/14760.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT训练流程复现

本篇文章着重于chatGPT训练流程的复现 来自:无数据不智能 进NLP群—>加入NLP交流群 环境安装 虚拟环境创建 conda create -n chatgpt python3.10 conda activate chatgpt 依赖包安装 git clone https://github.com/LAION-AI/Open-Assistant.git cd Open-Assista…

【试用科研好物】GPT辅助科研神器?AI助力科研?ChatPDF、有道速读

前言 近期需要阅读的论文很多,偶然间在微博刷到许多人推荐科研利器ChatPDF和有道速读。使用后的结论是不推荐使用,下面分别给出理由。 使用&评价 网页版,无需安装任何东西,两款都支持中文。 ChatPDF有道速读 下面太长不看…

10分钟读完《富爸爸穷爸爸》,用ChatGPT速读100本致富经典

你好,我是赤辰。本栏目是每天借助ChatGPT速读1本商业书籍或致富经典,让大家以最短时间汲取到优质书籍中的精华内容和核心思想,本期要给大家解读是致富经典《富爸爸穷爸爸》。 本篇读书笔记全程由ChatGPT辅助阅读,并按照核心观点-…

用ChatGPT速读100本致富经典 |《贫穷的本质》且得出解决方案

你好,我是赤辰。本栏目是每天借助ChatGPT速读1本商业书籍或致富经典,让大家以最短时间汲取到优质书籍中的精华内容和核心思想,本期要给大家解读是《贫穷的本质》。 本篇读书笔记全程由ChatGPT辅助阅读,并按照核心观点-重要引述-结…

10分钟读完《刻意练习》,用ChatGPT速读100本致富经典

本篇读书笔记全程由ChatGPT辅助按照核心观点-重要引述-结论-行动建议来完成阅读,并输出笔记,通过用AI读完一本书只耗时20分钟,能生成约2000字笔记; 书名:《刻意练习》 作者:埃里克乔根森 出版日期&#x…

10分钟读完《原则》精华,用ChatGPT速读100本致富经典

你好,我是赤辰。本栏目是每天借助ChatGPT速读1本商业书籍或致富经典,让大家以最短时间汲取到优质书籍中的精华内容和核心思想,本期要给大家解读是黑石集团创始人瑞达利欧写的《原则》。 本篇读书笔记全程由ChatGPT辅助阅读,并按照…

ChatGPT之后,下一代大型语言模型在哪里?

OpenAI 首席执行官 Sam Altman(左)和 Meta AI 首席执行官 Yann LeCun(右)对未来有不同看法... 来源:学术头条 【编者按:ChatGPT的爆火,让大语言模型受到了人们的关注,然而这些来自不…

【MARK】搜索引擎汇总

1、除了Google,百度外的搜索引擎 基于笔点的自制导航页 https://www.bidianer.com/searchx 通用搜索引擎☞ Bing,微软必应,壁纸不错。 Ecosia,可以作为Bing搜索国际版。 F搜,据说是谷歌中文版,偶尔抽风…

借用百度翻译,用pyqt5 搞定pdf和word文档翻译,排版基本不变,免费好用

以下内容均来自微信公众号:万能搜吧,关注获取更多干货分享。 其实写软件测评写多了,就知道哪些需求是刚需,今天说的是文档翻译的需求,这种需求是比如将英文的PDF论文全部翻译成中文,而且最好排版不受影响。…

Chat Support Board WordPress聊天插件 v3.5.8

功能列表 支持和聊天功能 Slack聊天完全同步 - 直接从Slack发送和接收用户信息。 立即工作 - 只需插入短码,即可立即安装和使用。 丰富的信息 - Dialogflow机器人发送丰富的信息。 机器人--集成一个由API.AI驱动的多语言机器人。 电子邮件通知 - 当收到回复时&#…

成本降低90%,OpenAI正式开放ChαtGΡΤ

今天凌晨,OpenAI官方发布ChαtGΡΤ和Whisper的接囗,开发人员现在可以通过API使用最新的文本生成和语音转文本功能。OpenAI称:通过一系列系统级优化,自去年12月以来,ChαtGΡΤ的成本降低了90%;现在OpenAI用…

​乐视回应四天半工作制:体感非常好;OpenAI CEO 否认在训练 GPT-5;iOS 17 或增加更多灵动岛功能|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

WAIC 2023 | 拥抱大模型,助力无障碍,小米展望AI新业态

“智联世界,生成未来”,7月6日至8日,第六届世界人工智能大会(WAIC 2023)在上海举办。4位图灵奖得主与80多位国内外院士等1400位嘉宾齐聚一堂,共同探讨人工智能赋能产业发展的全新变化,展望技术新…

掘金AIGC时代,开发者更需要什么样的大模型?

当前,火热的AI大模型领域需要一些冷思考。 自去年年底ChatGPT掀起一轮AIGC热潮以来,国内科技企业扎堆发布大模型和类ChatGPT产品。截止2023年4月,已公开宣布发布或即将发布AI大模型的企业达数十家。多模态大模型的能力不断迭代,市…

智算领域惊现AI大变局,ChatGPT催生行业大洗牌

ChatGPT席卷而来, GPU需求过猛引发缺货涨价潮 【全球云观察 | 热点关注】百度已不是中国第一大桌面搜索引擎,这个消息来自美国数据研究机构Statcounter公布的最新统计数据分析结果。 2023年4月,微软旗下搜索引擎必应&#xff08…

Azure OpenAI 详细申请与使用教程,打造个人专属 ChatGPT 方案

Azure OpenAI 详细申请与使用教程,打造个人专属 ChatGPT 方案 原创 TitiAI TitiAI 2023-05-08 13:26 发表于湖北 前言 大家都知道,OpenAI ChatGPT是不能在中国使用的,香港也一样。最近一个月,很多人反映API调用限制&#xff0c…

14.3.16南山公园游

14.3.16班级团日活动,爬南山活动 一直以来对团日活动没太大兴趣,只是为了支持活动,积极参与。这次借着初春,阳光明媚,和同学一起去南山公园。烟台动物园就在那,我们拿了学生证,每人20元&#xf…

南山科技园的IDC机房怎么样?

南山科技园的IDC机房怎么样? 华科数据中心机房地址位于深圳市南山区粤兴三道9号华中科技大学深圳产学研基地A座1楼,总计有100G骨干网出口带宽,机房建筑面积约3000㎡,机房于2018年7月正式对外开放,机房一期1楼右侧约300…