“LoRA技术中参数初始化策略：为何A参数采用正态分布而B参数初始化为0”

“LoRA技术中参数初始化策略：为何A参数采用正态分布而B参数初始化为0”

news/2025/2/1 18:34:23/文章来源:https://blog.csdn.net/weixin_41544125/article/details/145405894

在LoRA（Low-Rank Adaptation）中，参数A和B的初始化策略是经过精心设计的，以确保模型训练的稳定性和有效性。具体来说，参数A通常被初始化为正态分布，而参数B则初始化为0。这样的设计有以下几个优点：

保持原始模型行为：当B初始化为0时，新增的部分对原始权重的影响为零，从而不会破坏预训练模型的初始性能。这允许模型在训练初期完全保持原始模型的行为，从而为学习差异提供了一个平滑的起步。
确保初始梯度的有效传播：正态分布初始化有助于在训练初期确保梯度有效传播，避免梯度消失或爆炸的问题。
提供足够的随机性：正态分布的随机初始化为模型提供了足够的随机性，从而能够探索更广泛的参数空间，增加了模型找到最优解的可能性。
平衡训练初期的影响：正态分布初始化的值一般较小，结合B初始化为零矩阵，可以在训练初期确保新增的偏置矩阵对原始预训练权重的影响为零，从而避免破坏预训练模型的初始性能。
避免梯度消失：如果B和A全部初始化为零矩阵，缺点是很容易导致梯度消失。
避免过多噪声：如果B和A全部正态分布初始化，那么在模型训练开始时，就会容易得到一个过大的偏移值，从而引起太多噪声，导致难以收敛。

综上所述，LoRA中参数A的正态分布初始化和参数B的零初始化是为了在保持预训练模型性能的同时，有效地引入新的参数进行微调，从而实现模型的高效适应新任务。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/10537.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Oracle Primavera P6自动进行进度计算

Oracle Primavera P6自动进行进度计算

前言在P6 Professional 有一个自动计划计算的选项，很多人不了解该设置如何使用，以及什么时候该启动这项配置。详情 P6 Professional 默认为非自动进度计算。启用自动选项后，可以快速查看调度更改的效果。如图所示，当你…

阅读更多...

反射、枚举以及lambda表达式

反射、枚举以及lambda表达式

一.反射 1.概念：Java的反射（reflection）机制是在运行状态中，对于任意一个类，都能够知道这个类的所有属性和方法；对于任意一个对象，都能够调用它的任意方法和属性，既然能拿到那么&am…

阅读更多...

【Proteus仿真】【51单片机】简易计算器系统设计

【Proteus仿真】【51单片机】简易计算器系统设计

目录一、主要功能二、使用步骤三、硬件资源四、软件设计五、实验现象联系作者一、主要功能 1、LCD1602液晶显示 2、矩阵按键 3、可以进行简单的加减乘除运算 4、最大 9999*9999 二、使用步骤系统运行后，LCD1602显示数据，通过矩阵按键…

阅读更多...

HarmonyOS简介：HarmonyOS核心技术理念

HarmonyOS简介：HarmonyOS核心技术理念

核心理念一次开发、多端部署可分可合、自由流转统一生态、原生智能一次开发、多端部署可分可合自由流转自由流转可分为跨端迁移和多端协同两种情况统一生态支持业界主流跨平台开发框架，通过多层次的开放能力提供统一接入标准，实现三方框架快速…

阅读更多...

(即插即用模块-特征处理部分) 十九、(NeurIPS 2023) Prompt Block 提示生成 / 交互模块

(即插即用模块-特征处理部分) 十九、(NeurIPS 2023) Prompt Block 提示生成 / 交互模块

文章目录 1、Prompt Block2、代码实现 paper：PromptIR: Prompting for All-in-One Blind Image Restoration Code：https://github.com/va1shn9v/PromptIR 1、Prompt Block 在解决现有图像恢复模型时，现有研究存在一些局限性： 现有…

阅读更多...

Day24-【13003】短文，数据结构与算法开篇，什么是数据元素？数据结构有哪些类型？什么是抽象类型？

Day24-【13003】短文，数据结构与算法开篇，什么是数据元素？数据结构有哪些类型？什么是抽象类型？

文章目录 13003数据结构与算法全书框架考试题型的分值分布如何？ 本次内容概述绪论第一节概览什么是数据、数据元素，数据项，数据项的值？什么是数据结构？分哪两种集合形式（逻辑和存储）&#xff1f…

阅读更多...

使用 MSYS2 qemu 尝鲜Arm64架构国产Linux系统

使用 MSYS2 qemu 尝鲜Arm64架构国产Linux系统

近期，我的师弟咨询我关于Arm64架构的国产CPU国产OS开发工具链问题。他们公司因为接手了一个国企的单子，需要在这类环境下开发程序。说实在的我也没有用过这个平台，但是基于常识，推测只要基于C和Qt，应该问题不大。 1. …

阅读更多...

unity学习21：Application类与文件存储的位置

unity学习21：Application类与文件存储的位置

目录 1 unity是一个跨平台的引擎 1.1 使用 Application类，去读写文件 1.2 路径特点 1.2.1 相对位置/相对路径： 1.2.2 固定位置/绝对路径： 1.3 测试方法，仍然挂一个C#脚本在gb上 2 游戏数据文件夹路径（只读&…

阅读更多...

【Redis】hash 类型的介绍和常用命令

【Redis】hash 类型的介绍和常用命令

1. 介绍 Redis 中存储的 key-value 本身就是哈希表的结构，存储的 value 也可以是一个哈希表的结构这里每一个 key 对应的一个哈希类型用 field-value 来表示 2. 常用命令命令介绍时间复杂度 hset key field value 用于设置哈希表 key 中字段 field 的值为…

阅读更多...

基于51单片机和WS2812B彩色灯带的流水灯

基于51单片机和WS2812B彩色灯带的流水灯

目录系列文章目录前言一、效果展示二、原理分析三、各模块代码四、主函数总结系列文章目录前言用彩色灯带按自己想法DIY一条流水灯，谁不喜欢呢？ 所用单片机：STC15W204S （也可以用其他1T单片机，例如，S…

阅读更多...

力扣017_最小覆盖字串题解----C++

力扣017_最小覆盖字串题解----C++

题目描述我们可以用滑动窗口的思想解决这个问题。在滑动窗口类型的问题中都会有两个指针，一个用于「延伸」现有窗口的 r 指针，和一个用于「收缩」窗口的 l 指针。在任意时刻，只有一个指针运动，而另一个保持静止。我们在 s 上滑动…

阅读更多...

如何从客观角度批判性阅读分析博客

如何从客观角度批判性阅读分析博客

此文仅以个人博客为例，大量阅读朋友反馈给我的交流让我得知他们所理解我的博客所表达的意思并非我所想表达的，差异或大或小，因人而异。观点与事实只有从客观角度反复批判性阅读和分析，才能逐渐清晰观点和事实。观点不等于事实…

阅读更多...

深入理解MySQL 的索引

深入理解MySQL 的索引

索引是一种用来快速检索数据的一种结构, 索引使用的好不好关系到对应的数据库性能方面, 这篇文章我们就来详细的介绍一下数据库的索引。 1. 页面的大小: B 树索引是一种 Key-Value 结构，通过 Key 可以快速查找到对应的 Value。B 树索引由根页面（Root&am…

阅读更多...

Spring Boot项目如何使用MyBatis实现分页查询及其相关原理

Spring Boot项目如何使用MyBatis实现分页查询及其相关原理

写在前面：大家好！我是晴空๓。如果博客中有不足或者的错误的地方欢迎在评论区或者私信我指正，感谢大家的不吝赐教。我的唯一博客更新地址是：https://ac-fun.blog.csdn.net/。非常感谢大家的支持。一起加油，冲鸭&#x…

阅读更多...

LabVIEW温度修正部件测试系统

LabVIEW温度修正部件测试系统

LabVIEW温度修正部件测试系统这个基于LabVIEW的温度修正部件测试系统旨在解决飞行器温度测量及修正电路的测试需求。该系统的意义在于提供一个可靠的测试平台，用于评估温度修正部件在实际飞行器环境中的性能表现，从而确保飞行器的安全性和可靠性。系统…

阅读更多...

动态规划每日一练（四）

动态规划每日一练（四）

一、day1——最长数对链题目链接： 646. 最长数对链 - 力扣（LeetCode）646. 最长数对链 - 给你一个由 n 个数对组成的数对数组 pairs ，其中 pairs[i] [lefti, righti] 且 lefti < righti 。现在，我们定义一种跟随…

阅读更多...

对比category_encoders库和sklearn库中的OrdinalEncoder

对比category_encoders库和sklearn库中的OrdinalEncoder

OrdinalEncoder 是用来对数据中的分类特征进行编码、转换为整数标签的函数。 category_encoders库 from category_encoders import OrdinalEncoder 安装：pip install category_encoders --trusted-host pypi.tuna.tsinghua.edu.cn（记得关闭代理&#x…

阅读更多...

$【PLL】杂散生成和调制$

【PLL】杂散生成和调制

时钟生成 --》数字系统 --》峰值抖动频率生成 --》无线系统 --》频谱纯度、周期信号的相位不确定性随机抖动（random jitter, RJ）确定性抖动（deterministic jitter,DJ） 时域频域随机抖动积分相位噪声确定性抖动边带杂散生成和…

阅读更多...

理解神经网络：Brain.js 背后的核心思想

理解神经网络：Brain.js 背后的核心思想

温馨提示这篇文章篇幅较长，主要是为后续内容做铺垫和说明。如果你觉得文字太多，可以：先收藏，等后面文章遇到不懂的地方再回来查阅。直接跳读，重点关注加粗或高亮的部分。放心，这种“文字轰炸”不会常有的，哈哈~ 感谢你的耐心阅读！😊 欢迎来到 brain.js 的学习之旅！…

阅读更多...

Ubuntu下的Doxygen+VScode实现C/C++接口文档自动生成

Ubuntu下的Doxygen+VScode实现C/C++接口文档自动生成

Ubuntu下的DoxygenVScode实现C/C接口文档自动生成 Chapter1 Ubuntu下的DoxygenVScode实现C/C接口文档自动生成1、 Doxygen简介1. 安装Doxygen1）方法一：2）方法二：2. doxygen注释自动生成插件3. doxygen注释基本语法4. doxygen的生成…

阅读更多...

最新文章

推荐文章