新审视零阶优化在内存高效大模型微调中的应用

人工智能咨询培训老师叶梓转载标明出处

随着大模型模型规模的增大，反向传播（BP）所需的内存开销也日益增加，这对内存效率提出了挑战。尤其是在设备上训练等内存效率至关重要的应用场景中，解决这一问题变得尤为迫切。

本文提出了一种新的方法，即在LLM微调过程中，采用零阶（Zeroth-Order, ZO）优化算法替代传统的需要反向传播的一阶（First-Order, FO）优化算法，以降低内存成本。这种BP-free的优化方法基于Malladi等人在2023年提出的初始概念。

论文地址：https://arxiv.org/abs/2402.11592

项目地址：https://github.com/ZO-Bench/ZO-LLM

方法

ZO优化作为一种不依赖梯度信息的替代方法，通过基于函数值的梯度估计来近似传统的一阶梯度。这种方法通常反映了其对应的一阶优化算法的算法框架，但它用ZO梯度估计替换了FO梯度作为下降方向。文中特别关注了随机梯度估计器（Randomized Gradient Estimator, RGE），这是一种依赖于沿随机选择的方向向量的函数值的有限差分的方法。

RGE的数学表达式，用来近似函数在点x处的梯度：这里，是从标准高斯分布中抽取的随机方向向量，q 是函数查询的数量，而 μ 是一个小的扰动步长。

前向梯度（Forward-Grad）是一种在LLM微调中可能被忽视的BP-free基线方法。与RGE不同，Forward-Grad利用前向模式自动微分（AD），但省去了在深度模型微调或训练中反向传播的需要。这意味着Forward-Grad不需要进行反向传播，因此可以作为提高LLM微调内存效率的另一种替代梯度估计方法。

ZO优化方法的范围包含： ZO-SGD是由Ghadimi和Lan在2013年提出的，它通过估计梯度来更新模型参数。Malladi等人在2023年的研究中采用了这种技术进行LLM的微调。基于符号的梯度估计的ZO-SGD（ZO-SGD-Sign），这种方法通过符号函数处理梯度估计，简化了计算过程。另外，带有动量（MMT）的ZO-SGD，它利用历史梯度信息来优化更新步骤，以及保守梯度更新的ZO-SGD（ZO-SGD-Cons），它在选择下降方向时采用一种基于启发式的方法。最后，ZO-Adam，这是Adam优化器的ZO变体，它结合了动量和自适应学习率。

通用的优化框架是将上述ZO优化方法统一起来，用于解决最小化问题 min_x f(x)。框架中的更新公式为：这里，表示第t次迭代的解，是学习率，而h(·) 是对梯度估计进行后处理的下降方向操作。例如，ZO-SGD可以直接将估计的梯度作为下降方向，而ZO-SGD-Sign则使用梯度估计的符号作为下降方向。

任务对齐指的是将微调任务与预训练任务的格式对齐，这通常通过精心设计的输入提示来实现。例如，可以将文本分类任务转换为下一个词预测任务，从而使得微调任务与预训练任务更加一致。这种对齐有助于提高ZO优化的性能。

使用预训练的Roberta-Large模型在SST2和RTE数据集上进行微调，并比较了使用和不使用文本对齐时的性能差异。结果表明，没有进行文本对齐时，ZO-SGD和ZO-Adam的性能分别下降了约10%和8%，而FO-SGD的性能下降较小。这表明任务对齐对于提高ZO优化的微调性能至关重要。

想要掌握如何将大模型的力量发挥到极致吗？叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。9月22日晚，实战专家1小时讲解让您轻松上手，学习如何使用 Llama Factory 微调模型。

加助理微信提供直播链接：amliy007，29.9元即可参加线上直播分享，叶老师亲自指导，互动沟通，全面掌握Llama Factory，关注享粉丝福利，限时免费CSDN听直播后的录播讲解。
LLaMA Factory 支持多种预训练模型和微调算法。它提供灵活的运算精度和优化算法选择，以及丰富的实验监控工具。开源特性和社区支持使其易于使用，适合各类用户快速提升模型性能。

实验

研究者选择了四个具有不同复杂性的任务：最简单的二元分类任务SST2，问答任务COPA，常识推理任务WinoGrande，以及多句阅读理解任务MultiRC（仅用于效率评估）。这些任务覆盖了从简单分类到复杂推理的多种场景。同时，研究者探索了四种参数高效的微调（PEFT）方案：全参数微调（FT）、低秩适应（LoRA）、前缀调整（Prefix）和提示调整（Prompt）。

研究涵盖了几种具有代表性的LLM，包括Roberta-Large、OPT、LLaMA2、Vicuna和Mistral，这些模型在规模和架构上有所不同。

优化方法：实验中使用了多种ZO优化方法，包括ZO-SGD、ZO-SGD-Sign、ZO-SGD-MMT、ZO-SGD-Cons和ZO-Adam。这些方法在处理梯度估计和参数更新时采用了不同的策略。例如，ZO-SGD直接使用估计的梯度进行更新，而ZO-SGD-Sign则使用梯度估计的符号。此外，还比较了基于前向模式自动微分的Forward-Grad方法，以及两种一阶（FO）优化器：SGD和Adam。

实验迭代：实验中，ZO优化器和FO优化器分别运行了20,000和625次迭代。这反映了ZO优化通常需要更多的迭代次数才能收敛。

精度和效率评估：通过测试准确性和效率（包括内存效率、查询效率和运行时效率）来评估不同优化方法的性能。

实验结果：