LLM - 大模型 ScallingLaws 的指导模型设计与实验环境(PLM) 教程(4)

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://spike.blog.csdn.net/article/details/145323420

免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。

Scaling Laws (缩放法则) 是大模型领域中，用于描述模型性能(Loss) 与模型规模N、数据量D、计算资源C 之间关系的经验规律，揭示在大模型中，随着模型参数数量、数据集大小和计算资源的增加，模型性能的变化模式，指导更高效地分配资源，优化模型训练过程，实现更好的性能。这些规律不仅有助于预测不同规模模型的表现，还能为模型设计和训练提供理论依据，是推动大模型发展和应用的重要理论基础。

使用 ScalingLaws 指导模型设计，验证模型效果，超过根据经验设计的模型，以及介绍模型的训练环境与超参数。

系列文章：

大模型 ScallingLaws 的 C=6ND 公式推导
大模型 ScallingLaws 的 CLM 和 MLM 中不同系数
大模型 ScallingLaws 的迁移学习与混合训练
大模型 ScallingLaws 的指导模型设计与实验环境
大模型 ScallingLaws 的设计 100B 预训练方案

1. ScalingLaws 指导模型设计

验证根据 ScalingLaws 指导模型设计的效果：

ScalingLaws

根据 PLM 的 ScalingLaw 公式计算，CLM 模型，模型规模(N)是 $7.2 B$ ，数据量(D)是 $265 B$ ，计算量( $C$ ) 是 $1.14 \times 10^{22}$ ，即输入计算量，输出模型规模与数据量，公式如下：

$\begin{align} N &= (1.26 \times 10^{-3}) \times C^{0.578} \\ N &= 1.26 \times 10^{-3} \times (1.14 \times 10^{22})^{0.578} \\ &= 7.067 \times 10^9 \\ D &= (1.23 \times 10^{2}) \times C^{0.422} \\ D &= 1.23 \times 10^{2} \times (1.14 \times 10^{22})^{0.422} \\ &= 250 \times 10^9 \\ \end{align}$

Protein 的 CLM 模型公式，参考：大模型 ScallingLaws 的 CLM 和 MLM 中不同系数(PLM)，使用 Latex 计算数值，可以使用 SymboLab 工具。

根据 PLM 的 ScalingLaw 公式计算，MLM 模型，模型规模(N)是 $10.7 B$ ，数据量(D)是 $260 B$ ，计算量( $C$ ) 是 $1.68 \times 10^{22}$ ，即输入计算量为，输出模型规模与数据量，公式如下：

$\begin{align} N &= (6.19 \times 10^{-8}) \times C^{0.776} \\ N &= (6.19 \times 10^{-8}) \times (1.68 \times 10^{22})^{0.776} \\ &= 10.93 \times 10^9 \\ D &= (2.02 \times 10^{6}) \times C^{0.230} \\ D &= (2.02 \times 10^{6}) \times (1.68 \times 10^{22})^{0.230} \\ &= 261 \times 10^9 \\ \end{align}$

与表格的数值类似。

在 MLM 与 CLM+MLM 的对比实验中，根据 PLM 的 ScalingLaw 公式计算，MLM 模型规模(N)是 $470 M$ ，数据量(D)是 $106 B$ ，计算量( $C$ ) 是 $\times 10^{20}$ ，即输入计算量为，输出模型规模与数据量，计算结果 $103 \times 10^9 \sim 106B$ ，公式如下：

$\begin{align} N &= (6.19 \times 10^{-8}) \times C^{0.776} \\ N &= (6.19 \times 10^{-8}) \times (3 \times 10^{20})^{0.776} \\ &= 480 \times 10^6 \\ D &= (2.02 \times 10^{6}) \times C^{0.230} \\ D &= (2.02 \times 10^{6}) \times (3 \times 10^{20})^{0.230} \\ &= 103 \times 10^9 \\ \end{align}$
在 CLM+MLM 模型中，MLM 模型规模(N)是 $470 M$ ，计算量( $C$ ) 是 $\times 10^{20}$ 一致，数据量(D)是 $106 B$ 不同，计算结果 $18.83 \times 10^9 \sim 21B$ ，公式如下：

$\begin{align} D_{t} &= k \times \frac{1}{D_{f}^{\alpha}} \times \frac{1}{N^{\beta}} \\ &= 3.65 \times 10^5 \times \frac{1}{D_{f}^{-0.137}} \times \frac{1}{N^{-0.369}} \\ D_{t} &= 3.65 \times 10^5 \times \frac{1}{(85 \times 1024^3)^{-0.137}} \times \frac{1}{(480 \times 1024^2)^{-0.369}} \\ &= 18.83 \times 10^9 \end{align}$

与表格的数值类似。

2. ScalingLaws 模型效果

在 CLM 模型中，PROGEN2-xlarge(6.4B) 与 Our-7.2B 对比，在序列生成的困惑度(Perplexity)、结构预测的 pLDDT、FoldSeek 搜索的 TM-Score、聚类(Cluster) 的分布中，这 4 个领域的实验结果，Our-7.2B 都优于 PROGEN2-xlarge(6.4B)。如图：
CLM

在 MLM 模型中，ESM-2 (3B) 与 Ours-10.7B 对比，使用 LoRA 进行微调下游任务，包括接触预测(Contact Prediction)、折叠分类(Fold Classification)、荧光蛋白(Fluorescence) 的 Spearman 相似度，这 3 个领域的实验结果，Our-10.7B 都优于 ESM-2(3B)，同时，470M 模型的迁移学习优于从头训练。如图：
MLM

3. 实验参数

核心的实验参数，包括大规模数据集(UniMeta200B)、MLM的掩码率(Mask Ratios)、MLM的下游任务(Downstream)。

3.1 大规模数据(UniMeta200B)

验证大规模数据集(UniMeta200B) 的有效性，优于小批量数据的过采样(UR50/S)，采样方法包括 Bootstrap、Local Shuffle、Global Shuffle，即：

Bootstrap：从 UR50/S 数据集中有放回地处理了200B Tokens，在每个训练周期中，随机抽取数据集的 65%。
Local Shuffle：每个 Epoch 都使用全部的 UR50/S Tokens，进行 Shuffle。
Global Shuffle：将重复的全部 UR50/S Tokens，进行 Shuffle，分配至每个 Epoch。

UniMeta200B

3.2 掩码率(Mask Ratios)

验证 掩码率(Mask Ratios) 的超参，掩码率 10%~20% 的效果最好，最终选择 15% 的掩码率，同时，满足80-10-10 策略，在 15% 的掩码部分，其中 80% 替换成掩码，10% 随机替换、10% 保持不变，同时验证，下游任务中，也是 15% 掩码率最好，即：

Mask Ratios

3.3 下游任务(Downstream)

验证 MLM 与 CLM 在下游任务(downstream) 的效果，即接触预测(Contact Prediction)，显示相同计算量和相同的 Loss 情况下，MLM 优于 CLM，微调方法 LoRA 优于 Probing，即：

Downstream

P@L/5 即 Precision at L/5，其中 L 代表序列长度，计算的是在前 L/5 最高预测概率中，预测正常的比例。

4. ScalingLaws 实验环境

实验环境包括：

设备带有 NVLink 的 Ampere A100 GPU (80G)，GLM 框架，训练 1M(Million) 小时的 GPU，即 768 卡，训练 $\times 10^{6}h) / (768) / (24h/D) \approx 55D$
小模型(<2B) 只使用 数据并行(Data Parallelism)，没有使用模型并行(Model Parallelism) 和流水线并行(Pipeline Parallelism)。
改进的 Transformer 架构：DeepNorm + LayerNorm、激活函数 GeLU、位置编码 RoPE
其他：
1. FlashAttention
2. 余弦衰减策略(Cosine Decay Strategy) + 预热(Warm-Up) 2.5%
3. 序列长度1024 + <EOS>分隔符(Delimiter)
4. AdamW
5. BFloat16(Brain Floating Point 16-bit)
6. 迁移学习：忽略预训练优化状态、预热 5%。

使用带有 NVLink 的 Ampere A100 GPU (80G) 完成所有实验，基于 DeepSpeed 和 Megatron 开发的 GLM 框架，总共使用大约 1M(Million) 小时的 GPU 计算时间，小模型(<2B) 主要使用 数据并行(Data Parallelism)，没有使用模型并行(Model Parallelism) 和流水线并行(Pipeline Parallelism)，简化部署。

使用改进的 Transformer 架构：

(1) 使用 DeepNorm + LayerNorm，即：

$LayerNorm(\alpha \cdot x + Network(x))$

其中，缩放因子 $\alpha$ 的值为 $(2N)^{\frac{1}{2}}$ ， $N$ 是模型的层数，即层数越深，原始输入的权重越高，例如 $\times 70)^{\frac{1}{2}}=11.83$

(2) 使用 激活函数 GeLU，即：

$\begin{align} GeLU(x) &= x \cdot P(X<=x) = x \cdot \Phi(x) \\ GeLU(x) &= x \cdot \frac{1+erf(\frac{x}{\sqrt{2}})}{2} \end{align}$

其中， $\Phi(x)$ 是标准正态分布的累积分布函数(CDF)， $er f (x)$ 是高斯误差函数。

基于 Sigmoid 的近似公式，即：

$\approx x \cdot \sigma(1.702x)$

PyTorch 源码：

def gelu(x):return x * 0.5 * (1.0 + torch.erf(x / torch.sqrt(2.0)))

GeLU 图示：

GeLU

(3) 使用 位置编码 RoPE，即：

$PE_{(pos,k)} = cos(\frac{pos}{500000^{\frac{k}{d_{m}}}})+i\cdot sin(\frac{pos}{500000^{\frac{k}{d_{m}}}}) \\ \theta_{k} = \frac{1}{500000^{\frac{k}{d_{m}}}} \\ PE_{(pos,k)} = cos(pos \cdot \theta_{k})+i\cdot sin(pos \cdot \theta_{k})=e^{i \cdot pos \cdot \theta_{k}}$

RoPE 参考：理解旋转位置编码(RoPE)

(4) 使用 FlashAttention 加速训练过程，参考 FlashAttention 的 Safe-Softmax 与 One-Pass Tiling 计算

(5) 使用 余弦衰减策略(Cosine Decay Strategy)，最大学习率(LR) 经验范围是 $\times 10^{-4} \sim 1.2 \times 10^{-4}$ ，衰减至最大LR 的 0.1 倍，预热步数(warm-up) 是 2.5%。

(6) 序列长度设置为 1024，序列通过 <EOS>分隔符(delimiter) 进行拼接。

(7) 优化器使用 AdamW，参数更新，即：

$\begin{align} \theta_{t+1} &= \theta_{t} - \frac{\alpha}{\sqrt{v_{t}}+\epsilon} m_{t} - \lambda\theta_{t} \\ m_{t} &= \beta_{1}m_{t-1} + (1-\beta_{1}) \nabla L(\theta_{t-1}) \\ v_{t} &= \beta_{2}v_{t-1} + (1-\beta_{2}) \nabla L(\theta_{t-1})^{2} \\ \end{align}$

其中， $m_{t}$ 是一阶矩估计(Mean)， $v_{t}$ 是二阶距估计(Variance)， $\alpha$ 是学习率。

超参数包括 4 个，即 $\beta_{1}$ 是一阶矩衰减率(0.9)， $\beta_{2}$ 是二阶距衰减率(0.95)， $\epsilon$ 是小常数( $\times 10^{-8}$ )， $\lambda$ 是权重衰减系数(0.01)。

(8) 省略 Dropout，使用 BFloat16(Brain Floating Point 16-bit) 数据格式，即1位符号位、8位指数位、7位尾数位，FP16 是 1-5-10。BFloat16 比 FP16 的数值范围更大，精度降低，数值范围 $−3.4 \times 10^{38} \sim 3.4 \times 10^{38}$ ，即：

$\begin{align} BF16_{max} &= 2^{127} \times (1 + \frac{127}{128}) = 2^{127} \times 1.9921875 \approx 3.4 \times 10^{38} \\ BF16_{min} &= 2^{-126} \times \frac{1}{128} = 2^{-133} \approx 9.2 \times 10^{-41} \end{align}$