LLM - 大模型 ScallingLaws 的 CLM 和 MLM 中不同系数(PLM) 教程(2)

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://spike.blog.csdn.net/article/details/145188660

免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。

Scaling Laws (缩放法则) 是大模型领域中，用于描述模型性能(Loss) 与模型规模N、数据量D、计算资源C 之间关系的经验规律，揭示在大模型中，随着模型参数数量、数据集大小和计算资源的增加，模型性能的变化模式，指导更高效地分配资源，优化模型训练过程，实现更好的性能。这些规律不仅有助于预测不同规模模型的表现，还能为模型设计和训练提供理论依据，是推动大模型发展和应用的重要理论基础。

论文：ESM3 - Simulating 500 million years of evolution with a language model

在蛋白质大语言模型(Protein Language Model, PLM) 方向，使用数据集约 200B Tokens (AA氨基酸)，基于 C=6ND，以及 Loss 与模型规模(N) 的 IsoFLOPs 曲线，确定 FLOPs 与模型规模(N)、FLOPs 与数据量(D) 之间的关系，构建 ScalingLaws 公式，验证不同目标 CLM(Causal Language Model) 与 MLM(Masked Language Model) 的系数差异，即给定计算量C的情况下，确定最优模型规模N、最优数据量D。其中，计算出的公式：

$\begin{align} C_{CLM} &= 6.45 \times N \times D \\ C_{MLM} &= 5.98 \times N \times D \end{align}$

参考：大模型 ScallingLaws 的 C=6ND 公式推导

1. 数据集(D)

数据扩展(Scaling up data)，构建蛋白质序列的数据集 200B Tokens ，即 UniMeta200B，其中序列 939M (即9亿)，Tokens 是194B (即1940亿)，即平均序列长度 215，用于验证 Scaling Laws 以及预训练。

UR50/S：Uniref50 默认数据集，以最大相似度 50% 聚类。
Uniref90/50：Uniref90 默认数据集，以最大相似度 90% 聚类，去除 Uniref50 数据。
ColabFoldDB: 宏基因组数据源，以最大相似度 30% 聚类，c 表示 cluster，聚类中心，m 表示 member，聚类成员。

即：

Data

参考：GitHub - Availability of UR50/S, UR50/D also UR100/S and UR100/D

UR50/S 是从 Uniref 下载的 UR50 数据集。UR50/D 对于 UR50/S 中的每个聚类进行采样，然后在每个训练迭代中，对聚类中的每个序列进行采样，可以从聚类成员文件中，创建。因此，UR50/D 的数据量大于 UR50/S。

通过实验可知，证明数据量对于不同模型参数量的影响：

使用 UR50/S 数据集(即 54M Seq., 5.2B Tokens) 与 3B 模型，即小数据和大模型，在 MLM 模型导致严重的过拟合。
其余均表现出，模型越大，数据越多，性能(Loss 和 PPL) 越好。

Data

2. Scaling Law (MLM & CLM)

标准的 Scaling Law 公式，其中 $C$ 是计算量(FLOPs)， $N$ 是模型尺寸， $D$ 是数据量(Tokens 数量)，即：
$\times N \times D$

实验条件：

C: FLOPs 计算量从 $\times 10^{18} \sim 1 \times 10^{21}$ ，累计 7 个计数，间隔大约 3 倍；
N: 模型参数量，累计使用 39 个模型 ( $\sim 10.7B$ )；
D: 数据集，使用之前构建的 200B Tokens 蛋白质序列数据集。

数据量预估 $\frac{C}{6*N}$ ，例如，在计算量是 $\times 10^{21}$ 下：

1.2B 的模型 (MLM的最优模型)，计算量是 $\times 10^{21}$ ，数据量是 $D=\frac{1 \times 10^{21}}{6 \times 1.2 \times 10^{9}}=1.388 \times 10^{11}=133.8B$
1.7B 的模型 (CLM的最优模型)，计算量是 $\times 10^{21}$ ，数据量是 $D=\frac{1 \times 10^{21}}{6 \times 1.7 \times 10^{9}}=0.9803 \times 10^{11}=98.03B$

训练过程，确保模型经过完整的余弦学习率衰减周期，通过 最小二乘法(least_squares) 拟合得到模型参数。

IsoLoss 在探索不同的模型参数和数据规模组合时，发现一些组合下，最终损失的差异非常小，即被定义为 IsoLoss (Isometric Loss) 条件，即等距损失，因为在训练效果上是相近的。参考：Demystify Transformers: A Guide to Scaling Laws

在 IsoFLOPs(等距计算量) 曲线图中，模型尺寸(Model Size) 最大的点是 $\times 10^9$ ，黄线最低点是 $\times 10^9$ ，黄线的计算量是 $\times 10^{21}$ ，参考：

IsoFLOPs

2.1 Scaling Laws for MLM and CLM

通过 IsoFLOPs，拟合模型参数量 $N$ ，与数据量 $D$ ，与计算量 $C$ 之间的曲线：

$\begin{align} N &= a \times C^{\alpha} \\ D &= b \times C^{\beta} \\ \end{align}$

通过 IsoFLOPs，计算 CLM 与 MLM 的 Scaling Laws 参数：

Para

使用 Latex 计算数值，可以使用 SymboLab 工具

例如：

CLM 模型在 $\times 10^{21}$ 计算量下的 最优参数量(N) 是 1.73B，与实验近似，参考：

$\begin{align} N &= (1.26 \times 10^{-3}) \times C^{0.578} \\ N &= 1.26 \times 10^{-3} \times (1 \times 10^{21})^{0.578} \\ &= 1.26 \times 10^{-3} \times 10^{12.138} \\ &= 1.26 \times10^{9.138} \\ &= 1.7313 \times 10^{9} \\ &\approx 1.73B \\ \end{align}$

同时，反推 C 的公式：

$\begin{align} C &= (\frac{N}{1.26*10^{-3}})^\frac{1}{0.578} = (\frac{N}{1.26*10^{-3}})^{1.73} \\ C &= (\frac{1.73 * 10^{9}}{1.26*10^{-3}})^{1.73} \\ &= (1.37*10^{12})^{1.73} \\ &= 1*10^{21} \end{align}$

CLM 模型在 $\times 10^{21}$ 计算量下的 最优数据量(D) 是 89.5B，与实验近似，参考：

$\begin{align} D &= (1.23 \times 10^{2}) \times C^{0.422} \\ D &= 1.23 \times 10^{2} \times (1 \times 10^{21})^{0.422} \\ &= 89.5 \times 10^9 \\ &\approx 89.5B \end{align}$

在 $\times 10^{21}$ 时，在蛋白质生成领域 CLM 的 Scaling Laws，满足：

$\begin{align} C &= \alpha \times N \times D \\ \alpha &= \frac{C}{N \times D} \\ &= \frac{1 \times 10^{21}}{1.7313 \times10^{9} \times 89.5 \times 10^9} \\ &= 6.45363 \\ C &= 6.45 \times N \times D \end{align}$

同理，推理 MLM 模型，在 $\times 10^{21}$ 计算量的 Scaling Laws：

$\begin{align} N &= (6.19 \times 10^{-8}) \times C^{0.776} = (6.19 \times 10^{-8}) \times (1 \times 10^{21})^{0.776} = 1.224 \times 10^9 \\ D &= (2.02 \times 10^{6}) \times C^{0.230} = (2.02 \times 10^{6}) \times (1 \times 10^{21})^{0.230} = 136.57 \times 10^9 \\ \alpha &= \frac{C}{N \times D} = \frac{1 \times 10^{21}}{1.224 \times 10^9 \times 136.57 \times 10^9} = 5.98 \\ C &= 5.98 \times N \times D \end{align}$

如果 计算量C 预算增加 10 倍：

对于 CLM 模型的大小增加 4 倍，训练数据增加 3 倍，近似等比例缩放。
对于 MLM 模型的大小增加 6 倍，训练数据增加 1.7 倍。

通过 IsoLoss，构建损失值 Loss，与 $C 、 N 、 D$ 之间的 Scaling 关系：

$\beta_{x} \times x^{\alpha_{x}}$

进而推导，数据量D 与参数量N 的关联公式：

$D(N)=(\frac{\beta_{N}}{\beta_{D}})^{\frac{1}{\alpha_{D}}} \times N^{\frac{\alpha_{N}}{\alpha_{D}}}$

参数：

Para

例如：1.7B 模型的参数量是 76.19B，注意通过 IsoLoss 与 IsoFLOPs 计算的公式，略有差别，即：

$D(N)=(\frac{4.835}{7.904})^{\frac{1}{-0.051}} \times (1.7 \times 10^{9})^{\frac{-0.037}{-0.051}}=76.19B$

2.2 Scaling Laws 训练 2 个模型

在相同模型参数下，需要 同时(Simultaneously) 训练 CLM 与 MLM 两个模型，需要总投入的计算资源 C 确定，提高训练效率和效果，避免计算资源的不合理分配或浪费。

在 $N(C_{MLM})=N(C_{CLM})$ 的预估计算量 $C_{MLM}$ 和 $C_{CLM}$ ， $r (N)$ 表示训练令牌的分配比例，即：

$C_{sum }(N)=C_{MLM}(N)+C_{CLM}(N)=(\frac{N}{6.19 × 10^{-8}})^{\frac{1}{0.776}}+(\frac{N}{1.26 × 10^{-3}})^{\frac{1}{0.578}} \\ r(N) = \frac{D_{MLM}(N)}{D_{CLM}(N)}$

求解公式得到：

$N(C_{sum})=1.497 \times 10^{-6} \times C_{sum}^{0.703} \\ r(N) = 8.449 \times 10^{3} \times N^{-0.392}$

在模型参数量N 是10B 时，数据量的比例是1:1。即

$\times 10^{3} \times (10 \times 10^9)^{-0.392}=1$

例如：模型大小 1.7B 需要的计算量，即：

$C_{sum}(N)=(\frac{1.7 \times 10^9}{6.19 × 10^{-8}})^{\frac{1}{0.776}}+(\frac{1.7 \times 10^9}{1.26 × 10^{-3}})^{\frac{1}{0.578}}=2.496 \times 10^{21}$

例如：计算量C是 $2.5 \times 10^{21}$ ，最优模型规模是 $1.65 B$ ，最优数据量是 $252 B$ ，即：

$\begin{align} N &= 1.497 \times 10^{-6} \times (2.5 \times 10^{21})^{0.703} = 1.652 \times 10^{9} \approx 1.652B \\ r &= 8.449 \times 10^{3} \times (1.652 \times 10^{9})^{-0.392} = 2.057 \\ D &\approx \frac{C}{6 \times N} = \frac{2.5 \times 10^{21}}{6 \times 1.652 \times 10^{9}} = 252 \times 10^{9} \approx 252B \\ D_{MLM} &= 252 \times \frac{2}{3} \times 10^{9} = 168B \\ D_{CLM} &= 252 \times \frac{1}{3} \times 10^{9} = 84B \end{align}$