大模型详细配置

Transformer结构

目前主力大模型都是基于Transformer的，以下是Transformer的具体架构

它由编码器(Encoder)以及解码器(Decoder)组成，前者主要负责对输入数据进行理解，将每个输入词元都编码成一个上下文语义相关的表示向量；后者基于来自编码器编码后的最后一层的输出表示以及已经由模型生成的词元序列，执行后续的序列生成任务。两个部分都是可以单独使用的，事实上GPT系列就是Decoder-only架构。

归一化方法

数据归一化是为了处理模型训练过程中不稳定的情况，不止在LLM领域，其它领域也需要这种技术，因此也存在多种数据Norm技术，比如BatchNorm，LayerNorm等等。LLM领域常用的Norm技术主要有Layer Norm，RMSNorm，DeepNorm等等

Layer Norm

相比于Batch Norm这种以批次数据为单位进行归一化的操作，Layer Norm是对向量内部数据进行归一化的，其复杂度不依赖于batch大小
$\text{LayerNorm}(x) = \frac{x-\mu}{\sigma}\gamma+\beta\\ \mu = \frac{1}{H}\sum_{i=1}^{H}x_{i},\ \ \sigma = \sqrt{\frac{1}{H}\sum_{i=1}^{H}(x_{i}-\mu)^2 }$
当然其手法与batchNorm还是一致的，都是尝试让参数重新分布到均值为0，方差为1的分布上去，然后再做线性变换保持信息量。

RMSNorm

其归一化单元与LayerNorm是一致的，但是并不需要那么大的计算量要求。
$\text{RMSNorm}(x) = \frac{x}{\text{RMS}(x)}\gamma\\ \text{RMS}(x) = \sqrt{ \frac{1}{H}\sum_{i=1}^{H}x_{i}^2 }$

DeepNorm

DeepNorm 在 LayerNorm 的基础上,在残差连接中对之前的激活值 x 按照一定比例 α 进行放缩。通过这一简单的操作,Transformer 的层数可以被成功地扩展至 1,000 层
$\text{DeepNorm}(x) = \text{LayerNorm}(\alpha x+\text{Sublayer}(x))$

PreNorm VS PostNorm

根据归一化操作使用的位置，可以分为PreNorm,PostNorm

PostNorm可以表示为
$\text{PostNorm}(x) = \text{Norm}(x+f(x))$
其在子层之后使用归一化操作，可以加速网络收敛。但是因为破坏了原本resnet的直接梯度传播通道，训练并不是那么稳定。
事实上这也正是DeepNorm可以与其互补的地方，DeepNorm引入超参 $\alpha$ 之后，通过调节可以缓解梯度控制的问题，一定程度上保证训练的稳定性。

PreNorm可以表示为
$\text{PreNorm}(x) = x + f(\text{norm}(x))$
表示在每一个子层之前使用归一化操作，这里 $\text{norm}$ 泛指任意一种norm操作。有文章指出，这种操作其实更像是扩展了模型宽度而非深度，因此其性能相比PostNorm可以差一点，但是因为保留了梯度通道，训练更加稳定。

注意力机制

这部分可以参考我之前的博客

位置编码

位置编码的引入，是因为Transformer架构中的attention，并不能区分位置信息。如果我们希望最终学到的embedding是上下文相关的，那么我们就需要引入位置信息，也就是对位置进行编码

绝对位置编码

可以表示为
$x_{t} = v_{t}+p_{t}\tag{1}$
其中 $p_{t}$ 表示位置 $t$ 的位置编码， $v_{t}$ 表示该位置的词元的embedding， $x_{t}$ 就是其最终embedding
其中 $p_{t}$ 可以表示为
$p_{t,i} = \left\{\begin{matrix} \sin(t/10000^{(i-2)/H}) & i\mod2=0\\ \sin(t/10000^{(i-1)/H}) & i\mod2=1 \end{matrix}\right. \tag{2}$
注意到我们添加的信息只与词元所在位置有关，因此它编码的是绝对位置信息。

相对位置编码

由于上下文信息需要的更多是相对位置信息，因此后续对其做出修改。先来看看为什么上述绝对位置编码在实践中没有相对位置信息。
在Transformer架构中，multi-attention层需要对输入数据进行attention操作。记 $X\in \mathbb{R}^{n\times d}$ 表示该层的输入数据， $W_{q},W_{k},W_{v}\in \mathbb{R}^{d\times d}$ 代表对应的操作矩阵，我们有
$\text{attention}(X) = \text{softmax}(\frac{(XW_{q})(XW_{k})^T}{\sqrt{ d }})(XW_{v})\in \mathbb{R}^{n\times d}\tag{3}$
这里 $X$ 就是已经添加了位置信息的embedding
那么词元 $i$ 与词元 $j$ 之间的 $\text{attention score}$ 可以表示为
$A_{i,j} = (v_{i}+p_{i})W_{q}W_{k}^T(v_{j}+p_{j})^T \tag{4}$
其中位置信息在绝对位置编码 $p_{(\cdot)}$ 中
事实上上式可以拆分为
$A_{i,j}^{abs} = v_{i}W_{q}W_{k}^Tv_{j}^T + v_{i}W_{q}W_{k}^Tp_{j}^T\\ +p_{i}W_{q}W_{k}^Tv_{j}^T + p_{i}W_{q}W_{k}^Tp_{j}^T$
其中第一部分不包含 $p(\cdot)$ ，第二三部分只包含一个 $p_{(cdot)}$ ，所以只有最后一部分有可能包含相对位置信息（同时包含 $p_{i},p_{j}$ ）。
事实上最后一部分如果不包含线性变换操作，只有 $p_{i}p_{j}^T$ 的话，是可以保留相对位置信息的，但是因为线性变换是由attention引入的，我们不好直接去除，所以这也导致相对信息丢失。
所以一个改进措施就是直接在attention中引入相对位置信息。对 $(5)$ 进行改写，得到
$A_{i,j}^{rel} = v_{i}W_{q}W_{k}^Tv_{j}^T + v_{i}W_{q}W_{k}^T\textcolor{red}{R_{i-j}^T}\\ +\textcolor{blue}{u^T}W_{k}^Tv_{j}^T + \textcolor{blue}{v^T}W_{k}^T\textcolor{red}{R_{i-j}^T} \tag{5}$
改进如下:

将所有的 $p_{j}$ 都改成了 $R_{i-j}$ ，前者由绝对位置信息编码，后者由相对位置信息 $i - j$ 编码，其生成也是基于正弦波的，但是因为只依赖 $i - j$ ，显然它会包含相对位置信息
有了相对位置信息之后，相关注意力分数应当与词元本身的绝对位置无关，所以需要将 $p_{i}W_{q}^T$ 替换掉，由于 $W_{q}^T$ 是一个可学习参数，因此替换为可学习参数 $u, v$

此时整个attention过程中就只包含相对位置信息了

旋转位置编码RoPE

上述改进操作是基于attention的，后续提出的RoPE，其相对位置信息的编码可以与attention操作解耦，并且相对来说更加优美。
重新思考编码过程。记 $q_{m},k_{n}$ 是两个词元的embedding，简单起见限定它们的维度为2，即 $q_{m},k_{n}\in R^2$ ，此时它们的内积可以用复数乘积来表示
$<q_{m},k_{n}> =\mathrm{Re}[q_{m},\bar{k_{n}}]\tag{6}$
其中 $\bar{x}$ 表示复数形式下 $x$ 的共轭。上式并不难证明。
此时如果我们将绝对位置 $t$ 的编码过程定义为乘上 $e^{it\theta}$ ,那么就有
$<q_{m}e^{im\theta},k_{n}e^{in\theta}> = \mathrm{Re}[q_{m}\bar{k_{n}}e^{i(m-n)\theta}]\tag{7}$
非常神奇的是，原本只跟绝对位置相关的编码 $e^{im\theta},e^{in\theta}$ ，在内积操作之后只跟相对位置 $m - n$ 有关了，也就是说我们非常自然地就包含了相对位置信息。
上式需要在实数范畴内实现。记位置 $t$ 的向量为 $q_{t} = (x,y)$ ，注意到
$q_{t}e^{it\theta} = (x+yi)(\cos t\theta + i\sin t\theta) = (x\cos t\theta-y\sin t\theta) + i(x\sin t\theta+y\cos t\theta)\tag{8}$

从而我们的绝对位置编码过程可以表示为
$f(q_{t},t) = \begin{pmatrix} \cos t\theta & -\sin t\theta\\ \sin t\theta & \cos t\theta \end{pmatrix}\binom{x}{y}\tag{9}$
这就在实数范围内实现了上述复数操作，后续attention操作时自然就会带上相对位置信息。注意到上式实际上就是对向量的旋转操作，所以这种编码方式也被成为旋转位置编码

接下来的问题是对向量维度的扩展，因为目前只支持二维向量的操作。当向量维数 $d$ 是偶数时，我们只需要将 $(9)$ 式中的旋转矩阵在对角线上不断重复即可，即
$f(q_{t},t) = \underbrace{\begin{pmatrix} \cos t\theta_{1} & -\sin t\theta_{1} & 0 &0 & \dots & 0 & 0\\ \sin t\theta_{1} & \cos t\theta_{1} & 0 &0 & \dots & 0 & 0\\ 0& 0 & \cos t\theta_{2} & -\sin t\theta_{2} & \dots & 0 & 0\\ 0& 0 & \sin t\theta_{2}& \cos t\theta_{2} & \dots& 0& 0\\ \vdots& \vdots &\vdots &\vdots & \vdots & \vdots &\vdots \\ 0& 0& 0& 0& \dots& \cos t\theta_{\frac{d}{2}-1}& -\sin t\theta_{\frac{d}{2}-1}\\ 0& 0& 0& 0& \dots& \sin t\theta_{\frac{d}{2}-1} & \cos t\theta_{\frac{d}{2}-1} \end{pmatrix}}_{R_{t}}\begin{pmatrix} x_{0}\\ x_{1}\\ x_{2}\\ x_{3}\\ \vdots\\ x_{d-2}\\ x_{d-1} \end{pmatrix}\tag{10}$
通过将 $d$ 分为若干个互不相干的部分，每一个部分都可以独立实现之前的相对编码，从而完成维数的扩展。
具体实现的时候，可以用哈达玛积来取代稀疏矩阵乘法。
根据之前结论不难得到，
$R_{m}R_{n}^T = R_{m-n}\tag{11}$
此时对 $(4)$ 式进行重写，有
$A_{i,j} = v_{i}W_{q}R_{i}^T(v_{j}W_{k}R_{j})^T\\ =v_{i}W_{q}R_{i}^TR_{j}W_{k}^Tv_{j}^T\\ =v_{i}W_{q}R_{i-j}^TW_{k}^Tv_{j}^T \tag{12}$

混合专家模型MoE

类似于推荐系统中的MoE的概念，LLM中的MoE，也是通过聚合多个专家来实现特征增广的同时网络不会过拟合。
这里每一个专家都是一个FFN
$\sigma(XW_{1}+b_{1})W_{2}+b_{2}$
其中 $\sigma$ 是激活函数
通过一个gating网络对专家输出进行选择和加权，选择是为了保证一定的稀疏性，即只使用 $t o p k$ 个专家用于之后的加权操作。
最后MoE层的输出就由加权结果乘上每一个专家的输出给出。