浅析RoPE旋转位置编码的远程衰减特性

为什么 $\theta_i$ 的取值会造成远程衰减性

旋转位置编码的出发点为：通过绝对位置编码的方式实现相对位置编码。

对词向量 $\boldsymbol{q}$ 添加绝对位置信息 $m$ ，希望找到一种函数 $f$ ，使得：
$<f(\boldsymbol{q}, m), f(\boldsymbol{k}, n)> = g(\boldsymbol{q}, \boldsymbol{k}, m - n)$
假设词向量是二维的，借用复数来进行求解（具体求解过程参考：https://spaces.ac.cn/archives/8265），最终得到一种可行解：
$\begin{align} f(\boldsymbol{q}, m) &= \boldsymbol{q} e^{im \theta} \\ &= \left(\begin{matrix} cos\ m\theta& -sin\ m\theta\\ sin\ m\theta& cos\ m\theta \end{matrix} \right) \left(\begin{array}{c} q_0\\ q_1 \end{array} \right) \end{align}$
扩展到多维：

$f(\boldsymbol{q}, m) = \boldsymbol{R}_m \boldsymbol{q}$
$\boldsymbol{R}_m = \left(\begin{matrix} cos\ m\theta_0& -sin\ m\theta_0& 0& 0& \cdots& 0& 0\\ sin\ m\theta_0& cos\ m\theta_0& 0& 0& \cdots& 0& 0\\ 0& 0& cos\ m\theta_1& -sin\ m\theta_1& \cdots& 0& 0\\ 0& 0& sin\ m\theta_1& cos\ m\theta_1& \cdots& 0& 0\\ \vdots& \vdots& \vdots& \vdots& \ddots& \vdots& \vdots\\ 0& 0& 0& 0& \cdots& cos\ m\theta_{d/2 - 1}& -sin\ m\theta_{d/2-1}\\ 0& 0& 0& 0& \cdots& sin\ m\theta_{d/2 - 1}& cos\ m\theta_{d/2-1}\\ \end{matrix}\right)$
相当于左乘一个旋转矩阵，或者说高维向量，每两维一组，分别旋转一个角度，且不改变模长。

显然， $(\boldsymbol{R}_m \boldsymbol{q})^{T} (\boldsymbol{R}_n \boldsymbol{k})= \boldsymbol{q}^T \boldsymbol{R}_m^T \boldsymbol{R}_n \boldsymbol{k} = \boldsymbol{q}^T \boldsymbol{R}_{n-m} \boldsymbol{k}$ ，这样Attention就包含相对位置信息了。

下面分析为什么 $\theta_i$ 的取值会造成远程衰减性

远程衰减性指的是，对于两个词向量，如果两者相对距离较近，那么它们的注意力分数应该偏高，反之应该偏低。

假设 $\boldsymbol{q}$ 和 $\boldsymbol{k}$ 均为ones向量，则 $(\boldsymbol{R}_m \boldsymbol{q})^{T} (\boldsymbol{R}_n \boldsymbol{k})= \boldsymbol{q}^T \boldsymbol{R}_{n-m} \boldsymbol{k} = 2\sum_{i=0}^{d/2-1} cos\ (n-m)\theta_i$ ，设相对距离 $n - m$ 为 $x$ ，则相对距离为 $x$ 的向量之间注意力得分：
$2\sum_{i=0}^{d/2-1} cos\ x\theta_i$
如果任意 $\theta_i=0$ ，则 $g (x) = d$ ，无论相对距离多大，注意力得分都相等

如果任意 $\theta_i=1$ ，则 $g(x)=d\ cos\ x$ ，随着相对距离增大，注意力得分呈周期性变化，但不会震荡衰减：

而作者在 $\theta_i$ 的选择上，沿用了Sinusoidal位置编码的方案，即 $\theta_i=10000^{-2i/d}$ ，它会带来一定的远程衰减性。

每个 $\theta_i$ ， $cos\ x\theta_i$ 的周期大小 $T_i$ 等于 $\frac{2\pi}{\theta_i} = \frac{2\pi}{10000^{-2i/d}} = 2\pi*10^{8i/d}$ ，所以 $i$ 越大， $T_i$ 越大，最小周期为 $T_0 = 2\pi$ ，最大周期为 $T_{d/2-1} = 2\pi*10^{(4-\frac{8}{d})}$ 。

如果对于所有的 $x$ ， $x<\frac{1}{4}T_{d/2-1}=\frac{\pi}{2}*10^{(4-\frac{8}{d})}$ ，也就是说， $cos\ x\theta_{d/2-1}$ 处于单调递减区间（下方的蓝色区间）

由于前面的 $x\theta_i$ 呈周期变化，而周期变化的函数 + 单调递减的函数 = 震荡递减的函数。因此，注意力得分 $g (x)$ 随着相对距离 $x$ 的增大而震荡减小。

比如在LLaMA中， $d = 4096$ ， $\frac{1}{4}T_{d/2-1}$ 近似于 $10^4$ ，由于实际应用中，最大序列长度一般不会大于 $10^4$ ，所以相对距离 $x<\frac{1}{4}T_{d/2-1}$ 一般是成立的，当然，也可以增大 $\theta_i=10000^{-2i/d}$ 中的10000，这样 $T_{d/2-1}$ 会变得更大。