[论文笔记]ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING(下)-EW帮帮网

引言

今天带来苏神的旋转位置编码论文，ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING，论文题目翻译过来是基于旋转位置嵌入增强的Transformer:RoFormer。旋转位置编码被很多大模型架构采用。

位置编码对Transformer架构是至关重要的。它为不同位置的序列元素之间的依赖建模提供了有价值的监督。本文作者提出了一种名为Rotary Position Embedding(RoPE，旋转位置编码)的新方法，可以有效地利用位置信息。

具体而言，RoPE通过旋转矩阵编码绝对位置，并在自注意力机制中同时引入显式的相对位置依赖。值得注意的是，RoPE具有一些有价值的特性，包括序列长度的灵活性、相对距离增加时的递减的元素间依赖性以及为线性自注意力提供相对位置编码的能力。

RoFormer已经集成到Huggingface中：https://huggingface.co/docs/transformers/model_doc/roformer。

笔记比较长，因此分为上下两部分。

证明(复数)

下面沿着作者的思路¹来证明一下。

首先需要为查询 $\pmb q_m=\pmb W_q\pmb x_m$ 和键 $\pmb k_n=\pmb W_k\pmb x_n$ 向量添加绝对位置信息，假设通过下述运算来实现：
$\pmb {\tilde q_m} = f_q(\pmb x_m,m),\quad \pmb {\tilde k_n} = f_k(\pmb x_n,n) \tag {p1}$
由于Attention的核心运算就是内积，我们希望内积的结果能带有相对位置信息，因此我们可以假设存在恒等关系：
$\langle f_q(\pmb x_m,m) , f_k(\pmb x_n,n) \rangle = g(\pmb x_m,\pmb x_n, m-n) \tag{p2}$
注意这里的 $g$ 是一个函数。把内积公式转化为一个函数 $g$ ，该函数只接受词嵌入 $\pmb x_m,\pmb x_n$ 以及它们的相对位置 $m - n$ 作为输入变量。换句话说，如果能找到这样的 $f$ 使得上述等式成立，我们就认为这个内积的结果是带有相对位置信息的。

同时我们设定一些初始条件，比如 $f_q(\pmb x_m,0)=\pmb q_m$ 和 $f_k(\pmb x_n,0)=\pmb k_n$ ，相当与0表示还是返回当前位置，没有增加任何绝对位置信息，不过进行了查询和健向量的转换。

我们先考虑二维情形，这里利用复数来求解，在复数中对于两个向量 $\langle \pmb q,\pmb k \rangle = \text{Re}[\pmb q \pmb k^*]$ ，其中 $\text{Re}[\cdot]$ 代表取复数的实部，这里 $\pmb k^*$ 表示 $\pmb k$ 的共轭复数。

先来证明一下，假设 $\pmb q = a + bi,\pmb k=c + di \rightarrow \pmb k^* = c - di$ 。
$\pmb q \pmb k^* = (a+bi)(c-di) = ac -adi + bci -bdi^2 = ac +bd - (bc -ad)i$
取其实部得 $a c + b d$ 。而向量内积 $\pmb q \cdot \pmb k = ac +db$ 。这就证明了"两个二维向量的内积，等于把它们当复数看时，一个复数与另一个复数的共轭的乘积实部。"

注意这里把二维向量当成复数看，即 $\pmb q =(a,b)$ 看成是 $a + bi$ ，然后可以利用复数的性质就像运算，是一种常用的技巧。

所以我们有：
$\langle f_q(\pmb x_m,m) , f_k(\pmb x_n,n) \rangle = \text{Re}[f_q(\pmb x_m,m)f_k^*(\pmb x_n,n)] = g(\pmb x_m,\pmb x_n, m-n) \tag{p3}$
利用复数来求解，把向量内积转换为复数乘积。

假设存在复数 $\pmb g(\pmb x_m,\pmb x_n, m-n)$ ，使得
$f_q(\pmb x_m,m)f_k^*(\pmb x_n,n) = \pmb g(\pmb x_m,\pmb x_n, m-n) \tag{p4}$
其中 $\pmb g$ 表示复数。

我们观察(p4)式两边，左边是复数乘积，得到一个复数；右边也是一个复数。我们知道复数有实部和虚部，且复数 $z = a + bi$ 可以写成 $re^{i\theta}$ ， $r=\sqrt{a^2+b^2}$ 是该复数的模，幅角为 $\theta$ 。

我们分别通过这种形式写出(p4)式中的三个复数：
$\begin{aligned} f_q(\pmb x_m,m) &= R_f(\pmb x_m,m) e^{i\Theta_f(\pmb x_m,m)} \\ f_k^*(\pmb x_n,n) &= R_f(\pmb x_n,n) e^{-i\Theta_f(\pmb x_n,n)} \\ \pmb g(\pmb x_m,\pmb x_n, m-n) &= R_g(\pmb x_m,\pmb x_n, m-n)e^{i\Theta_g(\pmb x_m,\pmb x_n, m-n)} \end{aligned} \tag{p5}$
其中 $R_f,R_g$ 是复数的模， $\Theta_f,\Theta_g$ 是复数的幅角。

将(p5)代入(p4)可得一个方程组：
$\begin{aligned} R_f(\pmb x_m,m)R_f(\pmb x_n,n) &= R_g(\pmb x_m,\pmb x_n, m-n) \\ \Theta_f(\pmb x_m,m) - \Theta_f(\pmb x_n,n) &= \Theta_g(\pmb x_m,\pmb x_n, m-n) \end{aligned} \tag{p6}$
对于(p6)的第一个方程，代入 $m = n$ 得：
$R_f(\pmb x_m,m)R_f(\pmb x_n,m) = R_g(\pmb x_m,\pmb x_n, 0) =R_f(\pmb x_m,0)R_f(\pmb x_n,0) = ||\pmb q_m|| ||\pmb k_n|| \tag{p6.1}$
分析一下，因为 $m - n = 0$ ，所以得到 $R_g(\pmb x_m,\pmb x_n, 0)$ ，然后可以再次利用第一个方程(从等式右边往左)，得到 $R_f(\pmb x_m,0)R_f(\pmb x_n,0)$ 。再根据条件 $f_q(\pmb x_m,0)=\pmb q_m$ 和 $f_k(\pmb x_n,0)=\pmb k_n$ ，最后的结果就是这两个向量的模，它们不依赖位置 $m$ 。

对于(p6)的第二个方程，代入 $m = n$ 得：
$\Theta_f(\pmb x_m,m) - \Theta_f(\pmb x_n,m) = \Theta_g(\pmb x_m,\pmb x_n, 0) = \Theta_f(\pmb x_m,0) - \Theta_f(\pmb x_n,0) = \Theta (\pmb q_m) - \Theta (\pmb k_n) \tag{p7}$
这里 $\Theta (\pmb q_m),\Theta (\pmb k_n)$ 是分别是向量 $qm \pmb q_m$ 和 $kn \pmb k_n$ 本身的幅角。根据(p7)有：
$\Theta_f(\pmb x_m,m) - \Theta_f(\pmb x_n,m) = \Theta (\pmb q_m) - \Theta (\pmb k_n) \Rightarrow \Theta_f(\pmb x_m,m) - \Theta (\pmb q_m) = \Theta_f(\pmb x_n,m) - \Theta (\pmb k_n) \tag{p8}$
所以 $\Theta_f(\pmb x_m,m) - \Theta (\pmb q_m)$ 是一个只与 $m$ 有关，与 $qm \pmb q_m$ 无关的函数，记为 $\varphi(m)$ ，即 $\Theta_f(\pmb x_m,m)= \Theta (\pmb q_m) + \varphi(m)$ 。

接着代入 $n = m - 1$ 到(p6)的第二个等式，得到
$\Theta_f(\pmb x_m,m) - \Theta_f(\pmb x_n,m-1) = \Theta_g(\pmb x_m,\pmb x_n, 1) \tag{p9}$
上式两边同时减去 $\Theta (\pmb q_m)$ 得
$\Theta_f(\pmb x_m,m) - \Theta (\pmb q_m) - \Theta_f(\pmb x_n,m-1) = \Theta_g(\pmb x_m,\pmb x_n, 1) - \Theta (\pmb q_m) \tag{p10}$
代入 $\Theta_f(\pmb x_m,m) - \Theta (\pmb q_m)=\varphi(m)$ 到上式得
$\varphi(m)- \Theta_f(\pmb x_n,m-1) = \Theta_g(\pmb x_m,\pmb x_n, 1) - \Theta (\pmb q_m) \tag{p11}$
上式两边同时加上 $\Theta (\pmb k_n)$ 得
$\varphi(m)+ \Theta (\pmb k_n)- \Theta_f(\pmb x_n,m-1) = \Theta_g(\pmb x_m,\pmb x_n, 1) + \Theta (\pmb k_n)- \Theta (\pmb q_m) \tag{p12}$
根据(p8)两边同乘 $- 1$ 整理得到 $\Theta (\pmb k_n) - \Theta_f(\pmb x_n,m)=\Theta (\pmb q_m) - \Theta_f(\pmb x_m,m)$ 代入上式得
$\varphi(m)+ \Theta (\pmb q_m) - \Theta_f(\pmb x_m,m-1) = \Theta_g(\pmb x_m,\pmb x_n, 1) + \Theta (\pmb k_n)- \Theta (\pmb q_m) \tag{p13}$
又因为 $\Theta_f(\pmb x_m,m-1)= \Theta (\pmb q_m) + \varphi(m-1) \Rightarrow \Theta (\pmb q_m) - \Theta_f(\pmb x_m,m-1) = -\varphi(m-1)$ 代入上式得
$\varphi(m)-\varphi(m-1) = \Theta_g(\pmb x_m,\pmb x_n, 1) + \Theta (\pmb k_n)- \Theta (\pmb q_m) \tag{p14}$
上式右边不依赖于 $m$ ，注意 $\pmb x_m,\pmb x_n,\pmb q_m$ 可以认为是确定的，不依赖于我们增加的绝对位置 $m$ 。因此左边也不依赖于 $m$ ，所以 $\{\varphi(m)\}$ 是等差数列。

设初始值 $\varphi(0) =0$ ，且 $\varphi(1) =\theta$ ，我们有 $\varphi(m)=m\theta$ 。代入 $\Theta_f(\pmb x_m,m) - \Theta (\pmb q_m)=\varphi(m)$ 得到
$\Theta_f(\pmb x_m,m) =\Theta (\pmb q_m) + \varphi(m) = \Theta (\pmb q_m) + m\theta \tag{p15}$
将其代入(p5)的第一个等式，再根据(p6.1)得
$\begin{aligned} f_q(\pmb x_m,m) &= R_f(\pmb x_m,m) e^{i\Theta_f(\pmb x_m,m)} \\ &=||\pmb q_m|| e^{i(\Theta (\pmb q_m) + m\theta )} \\ &= ||\pmb q_m|| (e^{i(\Theta (\pmb q_m) }\cdot e^{im\theta }) \\ &= (||\pmb q_m|| e^{i(\Theta (\pmb q_m) } )e^{im\theta } \\ &= \pmb q_m e^{im\theta } \end{aligned} \tag{p16}$
这里利用了复数的知识，最后的 $qmeimθ \pmb q_m e^{im\theta }$ 可以看成是复数 $qm \pmb q_m$ 乘上旋转子，旋转了幅角 $m\theta$ 。

所以称为旋转位置编码，再根据旋转子 $e^{im\theta} = \cos m\theta + i \sin m\theta$ 与旋转矩阵的关系，上式还可以写成矩阵形式：
$f_q(\pmb x_m,m) = \pmb q_m e^{im\theta }=\begin{bmatrix}\cos m\theta & -\sin m\theta\\ \sin m\theta & \cos m\theta\end{bmatrix} \begin{bmatrix}\pmb q_m^{(1)} \\ \pmb q_m^{(2)}\end{bmatrix}\tag{p17}$
至此我们验证了公式(13)。

通用形式

为了将我们在二维空间中的结果推广到任意 $\pmb x_i ∈ \R^d$ ，其中 $d$ 是偶数。我们可以将 $d$ 维空间划分为 $d /2$ 个子空间(分块矩阵)，并结合内积的线性特性进行组合，将 $f_{\{q,k\}}$ 转化为：
$f_{\{q,k\}} = (\pmb x_m,m) = \pmb R_{\Theta,m}^d \pmb W_{\{q,k\}} \pmb x_m \tag{14}$

这里说的特性是指线性叠加性：

定义：内积的定义是两个向量对应分量相乘后再相加。假设有两个向量 $\vec{v} = (v_1, v_2, ..., v_n)$ 和 $\vec{w} = (w_1, w_2, ..., w_n)$ ，它们的内积可以表示为 $\vec{v} \cdot \vec{w} = v_1w_1 + v_2w_2 + ... + v_nw_n$ 。

线性性质：内积满足线性叠加性，即对于任意标量 $a$ 和向量 $\vec{v}, \vec{w}, \vec{u}$ ，有以下性质：

可加性： $\vec{v} \cdot (\vec{w} + \vec{u}) = \vec{v} \cdot \vec{w} + \vec{v} \cdot \vec{u}$

齐次性： $(a\vec{v}) \cdot \vec{w} = a(\vec{v} \cdot \vec{w})$

其中
$\pmb R_{\Theta,m}^d = \begin{pmatrix} \cos m\theta_1 & -\sin m\theta_1 & 0 & 0 & \cdots & 0 & 0 \\ \sin m\theta_1 & \cos m\theta_1 & 0 & 0 & \cdots & 0 & 0 \\ 0 & 0 & \cos m\theta_2 & -\sin m\theta_2 & \cdots & 0 & 0 \\ 0 & 0 & \sin m\theta_2 & \cos m\theta_2 & \cdots & 0 & 0 \\ \vdots & \vdots & \vdots & \vdots & \ddots & \vdots & \vdots \\ 0 & 0 & 0 & 0 & \cdots & \cos m\theta_{d/2} & -\sin m\theta_{d/2} \\ 0 & 0 & 0 & 0 & \cdots & \sin m\theta_{d/2} & \cos m\theta_{d/2} \\ \end{pmatrix} \tag{15}$
是一个带有预定义参数 $Θ = \{θ_i = 10000^{−2(i−1)/d}, i ∈ [1, 2, ..., d/2]\}$ 的旋转矩阵。RoPE的图示如图(1)所示。将RoPE应用于方程(2)中的自注意力机制，我们可以得到：
$\pmb q_m^\top \pmb k_n = (\pmb R_{\Theta,m}^d \pmb W_{q}\pmb x_m)^\top (\pmb R_{\Theta,n}^d \pmb W_{k}\pmb x_n) = \pmb x_m^\top \pmb W_q \pmb R_{\Theta,n-m}^d \pmb W_k \pmb x_n \tag{16}$
其中 $\pmb R_{\Theta,n-m}^d=(\pmb R_{\Theta,m}^d)^\top \pmb R_{\Theta,n}^d$ 。值得指出的是， $RΘ \pmb R_{\Theta}$ 是一个正交矩阵，它不会改变向量的模长，因此通常来说它不会改变原模型的稳定性。

左乘一个正交矩阵不会改变向量的模长的原因在于正交矩阵的性质。一个矩阵 $A$ 是正交矩阵，当且仅当 $A^T A = I$ ，即其转置矩阵和自身的乘积等于单位矩阵。

考虑一个向量 $\vec{v}$ ，其模长为 $\lVert \vec{v} \rVert$ ，左乘一个正交矩阵 $Q$ 后得到新向量 $\vec{u} = Q\vec{v}$ 。我们来证明 $\lVert \vec{u} \rVert = \lVert \vec{v} \rVert$ ：

$\begin{aligned} \lVert \vec{u} \rVert^2 &= \vec{u}^T \vec{u} \\ &= (\vec{v}^T Q^T) (Q \vec{v}) \\ &= \vec{v}^T (Q^T Q) \vec{v} \\ &= \vec{v}^T \vec{v} \\ &= \lVert \vec{v} \rVert^2 \end{aligned}$
因为正交矩阵 $Q$ 满足 $Q^T Q = I$ ，所以 $\lVert \vec{u} \rVert = \lVert \vec{v} \rVert$ 。

与之前的工作采用的位置嵌入方法，即(3)到(10)，的加性特性相反，这里的方法是乘性的。此外，当应用于自注意力机制时，RoPE通过旋转矩阵乘积自然地融入了相对位置信息，而不是改变加性位置编码的扩展公式中的项。

RoPE的性质

远程衰减：根据原始Transformer，作者设置 $θ_i = 10000^{−2i/d}$ 。可以证明这种设置提供了远程衰减特性，这意味着当相对位置增加时，内积将衰减。这个特性符合这样一个直觉：相对距离较远的一对标记应该有较少的连接。

线性注意力：注意力可以写成更通用的形式。
$\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V})_m = \frac{\sum_{n=1}^N \text{sim}(\boldsymbol{q}_m, \boldsymbol{k}_n)\boldsymbol{v}_n}{\sum_{n=1}^N \text{sim}(\boldsymbol{q}_m, \boldsymbol{k}_n)} \end{equation} \tag{17}$
原始自注意力选择 $\text{sim}(\pmb q_m,\pmb k_n)= \exp(\pmb q_m^\top \pmb k_n / \sqrt d)$ ，注意原始自注意力会计算每对标记的query和key内积，这导致复杂度为 $O(N^2)$ 。根据²的工作，线性注意力重写公式(17)为：
$\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V})_m = \frac{\sum_{n=1}^N \phi(\boldsymbol{q}_m)^\top \varphi(\pmb k_n)\boldsymbol{v}_n}{\sum_{n=1}^N \phi(\boldsymbol{q}_m)^\top \varphi(\pmb k_n)} \end{equation} \tag{18}$
其中 $\phi(\cdot)$ 和 $\varphi(\cdot)$ 通常是非负函数。Katharopoulos等人²首先提出了 $\text{elu}(x)+ 1$ ，并使用矩阵乘法的结合性质计算了键值之间的乘积。Shen等人³使用softmax函数分别对查询和键进行归一化以进行内积运算，其等效于 $ϕ(\pmb q_i) = \text{softmax}(\pmb q_i)$ 和 $ϕ(\pmb k_j) = \exp(\pmb k_j)$ 。

我们重点讨论将RoPE与方程(18)结合起来。由于RoPE通过旋转注入位置信息，并保持隐藏表示的范数不变，我们可以通过将旋转矩阵与非负函数的输出相乘来将RoPE与线性注意力结合起来。
$\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V})_m = \frac{\sum_{n=1}^N (\pmb R_{\Theta,m}^d \phi(\boldsymbol{q}_m))^\top (\pmb R_{\Theta,n}^d \varphi(\pmb k_n))\boldsymbol{v}_n}{\sum_{n=1}^N \phi(\boldsymbol{q}_m)^\top \varphi(\pmb k_n)} \end{equation} \tag{19}$
值得注意的是，我们保持分母不变是为了避免除以零的风险，而分子中的求和可能包含负项。虽然方程(19)中每个值 $vi \pmb v_i$ 的权重并不严格满足概率归一化，但我们认为这种计算仍然可以对值的重要性进行建模。

理论解释

刚开始没看到作者在论文中还有推导，上面给出的证明过程也保留吧，对比着看看。

二维下RoPE的推导

在 $d = 2$ 的情况下，我们考虑两个词嵌入向量 $xq \pmb x_q$ 和 $xk \pmb x_k$ ，分别对应查询和关键字，它们的位置分别为m和n。根据方程(1)，它们的位置编码为：
$\begin{aligned} \pmb q_m &= f_q(\pmb x_q,m) \\ \pmb k_n &= f_k(\pmb x_k,n) \end{aligned} \tag{20}$
其中， $qm \pmb q_m$ 和 $kn \pmb k_n$ 的下标表示编码的位置信息。假设存在一个函数g，它定义了 $f_{\{q,k\}}$ 产生的向量之间的内积。
$\pmb q_m^\top \pmb k_n = \langle f_q(\pmb x_m,m), f_k(\pmb x_n,n)\rangle = g(\pmb x_m,\pmb x_n,n-m) \tag{21}$
进一步假设满足以下的初始条件：
$\begin{aligned} \pmb q &= f_q(\pmb x_q,0) \\ \pmb k &= f_k(\pmb x_k,0) \end{aligned} \tag{22}$
这可以被理解为对没有位置信息编码的向量进行编码。在这些设定下，我们试图找到 $f_q$ 和 $f_k$ 的解。首先，我们利用2D向量及其复数对应的几何意义，将方程(20)和(21)中的函数分解为
$\begin{aligned} f_q(\pmb x_q,m) &= R_q(\pmb x_q,m) e^{i\Theta_q(\pmb x_q,m)} \\ f_k(\pmb x_k,n) &= R_k(\pmb x_k,n) e^{i\Theta_k(\pmb x_k,n)} \\ g(\pmb x_q,\pmb x_k, n-m) &= R_g(\pmb x_q,\pmb x_k, n-m)e^{i\Theta_g(\pmb x_q,\pmb x_k, n-m)} \end{aligned} \tag{23}$
其中 $R_{\{q,k\}},R_g$ 和 $\Theta_{\{q,k\}},\Theta_g$ 是 $f_{\{q,k\}},g$ 对应的模和幅角。将它们带入等式(21)，得到：
$\begin{aligned} R_q(\pmb x_q,m)R_k(\pmb x_k,n) &= R_g(\pmb x_q,\pmb x_k, n-m) \\ \Theta_k(\pmb x_k,n) - \Theta_q(\pmb x_q,m) &= \Theta_g(\pmb x_q,\pmb x_k, n-m) \end{aligned} \tag{24}$
以及初始条件：
$\pmb q = ||\pmb q||e^{i\theta_q} = R_q(\pmb x_q, 0)e^{i\Theta_q(\pmb x_q,0)}\\ \pmb k = ||\pmb k||e^{i\theta_k} = R_k(\pmb x_k, 0)e^{i\Theta_k(\pmb x_k,0)} \tag{25}$
其中 $||\pmb q||,||\pmb k||$ 和 $\theta_q,\theta_k$ 分别是 $\pmb q$ 和 $\pmb k$ 的在二维平面上模长和幅角部分。

下面，设(24)中的 $m = n$ ，并考虑(25)中的初始条件：
$R_q(\pmb x_q,m)R_k(\pmb x_k,m) = R_g(\pmb x_q,\pmb x_k, 0) =R_q(\pmb x_q,0)R_k(\pmb x_k,0) = ||\pmb q|| ||\pmb k|| \tag{26a}$

$\Theta_k(\pmb x_k,m) - \Theta_q(\pmb x_q,m) = \Theta_g(\pmb x_q,\pmb x_k, 0) = \Theta_k(\pmb x_k,0) - \Theta_q(\pmb x_q,0) = \theta_k -\theta_q \tag{26b}$

一方面，可以从(26a)式中得到 $R_f$ 的直接解：
$\begin{aligned} R_q(\pmb x_q,m) &= R_q(\pmb x_q,0) = ||\pmb q|| \\ R_k(\pmb x_k,n) &= R_k(\pmb x_k,0) = ||\pmb k|| \\ R_g(\pmb x_q,\pmb x_k,n-m) &= R_g(\pmb x_q,\pmb x_k,0) = ||\pmb q||||\pmb k|| \\ \end{aligned} \tag{27}$
这表明函数 $R_q$ 、 $R_k$ 和 $R_g$ 与位置信息无关。另一方面，在(26b)中可以注意到， $Θ_q(\pmb x_q, m) − θ_q = Θ_k(\pmb x_k, m) − θ_k$ 表明函数 $\Theta$ 不依赖于查询和键，我们将它们设置为 $Θ_f := Θ_q = Θ_k$ ，而 $Θ_f (\pmb x_{\{q,k\}}, m) − θ_{\{q,k\}}$ 是一个关于位置m的函数，与词嵌入 $x_{\{q,k\}}$ 无关，我们将其表示为$ ϕ(m)$，得到：
$\Theta_f(\pmb x_{\{q,k\}},m) = \phi(m) + \theta_{\{q,k\}} \tag{28}$
进一步，带入 $n = m + 1$ 到(24)并考虑上式，得到：
$\phi(m+1) - \phi(m) = \Theta_g(\pmb x_g,\pmb x_k,1) + \theta_q -\theta_k \tag{29}$
由于RHS是一个与m无关的常数， $ϕ (m)$ 在连续整数输入下产生一个等差数列：
$\phi(m) = m \theta+ \gamma \tag{30}$
其中 $\theta,\gamma \in \R$ 实常数； $\theta$ 非零。总结(27)到(30)得：
$f_q(\pmb x_q,m) = ||\pmb q||e^{i\theta_q + m\theta + \gamma} = \pmb q e^{i(m\theta + \gamma)} \\ f_k(\pmb x_k,m) = ||\pmb k||e^{i\theta_k + n\theta + \gamma} = \pmb k e^{i(n\theta + \gamma)} \tag{31}$
需要注意的是，我们对方程(22)中的 $f_q$ 和 $f_k$ 没有施加任何约束，因此 $f_q(\pmb x_m, 0)$ 和 $f_k(\pmb x_n, 0)$ 可以自由选择。为了使我们的结果与方程(3)可比较，我们定义：
$\pmb q=f_q(\pmb x_m,0) = \pmb W_q \pmb x_n\\ \pmb k=f_k(\pmb x_n,0) = \pmb W_k \pmb x_n\\ \tag{32}$
然后，我们简单地设置(31)中的 $\gamma =0$ 得到最终解：
$f_q(\pmb x_m, m) = (\pmb W_q \pmb x_m) e^{im\theta}, \\ f_k(\pmb x_n, n) = (\pmb W_k \pmb x_n) e^{in\theta}. \tag{33}$

高效计算的旋转矩阵乘法实现

由于公式(15)中 $RΘ,md \pmb R^d_{\Theta,m}$ 的稀疏性，所以直接用矩阵乘法来实现会很浪费算力，推荐通过下述方式来实现 $RΘ,md \pmb R^d_{\Theta,m}$ 和 $\pmb x \in \R^d$ 的乘法：
$\pmb R^d_{\Theta,m} \pmb x = \begin{equation}\begin{pmatrix}x_1 \\ x_2 \\ x_3 \\ x_4 \\ \vdots \\ x_{d-1} \\ x_{d} \end{pmatrix}\otimes\begin{pmatrix}\cos m\theta_1 \\ \cos m\theta_1 \\ \cos m\theta_2 \\ \cos m\theta_2 \\ \vdots \\ \cos m\theta_{d/2} \\ \cos m\theta_{d/2} \end{pmatrix} + \begin{pmatrix}-x_2 \\ x_1 \\ -x_4 \\ x_3 \\ \vdots \\ -x_{d} \\ x_{d-1} \end{pmatrix}\otimes\begin{pmatrix}\sin m\theta_1 \\ \sin m\theta_1 \\ \sin m\theta_2 \\ \sin m\theta_2 \\ \vdots \\ \sin m\theta_{d/2} \\ \sin m\theta_{d/2} \end{pmatrix}\end{equation} \tag{34}$
其中 $\otimes$ 是逐位对应相乘，从这个实现也可以看到，RoPE可以视为是乘性位置编码的变体。

为什么可以简化成这样子，把乘 $\pmb x$ 带入公式(15)得到：
$\pmb R_{\Theta,m}^d \pmb x= \begin{pmatrix}\begin{array}{cc:cc:cc:cc} \cos m\theta_1 & -\sin m\theta_1 & 0 & 0 & \cdots & 0 & 0 \\ \sin m\theta_1 & \cos m\theta_1 & 0 & 0 & \cdots & 0 & 0 \\ \hdashline 0 & 0 & \cos m\theta_2 & -\sin m\theta_2 & \cdots & 0 & 0 \\ 0 & 0 & \sin m\theta_2 & \cos m\theta_2 & \cdots & 0 & 0 \\ \hdashline \vdots & \vdots & \vdots & \vdots & \ddots & \vdots & \vdots \\ \hdashline 0 & 0 & 0 & 0 & \cdots & \cos m\theta_{d/2} & -\sin m\theta_{d/2} \\ 0 & 0 & 0 & 0 & \cdots & \sin m\theta_{d/2} & \cos m\theta_{d/2} \\ \end{array}\end{pmatrix} \begin{pmatrix}x_1 \\ x_2 \\ \hdashline x_3 \\ x_4 \\ \hdashline\vdots \\ \hdashline x_{d-1} \\ x_{d}\end{pmatrix}$
根据分块矩阵的乘法，我们仅考虑左右两边矩阵的第一块，其得到(34)中向量的第1和第2个元素：
$\begin{pmatrix} \cos m\theta_1 & -\sin m\theta_1\\ \sin m\theta_1 & \cos m\theta_1 \end{pmatrix} \begin{pmatrix} x_1\\ x_2 \end{pmatrix} = \begin{pmatrix}x_1 \cos m\theta_1 - x_2 \sin m\theta_1 \\ x_1 \sin m\theta_1+x_2 \cos m\theta_1 \end{pmatrix}$
因此这是成立的。

RoPE的远程衰减

可以看到，RoPE 形式上和 Sinusoidal 位置编码有点相似，只不过 Sinusoidal 位置编码是加性的，而 RoPE 可以视为乘性的。在 $\theta_i$ 的选择上，同样沿用了 Sinusoidal 位置编码的方案，即 $\theta_i = 10000^{-2i/d}$ ，它可以带来一定的远程衰减性。

具体证明如下：将 $\pmb q= \pmb W_q \pmb x_m$ 和 $\pmb k = \pmb W_k\pmb x_n$ 两两分组，它们在公式(16)加上RoPE后的内积可以用复数乘法表示为：
$\begin{equation} (\boldsymbol{R}_{\Theta,m}^d \pmb W_q\pmb x_m)^{\top}(\boldsymbol{R}_{\Theta,n}^d \pmb W_k \pmb x_n) = \text{Re}\left[\sum_{i=0}^{d/2-1}\boldsymbol{q}_{[2i:2i+1]}\boldsymbol{k}_{[2i:2i+1]}^* e^{\text{i}(m-n)\theta_i}\right]\tag{35}\end{equation}$
其中 $\boldsymbol{q}_{[2i:2i+1]}$ 表示 $\pmb q$ 中第 $2 i$ 到第 $2 i + 1$ 个元素组成一个二维向量。其实就是(12)中的第三个等式，不过分成了 $d /2$ 个块。

记 $h_i = \boldsymbol{q}_{[2i:2i+1]}\boldsymbol{k}_{[2i:2i+1]}^*, S_j = \sum\limits_{i=0}^{j-1} e^{\text{i}(m-n)\theta_i}$ ，并令 $h_{d/2}=0,S_0=0$ ，由分部求和法：
$\begin{aligned}\sum_{i=0}^{d/2-1}\boldsymbol{q}_{[2i:2i+1]}\boldsymbol{k}_{[2i:2i+1]}^* e^{\text{i}(m-n)\theta_i} &= \sum_{i=0}^{d/2-1} h_i (S_{i +1} - S_i)\\ &= [h_{d/2}S_{d/2} - h_0S_0]-\sum_{i=0}^{d/2-1} S_{i+1}(h_{i+1} - h_i)\\ &= -\sum_{i=0}^{d/2-1} S_{i+1}(h_{i+1} - h_i) \end{aligned} \tag{36}$
我们先来看(36)的第一个等式：
$S_{i+1} -S_i = \sum_{i=0}^{i} e^{\text{i}(m-n)\theta_i} -\sum\limits_{i=0}^{i-1} e^{\text{i}(m-n)\theta_i}= e^{\text{i}(m-n)\theta_i}$

其实不用分部求和法也能证明剩下的等式：
$\begin{aligned} \sum_{i=0}^{d/2-1} h_i (S_{i +1} - S_i)&= h_0(S_{1} -S_0) +h_1(S_2-S_1) + \cdots + h_{d/2-1}(S_{d/2} - S_{d/2 -1})\\ &=h_0S_1 - h_0S_0 + h_1S_2 - h_1S_1+ h_2S_3 - h_2S_2+\cdots + h_{d/2-1} S_{d/2} - h_{d/2-1} S_{d/2 -1} \\ &= S_1(h_0 -h_1) + S_2(h_1 -h_2) + S_{d/2}(h_{d/2-1} -h_{d/2} ) \\ &= \sum_{i=0}^{d/2-1}S_{i+1}(h_i - h_{i+1}) \\ &=-\sum_{i=0}^{d/2-1}S_{i+1}(h_{i+1} -h_i) \end{aligned}$

因此
$\begin{equation}\begin{aligned} \left|\sum_{i=0}^{d/2-1}\boldsymbol{q}_{[2i:2i+1]}\boldsymbol{k}_{[2i:2i+1]}^* e^{\text{i}(m-n)\theta_i}\right| =&\, \left|\sum_{i=0}^{d/2-1} S_{i+1}(h_{i+1} - h_i)\right| \\ \leq&\, \sum_{i=0}^{d/2-1} |S_{i+1}| |h_{i+1} - h_i| \\ \leq&\, \left(\max_i |h_{i+1} - h_i|\right)\sum_{i=0}^{d/2-1} |S_{i+1}| \end{aligned}\end{equation} \tag{37}$
通过设定 $\theta_i = 10000^{-2i/d}$ ，我们可以考察 $\frac{1}{d/2}\sum\limits_{i=1}^{d/2} |S_i|$ 随着相对距离 $m - n$ 的增加而衰减，如图2所示。

从图中我们可以可以看到随着相对距离的变大，内积结果有衰减趋势的出现。因此，选择 $\theta_i = 10000^{-2i/d}$ ，确实能带来一定的远程衰减性。当然，能带来远程衰减性的不止这个选择，几乎任意的光滑单调函数都可以，这里只是沿用了已有的选择。

实验和评估

略

结论

在这项工作中，作者提出了一种新的位置嵌入方法，将绝对相对位置依赖纳入自注意力机制中，以增强Transformer架构的性能。

参考

苏剑林. (Mar. 23, 2021). 《Transformer升级之路：2、博采众长的旋转式位置编码》 ↩︎
Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention ↩︎ ↩︎
Efficient Attention: Attention with Linear Complexities ↩︎

[论文笔记]ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING(下)

引言

证明(复数)

通用形式

RoPE的性质

理论解释

二维下RoPE的推导

高效计算的旋转矩阵乘法实现

RoPE的远程衰减

实验和评估

结论

参考

网站公告

今日签到

热门文章

最新发布