必知必會：基于Transformer 的預訓練語言模型如何區分文本位置（sinusoidal位置編碼、原理和詳細推導）

預訓練位置編碼

基于Transformer 的預訓練語言模型如何區分文本位置?

基于 Transformer 的預訓練語言模型主要通過位置編碼來區分文本位置。Transformer 核心的自注意力機制本身并不考慮詞的順序，它對輸入序列的處理是與位置無關的。在 query 和 key 的矩陣乘法之后，計算出當前 query 與所有 key 的相關性得分，經過 softmax 運算后得到一個表示相關性的概率分布，分布中的每一個元素都叫作“注意力分數”。自注意力機制已經喪失了表示詞的位置信息的能力，所計算的注意力分數僅僅是表示相關性大小的標量。換句話說，把任意兩個詞的位置相互調換，它們之間的注意力分數是一樣的。

位置信息在各類自然語言處理任務中都很重要，尤其是在漢語中，順序等位置信息對于語義理解十分關鍵。因此，為了使 Transformer 模型能夠區分詞的順序，我們需要給模型添加位置信息，這就是要在 Transformer 模型中增加位置編碼的原因。經典的位置編碼主要分為兩種，分別是絕對位置編碼和相對位置編碼。

絕對位置編碼的主要思想是建模文本中每個詞的位置信息，并將位置信息融入模型的輸入中。以下是兩種具有代表性的絕對位置編碼方法。

*第一種是 BERT 所用的訓練式絕對位置編碼。該編碼方法可以將文本的位置信息編碼成大小為 seq_len×hidden_size 的可訓練參數，并隨著模型的訓練不斷更新，其中，seq_len 表示模型輸入文本的最大長度，hidden_size 表示位置向量的編碼維度。訓練式絕對位置編碼的一個顯著缺點是無法外推，即當輸入到模型中的文本長度超過 seq_len 時，模型無法為超長的文本提供有意義的位置編碼。
*第二種是 Transformer 所用的 sinusoidal 位置編碼。如下述公式所示：
$\begin{cases} p_{k,2i} = \sin(k / 10\ 000^{2i/d}) \\ p_{k,2i+1} = \cos(k / 10\ 000^{2i/d}) \end{cases}$

對于位置 $k$ ，利用三角函數將文本的位置信息編碼為維度大小是 $d$ 的位置向量 $p\boldsymbol{p}$ ，其中， $i$ 表示位置向量中的第 $i$ 維，位置向量 $p\boldsymbol{p}$ 在模型的訓練過程中不參與梯度更新。

在 Transformer 的開創性論文 “Attention Is All You Need” 中，作者給出了采用三角函數 $sin?\sin$ 與 $cos?\cos$ 的兩個原因。如下述公式所示，

第一個原因是，在位置 $k$ 上，對于任意的位置偏移 $koffsetk_{\text{offset}}$ ，位置 $k+koffsetk+k_{\text{offset}}$ 上的位置編碼 $p(k+koffset)\boldsymbol{p}(k+k_{\text{offset}})$ 均可以表示成位置 $k$ 和位置 $koffsetk_{\text{offset}}$ 的線性向量組合，這使得模型可以輕松學習到相對位置信息：
$cos?(k+koffset)=cos?k?cos?koffset?sin?k?sin?koffset\cos(k + k_{\text{offset}}) = \cos k \cdot \cos k_{\text{offset}} - \sin k \cdot \sin k_{\text{offset}}$
第二個原因是， $sin?\sin$ 函數與 $cos?\cos$ 函數的值域穩定在固定區間，這意味著無論編碼的文本長度是 5 還是 500，位置向量中的取值均在 $[? 1, 1]$ 之間。輸出值域的穩定有助于模型的穩定訓練。

要理解位置編碼后詞向量矩陣的計算，需從位置編碼的公式和矩陣逐元素相加兩方面分析，以下分步拆解：

以一個簡單的例子來說明位置編碼的計算過程：假如我們輸入的是一個長度為 4 的句子"I like to code"，我們可以得到下面的詞向量矩陣 $x\rm x$ ，其中每一行代表的就是一個詞向量， $x0=[0.1,0.2,0.3,0.4]\rm x_0=[0.1,0.2,0.3,0.4]$ 對應的就是“I”的詞向量，它的pos就是為0，以此類推，第二行代表的是“like”的詞向量，它的pos就是1：

$\rm x = \begin{bmatrix} 0.1 & 0.2 & 0.3 & 0.4 \\ 0.2 & 0.3 & 0.4 & 0.5 \\ 0.3 & 0.4 & 0.5 & 0.6 \\ 0.4 & 0.5 & 0.6 & 0.7 \end{bmatrix}$

?則經過位置編碼后的詞向量為：

$\rm x_{PE} = \begin{bmatrix} 0.1 & 0.2 & 0.3 & 0.4 \\ 0.2 & 0.3 & 0.4 & 0.5 \\ 0.3 & 0.4 & 0.5 & 0.6 \\ 0.4 & 0.5 & 0.6 & 0.7 \end{bmatrix} + \begin{bmatrix} \sin(\frac{0}{10000^0}) & \cos(\frac{0}{10000^0}) & \sin(\frac{0}{10000^{2/4}}) & \cos(\frac{0}{10000^{2/4}}) \\ \sin(\frac{1}{10000^0}) & \cos(\frac{1}{10000^0}) & \sin(\frac{1}{10000^{2/4}}) & \cos(\frac{1}{10000^{2/4}}) \\ \sin(\frac{2}{10000^0}) & \cos(\frac{2}{10000^0}) & \sin(\frac{2}{10000^{2/4}}) & \cos(\frac{2}{10000^{2/4}}) \\ \sin(\frac{3}{10000^0}) & \cos(\frac{3}{10000^0}) & \sin(\frac{3}{10000^{2/4}}) & \cos(\frac{3}{10000^{2/4}}) \end{bmatrix} = \begin{bmatrix} 0.1 & 1.2 & 0.3 & 1.4 \\ 1.041 & 0.84 & 0.41 & 1.49 \\ 1.209 & -0.016 & 0.52 & 1.59 \\ 0.541 & -0.489 & 0.895 & 1.655 \end{bmatrix}$

詳細講解

Transformer中，位置編碼（Positional Encoding）的公式為：
$\text{PE}_{(\text{pos}, 2i)} = \sin\left( \frac{\text{pos}}{10000^{2i/d_{\text{model}}}} \right) \\ \text{PE}_{(\text{pos}, 2i+1)} = \cos\left( \frac{\text{pos}}{10000^{2i/d_{\text{model}}}} \right)$
其中：

$pos\text{pos}$ ：詞在序列中的位置（從0開始）；
$i$ ：詞向量的維度索引（從0開始）；
$dmodeld_{\text{model}}$ ：詞向量的維度（示例中詞向量是4維，所以 $dmodel=4d_{\text{model}}=4$ ）。

位置編碼矩陣的計算（逐行、逐列拆解）

示例中句子長度為4（詞的位置 $pos=0,1,2,3\text{pos}=0,1,2,3$ ），詞向量維度 $dmodel=4d_{\text{model}}=4$ 。我們需要為每個位置 $pos\text{pos}$ 生成一個4維的位置編碼向量，最終組成4×4的位置編碼矩陣，再與原始詞向量矩陣逐元素相加。

步驟1：計算位置編碼矩陣的每個元素

以“位置 $pos=0\text{pos}=0$ （對應單詞"I"）”的4維位置編碼為例，逐維度（ $i = 0, 1, 2, 3$ ）計算：

維度 $i = 0$ ：
代入公式， $2 i = 0$ ，所以用 $sin?\sin$ 公式：
$\text{PE}_{(0, 0)} = \sin\left( \frac{0}{10000^{0/4}} \right) = \sin(0) = 0$
維度 $i = 1$ ：
$2 i = 2$ ，但 $2 i + 1 = 1$ ，所以用 $cos?\cos$ 公式：
$\text{PE}_{(0, 1)} = \cos\left( \frac{0}{10000^{2/4}} \right) = \cos(0) = 1$
維度 $i = 2$ ：
$2 i = 2$ ，用 $sin?\sin$ 公式：
$\text{PE}_{(0, 2)} = \sin\left( \frac{0}{10000^{4/4}} \right) = \sin(0) = 0$
維度 $i = 3$ ：
$2 i + 1 = 3$ ，用 $cos?\cos$ 公式：
$\text{PE}_{(0, 3)} = \cos\left( \frac{0}{10000^{6/4}} \right) = \cos(0) = 1$

因此， $pos=0\text{pos}=0$ 的位置編碼向量為 $[0, 1, 0, 1]$ 。

步驟2：同理計算其他位置的編碼向量

$pos=1\text{pos}=1$ （對應單詞"like"）：
逐維度計算后，位置編碼向量為：
$\left[ \sin\left( \frac{1}{10000^0} \right), \cos\left( \frac{1}{10000^0} \right), \sin\left( \frac{1}{10000^{2/4}} \right), \cos\left( \frac{1}{10000^{2/4}} \right) \right] \approx [0.841, 0.540, 0.841, 0.540]$
$pos=2\text{pos}=2$ （對應單詞"to"）：
位置編碼向量為：
$\left[ \sin\left( \frac{2}{10000^0} \right), \cos\left( \frac{2}{10000^0} \right), \sin\left( \frac{2}{10000^{2/4}} \right), \cos\left( \frac{2}{10000^{2/4}} \right) \right] \approx [0.909, -0.416, 0.909, -0.416]$
$pos=3\text{pos}=3$ （對應單詞"code"）：
位置編碼向量為：
$\left[ \sin\left( \frac{3}{10000^0} \right), \cos\left( \frac{3}{10000^0} \right), \sin\left( \frac{3}{10000^{2/4}} \right), \cos\left( \frac{3}{10000^{2/4}} \right) \right] \approx [0.141, -0.989, 0.141, -0.989]$

步驟3：組合成“位置編碼矩陣”

將4個位置的編碼向量按行排列，得到4×4的位置編碼矩陣：
$\left[ \begin{array}{cccc} 0 & 1 & 0 & 1 \\ 0.841 & 0.540 & 0.841 & 0.540 \\ 0.909 & -0.416 & 0.909 & -0.416 \\ 0.141 & -0.989 & 0.141 & -0.989 \\ \end{array} \right]$

三、原始詞向量與位置編碼“逐元素相加”

原始詞向量矩陣 $x\text{x}$ 是：
$\text{x} = \left[ \begin{array}{cccc} 0.1 & 0.2 & 0.3 & 0.4 \\ 0.2 & 0.3 & 0.4 & 0.5 \\ 0.3 & 0.4 & 0.5 & 0.6 \\ 0.4 & 0.5 & 0.6 & 0.7 \\ \end{array} \right]$

位置編碼矩陣與 $x\text{x}$ 逐元素相加（即每個位置的詞向量 + 對應位置的編碼向量），以第一行為例：

原始第一行： $[0.1, 0.2, 0.3, 0.4]$
位置編碼第一行： $[0, 1, 0, 1]$
相加后第一行： $[0.1 + 0, 0.2 + 1, 0.3 + 0, 0.4 + 1] = [0.1, 1.2, 0.3, 1.4]$

其余情況相同，以此類推

實現代碼：

import numpy as np
import matplotlib.pyplot as plt
def PositionEncoding(seq_len, d_model, n=10000):P = np.zeros((seq_len, d_model))for k in range(seq_len):for i in np.arange(int(d_model/2)):denominator = np.power(n, 2*i/d_model)P[k, 2*i] = np.sin(k/denominator)P[k, 2*i+1] = np.cos(k/denominator)return PP = PositionEncoding(seq_len=4, d_model=4, n=1000)
print(P)[[ 0.          1.          0.          1.        ][ 0.84147098  0.54030231  0.03161751  0.99950004][ 0.90929743 -0.41614684  0.0632034   0.99800067][ 0.14112001 -0.9899925   0.09472609  0.99550337]]

其中參數n的作用是控制位置編碼中正弦/余弦函數的周期變化速率，具體來說：

n是一個縮放因子，默認值通常設為10000（如原Transformer論文中所示）
在計算時，它通過np.power(n, 2*i/d_model)影響函數的周期
不同的i（維度索引）會得到不同周期的正弦/余弦函數，周期范圍從2π到2π*n
n值越大，不同維度之間的周期差異越顯著

n被設為100，這會使得位置編碼的周期變化比默認值10000更快。通過這種方式，模型能夠區分序列中不同位置的元素，即使它們在詞嵌入上是相同的。

當n較小時（如100），位置編碼的數值變化會更劇烈；而當n較大時（如10000），數值變化會更平緩，能更好地處理長序列。

這樣的位置編碼主要有兩個好處：

使 PE 能夠適應比訓練集里面所有句子更長的句子，假設訓練集里面最長的句子是有 30 個單詞，突然來了一個長度為 31 的句子，則使用公式計算的方法可以計算出第 31 位的 Embedding。
可以讓模型容易地計算出相對位置，對于固定長度的間距 k，PE(pos+k) 可以用 PE(pos) 計算得到。因為 Sin(A+B) = Sin(A)Cos(B) + Cos(A)Sin(B), Cos(A+B) = Cos(A)Cos(B) - Sin(A)Sin(B)。

進一步推理：

更多原理性知識見前置知識模塊

可以通過嚴謹的數學推導證明該編碼方式的優越性。原始的 Transformer Embedding 可以表示為：

$\begin{equation}f(\cdots,\boldsymbol{x}_m,\cdots,\boldsymbol{x}_n,\cdots)=f(\cdots,\boldsymbol{x}_n,\cdots,\boldsymbol{x}_m,\cdots)\end{equation}$

很明顯，這樣的函數是不具有不對稱性的，也就是無法表征相對位置信息。我們想要得到這樣一種編碼方式：

$\begin{equation}\tilde{f}(\cdots,\boldsymbol{x}_m,\cdots,\boldsymbol{x}_n,\cdots)=f(\cdots,\boldsymbol{x}_m + \boldsymbol{p}_m,\cdots,\boldsymbol{x}_n + \boldsymbol{p}_n,\cdots)\end{equation}$

這里加上的 $p_m$ ， $p_n$ 就是位置編碼。接下來我們將 $f(...,x_m+p_m,...,x_n+p_n)$ 在 m,n 兩個位置上做泰勒展開：

$\begin{equation}\tilde{f}\approx f + \boldsymbol{p}_m^{\top} \frac{\partial f}{\partial \boldsymbol{x}_m} + \boldsymbol{p}_n^{\top} \frac{\partial f}{\partial \boldsymbol{x}_n} + \frac{1}{2}\boldsymbol{p}_m^{\top} \frac{\partial^2 f}{\partial \boldsymbol{x}_m^2}\boldsymbol{p}_m + \frac{1}{2}\boldsymbol{p}_n^{\top} \frac{\partial^2 f}{\partial \boldsymbol{x}_n^2}\boldsymbol{p}_n + \underbrace{\boldsymbol{p}_m^{\top} \frac{\partial^2 f}{\partial \boldsymbol{x}_m \partial \boldsymbol{x}_n}\boldsymbol{p}_n}_{\boldsymbol{p}_m^{\top} \boldsymbol{\mathcal{H}} \boldsymbol{p}_n}\end{equation}$

可以看到第1項與位置無關，2～5項僅依賴單一位置，第6項（f 分別對 m、n 求偏導）與兩個位置有關，所以我們希望第六項（ $p_m^THp_n$ ）表達相對位置信息，即求一個函數 g 使得:

$p_m^THp_n = g(m-n)$

我們假設 $H$ 是一個單位矩陣，則：

$p_m^THp_n = p_m^Tp_n = \langle\boldsymbol{p}_m, \boldsymbol{p}_n\rangle = g(m-n)$

通過將向量 [x,y] 視為復數 x+yi，基于復數的運算法則構建方程:

$\begin{equation}\langle\boldsymbol{p}_m, \boldsymbol{p}_n\rangle = \text{Re}[\boldsymbol{p}_m \boldsymbol{p}_n^*]\end{equation}$

再假設存在復數 $q_{m-n}$ 使得：

$\begin{equation}\boldsymbol{p}_m \boldsymbol{p}_n^* = \boldsymbol{q}_{m-n}\end{equation}$

使用復數的指數形式求解這個方程，得到二維情形下位置編碼的解：

$\begin{equation}\boldsymbol{p}_m = e^{\text{i}m\theta}\quad\Leftrightarrow\quad \boldsymbol{p}_m=\begin{pmatrix}\cos m\theta \\ \sin m\theta\end{pmatrix}\end{equation}$

由于內積滿足線性疊加性，所以更高維的偶數維位置編碼，我們可以表示為多個二維位置編碼的組合：

$\begin{equation}\boldsymbol{p}_m = \begin{pmatrix}e^{\text{i}m\theta_0} \\ e^{\text{i}m\theta_1} \\ \vdots \\ e^{\text{i}m\theta_{d/2-1}}\end{pmatrix}\quad\Leftrightarrow\quad \boldsymbol{p}_m=\begin{pmatrix}\cos m\theta_0 \\ \sin m\theta_0 \\ \cos m\theta_1 \\ \sin m\theta_1 \\ \vdots \\ \cos m\theta_{d/2-1} \\ \sin m\theta_{d/2-1} \end{pmatrix}\end{equation}$

再取 $θi=10000?2i/d\theta_i = 10000^{-2i/d}$ （該形式可以使得隨著|m?n|的增大，?pm,pn?有著趨于零的趨勢，這一點可以通過對位置編碼做積分來證明，而 base 取為 10000 是實驗結果），就得到了上文的編碼方式。

當 $H$ 不是一個單位矩陣時，因為模型的 Embedding 層所形成的 d 維向量之間任意兩個維度的相關性比較小，滿足一定的解耦性，我們可以將其視作對角矩陣，那么使用上述編碼：

$\begin{equation}\boldsymbol{p}_m^{\top} \boldsymbol{\mathcal{H}} \boldsymbol{p}_n=\sum_{i=1}^{d/2} \boldsymbol{\mathcal{H}}_{2i,2i} \cos m\theta_i \cos n\theta_i + \boldsymbol{\mathcal{H}}_{2i+1,2i+1} \sin m\theta_i \sin n\theta_i\end{equation}$

通過積化和差：

$\begin{equation}\sum_{i=1}^{d/2} \frac{1}{2}\left(\boldsymbol{\mathcal{H}}_{2i,2i} + \boldsymbol{\mathcal{H}}_{2i+1,2i+1}\right) \cos (m-n)\theta_i + \frac{1}{2}\left(\boldsymbol{\mathcal{H}}_{2i,2i} - \boldsymbol{\mathcal{H}}_{2i+1,2i+1}\right) \cos (m+n)\theta_i \end{equation}$

說明該編碼仍然可以表示相對位置。

上述?編碼結果，如圖所示：

在這里插入圖片描述

前置知識：泰勒展開（Taylor Expansion）

要理解泰勒展開（Taylor Expansion），核心是解決一個問題：如何用“多項式”近似“復雜函數”？比如用簡單的多項式去逼近sin(x)、e^x這類無法用四則運算直接計算的函數，這在數學分析、工程計算、機器學習（如神經網絡激活函數近似）中都有重要用途。

本質思想：“局部線性化”的延伸
函數在某點（比如x?）的切線（一次多項式）可以近似該點附近的函數值（局部線性化）。但切線的近似精度很低，離x?越遠誤差越大。
泰勒展開的思路是：用更高次的多項式（比如二次、三次、n次）替代切線，通過匹配函數在x?點的“函數值”“一階導數”“二階導數”……“n階導數”，讓多項式與原函數在x?附近盡可能重合，從而提升近似精度。
泰勒展開公式
對于一個在x?點“足夠光滑”（即n階導數存在）的函數f(x)，其在x?點的n階泰勒多項式（泰勒展開的核心表達式）為：
$\approx P_n(x) = f(x_0) + f'(x_0)(x - x_0) + \frac{f''(x_0)}{2!}(x - x_0)^2 + \frac{f'''(x_0)}{3!}(x - x_0)^3 + \dots + \frac{f^{(n)}(x_0)}{n!}(x - x_0)^n$
當n→∞時，若誤差項（余項）趨近于0，則P?(x)會精確等于f(x)，此時稱為泰勒級數。

公式中各部分的含義：

x?：展開的“中心點”（通常選易計算的點，如x?=0，此時稱為“麥克勞林展開”）；
f(x?)：函數在x?點的函數值（保證多項式與原函數在x?點“重合”）；
f’(x?)(x-x?)：一階導數項（保證多項式與原函數在x?點“斜率相同”，即切線方向一致）；
f’'(x?)/2! · (x-x?)2：二階導數項（保證多項式與原函數在x?點“曲率相同”，即彎曲方向一致）；
更高次項：進一步匹配函數的“高階彎曲特性”，讓近似更精準；
1/n!：階乘分母是“歸一化因子”，用于抵消高階導數帶來的數值放大（比如n階導數可能很大，除以n!后能讓各項貢獻更均衡）。

簡單例子：e^x的麥克勞林展開

選擇最經典的例子——指數函數f(x)=e^{x，展開中心點x?=0（麥克勞林展開），因為e}x的各階導數非常簡單，便于計算。

步驟1：計算f(x)=e^x在x?=0處的各階導數
e^{x的一個特殊性質是：**任意階導數都等于自身**，即f}(k)(x)=e^{x（k=0,1,2,…，f}(0)(x)表示原函數）。
因此，在x?=0處，所有導數的值都為：f^(k)(0)=e0=1。
步驟2：代入泰勒展開公式
將f^{(k)(0)=1、x?=0代入公式，得到e}x的麥克勞林展開式：
$e^x \approx 1 + x + \frac{x^2}{2!} + \frac{x^3}{3!} + \frac{x^4}{4!} + \dots + \frac{x^n}{n!}$
步驟3：用具體數值驗證近似效果
我們用x=1（計算e^1≈2.71828）來驗證不同階數多項式的近似精度：

0階多項式（只保留常數項）：P?(1)=1 → 誤差=2.71828-1=1.71828（誤差很大）；
1階多項式（保留到x項）：P?(1)=1+1=2 → 誤差=0.71828（誤差減小）；
2階多項式（保留到x2/2!）：P?(1)=1+1+1/2=2.5 → 誤差=0.21828（誤差進一步減小）；
3階多項式（保留到x3/6）：P?(1)=1+1+0.5+1/6≈2.66667 → 誤差≈0.05161；
4階多項式（保留到x?/24）：P?(1)=2.66667 + 1/24≈2.70833 → 誤差≈0.00995；
5階多項式（保留到x?/120）：P?(1)=2.70833 + 1/120≈2.71667 → 誤差≈0.00161；
10階多項式：P??(1)≈2.71828 → 誤差幾乎為0！

前置概念：多變量函數的泰勒展開核心思想

單變量泰勒展開是“匹配單個變量的各階導數”，而多變量泰勒展開的核心是：
對需要偏移的變量（此處為 ( x_m ) 和 ( x_n )），同時匹配它們的“函數值”“一階偏導數”“二階混合偏導數”……“k階混合偏導數”，讓多項式與原函數在“原位置 ( (x_m, x_n) )”附近盡可能重合，從而近似偏移后的函數值 ( f(\dots, x_m+p_m, \dots, x_n+p_n) )。

為簡化表述，我們先定義“簡化函數”：固定除 ( x_m ) 和 ( x_n ) 外的所有變量，將函數記為 二元函數
$f(\dots, u, \dots, v, \dots)$
其中 ( u = x_m )（原第m個變量）、( v = x_n )（原第n個變量），偏移后的函數值即為 ( F(u + p_m, v + p_n) )。

我們的目標就是對 二元函數 ( F(u, v) ) 在點 ( (u_0, v_0) = (x_m, x_n) ) 處做泰勒展開，最終再還原回原函數的表述。

二元函數的泰勒展開公式（核心推導）

對于二元函數 ( F(u, v) )，若在 ( (u_0, v_0) ) 處“足夠光滑”（各階混合偏導數存在），其 k階泰勒多項式（近似偏移后的函數值 ( F(u_0+p_m, v_0+p_n) )）的通用形式為：
$F(u_0 + p_m, v_0 + p_n) \approx \sum_{k=0}^K \frac{1}{k!} \left( p_m \cdot \frac{\partial}{\partial u} + p_n \cdot \frac{\partial}{\partial v} \right)^k F(u_0, v_0)$

公式中關鍵符號的含義：

( k )：泰勒展開的“階數”（k=0為常數項，k=1為一階偏導數項，k=2為二階混合偏導數項，以此類推）；
( \frac{\partial}{\partial u} ) / ( \frac{\partial}{\partial v} )：對變量 ( u )（原 ( x_m )）、( v )（原 ( x_n )）的一階偏導數算子（固定其他變量，僅對單個變量求導）；
( \left( p_m \cdot \frac{\partial}{\partial u} + p_n \cdot \frac{\partial}{\partial v} \right)^k )：k階偏導數算子展開（類似二項式定理展開，會產生“純u偏導”“純v偏導”“混合u-v偏導”項）；
( \frac{1}{k!} )：階乘歸一化因子（抵消高階偏導數的數值放大，保證各項貢獻均衡）。

分階展開：從低階到高階，直觀理解

為了更清晰，我們按“階數”逐步展開公式，最終還原回原函數 ( f ) 的表述（將 ( u_0=x_m )、( v_0=x_n )、( F ) 換回 ( f )，偏導數算子對應原變量 ( x_m )、( x_n )）。

1. *0階展開（常數項，最粗糙近似）

k=0時，算子項 ( \left( p_m \frac{\partial}{\partial u} + p_n \frac{\partial}{\partial v} \right)^0 = 1 )（任何算子的0次冪為“恒等算子”，即不改變函數），因此：
$f(\dots, x_m+p_m, \dots, x_n+p_n) \approx f(\dots, x_m, \dots, x_n, \dots)$
含義：完全忽略偏移 ( p_m )、( p_n )，直接用原位置的函數值近似偏移后的值——誤差最大，但最簡單。

2. 1階展開（線性項，局部線性近似）

k=1時，算子項展開為 ( p_m \frac{\partial}{\partial u} + p_n \frac{\partial}{\partial v} )，因此：
$\begin{align*} f(\dots, x_m+p_m, \dots, x_n+p_n) &\approx f(\dots, x_m, \dots, x_n, \dots) + \\ &p_m \cdot \frac{\partial f}{\partial x_m}(\dots, x_m, \dots, x_n, \dots) + \\ &p_n \cdot \frac{\partial f}{\partial x_n}(\dots, x_m, \dots, x_n, \dots) \end{align*}$
符號說明：( \frac{\partial f}{\partial x_m} ) 表示“固定其他變量，僅對第m個變量 ( x_m ) 求一階偏導數”，反映 ( x_m ) 變化對 ( f ) 的“線性影響速率”；同理 ( \frac{\partial f}{\partial x_n} ) 反映 ( x_n ) 的線性影響速率。

含義：用“平面”（二元函數的“切線平面”）近似偏移后的函數值，考慮了兩個變量的“獨立線性貢獻”——誤差比0階小，適用于偏移量 ( p_m )、( p_n ) 很小的場景。

3. 2階展開（二次項，考慮曲率和交互作用）

k=2時，算子項按二項式定理展開為 ( p_m^2 \frac{\partial^2}{\partial u^2} + 2p_m p_n \frac{\partial^2}{\partial u \partial v} + p_n^2 \frac{\partial^2}{\partial v^2} )，因此：
$\begin{align*} f(\dots, x_m+p_m, \dots, x_n+p_n) &\approx 0階項 + 1階項 + \\ &\frac{1}{2!} \left[ p_m^2 \cdot \frac{\partial^2 f}{\partial x_m^2} + 2p_m p_n \cdot \frac{\partial^2 f}{\partial x_m \partial x_n} + p_n^2 \cdot \frac{\partial^2 f}{\partial x_n^2} \right] \end{align*}$
符號說明：

( \frac{\partial^2 f}{\partial x_m^2} )：對 ( x_m ) 的“二階純偏導數”，反映 ( x_m ) 變化對 ( f ) 的“曲率影響”（比如變量 ( x_m ) 增加時，( f ) 的增長速率是加快還是減慢）；
( \frac{\partial^2 f}{\partial x_n^2} )：對 ( x_n ) 的二階純偏導數，含義同上；
( \frac{\partial^2 f}{\partial x_m \partial x_n} )：“混合偏導數”，反映 ( x_m ) 和 ( x_n ) 的“交互影響”（比如 ( x_m ) 增加時，( x_n ) 對 ( f ) 的影響是否會變化）。

含義：用“二次曲面”近似函數，不僅考慮了線性貢獻，還加入了“曲率”和“變量交互作用”——近似精度顯著提升，適用于偏移量稍大或需要更高精度的場景。

4. 高階展開（k≥3）

k≥3時，會產生更高階的混合偏導數項（如 ( p_m^3 \frac{\partial^3 f}{\partial x_m^3} )、( p_m^2 p_n \frac{\partial^3 f}{\partial x_m^2 \partial x_n} ) 等），形式更復雜，但核心邏輯不變：通過匹配更高階的偏導數，進一步減小近似誤差。

當 ( k \to \infty ) 且余項趨近于0時，泰勒多項式會精確等于原函數，此時稱為“泰勒級數”。

簡單例子：用具體函數驗證

假設原函數為 二元二次函數 ( f(x_m, x_n) = x_m^2 + 2x_m x_n + 3x_n^2 )（固定其他變量，僅關注 ( x_m ) 和 ( x_n )），我們要近似偏移后的函數值 ( f(x_m + p_m, x_n + p_n) )，并與“直接計算結果”對比，驗證泰勒展開的正確性。

步驟1：直接計算偏移后的函數值（真實值）

$\begin{align*} f(x_m+p_m, x_n+p_n) &= (x_m+p_m)^2 + 2(x_m+p_m)(x_n+p_n) + 3(x_n+p_n)^2 \\ &= x_m^2 + 2x_m p_m + p_m^2 + 2x_m x_n + 2x_m p_n + 2x_n p_m + 2p_m p_n + 3x_n^2 + 6x_n p_n + 3p_n^2 \end{align*}$

步驟2：用2階泰勒展開計算（近似值）

首先計算原函數在 ( (x_m, x_n) ) 處的各階偏導數：

0階項：( f(x_m, x_n) = x_m^2 + 2x_m x_n + 3x_n^2 )；
1階偏導數：( \frac{\partial f}{\partial x_m} = 2x_m + 2x_n )，( \frac{\partial f}{\partial x_n} = 2x_m + 6x_n )；
2階偏導數：( \frac{\partial^2 f}{\partial x_m^2} = 2 )，( \frac{\partial^2 f}{\partial x_n^2} = 6 )，( \frac{\partial^2 f}{\partial x_m \partial x_n} = 2 )；
3階及以上偏導數：均為0（因為原函數是二次函數，高階導數為0）。

代入2階泰勒展開公式：
$\begin{align*} \text{近似值} &= 0階項 + 1階項 + \frac{1}{2!}[p_m^2 \cdot 2 + 2p_m p_n \cdot 2 + p_n^2 \cdot 6] \\ &= (x_m^2 + 2x_m x_n + 3x_n^2) + [p_m(2x_m+2x_n) + p_n(2x_m+6x_n)] + \frac{1}{2}[2p_m^2 + 4p_m p_n + 6p_n^2] \\ &= x_m^2 + 2x_m x_n + 3x_n^2 + 2x_m p_m + 2x_n p_m + 2x_m p_n + 6x_n p_n + p_m^2 + 2p_m p_n + 3p_n^2 \end{align*}$

可以發現：2階泰勒展開的近似值與直接計算的真實值完全相等！
原因是原函數是“二次函數”，而2階泰勒展開已經包含了所有“二次項”，高階項（k≥3）為0，因此沒有誤差——這也體現了泰勒展開的本質：對“k次多項式函數”，k階泰勒展開可完全精確還原函數。

相對位置編碼

相對位置編碼的主要思想是修改自注意力機制，在對兩個位置i和j上的詞進行自注意力運算的時候，將兩個位置的相對距離i-j考慮進來，使得進行自注意力運算之后的結果中包含相對位置信息。在具體實現上，論文“Self-Attention with Relative Position Representations”中給出了實現相對位置編碼方案的框架，后續諸多相對位置編碼的設計思路均遵循此框架。
Transformer對i和j這兩個位置進行自注意力運算的公式如下：
$\left\{ \begin{aligned} a_{i,j} &=\text{softmax}\left( q_i k_j^{\text{T}} \right) \\ o_i &= \sum_j a_{i,j} v_j \end{aligned} \right.$
其中， $q_i$ 表示位置 $i$ 上的查詢矩陣， $k_j$ 表示位置 $j$ 上的鍵矩陣， $v_j$ 表示位置 $j$ 上的值矩陣， $a_{i,j}$ 表示位置 $i$ 上的查詢矩陣與位置 $j$ 上的鍵矩陣的相關性得分， $o_i$ 是考慮了位置 $i$ 和位置 $j$ 上兩個詞之間相關性的表征，其缺少位置 $i$ 和位置 $j$ 之間的距離信息。為了將位置 $i$ 和位置 $j$ 之間的相對距離信息融入 $o_i$ 中，作者給出了以下計算方式（具體推導過程見原論文）：

$oi=∑jai,j(xjWV+Ri,jV)o_i = \sum_j a_{i,j} \left( x_j W_V + R_{i,j}^V \right)$

其中， $x_j$ 是位置 $j$ 上的詞向量， $W_V$ 是自注意力在構建查詢矩陣時隨機初始化的一個權重矩陣，其隨著模型的訓練不斷更新。 $R_{i,j}^V$ 是一個依賴相對位置信息 $i ? j$ 的矩陣，其取值可以由三角函數計算得出，也可以作為可訓練的參數在訓練過程中不斷調整。后續無論是 XLNet、T5、DeBERTa，還是 RoPE 和 ALiBi，它們均圍繞對 $qikjTq_i k_j^\text{T}$ 的展開式進行修改。它們不僅可以將相對位置信息 $i ? j$ 融入自注意力的計算過程中，還在提升訓練效率、增強模型外推能力、融入絕對位置信息等方面給出了各自的方案。