SDPA（Scaled Dot-Product Attention）詳解

SDPA（Scaled Dot-Product Attention，縮放點積注意力）是 Transformer 模型的核心計算單元，最早由 Vaswani 等人在 2017 年的論文《Attention Is All You Need》提出。它通過計算查詢（Query）、鍵（Key）和值（Value）之間的相似度，生成上下文感知的表示。

1. SDPA 的數學定義

給定：

查詢矩陣（Query）： $\in \mathbb{R}^{n \times d_k}$
鍵矩陣（Key）： $\in \mathbb{R}^{m \times d_k}$
值矩陣（Value）： $\in \mathbb{R}^{m \times d_v}$

SDPA 的計算公式為：

$\text{Attention}(Q, K, V) = \text{softmax}\left( \frac{QK^T}{\sqrt{d_k}} \right) V$

其中：

$QK^T$ 計算查詢和鍵的點積（相似度）。
$\sqrt{d_k}$ 用于縮放點積，防止梯度消失或爆炸（尤其是 $d_k$ 較大時）。
softmax 將注意力權重歸一化為概率分布。
最終加權求和 $V$ 得到輸出。

2. SDPA 的計算步驟

計算相似度（Dot-Product）

計算 $Q$ 和 $K$ 的點積：
$S = QK^T$
相似度矩陣 $\in \mathbb{R}^{n \times m}$ 表示每個查詢對所有鍵的匹配程度。

縮放（Scaling）
- 除以 $\sqrt{d_k}$ （鍵向量的維度），防止點積值過大導致 softmax 梯度消失：
  $S_{\text{scaled}} = \frac{S}{\sqrt{d_k}}$
Softmax 歸一化
- 對每行（每個查詢）做 softmax，得到注意力權重 $A$ ：
  $\text{softmax}(S_{\text{scaled}})$
- 保證 $\sum_j A_{i,j} = 1$ ，權重總和為 1。
加權求和（Value 聚合）
- 用注意力權重 $A$ 對 $V$ 加權求和，得到最終輸出：
  $\text{Output} = A \cdot V$
- 輸出維度： $\mathbb{R}^{n \times d_v}$ 。

3. SDPA 的作用與優勢

? 核心作用：

讓模型動態關注輸入的不同部分（類似人類注意力機制）。
適用于序列數據（如文本、語音、視頻），捕捉長距離依賴。

? 優勢：

并行計算友好

矩陣乘法（GEMM）可高效并行加速（GPU/TPU 優化）。

可解釋性
- 注意力權重可視化（如 BertViz）可分析模型關注哪些 token。
靈活擴展
- 可結合 多頭注意力（Multi-Head Attention） 增強表達能力。

4. SDPA 的變體與優化

變體/優化	核心改進	應用場景
多頭注意力（MHA）	并行多個 SDPA，增強特征多樣性	Transformer (BERT, GPT)
FlashAttention	優化內存訪問，減少 HBM 讀寫	長序列推理（如 8K+ tokens）
Sparse Attention	只計算局部或稀疏的注意力	降低計算復雜度（如 Longformer）
Linear Attention	用線性近似替代 softmax	低資源設備（如 RetNet）

5. 代碼實現（PyTorch 示例）

import torch
import torch.nn.functional as Fdef scaled_dot_product_attention(Q, K, V, mask=None):d_k = Q.size(-1)scores = torch.matmul(Q, K.transpose(-2, -1)) / (d_k ** 0.5)if mask is not None:scores = scores.masked_fill(mask == 0, -1e9)attn_weights = F.softmax(scores, dim=-1)output = torch.matmul(attn_weights, V)return output# 示例輸入
Q = torch.randn(2, 5, 64)  # (batch_size, seq_len, d_k)
K = torch.randn(2, 5, 64)
V = torch.randn(2, 5, 128)
output = scaled_dot_product_attention(Q, K, V)
print(output.shape)  # torch.Size([2, 5, 128])

6. 總結

SDPA 是 Transformer 的基石，通過 Query-Key-Value 機制 + Softmax 歸一化 實現動態注意力。
關鍵優化點：縮放（防止梯度問題）、并行計算、內存效率（如 FlashAttention）。
現代優化（如 SageAttention2）進一步結合 量化、稀疏化、離群值處理 提升效率。

SDPA 及其變體已成為 NLP、CV、多模態領域的核心組件，理解其原理對模型優化至關重要。

SDPA計算過程舉例

我們通過一個具體的數值例子，逐步演示 SDPA 的計算過程。假設輸入如下（簡化版，便于手動計算）：

輸入數據（假設 `d_k = 2`, `d_v = 3`）

Query (Q)：2 個查詢（n=2），每個查詢維度 d_k=2
$\begin{bmatrix} 1 & 2 \\ 3 & 4 \\ \end{bmatrix}$
Key (K)：3 個鍵（m=3），每個鍵維度 d_k=2
$\begin{bmatrix} 5 & 6 \\ 7 & 8 \\ 9 & 10 \\ \end{bmatrix}$
Value (V)：3 個值（m=3），每個值維度 d_v=3
$\begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 1 & 0 \\ \end{bmatrix}$

Step 1: 計算 Query 和 Key 的點積（Dot-Product）

計算 $S = QK^T$ ：

$QK^T = \begin{bmatrix} 1 \cdot 5 + 2 \cdot 6 & 1 \cdot 7 + 2 \cdot 8 & 1 \cdot 9 + 2 \cdot 10 \\ 3 \cdot 5 + 4 \cdot 6 & 3 \cdot 7 + 4 \cdot 8 & 3 \cdot 9 + 4 \cdot 10 \\ \end{bmatrix} = \begin{bmatrix} 5+12 & 7+16 & 9+20 \\ 15+24 & 21+32 & 27+40 \\ \end{bmatrix} = \begin{bmatrix} 17 & 23 & 29 \\ 39 & 53 & 67 \\ \end{bmatrix}$

Step 2: 縮放（Scaling）

除以 $\sqrt{d_k} = \sqrt{2} \approx 1.414$ ：

$S_{\text{scaled}} = \frac{S}{\sqrt{2}} = \begin{bmatrix} 17/1.414 & 23/1.414 & 29/1.414 \\ 39/1.414 & 53/1.414 & 67/1.414 \\ \end{bmatrix} \approx \begin{bmatrix} 12.02 & 16.26 & 20.51 \\ 27.58 & 37.48 & 47.38 \\ \end{bmatrix}$

Step 3: Softmax 歸一化（計算注意力權重）

對每一行（每個 Query）做 softmax：

$\text{softmax}([12.02, 16.26, 20.51]) \approx [2.06 \times 10^{-4}, 0.016, 0.984] $
$\text{softmax}([27.58, 37.48, 47.38]) \approx [1.67 \times 10^{-9}, 0.0001, 0.9999] $

因此，注意力權重矩陣 $A$ 為：

$\approx \begin{bmatrix} 2.06 \times 10^{-4} & 0.016 & 0.984 \\ 1.67 \times 10^{-9} & 0.0001 & 0.9999 \\ \end{bmatrix}$

解釋：

第 1 個 Query 主要關注第 3 個 Key（權重 0.984）。
第 2 個 Query 幾乎只關注第 3 個 Key（權重 0.9999）。

Step 4: 加權求和（聚合 Value）

計算 $\text{Output} = A \cdot V$ ：

$\text{Output} = \begin{bmatrix} 2.06 \times 10^{-4} \cdot 1 + 0.016 \cdot 0 + 0.984 \cdot 1 \\ 2.06 \times 10^{-4} \cdot 0 + 0.016 \cdot 1 + 0.984 \cdot 1 \\ 2.06 \times 10^{-4} \cdot 1 + 0.016 \cdot 0 + 0.984 \cdot 0 \\ \end{bmatrix}^T \approx \begin{bmatrix} 0.984 \\ 1.000 \\ 0.0002 \\ \end{bmatrix}^T$

$\text{Output} = \begin{bmatrix} 0.984 & 1.000 & 0.0002 \\ 0.9999 & 0.9999 & 0.0001 \\ \end{bmatrix}$

解釋：

第 1 行：主要聚合了第 3 個 Value [1, 1, 0]，但受前兩個 Value 微弱影響。
第 2 行：幾乎完全由第 3 個 Value 決定。

最終輸出

$\text{Output} \approx \begin{bmatrix} 0.984 & 1.000 & 0.0002 \\ 0.9999 & 0.9999 & 0.0001 \\ \end{bmatrix}$

總結

點積：計算 Query 和 Key 的相似度。
縮放：防止梯度爆炸/消失。
Softmax：歸一化為概率分布。
加權求和：聚合 Value 得到最終表示。

這個例子展示了 SDPA 如何動態分配注意力權重，并生成上下文感知的輸出。實際應用中（如 Transformer），還會結合 多頭注意力（Multi-Head Attention） 增強表達能力。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/84762.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/84762.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/84762.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！