self Attention為何除以根號dk？（全新角度）

全網最獨特解析：self Attention為何除根號dk？

一、假設條件：查詢向量和鍵向量服從正態分布

假設查詢向量 $q_i$ 和鍵向量 $k_j$ 的每個分量均為獨立同分布的隨機變量，且服從標準正態分布，即：
$q_i^{(m)}, k_j^{(m)} \sim \mathcal{N}(0,1) \quad (m=1,2,\dots,d_k)$
此時，每個分量的均值為0，方差為1。

二、點積的統計特性分析

查詢向量 $q_i$ 和鍵向量 $k_j$ 的點積為：
$q_i \cdot k_j = \sum_{m=1}^{d_k} q_i^{(m)} k_j^{(m)}$
根據獨立隨機變量和的方差性質，點積的方差為：
$\text{Var}(q_i \cdot k_j) = \sum_{m=1}^{d_k} \text{Var}(q_i^{(m)} k_j^{(m)})$
由于 $q_i^{(m)}$ 和 $k_j^{(m)}$ 獨立且均服從 $\mathcal{N}(0,1)$ ，乘積的方差為：
$\text{Var}(q_i^{(m)} k_j^{(m)}) = \text{Var}(q_i^{(m)}) \cdot \text{Var}(k_j^{(m)}) + [E(q_i^{(m)})]^2 \cdot \text{Var}(k_j^{(m)}) + [E(k_j^{(m)})]^2 \cdot \text{Var}(q_i^{(m)}) = 1$
因此，點積的方差為 $d_k$ ，標準差為 $\sqrt{d_k}$ 。

三、縮放的必要性：Softmax的輸入敏感性

Softmax函數對輸入值的量級極其敏感：

數值溢出問題：若點積的絕對值隨 $d_k$ 增大而顯著增大（例如 $d_k=64$ 時標準差為8），輸入Softmax的值可能超出浮點數表示范圍。
梯度消失問題：當某些點積值遠大于其他值時，Softmax輸出接近獨熱分布（Hard Attention），導致梯度趨近于零，阻礙參數更新。
分布退化問題：未經縮放的輸入會使注意力權重集中在極少數位置，失去“軟性關注”的優勢。

四、除以 $\sqrt{d_k}$ 的數學解釋

通過將點積除以 $\sqrt{d_k}$ ，可以將點積的標準差從 $\sqrt{d_k}$ 縮放至1，即：
$\text{Var}\left( \frac{q_i \cdot k_j}{\sqrt{d_k}} \right) = \frac{\text{Var}(q_i \cdot k_j)}{d_k} = 1$
此時，點積的分布被標準化為 $\mathcal{N}(0,1)$ ，實現了以下效果：

數值穩定性：Softmax輸入的均值為0、方差為1，避免極端值。
梯度均衡性：Softmax輸出的概率分布更平緩，梯度更新更穩定。
模型魯棒性：注意力權重在多位置間合理分配，保留軟性關注能力。

五、為何不是其他縮放因子？

若采用其他縮放因子（如 $d_k$ 或 $2\sqrt{d_k}$ ）：
? 除以 $d_k$ ：方差將縮小為 $1/d_k$ ，導致Softmax輸入過小，注意力權重趨于均勻分布，失去區分性。
? 除以 $2\sqrt{d_k}$ ：方差將縮小為 $1/4$ ，輸入量級過小，同樣影響注意力權重的有效性。

總結

從正態分布的角度看，除以 $\sqrt{d_k}$ 的本質是通過方差歸一化，將點積的統計特性控制在合理范圍內。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/74256.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/74256.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/74256.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！