2-大語言模型—理論基礎：詳解Transformer架構的實現(2)

1-大語言模型—理論基礎：詳解Transformer架構的實現(1)-CSDN博客https://blog.csdn.net/wh1236666/article/details/149443139?spm=1001.2014.3001.5502

2.3、殘差連接和層歸一化

2.3.1、什么是層歸一化？

2.3.2、層歸一化的核心特點（與其他歸一化對比）

2.3.3、特此說明

?2.4、編碼器和解碼器結構

2.4.1、編碼器和解碼器到底是什么？

2.4.1.1、編碼器：負責 “看懂原文” 的翻譯官

2.4.1.2、解碼器：負責 “寫出譯文” 的秘書

2.4.1.3、總結：倆模塊的核心作用

2.4.2、編碼器（Encoder）

2.4.2.1、?整體結構

2.4.2.2、運算流程

2.4.2.3、核心機制：自注意力（Self-Attention）

2.4.3、解碼器（Decoder）

2.4.3.1、?整體結構

2.4.3.2、?運算流程

2.4.3.3、?核心機制：掩碼與交叉注意力

2.4.4、編碼器與解碼器的協作

2.4.5、完整代碼

2.5、Transformer整體邏輯

2.5.1、先看 “團隊架構”：編碼器與解碼器的核心組件

2.5.2、編碼器：用 “工具包” 把原文 “嚼碎成濃縮信息”

2.5.2.1、?多頭自注意力：像 “讀句子時同時抓多維度關系”

2.5.2.2、前饋網絡：像 “基于關系提煉深層含義”

3. 殘差連接 + 層歸一化：像 “保持思路清晰，不混亂”

2.5.3、解碼器：用 “工具包” 把 “筆記” 變成 “通順譯文”

2.5.3.1、掩碼多頭自注意力：像 “寫句子時只看自己已經寫的內容”

2.5.3.2、編碼器 - 解碼器注意力：像 “寫譯文時回頭看原文筆記”

2.5.3.3、前饋網絡 + 殘差連接 + 層歸一化：和編碼器的作用一致

2.5.4、編碼器與解碼器的 “協作全流程”（以翻譯為例）

2.5.5、總結：為什么這套組合能 “超越傳統模型”？

2.6、完整代碼

2.6.1、Transforemers實現代碼

2.6.2、與LSTM對比實現代碼

2.7、實驗效果

2.7.1、Transforemers實驗效果

2.7.2、與LSTM對比實驗效果

前文：

1-大語言模型—理論基礎：詳解Transformer架構的實現(1)-CSDN博客https://blog.csdn.net/wh1236666/article/details/149443139?spm=1001.2014.3001.5502

2.3、殘差連接和層歸一化

2.3.1、什么是層歸一化？

層歸一化的核心思想是：對單個樣本在某一層的所有特征（或隱藏單元）進行歸一化，讓這些特征的分布保持穩定（均值接近 0，方差接近 1），再通過可學習的參數進行縮放和平移，保留數據的原始特征信息。

具體計算步驟：

假設某一層的輸入為向量 $x = [x_1, x_2, ..., x_d]$ （d?為特征維度），層歸一化的計算過程如下：

計算均值：計算該向量所有元素的均值? $\mu = \frac{1}{d} \sum_{i=1}^d x_i$
計算方差：計算該向量所有元素的方差? $\sigma^2 = \frac{1}{d} \sum_{i=1}^d (x_i - \mu)^2$
歸一化：用均值和方差對原始數據進行標準化，消除量綱差異 $\hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}}$ $(\epsilon$ ?是一個極小值，避免分母為 0）
縮放和平移：通過可學習的參數? $\gamma$ （縮放因子）和?$\beta$（偏移因子）調整歸一化后的數據，保留原始特征的表達能力 $y_i = \gamma \cdot \hat{x}_i + \beta$

2.3.2、層歸一化的核心特點（與其他歸一化對比）

為了更好理解層歸一化，我們可以與常用的批歸一化（Batch Normalization，BN）?對比：

特性	層歸一化（LN）	批歸一化（BN）
歸一化維度	單個樣本的所有特征（特征維度）	批次中所有樣本的同一特征（批次維度）
依賴 “批次” 嗎？	不依賴，單個樣本獨立計算	依賴，需基于整個批次的樣本計算
適用場景	序列模型（RNN、Transformer）、小批量數據	卷積神經網絡（CNN）、大批量數據

層歸一化是一種針對 “單個樣本特征” 的歸一化技術，其核心價值在于：不依賴批次、適配序列模型、穩定訓練并加速收斂。

2.3.3、特此說明

Transformer 模型中，層歸一化是核心組件之一，它被用于多頭注意力層和前饋網絡的輸入，確保了模型在處理長序列時的穩定性。

具體來說，在 Transformer 中，層歸一化的應用場景和作用可以更細致地拆解：

多頭注意力層的輸入與輸出：在多頭注意力機制計算前，會先對輸入的特征向量進行層歸一化，確保每個頭的注意力計算在穩定的數據分布上進行；而注意力層的輸出也會與輸入進行殘差連接后，再通過層歸一化處理，避免特征值因多次疊加而過大或分布失衡，保證后續前饋網絡能高效學習。
前饋網絡的輸入：經過注意力層和殘差連接、層歸一化后的數據，會作為前饋網絡的輸入。此時的層歸一化同樣起到 “校準” 作用，讓前饋網絡（由兩個線性層和激活函數組成）在處理特征時，無需適配波動劇烈的數據分布，從而更專注于學習特征間的非線性關系。

這種 “注意力層 + 層歸一化 + 殘差連接→前饋網絡 + 層歸一化 + 殘差連接” 的模塊化設計，是 Transformer 能處理超長序列（如長文本、長視頻幀）的重要保障。如果沒有層歸一化，隨著網絡深度增加（Transformer 通常有十幾到幾十層），特征分布會逐漸偏移甚至 “爆炸”，導致模型難以訓練或性能驟降。

2.3.4、完整代碼

"""
文件名: 2.1 transformer
作者: 墨塵
日期: 2025/7/18
項目名: LLM
備注:
"""import numpy as np
import math
import torch
from sympy.abc import q
from torch import nn
from d2l import torch as d2l
import matplotlib.pyplot as plt  # 用于可視化注意力權重熱圖下·
import torch
import torch.nn as nn
import math
import torch.nn.functional as F# -------------------------- 2. 殘差連接 + 層規范化（AddNorm） --------------------------
# 作用：Transformer中每個子層（注意力/前饋網絡）的標配輸出處理，解決深層網絡訓練難題
# 核心邏輯：通過殘差連接保留原始信息，通過層規范化穩定特征分布，使模型可訓練數百層
class AddNorm(nn.Module):"""殘差連接后進行層規范化（Transformer子層輸出的標準處理）"""def __init__(self, normalized_shape, dropout, **kwargs):"""初始化參數參數詳解:normalized_shape: 層規范化的維度（通常為輸入特征的最后一維，如[seq_len, feature_dim]）dropout: Dropout概率（隨機丟棄部分特征，防止過擬合）"""super(AddNorm, self).__init__(** kwargs)self.dropout = nn.Dropout(dropout)  # Dropout層，僅作用于子層輸出（保護原始輸入）self.ln = nn.LayerNorm(normalized_shape)  # 層規范化層（對每個樣本獨立歸一化，適合序列數據）def forward(self, X, Y):"""前向傳播：先殘差連接，再層規范化參數:X: 子層的原始輸入張量（形狀與Y必須一致，否則無法相加）Y: 子層（如注意力機制/前饋網絡）的輸出張量返回:經過處理的張量（形狀與X/Y一致，特征分布更穩定）"""# 步驟解析：# 1. 對Y應用Dropout：隨機丟棄部分特征，防止模型過度依賴子層輸出# 2. 殘差連接（X + dropout(Y)）：保留原始輸入信息，緩解梯度消失（若Y無效，輸出≈X）# 3. 層規范化：對每個樣本計算均值和方差，將特征縮放到標準分布，加速訓練return self.ln(self.dropout(Y) + X)def main():# 設置參數batch_size = 2  # 批次大小seq_len = 5  # 序列長度feature_dim = 16  # 特征維度（與 normalized_shape 對應）dropout = 0.1  # Dropout概率# 初始化AddNorm層add_norm = AddNorm(normalized_shape=feature_dim, dropout=dropout)# 創建模擬輸入：X是子層原始輸入，Y是子層輸出X = torch.randn(batch_size, seq_len, feature_dim)  # 原始輸入Y = torch.randn(batch_size, seq_len, feature_dim)  # 子層（如注意力/前饋網絡）輸出# 應用AddNorm處理output = add_norm(X, Y)# 驗證形狀一致性print(f"原始輸入X形狀: {X.shape}")print(f"子層輸出Y形狀: {Y.shape}")print(f"AddNorm輸出形狀: {output.shape}")  # 應與輸入形狀一致# 驗證殘差連接效果：輸出與輸入的差異應受Y影響# 計算X和output的相似度（應低于1.0，說明Y起作用）x_flat = X.flatten()output_flat = output.flatten()similarity = torch.cosine_similarity(x_flat.unsqueeze(0), output_flat.unsqueeze(0)).item()print(f"\nX與AddNorm輸出的余弦相似度: {similarity:.4f}")  # 應顯著小于1.0# 驗證層規范化效果：輸出特征的均值應接近0，方差接近1mean = output.mean().item()var = output.var().item()print(f"AddNorm輸出的均值: {mean:.4f}")  # 應接近0print(f"AddNorm輸出的方差: {var:.4f}")  # 應接近1# 可視化處理前后的特征分布plt.figure(figsize=(10, 4))# 原始輸入X的特征分布plt.subplot(1, 2, 1)plt.hist(X.flatten().detach().numpy(), bins=20, alpha=0.7, label='原始輸入X')plt.axvline(X.mean().item(), color='r', linestyle='--', label=f'均值: {X.mean().item():.2f}')plt.title('原始輸入特征分布')plt.legend()# AddNorm輸出的特征分布plt.subplot(1, 2, 2)plt.hist(output.flatten().detach().numpy(), bins=20, alpha=0.7, label='AddNorm輸出')plt.axvline(output.mean().item(), color='r', linestyle='--', label=f'均值: {mean:.2f}')plt.title('AddNorm處理后的特征分布')plt.legend()plt.tight_layout()plt.show()if __name__ == "__main__":main()

通過直方圖直觀對比處理前后的特征分布，層規范化后的分布應更集中、波動更小。?

?2.4、編碼器和解碼器結構

2.4.1、編碼器和解碼器到底是什么？

????????咱們可以把編碼器和解碼器想象成兩個人合作完成一項 “轉換任務”，比如把中文翻譯成英文，這樣就很好理解了：

2.4.1.1、編碼器：負責 “看懂原文” 的翻譯官

假設你要把一句中文 “我愛吃蘋果” 翻譯成英文，編碼器就像第一個翻譯官，他的工作是徹底理解這句話的意思。

他先看到每個字：“我”“愛”“吃”“蘋果”。
然后他會分析這些字的關系：“我” 是主語，“愛” 是謂語，“吃蘋果” 是賓語，整個句子說的是 “主語喜歡做‘吃蘋果’這件事”。
最后，他把這些信息整理成一份 “筆記”（專業上叫 “上下文向量”），里面不光有每個字的意思，還有它們之間的聯系（誰和誰相關，誰修飾誰）。

這份筆記會交給解碼器，相當于說：“我已經把原文吃透了，接下來看你的了！”

2.4.1.2、解碼器：負責 “寫出譯文” 的秘書

解碼器就像第二個角色，他的工作是根據編碼器的 “筆記”，一句一句寫出正確的英文。

他一開始不知道要寫什么，先從一個 “開始信號”（比如<START>）入手。
看到 “開始信號”，再對照編碼器的筆記（知道原文是 “我愛吃蘋果”），先寫出第一個詞 “I”。
寫完 “I” 之后，他會回頭看看自己剛寫的 “I”，再對照筆記，接著寫出 “like”（因為原文是 “愛”）。
然后再根據已經寫的 “I like” 和筆記，寫出 “eating”（對應 “吃”）。
最后寫出 “apples”（對應 “蘋果”），直到寫出 “結束信號”（比如<END>），整個翻譯就完成了。

這里有個關鍵點：解碼器寫的時候不能 “作弊”，比如寫 “I” 的時候，不能提前偷看后面要寫的 “like”，只能用自己已經寫過的內容，保證句子通順（這就是 “掩碼自注意力” 的作用）。

2.4.1.3、總結：倆模塊的核心作用

編碼器：把輸入的序列（句子、語音、圖像等）“嚼碎”，提取出所有關鍵信息和內部關系，變成一份 “濃縮的理解筆記”。
解碼器：拿著這份 “筆記”，從無到有地生成目標序列，并且保證生成的內容既符合原文意思，又符合目標語言的邏輯（比如語法、順序）。

就像兩個人合作：一個負責 “讀懂題意”，一個負責 “寫出答案”，缺一不可～

2.4.2、編碼器（Encoder）

編碼器負責處理輸入序列（如源語言句子），將其轉換為隱藏表示（特征向量），以便解碼器能夠理解并生成對應的輸出。

2.4.2.1、?整體結構

Transformer 的編碼器由 N 個相同的編碼層（Encoder Layer）?堆疊而成，每個編碼層包含兩個子層：

多頭自注意力層（Multi-Head Self-Attention）：捕獲輸入序列內部的依賴關系（如句子中詞語之間的關聯）。
前饋神經網絡（Feed Forward Network）：對注意力層的輸出進行非線性變換，增強模型表達能力。

每層之后還應用了殘差連接（Residual Connection）和層歸一化（Layer Normalization），以穩定訓練和防止梯度消失。

2.4.2.2、運算流程

以單個編碼層為例，其運算步驟如下：

輸入：X（上一層的輸出，初始為嵌入向量+位置編碼）1. 自注意力子層：- 對X進行線性變換，得到查詢（Q）、鍵（K）、值（V）三個矩陣- 計算注意力得分：Attention(Q, K, V) = softmax(Q·K?/√d?)·V- 多頭機制：將注意力計算分為多個“頭”并行處理，再拼接結果- 殘差連接：X? = X + MultiHead(Q, K, V)- 層歸一化：X? = LayerNorm(X?)2. 前饋網絡子層：- 線性變換+ReLU激活：FFN(X?) = max(0, X?·W? + b?)·W? + b?- 殘差連接：X? = X? + FFN(X?)- 層歸一化：X? = LayerNorm(X?)輸出：X?（作為下一層的輸入）

2.4.2.3、核心機制：自注意力（Self-Attention）

自注意力是編碼器的關鍵創新，允許模型關注輸入序列的不同部分來生成當前位置的表示。其核心公式為： $\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

Q, K, V?分別是查詢（Query）、鍵（Key）、值（Value）矩陣，通過輸入?X?線性變換得到。
$\sqrt{d_k}$ 是縮放因子，防止點積結果過大導致梯度消失。
多頭注意力將輸入分割為多個頭，并行計算注意力，捕獲不同子空間的信息。

2.4.3、解碼器（Decoder）

解碼器根據編碼器的輸出和已生成的部分輸出，逐步生成目標序列（如翻譯后的句子）。

2.4.3.1、?整體結構

Transformer 的解碼器同樣由N 個相同的解碼層（Decoder Layer）堆疊而成，但每個解碼層包含三個子層：

掩碼多頭自注意力層（Masked Multi-Head Self-Attention）：與編碼器類似，但使用掩碼（Mask）防止看到未來位置的信息（確保生成時只依賴已生成的內容）。
編碼器 - 解碼器注意力層（Encoder-Decoder Attention）：關注編碼器輸出的相關部分，建立輸入與輸出的關聯。
前饋神經網絡（Feed Forward Network）：與編碼器相同，增強模型表達能力。

每層之后同樣應用殘差連接和層歸一化。

2.4.3.2、?運算流程

以單個解碼層為例，其運算步驟如下：

輸入：Y（上一層的輸出，初始為目標序列的嵌入向量+位置編碼）Encoder Output（編碼器的最終輸出）1. 掩碼自注意力子層：- 對Y進行線性變換，得到Q、K、V矩陣- 應用掩碼：在注意力得分計算中，將未來位置的得分設為負無窮（softmax后為0）- 計算注意力：Attention(Q, K, V) = softmax(Q·K?/√d?)·V- 殘差連接：Y? = Y + MaskedMultiHead(Y)- 層歸一化：Y? = LayerNorm(Y?)2. 編碼器-解碼器注意力子層：- 解碼器的Q來自Y?，K和V來自編碼器輸出- 計算注意力：Attention(Q, K, V) = softmax(Q·K?/√d?)·V- 殘差連接：Y? = Y? + MultiHead(Y?, Encoder Output, Encoder Output)- 層歸一化：Y? = LayerNorm(Y?)3. 前饋網絡子層：- 與編碼器相同：FFN(Y?) = max(0, Y?·W? + b?)·W? + b?- 殘差連接：Y? = Y? + FFN(Y?)- 層歸一化：Y? = LayerNorm(Y?)輸出：Y?（作為下一層的輸入）

2.4.3.3、?核心機制：掩碼與交叉注意力

掩碼（Mask）：確保解碼器在生成第?t?個位置的輸出時，只關注?1?到?$t-1$?位置的輸入，避免信息泄露。
編碼器 - 解碼器注意力：解碼器通過查詢（Q）關注編碼器輸出的不同部分，建立源序列與目標序列的對齊關系（如機器翻譯中詞語的對應關系）。

2.4.4、編碼器與解碼器的協作

在完整的 Transformer 模型中，編碼器和解碼器的協作流程如下：

編碼階段：
- 輸入序列經過詞嵌入和位置編碼后，進入編碼器
- 編碼器逐層處理，生成最終的編碼表示（上下文向量）
解碼階段（自回歸生成）：
- 解碼器從起始標記（如<START>）開始，每次生成一個詞
- 當前已生成的序列作為解碼器的輸入，結合編碼器輸出，預測下一個詞
- 重復此過程，直到生成結束標記（如<END>）或達到最大長度

2.4.5、完整代碼

????????????????????????后面一次給出包含實驗結果

2.5、Transformer整體邏輯

要理解 Transformer 中編碼器與解碼器的完整協作邏輯，我們可以用一個具體場景貫穿始終：把中文 “小明在公園給小紅送了一本他昨天買的書” 翻譯成英文。這個過程中，編碼器和解碼器就像兩個精密配合的 “翻譯團隊”，各自帶著一套 “工具包”（組件），分工協作完成從 “理解原文” 到 “生成譯文” 的全流程。

2.5.1、先看 “團隊架構”：編碼器與解碼器的核心組件

不管是編碼器還是解碼器，都遵循 “多層堆疊” 的設計（原論文中各堆了 6 層），每一層類似一個 “處理單元”。但因為兩者任務不同（編碼器 “理解輸入”，解碼器 “生成輸出”），“工具包” 略有差異：

模塊	編碼器每層包含	解碼器每層包含	核心目標
注意力機制	多頭自注意力（Self-Attention）	1. 掩碼多頭自注意力（Masked Self-Attention） 2. 編碼器 - 解碼器注意力（Encoder-Decoder Attention）	捕捉 “關系”（輸入內部 / 生成序列內部 / 輸入與生成的關系）
特征加工	前饋網絡（Feed-Forward Network）	前饋網絡（Feed-Forward Network）	深化單個位置的特征（從關系中提煉抽象含義）
穩定機制	殘差連接（Add）+ 層歸一化（LayerNorm）	殘差連接（Add）+ 層歸一化（LayerNorm）	保證多層堆疊時訓練穩定，信息傳遞不 “跑偏”

2.5.2、編碼器：用 “工具包” 把原文 “嚼碎成濃縮信息”

編碼器的任務是把輸入的中文句子 “嚼碎”，提煉出所有關鍵信息（誰、做了什么、關系如何），最終輸出一個 “濃縮的理解向量”（稱為 “編碼器輸出” 或 “上下文向量”）。它的 “工具包” 是這樣工作的：

2.5.2.1、?多頭自注意力：像 “讀句子時同時抓多維度關系”

面對 “小明在公園給小紅送了一本他昨天買的書”，編碼器需要同時理清：

主體與對象：“小明”→“小紅”（動作 “送” 的雙方）；
動作與對象：“送”→“書”（送的是書）；
指代關系：“他”→“小明”（避免混淆）；
修飾關系：“他昨天買的”→“書”（書的來源）。

多頭自注意力就是干這個的：

每個 “頭” 是一個獨立的 “關系探測器”：有的頭專注抓 “誰對誰做了什么”，有的頭抓 “指代關系”，有的頭抓 “修飾關系”；
最后把所有頭的結果拼接起來，得到一個 “全方位的關系圖譜”—— 每個詞的表示都融入了和其他詞的關聯信息（比如 “書” 的表示里不僅有 “書” 本身，還有 “小明買的”“送給小紅” 這些信息）。

2.5.2.2、前饋網絡：像 “基于關系提煉深層含義”

光有表面關系還不夠，需要進一步提煉抽象信息。比如：

從 “小明送小紅書”→ 隱含 “小明和小紅可能有關系”；
從 “昨天買的書”→ 隱含 “書是新的 / 特意準備的”。

前饋網絡就是做這個的：它是一個簡單的兩層神經網絡（線性變換 + ReLU 激活 + 線性變換），對每個詞的表示單獨 “深加工”—— 基于多頭注意力得到的關系，把具體的詞轉化為更抽象的 “語義特征”（類似人從具體事件中總結潛臺詞）。

3. 殘差連接 + 層歸一化：像 “保持思路清晰，不混亂”

編碼器是 6 層堆疊的（類似 “一層一層深入理解”），但多層處理容易出兩個問題：

信息 “越傳越歪”：比如第一層的輸出突然變大，第二層就很難處理（類似傳話游戲傳歪了）；
深層 “學不動”：底層的參數因為梯度太小，學不到有效信息（類似推長鏈條，前端用力后端沒感覺）。

殘差連接（把每層的輸入直接加到輸出上）解決 “學不動” 問題 —— 讓信息和梯度能直接 “穿層而過”；
層歸一化（把輸出標準化，讓均值為 0、方差為 1）解決 “傳歪” 問題 —— 讓每層的輸入保持穩定范圍，方便下一層處理。

經過 6 層這樣的處理，編碼器最終輸出一個 “上下文向量”（本質是一串向量，每個位置對應輸入句的一個詞，但都融入了全局信息），相當于給解碼器遞了一份 “超詳細的原文理解筆記”。

2.5.3、解碼器：用 “工具包” 把 “筆記” 變成 “通順譯文”

解碼器的任務是拿著編碼器的 “筆記”，從無到有生成英文譯文（“Xiaoming gave Xiaohong a book he bought yesterday in the park”）。它的 “工具包” 更復雜 —— 因為它不僅要理解原文，還要保證生成的英文 “通順”（符合語法）、“對得上原文”（不跑偏）。

2.5.3.1、掩碼多頭自注意力：像 “寫句子時只看自己已經寫的內容”

解碼器生成英文時，是 “逐詞推進” 的（先寫 “Xiaoming”，再寫 “gave”，再寫 “Xiaohong”……）。如果寫 “gave” 時偷看了后面的 “Xiaohong”，就可能寫出不符合語法的句子（比如先寫 “gave” 再補主語，這在英文里是錯的）。

掩碼多頭自注意力就是防止 “偷看” 的：

它和編碼器的 “多頭自注意力” 原理類似（抓詞之間的關系），但多了一個 “掩碼”（類似給未來的詞蓋了塊布）—— 計算當前詞和其他詞的關系時，只允許關注 “已經寫過的詞”（比如寫 “gave” 時，只能看 “Xiaoming”，不能看 “Xiaohong”“a book” 等還沒寫的詞）。
這樣生成的序列才能符合語言順序（比如英文必須 “主語→謂語→賓語”）。