outputs.hidden_states 是 MLP Residual 還是 Layer Norm
outputs.hidden_states
既不是單純的 MLP Residual,也不是單純的 Layer Norm,而是每一層所有組件(包括 Layer Norm、注意力、MLP、殘差連接等)處理后的最終隱藏狀態。具體需結合 Transformer 層的結構理解:
1. Transformer 層的典型結構(以 GPT 類模型為例)
一個標準的 Transformer 層(如 GPT 的 Decoder 層)流程為:
輸入 x → Layer Norm(x) → 自注意力(Self-Attention) → 殘差連接(x + 注意力輸出) → Layer Norm → MLP → 殘差連接(上一步結果 + MLP 輸出) → 輸出 y
其中:
- Layer Norm:對輸入做歸一化,穩定訓練(是中間操作,非最終輸出)。
- MLP Residual:指 MLP 模塊的殘差連接(即“上一步結果 + MLP 輸出”),是層內的一個子步驟。