寫在前面
在大型語言模型(LLM)的演進浪潮中,Transformer 架構憑借其強大的并行計算能力和對長距離依賴的出色捕捉,奠定了核心地位。然而,標準的 Transformer Decoder Block 遵循著一種相對固定的模式:先進行自注意力(Self-Attention)捕捉上下文信息,再通過前饋神經網絡(Feed-Forward Network, FFN)進行特征提煉。這種“先注意,后提煉”的串行結構在無數模型中被證明是有效的,但它是否是唯一的選擇?或者說,是否存在更優的組合方式來平衡模型的表達能力、計算效率和訓練動態?
近年來,一些研究開始探索打破這種固定模式,嘗試將 Self-Attention 和 FFN 層以不同的方式組合或交錯。本文將深入探討 幾種可能的優化結構設計,分析其背后的邏輯動機,并通過偽代碼和概念示例來闡述其實現方式,旨在揭示這種“交錯智慧”的潛在優勢和挑戰。
1. 回顧標準 Transformer Decoder Block:串行的基石
在我們探索“交錯”之前,必須清晰地理解標準的 Transformer Decoder Block 結構(以 Llama 等常見 Decoder-only