近期大語言模型(LLM)的基準測試結果引發了對現有架構擴展性的思考。盡管OpenAI推出的GPT-4.5被定位為其最強大的聊天模型,但在多項關鍵基準測試上的表現卻不及某些規模較小的模型。DeepSeek-V3在AIME 2024評測中達到了39.2%的Pass@1準確率,在SWE-bench Verified上獲得42%的準確率,而GPT-4.5在這兩項基準測試上的得分分別僅為36.7%和38%。
DeepSeek-V3與其他LLM的性能對比(數據來源:ArXiv研究論文《DeepSeek-V3 Technical Report》)
GPT-4.5與其他OpenAI模型的性能對比(數據來源:OpenAI博客文章《Introducing GPT-4.5》)
這一現象促使研究者思考:現有的LLM架構是否需要根本性的改進以實現更高水平的擴展性能?
研究人員最近提出的FANformer架構為這一問題提供了一個可能的解決方案。該架構通過將傅里葉分析網絡(Fourier Analysis Network, FAN)整合到Transformer的注意力機制中,形成了一種創新的模型結構。實驗數據顯示,隨著模型規模和訓練數據量的增加,FANformer始終表現出優于傳統Transformer架構的性能。特別值得注意的是,擁有10億參數的FANformer模型在性能上超過了同等規模和訓練量的開源LLM。
本文將深入探討FANformer的工作原理及其架構創新,分析使其在性能上超越傳統Transformer的關鍵技術要素。
傅里葉分析網絡基礎
標準深度神經網絡(MLP)在捕獲和建模訓練數據中的大多數模式方面表現良好,但在處理數據中的周期性模式時存在明顯的不足。由于實際數據中通常包含隱含的周期性特征,這一局限性會影響傳統神經網絡的學習效率。
下圖展示了一個典型案例,即使在充足的訓練資源條件下,Transformer也難以有效地對簡單的mod函數進行建模。
傅里葉分析網絡(FAN)通過將傅里葉分析原理直接整合到神經網絡結構中,有效解決了這一問題。如下圖所示,相較于MLP、KAN和Transformer,FAN能夠更準確地對周期性sin函數進行建模。
FAN層可通過以下數學公式表示:
其中:
X
為輸入數據W(p)
和W(p?)
為可學習的投影矩陣B(p?)
為偏置項σ
表示非線性激活函數||
表示向量連接操作
與MLP層應用簡單的線性變換后進行非線性激活不同,FAN層明確地將周期性變換(正弦和余弦函數)與線性變換和非線性激活相結合,從而增強了捕獲數據中周期性模式的能力。
下圖展示了MLP和FAN層在架構和數學表達上的差異:
MLP和FAN層的架構差異對比(數據來源:ArXiv研究論文《FAN: Fourier Analysis Networks》)
MLP和FAN層的數學表達差異(數據來源:ArXiv研究論文《FAN: Fourier Analysis Networks》)
FANformer的注意力機制設計
當前主流的LLM基于僅解碼器的Transformer架構。FANformer通過從FAN借鑒周期性捕獲原理,并將其應用于Transformer架構的注意力機制,形成了一種稱為**注意力-傅里葉(ATtention-Fourier, ATF)**模塊的新型結構。
對于長度為
l
的輸入序列
s = {s(1), s(2), ..., s(l)}
,首先將其映射為輸入嵌入
X(0) = {x(1), x(2), ..., x(l)}
。該嵌入通過模型的多個層處理,最終獲得輸出
X(N)
,其中
N
為模型的總層數。
具體而言,每一層的處理過程如下:
給定輸入嵌入
X
,其傅里葉變換表示計算為:
注意,此轉換使用經過修改的
FANLayer'
,其中原始
FANLayer
公式中的激活函數
σ
被替換為恒等函數
σ(x) = x
。
隨后,通過線性變換計算查詢(Q)、鍵(K)和值(V):
其中
W(Q)
、
W(K)
和
W(V)
為可學習權重矩陣,分別用于計算查詢(Q)、鍵(K)和值(V)。
接下來,使用傅里葉變換后的Q、K和V計算縮放點積注意力:
其中
d(h)
為模型的隱藏維度。
值得注意的是,
ATF(X)
在數學上等價于
Attention(FANLayer′(X))
,這意味著傅里葉變換并不改變注意力機制本身,而是改變了輸入表示的計算方式。這種設計使FANformer能夠與FlashAttention等高級注意力優化技術兼容。
多頭ATF機制實現
注意力模塊進一步擴展為多頭結構,類似于傳統的多頭注意力機制。對于給定輸入
X
,首先使用ATF模塊將其投影到
k
個獨立的注意力頭:
對于第
i
個注意力頭:
-
W(Q)(i)
、W(K)(i)
、W(V)(i)
為每個頭計算查詢(Q(i)
)、鍵(K(i)
)和值(V(i)
)的可學習權重矩陣,計算如下:
-
d(k)
為使用k
個注意力頭時每個頭的維度,計算為d(k) = d(h) / k
,其中d(h)
為模型的隱藏維度。
所有注意力頭的輸出經過連接后,通過輸出權重矩陣(
W(O)
)進行線性變換:
FANformer的整體架構如下圖所示:
與傳統多頭注意力對比,傳統機制中的查詢、鍵和值直接從輸入嵌入計算,而不經過任何傅里葉變換處理:
傳統多頭注意力機制,其中Q、K、V通過每個頭的可學習權重矩陣直接從輸入嵌入X計算(數據來源:研究論文《Attention Is All You Need》)
多頭ATF的偽代碼實現如下:
參數
p
作為一個超參數,控制輸入
X
通過周期性(
X_p
)與非周期性分量(
X_p?
)處理的比例,遵循
FANLayer'
公式。在實驗中,
p
默認設置為0.25。
FANformer的層級結構
FANformer通過堆疊
N
個FANformer層構建,每層包含:
- 一個多頭ATF(注意力-傅里葉)模塊
- 一個前饋網絡(FFN)模塊
多頭ATF輸出基于前述公式計算:
每層的處理采用預歸一化(Pre-Norm)策略處理輸入(
X(n)
),并將原始輸入添加到從
MultiHeadATF
計算的輸出中:
隨后前饋網絡(FFN)模塊對
Y(n)
進行轉換:
其中FFN采用SwiGLU激活函數:
其中
W(1)
、
W(2)
和
W(3)
為可學習權重矩陣,?表示元素級乘法操作。
FANformer性能評估
研究人員通過將ATF模塊集成到開源LLM OLMo中構建FANformer,并以OLMo作為基準Transformer模型進行比較。實驗使用從OLMo的訓練數據集Dolma中采樣的tokens,預訓練了不同規模的FANformer模型。
模型規模擴展性分析
在模型規模擴展實驗中,FANformer在所有參數規模上始終優于標準Transformer,且僅使用標準Transformer 69.2%的參數即可達到相當的性能水平。
研究還評估了一個名為
Transformer + ATM
的FANformer變體,該變體使用MLP層替代FAN層。結果顯示,其擴展曲線與標準Transformer非常接近,這表明周期性捕獲能力的架構改進是FANformer性能提升的關鍵因素。
進一步的實驗表明,FANformer僅需使用比標準Transformer少20.3%的訓練數據即可達到相當的性能水平。
下游任務性能評估
FANformer-1B的零樣本(zero-shot)性能與7個相似規模/訓練量的開源LLM在8個下游任務基準上進行了對比,這些基準包括:
- ARC-C和ARC-E(高級推理)
- BoolQ(布爾問題回答)
- HellaSwag(常識推理完成)
- OBQA(開放書籍問題回答)
- PIQA(物理推理)
- SCIQ(科學問題回答)
- WinoGrande(共指消解)
實驗結果表明,FANformer-1B在較少訓練數據條件下持續優于其他同等參數規模的LLM。特別值得注意的是,FANformer-1B的性能與當前10億參數級別最先進的LLM之一Qwen2.5-1.5B相當。
研究還將FANformer與從DeepSeek-R1提煉出的模型R1-Distill-Qwen1.5B進行了對比。結果顯示,盡管后者在推理任務上表現優異,但在大多數非推理常識任務上無法超越FANformer,這凸顯了預訓練過程的重要性,并表明模型提煉技術本身不足以確保下游任務上的全面性能優勢。
FANformer-1B與其他同等級開源LLM在下游任務上的零樣本性能對比
訓練動態分析
在訓練初期階段,FANformer的損失下降速度相對較慢,可能是因為模型尚未有效識別數據中的周期性模式。然而,隨著訓練進行,FANformer的收斂速度超過了標準Transformer。
指令遵循能力評估
預訓練的FANformer-1B模型在tulu-3-sft-olmo-2-mixture數據集上進行了監督微調(SFT),形成FANformer-1B-SFT。同樣,OLMo的10億參數版本OLMo-1B-SFT也在相同數據集上進行了監督微調。
這些模型在以下四個基準上進行了評估:
- MMLU(通用知識和推理能力)
- TruthfulQA(回答真實性和信息性)
- AlpacaEval(指令遵循質量)
- ToxiGen(有害內容過濾能力)
評估結果再次表明,FANformer-1B-SFT在MMLU、AlpacaEval和TruthfulQA基準上的性能優于OLMo-1B-SFT。
FANformer-1B和OLMo-1B的評估結果對比。對于MMLU、AlpacaEval和TruthfulQA,數值越高表示性能越好;對于ToxiGen,數值越低表示性能越好。
數學推理能力分析
2024年的一項研究表明,基于Transformer的LLM主要通過基于案例的推理解決數學問題,即記憶訓練數據中的特定示例,并在推理過程中通過尋找相似案例進行泛化。這與基于規則的推理不同,后者涉及學習潛在數學規則并系統性地應用這些規則來解決問題。
基于案例的推理與基于規則的推理對比(數據來源:ArXiv研究論文《Case-Based or Rule-Based: How Do Transformers Do the Math?》)
為分析FANformer的數學推理機制,研究人員對OLMo-1B和FANformer-1B在兩種數學任務上進行了評估:
- 模加法:求解
c = (a + b) mod 113
,其中a, b ∈ [0, 112]
- 線性回歸:求解
c = a + 2b + 3
,其中a, b ∈ [0, 99]
評估采用留方塊法(leave-square-out):從訓練集中移除一個方形區域的數據點,并在剩余數據上訓練模型,確保模型未接觸到該方形區域。隨后在測試階段評估模型對這些未見數據點的預測能力。
實驗顯示,兩種架構在訓練數據集上都達到了接近完美的準確率。然而,在測試數據上,Transformer表現出明顯的性能下降。
Transformer在留方塊測試中表現出"黑洞"現象,即在未見過的數據上準確率接近零,這證實了它可能未能有效應用基于規則的推理來解決數學問題。
相比之下,FANformer的測試結果顯著不同。在測試圖中未觀察到明顯的"黑洞"現象,這表明FANformer能夠學習并應用解決問題的數學規則,從而實現更好的泛化性能。
FANformer和Transformer在模加法和線性回歸任務上的性能對比
總結
FANformer通過將周期性捕獲能力顯式編碼到深度神經網絡架構中,實現了相較于傳統Transformer架構的顯著性能提升。盡管仍需更全面的實驗驗證,但FANformer已展現出在未來大規模語言模型中的應用潛力。在相同參數規模和訓練資源條件下,FANformer能夠提供更高的性能和更強的泛化能力,特別是在涉及周期性模式和數學推理的任務中。這種架構創新為解決大語言模型的擴展性挑戰提供了一種有前景的新方向。
論文:
https://avoid.overfit.cn/post/1b2f515689d947fc9aae9d22f41b506f