FANformer:融合傅里葉分析網絡的大語言模型基礎架構

近期大語言模型(LLM)的基準測試結果引發了對現有架構擴展性的思考。盡管OpenAI推出的GPT-4.5被定位為其最強大的聊天模型,但在多項關鍵基準測試上的表現卻不及某些規模較小的模型。DeepSeek-V3在AIME 2024評測中達到了39.2%的Pass@1準確率,在SWE-bench Verified上獲得42%的準確率,而GPT-4.5在這兩項基準測試上的得分分別僅為36.7%和38%。

DeepSeek-V3與其他LLM的性能對比(數據來源:ArXiv研究論文《DeepSeek-V3 Technical Report》)

GPT-4.5與其他OpenAI模型的性能對比(數據來源:OpenAI博客文章《Introducing GPT-4.5》)

這一現象促使研究者思考:現有的LLM架構是否需要根本性的改進以實現更高水平的擴展性能?

研究人員最近提出的FANformer架構為這一問題提供了一個可能的解決方案。該架構通過將傅里葉分析網絡(Fourier Analysis Network, FAN)整合到Transformer的注意力機制中,形成了一種創新的模型結構。實驗數據顯示,隨著模型規模和訓練數據量的增加,FANformer始終表現出優于傳統Transformer架構的性能。特別值得注意的是,擁有10億參數的FANformer模型在性能上超過了同等規模和訓練量的開源LLM。

本文將深入探討FANformer的工作原理及其架構創新,分析使其在性能上超越傳統Transformer的關鍵技術要素。

傅里葉分析網絡基礎

標準深度神經網絡(MLP)在捕獲和建模訓練數據中的大多數模式方面表現良好,但在處理數據中的周期性模式時存在明顯的不足。由于實際數據中通常包含隱含的周期性特征,這一局限性會影響傳統神經網絡的學習效率。

下圖展示了一個典型案例,即使在充足的訓練資源條件下,Transformer也難以有效地對簡單的mod函數進行建模。

傅里葉分析網絡(FAN)通過將傅里葉分析原理直接整合到神經網絡結構中,有效解決了這一問題。如下圖所示,相較于MLP、KAN和Transformer,FAN能夠更準確地對周期性sin函數進行建模。

FAN層可通過以下數學公式表示:

其中:

  • X為輸入數據
  • W(p)W(p?)為可學習的投影矩陣
  • B(p?)為偏置項
  • σ表示非線性激活函數
  • ||表示向量連接操作

與MLP層應用簡單的線性變換后進行非線性激活不同,FAN層明確地將周期性變換(正弦和余弦函數)與線性變換和非線性激活相結合,從而增強了捕獲數據中周期性模式的能力。

下圖展示了MLP和FAN層在架構和數學表達上的差異:
外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳

MLP和FAN層的架構差異對比(數據來源:ArXiv研究論文《FAN: Fourier Analysis Networks》)

MLP和FAN層的數學表達差異(數據來源:ArXiv研究論文《FAN: Fourier Analysis Networks》)

FANformer的注意力機制設計

當前主流的LLM基于僅解碼器的Transformer架構。FANformer通過從FAN借鑒周期性捕獲原理,并將其應用于Transformer架構的注意力機制,形成了一種稱為**注意力-傅里葉(ATtention-Fourier, ATF)**模塊的新型結構。

對于長度為

l

的輸入序列

s = {s(1), s(2), ..., s(l)}

,首先將其映射為輸入嵌入

X(0) = {x(1), x(2), ..., x(l)}

。該嵌入通過模型的多個層處理,最終獲得輸出

X(N)

,其中

N

為模型的總層數。

具體而言,每一層的處理過程如下:

給定輸入嵌入

X

,其傅里葉變換表示計算為:

注意,此轉換使用經過修改的

FANLayer'

,其中原始

FANLayer

公式中的激活函數

σ

被替換為恒等函數

σ(x) = x

隨后,通過線性變換計算查詢(Q)、鍵(K)和值(V):

其中

W(Q)

W(K)

W(V)

為可學習權重矩陣,分別用于計算查詢(Q)、鍵(K)和值(V)。

接下來,使用傅里葉變換后的Q、K和V計算縮放點積注意力:

其中

d(h)

為模型的隱藏維度。

值得注意的是,

ATF(X)

在數學上等價于

Attention(FANLayer′(X))

,這意味著傅里葉變換并不改變注意力機制本身,而是改變了輸入表示的計算方式。這種設計使FANformer能夠與FlashAttention等高級注意力優化技術兼容。

多頭ATF機制實現

注意力模塊進一步擴展為多頭結構,類似于傳統的多頭注意力機制。對于給定輸入

X

,首先使用ATF模塊將其投影到

k

個獨立的注意力頭:

對于第

i

個注意力頭:

  • W(Q)(i)W(K)(i)W(V)(i)為每個頭計算查詢(Q(i))、鍵(K(i))和值(V(i))的可學習權重矩陣,計算如下:

  • d(k)為使用k個注意力頭時每個頭的維度,計算為d(k) = d(h) / k,其中d(h)為模型的隱藏維度。

所有注意力頭的輸出經過連接后,通過輸出權重矩陣(

W(O)

)進行線性變換:

FANformer的整體架構如下圖所示:
外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳

與傳統多頭注意力對比,傳統機制中的查詢、鍵和值直接從輸入嵌入計算,而不經過任何傅里葉變換處理:

傳統多頭注意力機制,其中Q、K、V通過每個頭的可學習權重矩陣直接從輸入嵌入X計算(數據來源:研究論文《Attention Is All You Need》)

多頭ATF的偽代碼實現如下:

參數

p

作為一個超參數,控制輸入

X

通過周期性(

X_p

)與非周期性分量(

X_p?

)處理的比例,遵循

FANLayer'

公式。在實驗中,

p

默認設置為0.25。

FANformer的層級結構

FANformer通過堆疊

N

個FANformer層構建,每層包含:

  • 一個多頭ATF(注意力-傅里葉)模塊
  • 一個前饋網絡(FFN)模塊

多頭ATF輸出基于前述公式計算:

每層的處理采用預歸一化(Pre-Norm)策略處理輸入(

X(n)

),并將原始輸入添加到從

MultiHeadATF

計算的輸出中:

隨后前饋網絡(FFN)模塊對

Y(n)

進行轉換:

其中FFN采用SwiGLU激活函數:

其中

W(1)

W(2)

W(3)

為可學習權重矩陣,?表示元素級乘法操作。

FANformer性能評估

研究人員通過將ATF模塊集成到開源LLM OLMo中構建FANformer,并以OLMo作為基準Transformer模型進行比較。實驗使用從OLMo的訓練數據集Dolma中采樣的tokens,預訓練了不同規模的FANformer模型。

模型規模擴展性分析

在模型規模擴展實驗中,FANformer在所有參數規模上始終優于標準Transformer,且僅使用標準Transformer 69.2%的參數即可達到相當的性能水平。

研究還評估了一個名為

Transformer + ATM

的FANformer變體,該變體使用MLP層替代FAN層。結果顯示,其擴展曲線與標準Transformer非常接近,這表明周期性捕獲能力的架構改進是FANformer性能提升的關鍵因素。

進一步的實驗表明,FANformer僅需使用比標準Transformer少20.3%的訓練數據即可達到相當的性能水平。

下游任務性能評估

FANformer-1B的零樣本(zero-shot)性能與7個相似規模/訓練量的開源LLM在8個下游任務基準上進行了對比,這些基準包括:

  • ARC-C和ARC-E(高級推理)
  • BoolQ(布爾問題回答)
  • HellaSwag(常識推理完成)
  • OBQA(開放書籍問題回答)
  • PIQA(物理推理)
  • SCIQ(科學問題回答)
  • WinoGrande(共指消解)

實驗結果表明,FANformer-1B在較少訓練數據條件下持續優于其他同等參數規模的LLM。特別值得注意的是,FANformer-1B的性能與當前10億參數級別最先進的LLM之一Qwen2.5-1.5B相當。

研究還將FANformer與從DeepSeek-R1提煉出的模型R1-Distill-Qwen1.5B進行了對比。結果顯示,盡管后者在推理任務上表現優異,但在大多數非推理常識任務上無法超越FANformer,這凸顯了預訓練過程的重要性,并表明模型提煉技術本身不足以確保下游任務上的全面性能優勢。

FANformer-1B與其他同等級開源LLM在下游任務上的零樣本性能對比

訓練動態分析

在訓練初期階段,FANformer的損失下降速度相對較慢,可能是因為模型尚未有效識別數據中的周期性模式。然而,隨著訓練進行,FANformer的收斂速度超過了標準Transformer。

指令遵循能力評估

預訓練的FANformer-1B模型在tulu-3-sft-olmo-2-mixture數據集上進行了監督微調(SFT),形成FANformer-1B-SFT。同樣,OLMo的10億參數版本OLMo-1B-SFT也在相同數據集上進行了監督微調。

這些模型在以下四個基準上進行了評估:

  • MMLU(通用知識和推理能力)
  • TruthfulQA(回答真實性和信息性)
  • AlpacaEval(指令遵循質量)
  • ToxiGen(有害內容過濾能力)

評估結果再次表明,FANformer-1B-SFT在MMLU、AlpacaEval和TruthfulQA基準上的性能優于OLMo-1B-SFT。

FANformer-1B和OLMo-1B的評估結果對比。對于MMLU、AlpacaEval和TruthfulQA,數值越高表示性能越好;對于ToxiGen,數值越低表示性能越好。

數學推理能力分析

2024年的一項研究表明,基于Transformer的LLM主要通過基于案例的推理解決數學問題,即記憶訓練數據中的特定示例,并在推理過程中通過尋找相似案例進行泛化。這與基于規則的推理不同,后者涉及學習潛在數學規則并系統性地應用這些規則來解決問題。

基于案例的推理與基于規則的推理對比(數據來源:ArXiv研究論文《Case-Based or Rule-Based: How Do Transformers Do the Math?》)

為分析FANformer的數學推理機制,研究人員對OLMo-1B和FANformer-1B在兩種數學任務上進行了評估:

  • 模加法:求解c = (a + b) mod 113,其中a, b ∈ [0, 112]
  • 線性回歸:求解c = a + 2b + 3,其中a, b ∈ [0, 99]

評估采用留方塊法(leave-square-out):從訓練集中移除一個方形區域的數據點,并在剩余數據上訓練模型,確保模型未接觸到該方形區域。隨后在測試階段評估模型對這些未見數據點的預測能力。

實驗顯示,兩種架構在訓練數據集上都達到了接近完美的準確率。然而,在測試數據上,Transformer表現出明顯的性能下降。

Transformer在留方塊測試中表現出"黑洞"現象,即在未見過的數據上準確率接近零,這證實了它可能未能有效應用基于規則的推理來解決數學問題。

相比之下,FANformer的測試結果顯著不同。在測試圖中未觀察到明顯的"黑洞"現象,這表明FANformer能夠學習并應用解決問題的數學規則,從而實現更好的泛化性能。

FANformer和Transformer在模加法和線性回歸任務上的性能對比

總結

FANformer通過將周期性捕獲能力顯式編碼到深度神經網絡架構中,實現了相較于傳統Transformer架構的顯著性能提升。盡管仍需更全面的實驗驗證,但FANformer已展現出在未來大規模語言模型中的應用潛力。在相同參數規模和訓練資源條件下,FANformer能夠提供更高的性能和更強的泛化能力,特別是在涉及周期性模式和數學推理的任務中。這種架構創新為解決大語言模型的擴展性挑戰提供了一種有前景的新方向。

論文:

https://avoid.overfit.cn/post/1b2f515689d947fc9aae9d22f41b506f

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/71929.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/71929.shtml
英文地址,請注明出處:http://en.pswp.cn/web/71929.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【 IEEE出版 | 快速穩定EI檢索 | 往屆已EI檢索】2025年儲能及能源轉換國際學術會議(ESEC 2025)

重要信息 主會官網:www.net-lc.net 【論文【】投稿】 會議時間:2025年5月9-11日 會議地點:中國-杭州 截稿時間:見官網 提交檢索:IEEE Xplore, EI Compendex, Scopus 主會NET-LC 2025已進入IEEE 會議官方列表!&am…

藍橋杯練題順序

有重復,適當選擇題目~共229道題! 后續會發題解~ STL:9 3100 反轉字符串 [string簡單]---3100 -CSDN博客 2470 單調棧 [stack簡單]---2470 單調棧 [stack簡單]-CSDN博客 2254 括號匹配! [stack簡單]---2254: 括號匹配!-CSDN博客 …

react基礎語法視圖層類組件

react基礎語法視圖層&類組件 MVVM *區別mvc&mvvm 兩者的區別: 數據模型去渲染視圖。數據層改了,vue自己會監聽到幫我們拿最新的數據去渲染視圖;構建數據構建視圖,數據驅動的思想。這一套是非常相似的。 視圖中的內容改變&…

開發、科研、日常辦公工具匯總(自用,持續更新)

主要記錄匯總一下自己平常會用到的網站工具,方便查閱。 update:2025/2/11(開發網站補一下) update:2025/2/21(補充一些AI工具,剛好在做AI視頻相關工作) update:2025/3/7…

requests中post中data=None, json=None兩個參數區別

在 requests.post() 方法中,data 和 json 主要用于發送請求體,但它們的作用和格式有所不同。 1. data 參數 用途:用于發送表單數據或原始二進制數據。格式: 可以是 字典(dict)(默認會編碼為 a…

51c大模型~合集10

我自己的原文哦~ https://blog.51cto.com/whaosoft/11547799 #Llama 3.1 美國太平洋時間 7 月 23 日,Meta 公司發布了其最新的 AI 模型 Llama 3.1,這是一個里程碑時刻。Llama 3.1 的發布讓我們看到了開源 LLM 有與閉源 LLM 一較高下的能力。 Meta …

架構演變 之 超市進化

1. 單機架構 → 小賣部(夫妻店) 場景:一個老板包攬所有工作——進貨、擺貨、收銀、打掃,店里只有一個小倉庫。對應架構:所有功能(數據庫、業務邏輯、頁面)都擠在一臺服務器上。問題&#xff1a…

ubuntu 和 RV1126 交叉編譯Mosqutiio-1.6.9

最近需要交叉編譯mosquitto,遇到一些小問題記錄一下。 1.眾所周知使用它自帶的Makefile編譯的時候,只需要在編譯前,指定它config.mk中的變量:CFLAGS頭文件路徑 和 LDFLAGS庫文件路徑就ok,例子如下: expor…

Photoshop 中如何快速摳圖?

Photoshop 中如何快速摳圖? 摳圖是 Photoshop 中的常見操作,無論是去除背景還是提取特定對象,都需要掌握高效的摳圖技巧。本文將介紹幾種快速摳圖的方法,幫助你輕松完成設計任務。 1. 快速選擇工具(Quick Selection T…

解決 React 中的 Hydration Failed 錯誤

解決 React 中的 Hydration Failed 錯誤 React 的 服務器端渲染(SSR)通過在服務器端生成 HTML 并將其發送給客戶端,幫助提高頁面加載速度和搜索引擎優化(SEO)。然而,在進行 SSR 后,React 需要進…

如何使用postman來測試接口

一、postman的介紹與下載 可參考: https://blog.csdn.net/freeking101/article/details/80774271 二、api獲取網站 阿里云API應用市場 地址:云市場_鏡像市場_軟件商店_建站軟件_服務器軟件_API接口_應用市場 - 阿里云 三、具體測試過程 可模擬瀏覽…

數據庫系統概論(二)數據模型

數據庫系統概論(二)數據模型 數據庫系統概論(二)數據模型前言一、數據建模二、概念模型三、數據模型的三要素四、層次模型五、網狀模型六、關系模型 總結(核心概念速記): 數據庫系統概論&#x…

清華同方國產電腦能改windows嗎_清華同方國產系統改win7教程

清華同方國產電腦能改windows嗎?清華同方國產電腦如果采用的是兆芯kx-6000系列或kx-7000系列以及海光c86 3250 3350 X86架構處理器可以安裝windows。在安裝win7時bios中要關閉“安全啟動”和開啟legacy傳統模式支持,如果是NVME接口的固態硬盤&#xff0c…

安卓Android與iOS設備管理對比:企業選擇指南

目錄 一、管理方式差異 Android Enterprise方案包含三種典型模式: Apple MDM方案主要提供兩種模式: 二、安全防護能力 Android系統特點: 三、應用管理方案 四、設備選擇建議 五、典型場景推薦 需求場景 推薦方案 六、決策建議要點…

再聊 Flutter Riverpod ,注解模式下的 Riverpod 有什么特別之處,還有發展方向

三年前我們通過 《Flutter Riverpod 全面深入解析》 深入理解了 riverpod 的內部實現,而時隔三年之后,如今Riverpod 的主流模式已經是注解,那今天就讓我們來聊聊 riverpod 的注解有什么特殊之處。 前言 在此之前,我們需要先回憶…

前端項目Axios封裝Vue3詳細教程(附源碼)

前端項目Axios封裝Vue3詳細教程(附源碼) 一、引言 在前端項目開發中,HTTP請求是不可或缺的一部分。Axios作為一個基于Promise的HTTP客戶端,因其易用性和豐富的功能而廣受歡迎。在Vue3項目中,合理地封裝Axios不僅可以提…

手寫一個Tomcat

Tomcat 是一個廣泛使用的開源 Java Servlet 容器,用于運行 Java Web 應用程序。雖然 Tomcat 本身功能強大且復雜,但通過手寫一個簡易版的 Tomcat,我們可以更好地理解其核心工作原理。本文將帶你一步步實現一個簡易版的 Tomcat,并深…

在 UniApp 開發的網站中使圖片能夠緩存,不一直刷新

在 UniApp 開發的網站中,要使圖片能夠緩存,不一直刷新,可以考慮以下幾種方法: 1. 使用適當的 HTTP 緩存頭 確保你的服務器在響應圖片時,返回合適的緩存控制 HTTP 頭。以下是一些常用的 HTTP 頭來控制緩存&#xff1a…

Makefile——make工具編譯STM32工程

一、Makefile相關指令 1.1、變量 符號含義替換追加:恒等于 1.2、隱含規則 符號含義%.o任意的.o文件*.o所有的.o文件 1.3、通配符 符號含義$^所有依賴文件$所有目標文件$<所有依賴文件的第一個文件 1.4、編譯器指令常用參數功能說明 符號含義舉例-E預處理&#xff0c;…

深入理解Linux文件系統權限:從基礎到高級應用全解析

1. 什么是文件系統權限&#xff1f;它是如何工作的&#xff1f; 文件權限的本質 想象你的電腦是一個大房子&#xff0c;每個文件和目錄都是房間里的物品。文件系統權限就像是一把鑰匙&#xff0c;決定誰能進房間、能看什么、能修改什么。 權限三要素&#xff1a; 讀&#xff…