最近發現,將Mamba和Transformer模塊混合使用,效果會比單獨使用好很多,這是因為該方法結合了Mamba的長序列處理能力和Transformer的建模能力,可以顯著提升計算效率和模型性能。
典型案例如大名鼎鼎的Jamba:Jamba利用Transformer架構的元素增強Mamba 結構化狀態空間模型技術,提供了 256K 上下文窗口,吞吐量直接超了Transformer三倍。
除Jamba外,近日又有不少最新提出的Transformer結合Mamba的研究,效果都很贊,比如Mamba-2-Hybrid,推理速度比Transformer快8倍。
我從這些最新研究中挑選了8個高質量成果供同學們參考學習,全部都是已開源可復現,幫助各位尋找靈感、打磨論文。
論文原文+開源代碼需要的同學看文末
An Empirical Study of Mamba-based Language Models
方法:本文主要研究了基于Mamba的選擇性狀態空間模型與Transformer模型的結合,提出了一種混合SSM-Transformer模型,即Mamba-2-Hybrid,通過將Mamba、自注意力和MLP層組合起來,在所有常見基準測試中都優于Transformer模型。
創新點:
-
提出了混合SSM-Transformer模型的概念,這種模型由Mamba-2、自注意力和MLP層組成。
-
提出了Mamba-2-Hybrid模型擴展到支持16K、32K和128K上下文長度的方法。在推理時,Mamba-2-Hybrid模型預測生成一個token的速度可能比Transformer快達8倍;在23個長上下文評估中,16K和32K模型與Transformer基準模型相當甚至超過其性能。
-
證明了Mamba-2-Hybrid模型在長上下文任務中的泛化能力。通過在Phonebook查找任務中的表現,發現將Mamba-2-Hybrid擴展到支持128K上下文可以完美執行任務,即使電話簿中包含超過150K個標記。
Dimba: Transformer-Mamba Diffusion Models
方法:Dimba 是一種全新的文本到圖像擴散模型,它采用了一種結合了 Transformer 和 Mamba 元素的獨特混合架構。具體來說,Dimba 在 Transformer 層和 Mamba 層之間交替順序堆疊塊,并通過交叉關注層整合條件信息,從而充分利用了兩種架構范式的優勢。
創新點:
-
引入了一個新的文本到圖像擴散模型,采用了Transformer和Mamba元素的混合架構。Dimba模型通過在Transformer和Mamba層之間交替堆疊塊,并通過交叉注意力層整合條件信息,充分發揮了兩種架構范式的優勢。
-
介紹了一種新的狀態空間模型,即Mamba,它在處理序列數據方面具有高效性和模型靈活性的優勢。Mamba在SSM中引入了時變參數,并提出了一種硬件感知的算法,實現了高效的訓練和推理。
Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting
方法:本文探索時間序列數據中Mamba和Transformer架構的融合潛力,提出了一種混合框架Mambaformer,通過內部整合Mamba和Transformer的優勢實現長短范圍的時間序列預測,實驗證明Mambaformer家族在長短范圍時間序列預測問題上優于Mamba和Transformer。
創新點:
-
作者提出了一種混合架構,該架構結合了Mamba和Transformer模型以進行時間序列預測。
-
核心的Mambaformer層將Mamba層和自注意力層交替排列,以結合Mamba和Transformer的優點。注意力層捕獲時間序列數據中的短期依賴性,而Mamba層則增強了捕獲長期依賴性的能力。這一層顯著提高了Mambaformer系列在長短時范圍時間序列預測中的性能。
PoinTramba: A Hybrid Transformer-Mamba Framework for Point Cloud Analysis
方法:本文提出一種新的點云分析方法PoinTramba,通過將Transformer和Mamba的優勢相結合,實現了計算復雜度和分析性能之間的平衡,同時引入了雙向重要性感知排序算法,進一步提高了性能,實驗結果表明該方法在點云分析領域取得了最新的最優成果。
創新點:
-
PoinTramba:這是一個結合了Transformer和Mamba的混合框架,用于點云分析。通過結合這兩種架構,PoinTramba在計算復雜性和分析性能之間取得了卓越的平衡。
-
為了解決點云隨機排序對Mamba性能的負面影響,作者引入了一種新的雙向重要性感知排序策略。
關注下方《學姐帶你玩AI》🚀🚀🚀
回復“曼巴新8”獲取全部論文+開源代碼
碼字不易,歡迎大家點贊評論收藏