Transformer和Mamba強強結合!最新混合架構全面開源,推理速度狂飆8倍

最近發現,將Mamba和Transformer模塊混合使用,效果會比單獨使用好很多,這是因為該方法結合了Mamba的長序列處理能力和Transformer的建模能力,可以顯著提升計算效率和模型性能。

典型案例如大名鼎鼎的Jamba:Jamba利用Transformer架構的元素增強Mamba 結構化狀態空間模型技術,提供了 256K 上下文窗口,吞吐量直接超了Transformer三倍。

除Jamba外,近日又有不少最新提出的Transformer結合Mamba的研究,效果都很贊,比如Mamba-2-Hybrid,推理速度比Transformer快8倍。

我從這些最新研究中挑選了8個高質量成果供同學們參考學習,全部都是已開源可復現,幫助各位尋找靈感、打磨論文。

論文原文+開源代碼需要的同學看文末

An Empirical Study of Mamba-based Language Models

方法:本文主要研究了基于Mamba的選擇性狀態空間模型與Transformer模型的結合,提出了一種混合SSM-Transformer模型,即Mamba-2-Hybrid,通過將Mamba、自注意力和MLP層組合起來,在所有常見基準測試中都優于Transformer模型。

創新點:

  • 提出了混合SSM-Transformer模型的概念,這種模型由Mamba-2、自注意力和MLP層組成。

  • 提出了Mamba-2-Hybrid模型擴展到支持16K、32K和128K上下文長度的方法。在推理時,Mamba-2-Hybrid模型預測生成一個token的速度可能比Transformer快達8倍;在23個長上下文評估中,16K和32K模型與Transformer基準模型相當甚至超過其性能。

  • 證明了Mamba-2-Hybrid模型在長上下文任務中的泛化能力。通過在Phonebook查找任務中的表現,發現將Mamba-2-Hybrid擴展到支持128K上下文可以完美執行任務,即使電話簿中包含超過150K個標記。

Dimba: Transformer-Mamba Diffusion Models

方法:Dimba 是一種全新的文本到圖像擴散模型,它采用了一種結合了 Transformer 和 Mamba 元素的獨特混合架構。具體來說,Dimba 在 Transformer 層和 Mamba 層之間交替順序堆疊塊,并通過交叉關注層整合條件信息,從而充分利用了兩種架構范式的優勢。

創新點:

  • 引入了一個新的文本到圖像擴散模型,采用了Transformer和Mamba元素的混合架構。Dimba模型通過在Transformer和Mamba層之間交替堆疊塊,并通過交叉注意力層整合條件信息,充分發揮了兩種架構范式的優勢。

  • 介紹了一種新的狀態空間模型,即Mamba,它在處理序列數據方面具有高效性和模型靈活性的優勢。Mamba在SSM中引入了時變參數,并提出了一種硬件感知的算法,實現了高效的訓練和推理。

Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting

方法:本文探索時間序列數據中Mamba和Transformer架構的融合潛力,提出了一種混合框架Mambaformer,通過內部整合Mamba和Transformer的優勢實現長短范圍的時間序列預測,實驗證明Mambaformer家族在長短范圍時間序列預測問題上優于Mamba和Transformer。

創新點:

  • 作者提出了一種混合架構,該架構結合了Mamba和Transformer模型以進行時間序列預測。

  • 核心的Mambaformer層將Mamba層和自注意力層交替排列,以結合Mamba和Transformer的優點。注意力層捕獲時間序列數據中的短期依賴性,而Mamba層則增強了捕獲長期依賴性的能力。這一層顯著提高了Mambaformer系列在長短時范圍時間序列預測中的性能。

PoinTramba: A Hybrid Transformer-Mamba Framework for Point Cloud Analysis

方法:本文提出一種新的點云分析方法PoinTramba,通過將Transformer和Mamba的優勢相結合,實現了計算復雜度和分析性能之間的平衡,同時引入了雙向重要性感知排序算法,進一步提高了性能,實驗結果表明該方法在點云分析領域取得了最新的最優成果。

創新點:

  • PoinTramba:這是一個結合了Transformer和Mamba的混合框架,用于點云分析。通過結合這兩種架構,PoinTramba在計算復雜性和分析性能之間取得了卓越的平衡。

  • 為了解決點云隨機排序對Mamba性能的負面影響,作者引入了一種新的雙向重要性感知排序策略。

關注下方《學姐帶你玩AI》🚀🚀🚀

回復“曼巴新8”獲取全部論文+開源代碼

碼字不易,歡迎大家點贊評論收藏

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/40207.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/40207.shtml
英文地址,請注明出處:http://en.pswp.cn/web/40207.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

ELK優化之Elasticsearch

目錄 1.ELK優化 2.優化 ES 索引設置 2.1 優化 fsync 2.2 優化 refresh 2.3 優化 merge 2.4 優化設置 2.5 打開索引 3.優化線程池配置 3.1 優化的方案 4.鎖定內存,不讓 JVM 使用 Swap 5.減少分片數、副本數 6.ES優化總結 1.ELK優化 ELK優化可以圍繞著 li…

Python統計實戰:時間序列分析之簡單指數平滑和Holt指數平滑

為了解決特定問題而進行的學習是提高效率的最佳途徑。這種方法能夠使我們專注于最相關的知識和技能,從而更快地掌握解決問題所需的能力。 (以下練習題來源于《統計學—基于Python》。請在Q群455547227下載原始數據。) 練習題 下表是某只股票…

二維平面無中心點的聚類算法

問題描述 二維平面上有許多點p(x , y),按照彼此之間的歐式距離進行分為若干個集合。若點p1(x1, y1)與點p(x2, y2)之間距離小于d,則認為二者是鄰居。 算法思路 給數據集的點進行編號,順序遍歷這些點,找出當前點的鄰居,記住已經遍…

模具監視器的選擇要點介紹

模具監視器的選擇要點涉及多個方面,以確保其能夠滿足實際生產需求并提高生產效率。以下是一些關鍵的選擇要點: 一、性能和穩定性 監控精度:選擇模具監視器時,首先要考慮其監控精度,包括溫度、壓力、注射速度等參數的…

Debezium系列之:JVM參數詳解和Debezium集群JVM監控看板制作

Debezium系列之:JVM參數詳解和Debezium集群JVM監控看板制作 一、JVM參數詳解1.jvm_memory_bytes_used2.jvm_memory_bytes_committed3.jvm_memory_bytes_max4.jvm_memory_bytes_init5.jvm_memory_pool_bytes_used6.jvm_memory_pool_bytes_committed7.jvm_memory_pool_bytes_max…

金屬3D打印如何精準選材

隨著3D打印技術的飛躍發展,模具制造領域迎來了前所未有的創新機遇。在眾多3D打印技術中,SLM金屬3D打印以其精度高、復雜結構成型能力,成為眾多行業的優選。然而,金屬打印材料,如何精準選擇,以最大化滿足項目…

linux 內核打印log太多咋辦?

有時候發現,linux 內核打印太多消息了,對有用消息造成了干擾,如果你一個個源文件去關閉打印太麻煩了,有沒有一種更方便的方式來關閉這些消息呢? 對這個需求,內核提供了一個強大而又靈活的方式,…

開源 WAF 解析:選擇最適合你的防護利器

前言 隨著網絡安全風險的增加,Web 應用防火墻(WAF)成為保護網站和應用程序免受攻擊的關鍵工具。在眾多的選擇中,開源 WAF 以其靈活性、可定制性和成本效益備受青睞。本文將深入探討幾種主流開源 WAF 解決方案,幫助你選…

用html+css設計一個列表清單小卡片

目錄 簡介: 效果圖: 源代碼: 可能的問題: 簡介: 這個HTML代碼片段是一個簡單的列表清單設計。它包含一個卡片元素(class為"card"),內部包含一個無序列表(ul),列表項(li)前面有一個特殊的符號(△)。整個卡片元素設計成300px寬,150px高,具有圓角邊…

從0-1配置一個ROS項目

目標:從0-1配置一個ROS項目,實現hello,world打印,在此基礎上進行功能開發。 步驟1:創建工作空間: mkdir -p ros_workspace/src cd ros_workspace對工作空間進行初始化: catkin_make source devel/setup.…

20.【C語言】初識結構體(重要)

定義&#xff1a;由一批數據組合而成的結構型數據 作用&#xff1a;描述復雜對象&#xff0c;創建新的類型 格式&#xff1a; struct 對象 { …… } 介紹. 用法&#xff1a;結構體變量.成員變量 #define _CRT_SECURE_NO_WARNINGS 1 #include <stdio.h> struct hotal…

代碼隨想錄訓練營Day57

提示&#xff1a;文章寫完后&#xff0c;目錄可以自動生成&#xff0c;如何生成可參考右邊的幫助文檔 文章目錄 前言一、X的平方根二、有效的完全平方數 前言 提示&#xff1a;這里可以添加本文要記錄的大概內容&#xff1a; 今天是跟著代碼隨想錄刷題的第57天&#xff0c;繼…

Prompt-Free Diffusion: Taking “Text” out of Text-to-Image Diffusion Models

CVPR2024 SHI Labshttps://arxiv.org/pdf/2305.16223https://github.com/SHI-Labs/Prompt-Free-Diffusion 問題引入 在SD模型的基礎之上&#xff0c;去掉text prompt&#xff0c;使用reference image作為生成圖片語義的指導&#xff0c;optional structure image作為生成圖片…

安裝Linux虛擬機

點擊創建新的虛擬機 選擇高級 系統自定義推薦 選擇稍后安裝 選擇Linux 虛擬機命名并且選擇創建位置 系統自定義 系統自定義推薦 系統自定義推薦 選擇安裝好的iOS文件 點擊完成 選擇編輯虛擬機設置 進入后選擇第一個Install red hat enterprise 選擇常用語言 設置…

2024.8月28號杭州電商博覽會,在杭州國博舉辦

2024杭州電商新渠道博覽會暨集脈電商節 時間&#xff1a;2024年08月28-30日 地點&#xff1a;杭州國際博覽中心&#xff08;G20&#xff09; 主辦單位&#xff1a;浙江集脈展覽有限公司、杭州華維展覽有限公司 承辦單位&#xff1a;浙江集脈展覽有限公司 報名參展&#xf…

測試幾個 ocr 對日語的識別情況

測試幾個 ocr 對日語的識別情況 1. EasyOCR2. PaddleOCR3. Deepdoc&#xff08;識別pdf中圖片&#xff09;4. Deepdoc&#xff08;識別pdf中文字&#xff09;5. Nvidia neva-22b6. Claude 3.5 sonnet 識別圖片中的文字7. Claude 3.5 sonnet 識別 pdf 中表格8. OpenAI gpt-4o 識…

網頁計算器的實現

簡介 該項目實現了一個功能完備、交互友好的網頁計算器應用。只使用了 HTML、CSS 和 JavaScript &#xff0c;用于檢驗web前端基礎水平。 開發環境&#xff1a;Visual Studio Code開發工具&#xff1a;HTML5、CSS3、JavaScript實現效果 功能設計和模塊劃分 顯示模塊&#…

Bean類的設計規范:Bean規范

Bean規范 類要求必須含有無參&#xff0c;公共的構造方法屬性必須私有化&#xff0c;然后提供公共的 set 和 get 方法

anaconda命令大全

目錄 查看所有虛擬環境查看某虛擬環境安裝的包創建虛擬環境激活創建好的虛擬環境回到之前的環境刪除創建的虛擬環境查看conda所在的位置、虛擬環境位置等信息conda修改虛擬環境所在的位置 查看所有虛擬環境 conda env list查看某虛擬環境安裝的包 激活要查看的虛擬環境之后&a…

Android 性能優化之啟動優化

文章目錄 Android 性能優化之啟動優化啟動狀態冷啟動溫啟動熱啟動 耗時檢測檢測手段TraceView使用方式缺點 Systrace環境配置使用方式TraceView和Systrace比較 AOP統計耗時環境配置使用 優化白屏優化異步加載優化環境配置使用 延遲加載優化AppStartup 源碼下載 Android 性能優化…