【Mamba】MambaVision論文閱讀

文章目錄

  • MambaVision
  • 一、研究背景
    • (一)Transformer vs Mamba?
    • (二)Mamba in CV?
  • 二、相關工作?
    • (一)Transformer 在計算機視覺領域的進展?
    • (二)Mamba 在計算機視覺領域的探索?
  • 三、MambaVision 設計?
    • (一)宏觀架構?
    • (二)微觀架構?
  • 四、實驗設置?
  • 五、實驗結果?
  • 六、結論?


MambaVision

?論文閱讀?
論文鏈接:MambaVision: A Hybrid Mamba-Transformer Vision Backbone

本文提出了 MambaVision 這一專為視覺應用設計的混合骨干網絡,通過重新設計 Mamba 結構和研究混合模式,在多項視覺任務中展現出優于同類模型的性能,為新型視覺模型的發展奠定了基礎。?
SOTA


一、研究背景

(一)Transformer vs Mamba?

  • Transformer憑借注意力機制在多領域廣泛應用,具備通用性和靈活性,適用于多模態學習。然而,其注意力機制的二次復雜度使得訓練和部署成本高昂。?
  • Mamba作為一種新型狀態空間模型(SSM),時間復雜度為線性,在語言建模任務中表現優異,甚至超越Transformer,其核心創新在于引入選擇機制,可高效處理長序列數據。?

(二)Mamba in CV?

受 Mamba 啟發,部分基于 Mamba 的骨干網絡被應用于視覺任務,但 Mamba 的自回歸特性在視覺領域存在局限

  1. 圖像像素的空間關系具有局部且并行的特點,沒有順序依賴關系,與 Mamba順序處理的序列數據不同。
  2. 像Mamba這樣的自回歸模型逐步處理數據的方式難以在一次前向傳播中捕捉全局上下文,而視覺任務往往需要全局信息來準確判斷局部。?

二、相關工作?

(一)Transformer 在計算機視覺領域的進展?

1. ViT:利用自注意力層擴大感受野,但缺乏 CNN 的歸納偏差和位移不變性,需大規模數據集訓練。?
2. DeiT:引入知識蒸餾訓練策略,能在小數據集上顯著提升分類準確率。?
3. LeViT:融合重新設計的多層感知機和自注意力模塊,優化推理速度,提升效率和性能。?
4. XCiT:引入轉置自注意力機制,增強對特征通道交互的建模能力。?
5. PVT:金字塔視覺,引入特征金字塔,可以生成多尺度的特征圖用于密集預測任務,采用分層結構,降低空間維度,提高計算效率。
6. Swin Transformer:通過局部窗口自注意力平衡局部和全局上下文。?
7. Twins Transformer:其空間可分離自注意力機制提升了效率。?
8. Focal Transformer:利用焦點自注意力捕捉長距離空間交互細節。?

(二)Mamba 在計算機視覺領域的探索?

1.Vim:提出雙向 SSM,試圖提升全局上下文捕捉能力,但雙向編碼增加計算量,導致訓練和推理變慢,且難以有效融合多方向信息。?
2.EfficientVMamba:采用空洞卷積和跳躍采樣提取全局空間依賴關系,使用分層架構,在不同分辨率下分別利用 SSM 和 CNN 的優勢。?

相比之下,MambaVision 在高分辨率下利用 CNN 更快提取特征,低分辨率下結合 SSM和自注意力捕捉更細粒度細節,在準確率和吞吐量上更具優勢。?

3.VMamba:引入跨掃描模塊 CSM 實現一維選擇掃描,擴大全局感受野,但感受野受跨掃描路徑限制。?

相比之下,MambaVision 的混合器設計更簡單,能捕捉短程和長程依賴,且使用 CNN 層快速提取特征,在性能和吞吐量上更優。?

三、MambaVision 設計?

(一)宏觀架構?

MambaVision 采用分層架構,包含 4 個不同階段。?宏觀架構

  • 前兩個階段使用殘差卷積塊,用于在較高輸入分辨率下快速提取特征。?
  • 后兩個階段融合了 MambaVision 和Transformer 塊。?

具體而言,給定N層,使用N個MambaVision 和MLP塊,隨后是另外N 個Transfomer 和 MLP 塊。最終層中的Transformer 塊能夠恢復丟失的全局上下文,并捕捉長距離的空間依賴關系。
?

(二)微觀架構?

Mamba 是結構化狀態空間序列模型(S4)的擴展,能將 1D 連續輸入轉換為輸出。?
其連續參數經離散化處理后,可通過全局卷積計算輸出。?
?微觀架構

為使 Mamba 更適用于視覺任務,重新設計了 Mamba 混合器:?

  1. 用常規卷積替換因果卷積,因為因果卷積限制了信息傳播方向,對視覺任務不利;?
  2. 添加無 SSM 的對稱分支,由額外卷積和 SiLU 激活函數組成,補償因 SSM 順序約束丟失的信息;?
  3. 將兩個分支輸出拼接并通過線性層投影,使最終特征表示融合順序和空間信息。? 此外,采用通用多頭自注意力機制,其計算方式與以往研究類似。?

四、實驗設置?

1.圖像分類?

  • 在 ImageNet-1K 數據集上進行圖像分類實驗,遵循標準訓練方法,所有模型均訓練300個epoch,采用余弦衰減調度器,其中分別使用了20個epoch進行預熱和冷卻階段。使用LAMB 優化器,設置全局批量大小4096、初始學習率0.005和權重衰減0.05,利用 32 個 A100 GPU 加速訓練。?

2.目標檢測和實例分割?

  • 以預訓練模型為骨干網絡,在 MS COCO 數據集上進行目標檢測和實例分割任務,使用 Mask-RCNN 頭,超參數設置初始學習率0.0001、批量大小16、權重衰減為0.05的X3學習率調度,使用 8 個 A100 GPU 進行訓練。?

3.語義分割?

  • 在 ADE20K 數據集上進行語義分割任務,使用 UperNet 頭和 Adam-W 優化器,初始學習率6e-5,全局批量大小16,使用 8 個 A100 GPU 進行訓練。?

五、實驗結果?

1.圖像分類?

  • MambaVision 在 ImageNet-1K 分類任務中表現卓越,在 Top-1
    準確率和圖像吞吐量方面大幅超越CNN、Transformer、Conv - Transformer 和 Mamba 的不同模型系列。?

  • 與流行模型如 ConvNeXt 和 Swin Transformer 相比,MambaVision-B 的 Top-1準確率更高,圖像吞吐量也更優。

  • 與基于 Mamba 的模型相比同樣展現出優勢,且 MambaVision模型變體的計算量(FLOPs)低于同等規模的其他模型。?
    ?圖像分類

2.目標檢測與分割?

  • 在 MS COCO 數據集的目標檢測和實例分割實驗中,使用簡單 Mask-RCNN 檢測頭,預訓練的 MambaVision-T
    骨干網絡在 AP box和AP mask上超越 ConvNeXt-T 和 Swin-T 模型。?

  • 使用 Cascade Mask-RCNN 網絡時,MambaVision-T、MambaVision-S 和 MambaVision-B
    表現更優,在 AP box和 AP mask上相對于對比模型有明顯提升。?
    ?目標檢測

  • 在 ADE20K 數據集的語義分割任務中,MambaVision 不同變體在 mIoU 指標上優于相近規模的競爭模型,驗證了其作為視覺骨干網絡在不同任務中的有效性,尤其在高分辨率設置下表現出色。?
    語義分割

?
3.消融實驗?

  • 對 MambaVision 混合器進行消融實驗,結果表明用常規卷積替換因果卷積、添加對稱分支(即SMM和非SMM)并拼接輸出,能顯著提升模型在分類、目標檢測、實例分割和語義分割任務中的性能,驗證了設計的有效性。?
    消融實驗
  • 研究不同混合集成模式對模型的影響發現,在每個階段最后幾層使用自注意力塊的設計能有效提升性能,且當自注意力塊數量增加到每個階段最后 N/2 層時,模型達到最佳性能。?
    ?

六、結論?

  • 首次提出 MambaVision 這一專為視覺應用設計的 Mamba-Transformer 混合骨干網絡。?
  • 重新設計 Mamba公式增強了全局上下文表示學習能力,全面研究混合設計集成模式。?
  • MambaVision 在 Top-1準確率和圖像吞吐量上達到新的最優前沿,大幅超越基于 Transformer 和 Mamba 的模型,為新一代混合視覺模型發展提供了基礎。

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/901991.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/901991.shtml
英文地址,請注明出處:http://en.pswp.cn/news/901991.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

前端面試寶典---原型鏈

引言----感謝大佬的講解 大佬鏈接 原型鏈示意圖 原型鏈問題中需要記住一句話:一切變量和函數都可以并且只能通過__proto__去找它所在原型鏈上的屬性與方法 原型鏈需要注意的點 看上圖可以發現 函數(構造函數)也可以通過__proto__去找到原…

C語言---FILE結構體

一、FILE 結構體的本質與定義 基本概念 FILE 是 C 語言標準庫中用于封裝文件操作的結構體類型&#xff0c;定義于 <stdio.h> 中。它代表一個“文件流”&#xff0c;可以是磁盤文件、標準輸入輸出&#xff08;stdin/stdout/stderr&#xff09;或其他輸入輸出設備。 實現特…

基于大模型的直腸息肉診療全流程風險預測與方案優化研究報告

目錄 一、引言 1.1 研究背景與意義 1.2 研究目的與創新點 二、大模型技術概述 2.1 大模型原理簡介 2.2 大模型在醫療領域應用現狀 三、直腸息肉術前預測與準備 3.1 基于大模型的術前風險預測 3.1.1 息肉性質預測 3.1.2 手術難度預測 3.2 基于預測結果的術前準備 3.…

華為OD機試真題——MELON的難題(2025A卷:200分)Java/python/JavaScript/C++/C語言/GO六種最佳實現

2025 A卷 200分 題型 本文涵蓋詳細的問題分析、解題思路、代碼實現、代碼詳解、測試用例以及綜合分析&#xff1b; 并提供Java、python、JavaScript、C、C語言、GO六種語言的最佳實現方式&#xff01; 2025華為OD真題目錄全流程解析/備考攻略/經驗分享 華為OD機試真題《MELON的…

AI數據分析與BI可視化結合:解鎖企業決策新境界

大家好&#xff0c;今天我們來聊聊一個前沿而熱門的話題——AI數據分析與BI可視化結合&#xff0c;如何攜手推動企業決策邁向新高度。在數據爆炸的時代&#xff0c;企業如何高效利用這些數據&#xff0c;成為制勝的關鍵。AI數據分析與BI可視化的結合&#xff0c;正是解鎖這一潛…

克服儲能領域的數據處理瓶頸及AI拓展

對于儲能研究人員來說&#xff0c;日常工作中經常圍繞著一項核心但有時令人沮喪的任務&#xff1a;處理實驗數據。從電池循環儀的嗡嗡聲到包含電壓和電流讀數的大量電子表格&#xff0c;研究人員的大量時間都花在了提取有意義的見解上。長期以來&#xff0c;該領域一直受到對專…

【SpringBoot+Vue自學筆記】002 SpringBoot快速上手

跟著這位老師學習的&#xff1a;https://www.bilibili.com/video/BV1nV4y1s7ZN?vd_sourceaf46ae3e8740f44ad87ced5536fc1a45 最好和老師的idea版本完全一致&#xff01;截至本文寫的當日最新的idea好像默認jdk17&#xff0c;配置時遇到很多bug。 &#x1f33f; Spring Boot&a…

SpringAI+DeepSeek大模型應用開發——2 大模型應用開發架構

目錄 2.大模型開發 2.1 模型部署 2.1.1 云服務-開放大模型API 2.1.2 本地部署 搜索模型 運行大模型 2.2 調用大模型 接口說明 提示詞角色 ?編輯 會話記憶問題 2.3 大模型應用開發架構 2.3.1 技術架構 純Prompt模式 FunctionCalling RAG檢索增強 Fine-tuning …

藍橋杯12. 日期問題

日期問題 原題目鏈接 題目描述 小明正在整理一批歷史文獻。這些歷史文獻中出現了很多日期。 小明知道這些日期都在 1960 年 1 月 1 日 至 2059 年 12 月 31 日 之間。 令小明頭疼的是&#xff0c;這些日期采用的格式非常不統一&#xff1a; 有的采用 年/月/日有的采用 月…

STM32使用rand()生成隨機數并顯示波形

一、隨機數生成 1、加入頭文件&#xff1a;#include "stdlib.h" 2、定義一個用作生成隨機數種子的變量并加入到滴答定時器中不斷自增&#xff1a;uint32_t run_times 0; 3、設置種子&#xff1a;srand(run_times);//每次生成隨機數前調用一次為佳 4、生成一個隨…

『前端樣式分享』聯系我們卡片式布局 自適應屏幕 hover動效 在wikijs中使用 (代碼拿來即用)

目錄 預覽效果分析要點響應式網格布局卡片樣式&#xff1a;陰影和過渡效果 代碼優化希望 長短不一的郵箱地址在左右居中的同時,做到左側文字對齊(wikijs可用)總結 歡迎關注 『前端布局樣式』 專欄&#xff0c;持續更新中 歡迎關注 『前端布局樣式』 專欄&#xff0c;持續更新中…

【ubuntu】在Linux Yocto的基礎上去適配Ubuntu的wifi模塊

一、修改wifi的節點名 1.找到wifi模塊的PID和VID ifconfig查看wifi模塊網絡節點的名字&#xff0c;發現是wlx44876393bb3a&#xff08;wlxmac地址&#xff09; 通過udevadm info -a /sys/class/net/wlx44876393bba路徑的命令去查看wlx44876393bba的總線號&#xff0c;端口號…

健康養生:開啟活力生活新篇章

在當代社會&#xff0c;熬夜加班、久坐不動、外賣快餐成為許多人的生活常態&#xff0c;隨之而來的是各種亞健康問題。想要擺脫身體的疲憊與不適&#xff0c;健康養生迫在眉睫&#xff0c;它是重獲活力、擁抱美好生活的關鍵。? 應對不良飲食習慣帶來的健康隱患&#xff0c;飲…

【verilog】多個 if 控制同一個變量(后面會覆蓋前面)非阻塞賦值真的并行嗎?

非阻塞賦值 (<) 是“并行”的&#xff0c;但是代碼順序會影響結果&#xff1f;”這正是 Verilog 的硬件描述本質 vs 行為語義之間的微妙之處。 &#x1f4a1;1. 非阻塞賦值真的并行嗎&#xff1f; 是的&#xff01;非阻塞賦值 < 從行為上是并行的&#xff0c;也就是說&a…

前沿篇|CAN XL 與 TSN 深度解讀

引言 1. CAN XL 標準演進與設計目標 2. CAN XL 物理層與幀格式詳解 3. 時間敏感網絡 (TSN) 關鍵技術解析 4. CAN XL + TSN 在自動駕駛領域的典型應用

vscode、cherry studio接入高德mcp服務

最近mcp協議比較火&#xff0c;好多平臺都已經開通了mcp協議&#xff0c;今天來接入下高德的mcp看看效果如何。 話不多說&#xff0c;咱們直接開干。 先來看下支持mcp協議的工具有cusor、cline等等。更新cherrystudio后發現上面也有mcp服務器了。今天咱就來試試添加高德的mcp協…

Triton(2)——Triton源碼接結構

1 triton 3.0.0 源碼結構 triton docs/&#xff1a;項目文檔 cmake/&#xff1a;構建配置相關 bin/&#xff1a;工具、腳本 CmakeLists.txt&#xff1a;cmake 配置文件 LSCENSE README.md Pyproject.toml&#xff1a;python 項目配置文件 utils/&#xff1a;項目配置文…

React 事件處理基礎

React 中最常見的兩個需求&#xff0c;一個是列表渲染&#xff0c;另一個就是綁定點擊事件。 這一篇就是從最基礎的按鈕點擊開始&#xff0c;分四個階段&#xff0c;逐步理解 React 中事件的寫法和參數傳遞方式。 &#x1f4cd;階段一&#xff1a;最簡單的點擊事件 function A…

java的lambda和stream流操作

Lambda 表達式 ≈ 匿名函數 &#xff08;Lambda接口&#xff09;函數式接口&#xff1a;傳入Lambda表達作為函數式接口的參數 函數式接口 只能有一個抽象方法的接口 Lambda 表達式必須賦值給一個函數式接口&#xff0c;比如 Java 8 自帶的&#xff1a; 接口名 作用 Functio…

Dify智能體平臺源碼二次開發筆記(6) - 優化知識庫pdf文檔的識別

目錄 前言 新增PdfNewExtractor類 替換ExtractProcessor類 最終結果 前言 dify的1.1.3版本知識庫pdf解析實現使用pypdfium2提取文本&#xff0c;主要存在以下問題&#xff1a; 1. 文本提取能力有限&#xff0c;對表格和圖片支持不足 2. 缺乏專門的中文處理優化 3. 沒有文檔結…