【arXiv2025】計算機視覺|即插即用|LBMamba:革新視覺模型效率,性能炸裂

圖片
論文地址:https://arxiv.org/pdf/2506.15976
代碼地址:https://github.com/CiaoHe/bi-mamba


關注UP CV縫合怪,分享最計算機視覺新即插即用模塊,并提供配套的論文資料與代碼。
https://space.bilibili.com/473764881
圖片

摘要

Mamba 是一種狀態空間模型 (SSM),它通過將遞歸重鑄為并行選擇性掃描來加速訓練,最近已成為一種線性縮放、高效的自注意力替代方案。由于其單向性,Mamba 中的每個狀態都只包含其先前狀態的信息,而對之后的狀態視而不見。當前,基于 Mamba 的計算機視覺方法通常通過在 Mamba 的全局前向掃描基礎上增加全局后向掃描來克服這一限制,形成雙向掃描以恢復全部感受野。然而,此操作會使計算負荷加倍,從而削弱 Mamba 原本的效率優勢。

為了消除這些額外的掃描,本研究引入了局部雙向 SSM 模塊 LBMamba,該模塊在前向選擇性掃描內嵌入輕量級局部后向掃描,并在每線程寄存器中完全執行。在本研究在 LBMamba 的基礎上提出了可擴展的視覺骨干網絡 LBVim,它每兩層交替掃描方向,無需額外的后向掃描即可恢復全局感受野。本研究在自然圖像和全幻燈片圖像 (WSI) 上驗證了該方法的多功能性。

結果表明,LBVim 始終提供優越的性能-吞吐量權衡。也就是說,在相同的吞吐量下,LBVim 在 ImageNet-1K 分類數據集上的 top-1 準確率提高了 0.8% 到 1.6%,在 ADE20K 語義分割數據集上的 mIoU 提高了 0.6% 到 2.7%,在 COCO 檢測數據集上的 APb 和 APm 分別提高了 0.9% 和 1.1%。本研究還將 LBMamba 集成到最先進的病理學多實例學習 (MIL) 方法 MambaMIL 中,該方法使用單向掃描。在 3 個公開的 WSI 分類數據集上進行的實驗表明,本研究的方法實現了高達 3.06% 的 AUC3.39% 的 F11.67% 的準確率的相對改進。
圖片

引言

本研究關注基于Mamba的狀態空間模型(SSM)在計算機視覺中的應用。SSM因其線性時間和內存復雜度而成為序列建模中自注意力機制的替代方案。然而,傳統SSM的訓練和推理速度仍然受到限制,因為它們無法充分利用現代GPU的并行性。Mamba通過將狀態更新與隱藏到輸出的卷積解耦,并將計算重新表述為在現代GPU上高效運行的并行選擇性掃描來克服這個問題。因此,Mamba在長距離任務上達到了與Transformer相當的精度,同時展現出更好的分辨率縮放特性,使其成為研究和生產系統的理想選擇。它最初是為自然語言處理引入的,后來被應用于計算機視覺。基于Mamba的選擇性掃描內核構建的視覺模型可顯著提高GPU速度和節省內存,同時始終優于基于Transformer的基線模型

然而,標準的基于Mamba的計算機視覺模型通常需要從不同方向多次掃描圖像才能提高性能。這種多次掃描有兩個主要原因:第一,Mamba將圖像視為扁平化的一維序列,因此單一的從左到右的掃描只能捕獲行方向的上下文信息。為了恢復垂直方向的依賴關系,視覺流水線通常會對圖像塊的列方向進行額外的掃描,從而產生兩次正交掃描,共同逼近二維空間關系。盡管一些專門的二維Mamba/SSM方法被提出以更直接地解決這種結構不匹配問題,但多次掃描的需求依然存在。第二個原因是SSM的單向性: 位置t的潛在狀態僅以先前位置1到t為條件。因此,模型無法獲取位置t之后的信息,這通常會導致視覺任務的性能欠佳。

目前常見的解決方案是添加反向掃描(從右到左或從下到上)以恢復對未來標記的訪問,從而產生雙向掃描機制。雖然這種策略重建了完整的感受野,但每次額外的掃描都會大致使計算量加倍,從而削弱了Mamba最初提供的效率優勢。為了解決全局雙向掃描帶來的額外計算開銷問題,本研究提出了LBMamba,一種局部雙向SSM,以及用于視覺任務的LBVim框架。LBMamba在正向選擇性掃描內部嵌入了輕量級的局部反向掃描,并在每個線程的寄存器中完全執行,從而無需進行全局反向掃描。基于LBMamba構建的LBVim視覺主干網絡每兩層交替掃描方向,無需額外的反向掃描即可恢復全局感受野

論文創新點

本研究提出了一個名為LBMamba的局部雙向SSM模塊,旨在提高Mamba模型在計算機視覺任務中的效率和性能。其創新點如下:

  1. ? 引入了局部反向掃描機制: ?

    • 不同于傳統的全局雙向掃描,LBMamba在Mamba的前向選擇性掃描過程中嵌入了輕量級的局部反向掃描。
    • 這種局部反向掃描在子序列內進行,無需進行全局反向掃描,從而顯著提高了計算效率。
  2. ?? 基于硬件感知的線程級雙向掃描算子: ??

    • 本研究設計了一個快速的、硬件感知的線程級雙向掃描算子。
    • 該算子完全在線程私有寄存器中執行局部反向掃描,避免了額外的內存讀取和線程間通信,最大限度地減少了計算開銷。
  3. 🚀 消除了全局反向掃描的額外開銷: 🚀

    • 通過將局部反向掃描整合到前向掃描過程中,LBMamba消除了全局反向掃描帶來的額外計算負擔和內存訪問,從而顯著提高了模型的吞吐量。
    • 實驗結果表明,LBMamba的運行時間僅增加了2%,卻避免了全局反向掃描帶來的運行時間翻倍。
  4. 🔄 基于序列反轉操作恢復全局感受野: 🔄

    • 為了彌補局部反向掃描在全局感受野方面的不足,本研究提出在每個編碼器層后反轉特征序列。
    • 這種交替的掃描方向策略,使得每個token在每兩個編碼器層后都能獲得全局感受野,從而增強了模型對長距離上下文信息的建模能力。
  5. ? 在不同視覺任務和數據集上的有效性驗證: ?

    • 本研究在自然圖像和病理圖像等不同類型的圖像數據上進行了廣泛的實驗,涵蓋了圖像分類、語義分割、目標檢測和多實例學習等多種計算機視覺任務。
    • 實驗結果表明,LBMamba在多種任務和數據集上均取得了顯著的性能提升,證明了其有效性和泛化能力。
    • 例如,在ImageNet-1K分類數據集上,相同吞吐量下,LBVim的top-1準確率比基線模型提高了0.8%到1.6%。在ADE20K語義分割數據集上,mIoU提高了0.6%到2.7%。

論文實驗

圖片
圖片
圖片

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/87556.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/87556.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/87556.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【狂飆AGI】第7課:AGI-行業大模型(系列1)

目錄 (一)服裝史的GPT時刻(二)AI多學科診療系統(三)醫療大模型(四)生物醫藥大模型(五)教育大模型(六)心理大模型(七&#…

(LeetCode 每日一題) 3307. 找出第 K 個字符 II (位運算、數學)

題目&#xff1a;3307. 找出第 K 個字符 II 思路&#xff1a;位運算&#xff0c;時間復雜度0(logk)。 當2^(i-1) <k 且 2^i>k &#xff0c;說明k在K2^i的右半段 &#xff0c;k和其前半段的某個字符有關系 即當k>K時&#xff0c;k是由k-K位置上的字符變化而來&#xf…

國產MCU學習Day4——CW32F030C8T6:獨立看門狗功能全解析

CW32F030C8T6 看門狗功能概述 CW32F030C8T6 是芯源半導體&#xff08;WCH&#xff09;推出的 Cortex-M0 內核微控制器&#xff0c;內置獨立看門狗&#xff08;IWDG&#xff09;和窗口看門狗&#xff08;WWDG&#xff09;&#xff0c;用于檢測和恢復系統異常狀態。 一.獨立看門…

SAP升級過程中如何確保數據安全?

目錄 升級過程中可能遇到的數據風險 升級前的準備工作 升級過程中的保護措施 升級后的驗證工作 在數字化轉型浪潮中&#xff0c;SAP系統作為企業核心業務運營的系統&#xff0c;其升級過程不僅關乎技術架構的革新&#xff0c;更直接關系到企業最寶貴的資產——數據安全。一…

Vue 3 + Element Plus 常見開發問題與解決方案手冊

&#x1f31f;Vue 3 Element Plus 常見開發問題與解決方案手冊 &#x1f9e0; 本文整理了常見但容易混淆的幾個 Vue 3 前端開發問題&#xff0c;包括插槽、原型鏈、響應式數據處理、v-model 報錯、樣式陰影控制等&#xff0c;建議收藏學習&#xff01; &#x1f4cc;一、動態插…

Spring Boot + 本地部署大模型實現:安全性與可靠性保障

在將大語言模型集成到 Spring Boot 應用中時&#xff0c;安全性和可靠性是兩個關鍵因素。本地部署的大模型雖然提供了強大的功能&#xff0c;但也可能帶來一些安全風險&#xff0c;如數據泄露、模型被惡意利用等。本文將介紹如何在 Spring Boot 應用中保障本地部署大模型的安全…

Zookeeper 客戶端 .net訪問框架 ZookeeperNetEx項目開發編譯

一、項目簡介 ZooKeeperNetEx 項目是一個針對.NET開發的異步客戶端庫&#xff0c;旨在為開發者提供高效且可靠的分布式協調服務。? 該項目完全基于任務異步編程&#xff0c;兼容.NET 4.61及以上版本&#xff0c;包括.NET Core。ZooKeeperNetEx嚴格遵循官方Java客戶端的邏輯&am…

【學習筆記】因果推理導論第2課

因果推理導論第2課 因果推斷假設 前言一、假設1、 Ignorability / Exchangeability2、條件可交換 二、估計 前言 第一節課通過一些例子說明了為什么要做因果推斷,以及通過控制混雜因素計算因果效應;這一節課將圍繞為何控制混雜因素計算因果效應這一方法成立,講述其涉及到的一些…

VASP 教程:VASP 機器學習力場微調

機器學習力場&#xff08;Machine-Learned Force Fields, MLFFs&#xff09;作為一種新興的計算方法&#xff0c;已在第一性原理分子動力學&#xff08;Ab Initio Molecular Dynamics, AIMD&#xff09;模擬中展現出獨特優勢&#xff08;參見 VASP Wiki&#xff1a;Category:Ma…

Java+Vue開發的倉庫管理系統,實時監控庫存,精準統籌貨物出入與調配

前言&#xff1a; 在當今競爭激烈的商業環境中&#xff0c;高效的倉庫管理對于企業的運營和成本控制至關重要。一個完善的倉庫管理系統能夠幫助企業實現貨物的精準存儲、快速出入庫、實時庫存監控以及全面的數據分析&#xff0c;從而提升整體運營效率、降低庫存成本、增強客戶…

【王陽明代數】熱門問答,什么是張量?

【王陽明代數】熱門問答&#xff0c;什么是張量&#xff1f; 流形學習基礎概念前情提要&#xff0c;張量概念的提出&#xff0c;王船山流形與信息容量的概念回答&#xff1a;什么是張量前&#xff0c;對王船山流形&#xff0c;意氣實體的定義再表述&#xff1b;王船山流形分析1…

差分壓縮算法(增量更新)

差分壓縮算法是一種數據壓縮技術&#xff0c;它的核心思想是通過找出數據之間的差異來減少需要存儲或傳輸的數據量。下面從基本原理、常見應用場景、算法示例等方面詳細介紹差分壓縮算法。 基本原理 差分壓縮算法的基本原理是比較相鄰數據元素之間的差異&#xff0c;并只記錄…

Html5支持的視頻文件格式和音頻文件格式有哪些?

視頻文件格式 MP4&#xff1a;MPEG-4 Part 14&#xff0c;支持H.264編碼。幾乎所有的瀏覽器都支持該格式。 WebM&#xff1a;谷歌開發的格式&#xff0c;使用VP8或VP9編碼&#xff0c;可以在大多數現代瀏覽器中播放 Ogg&#xff1a;開放媒體格式&#xff0c;使用Vorbis編碼&…

J20250704 算法題5道

題目一覽&#xff1a; 606. 根據二叉樹創建字符串 - 力扣&#xff08;LeetCode&#xff09; 506. 相對名次 - 力扣&#xff08;LeetCode&#xff09; 1. 兩數之和 - 力扣&#xff08;LeetCode&#xff09; 100. 相同的樹 - 力扣&#xff08;LeetCode&#xff09; 101. 對稱…

UNet改進(15):分組注意力機制在UNet中的應用探索

引言 注意力機制已成為現代深度學習架構中不可或缺的組成部分,特別是在計算機視覺領域。近年來,各種注意力機制的變體被提出,以解決不同場景下的特定問題。本文將深入探討一種稱為分組注意力(Grouped Attention)的機制,以及它如何被集成到經典的UNet架構中,從而提升模型在…

C++之路:類基礎、構造析構、拷貝構造函數

目錄 前言從結構體到類類的聲明與使用基礎聲明繼承聲明數據與函數聲明與調用聲明調用 類的訪問修飾符類對象的內存分布類內數據相關靜態變量非靜態變量 類成員函數相關普通成員函數友元函數構造與析構函數構造函數析構函數 拷貝構造函數總結 前言 面向對象編程有三大特性&#…

黑神話悟空游戲輿情分析

完整項目包點擊文末名片 黑神話悟空上線初期輿情分析 背景 《黑神話&#xff1a;悟空》在上線首日便創下了全球游戲行業的多項新紀錄&#xff0c;包括Steam同時在線人數超過222萬&#xff0c;全渠道總銷量超過450萬份&#xff0c;總銷售額超過15億元。本項目旨在對 3A 游戲《黑…

python的or-tools算法踩坑

debug模式代碼好的,然后正常運行不行(用的PyCharm) 不知道為什么debug模式這個可以的,但是正常模式不行 用or-tools算路徑的時候 因為要多次到達同一個點,但是or-tools不支持,所以弄了虛擬點和真實點的距離是0,但是實際上如果虛擬點到真實點為0的話or-tools結果秒出,但是實…

docker-compose一鍵部署全棧項目。springboot后端,react前端

部署總覽前端打包: 我們將配置 package.json&#xff0c;使用 npm run build (內部調用 vite build) 來打包。這個過程將完全在 Docker 構建鏡像的過程中自動完成&#xff0c;你的主機上甚至不需要安裝 Node.js。后端打包: 我們將配置 pom.xml&#xff0c;使用 mvn clean packa…