【論文閱讀|V2M: VISUAL 2-DIMENSIONAL MAMBA FOR IMAGE REPRESENTATION LEARNING】

論文題目:V2M: VISUAL 2-DIMENSIONAL MAMBA FOR IMAGE REPRESENTATION LEARNING

年份:2024

期刊會議: arXiv

代碼鏈接:https://github.com/wangck20/V2M

目錄

    • 現階段存在的問題
        • 1. 二維結構信息丟失
        • 2. 一維 Mamba 架構的局限性
        • 3. 提升視覺任務表現
      • 相關研究
  • 方法
        • 二維狀態空間模型設計:
    • V2M流程
    • 1. 輸入與預處理
    • 2. 四向旋轉
    • 3. 2D 狀態空間模型 (2D SSM) 計算
    • 4. 水平方向隱狀態拆解與并行計算
    • 5. 輸入變換與拼接
    • 6. 2D SSM輸出拼接與旋轉復原
    • 7. 最終輸出
    • 實驗
      • 分類任務
      • 消融實驗
        • 理論分析

現階段存在的問題

Visual 2-Dimensional Mamba(V2M)提出的核心目的在于為視覺任務設計一種保留二維結構信息、同時具有高效狀態空間建模能力的新型視覺骨干網絡。其主要解決的痛點包括:

1. 二維結構信息丟失
  • 問題:傳統 Mamba 屬于一維序列模型,視覺任務通常將圖像切成 patch,并展平成序列輸入,這破壞了圖像的二維局部結構(如鄰域相關性)。
  • 解決方案:V2M 將 SSM 從 1D 擴展至 2D,直接在二維網格上對狀態進行遞推,分別從行和列方向考慮鄰接狀態,保持局部空間結構。
2. 一維 Mamba 架構的局限性
  • 問題:即使采用多種掃描策略,1D Mamba 仍難以重構原始二維空間關系。
  • 解決方案:V2M 使用二維狀態方程,以更加自然的方式在二維柵格上傳播狀態(從四個角開始),避免長路徑掃描對空間連貫性的破壞。
3. 提升視覺任務表現
  • 問題:1D Mamba 無法充分利用圖像的二維結構表示。
  • 解決方案:V2M 通過二維 SSM 建模,提升模型對局部與全局視覺信息的捕捉能力,在 ImageNet、COCO、ADE20K 等任務上超越基線模型。

相關研究

  • CNN 系列:ResNet、RegNet 等
  • Vision Transformers:ViT、Swin Transformer
  • Visual-Mamba 系列:Vim(Zhu et al., 2024)、LocalMamba(Huang et al., 2024)
  • 狀態空間模型(SSM):S4 (Gu et al.,2021a)、Mamba (Gu & Dao,2023)
  • 二維 SSM 基礎:Roesser Model (Kung et al.,1977)
  • 視覺表示學習
    • 監督:ResNet,MoCo 等
    • 自監督:MAE、SimCLR、BYOL 等

方法

在這里插入圖片描述

在這里插入圖片描述
在這里插入圖片描述

二維狀態空間模型設計:

二維狀態更新方程如下:

{ h 1 i , j + 1 = A 1 h 1 i , j + A 3 h 2 i , j + B 1 x i , j h 2 i + 1 , j = A 2 h 1 i , j + A 4 h 2 i , j + B 2 x i , j y i , j = C 1 h 1 i , j + C 2 h 2 i , j \begin{cases} h_1^{i,j+1} = A_1 h_1^{i,j} + A_3 h_2^{i,j} + B_1 x_{i,j} \\ h_2^{i+1,j} = A_2 h_1^{i,j} + A_4 h_2^{i,j} + B_2 x_{i,j} \\ y_{i,j} = C_1 h_1^{i,j} + C_2 h_2^{i,j} \end{cases} ? ? ??h1i,j+1?=A1?h1i,j?+A3?h2i,j?+B1?xi,j?h2i+1,j?=A2?h1i,j?+A4?h2i,j?+B2?xi,j?yi,j?=C1?h

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/94584.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/94584.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/94584.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

服務器數據安全:利用阿里云OSS/騰訊云COS實現網站數據自動備份

更多云服務器知識,盡在hostol.com你的網站,就像一座你親手在數字海灘上堆砌起來的、精美絕倫的“沙堡”。你為它設計了獨特的風格,添置了豐富的內容,吸引了越來越多的游客前來參觀。每一篇文章,每一條評論,…

AdGuard 安卓修改版:全方位廣告攔截與隱私保護專家

AdGuard 安卓版是一款功能強大的廣告攔截軟件,能夠有效阻止網頁和應用程序中的廣告和跟蹤器,提升用戶的瀏覽體驗。它不僅提供了廣泛的廣告攔截功能,還通過多種隱私保護功能,確保用戶的個人信息安全。以下是 AdGuard 安卓版的詳細介…

Mysql中的鎖到底是什么?鎖的是什么?

MySQL InnoDB 的鎖:一次從“守衛”到“交通指揮中心”的深度之旅 MySQL InnoDB 的鎖。這個概念常常讓人覺得復雜抽象,但我們需要抓住它的底層設計哲學 忘記那些代碼和術語定義,我們先從最底層的問題開始思考: 思考一:為…

CVE-2020-24557

一、漏洞原理 CVE-2020-24557 是 D-Link 路由器(如 DIR-816L2) 中存在的一個 命令注入(Command Injection) 漏洞,其核心原理為: ①路由器的管理界面(Web 或 CGI 接口)在處理某些用戶…

proxychains——Linux代理工具

簡介 ProxyChains是一個UNIX程序,通過預加載動態庫(dlsym(),LD_PRELOAD)劫持動態鏈接程序中與網絡相關的libc函數,將連接重定向至SOCKS4a/5或HTTP代理。僅支持TCP協議(不支持UDP/ICMP等)。它的工作方式基本…

精確調控建筑環境,樓宇自控系統大幅提升居住舒適度

在現代城市化進程中,建筑環境的舒適度已成為衡量生活質量的重要指標。隨著科技的飛速發展,樓宇自控系統(Building Automation System, BAS)正以前所未有的精準度重新定義人與空間的互動關系。這套集成了物聯網、大數據和人工智能的…

Echarts中的水波圖、水球圖、水半球實現的詳細步驟(vue)

目錄 一、實現效果 二、實現步驟 1. 安裝ECharts和Liquid Fill插件 2. 創建一個組件 3.在創建的vue中引入ECharts和Liquid Fill插件 4.在組件中初始化ECharts和Liquid Fill插件 5.完整代碼 一、實現效果 Echarts中的水位圖(水波圖、水球圖、水半球)…

Vue父組件向子組件傳遞一個動態的值,子組件如何保持實時更新實時更新?

父組件 通過 :issueDeptId this.form109.issueDeptId傳數據到子組件 <inv-info ehco-data"selectOutInvId" :purposeId this.form109.purposeId:issueDeptId this.form109.issueDeptId:projectNo this.form109.projectNo:invPhysicIds this.form109.issuePh…

如何通過主數據治理重構企業系統競爭力

在當前企業數字化轉型持續深化的背景下&#xff0c;IT系統復雜度與數據規模呈指數級增長。CRM、ERP、HRM、供應鏈、電商平臺等多系統并行運作已成為常態。然而&#xff0c;隨之而來的主數據&#xff08;Master Data&#xff09;管理難題&#xff0c;正日益成為制約系統穩定性、…

c++ 中 原子鎖、互斥鎖、自旋鎖的區別和詳細用法

用最生活化的比喻來解釋 C 中原子鎖、互斥鎖和自旋鎖的區別和用法&#xff0c;讓小白也能秒懂&#xff01;&#x1f604;想象你 ??&#xff08;線程&#xff09;?? 要去公共更衣室 ??&#xff08;共享資源&#xff0c;如變量、數據結構&#xff09;?? 換衣服。這個更衣…

RabbitMQ面試精講 Day 12:鏡像隊列與Quorum隊列對比

【RabbitMQ面試精講 Day 12】鏡像隊列與Quorum隊列對比 開篇&#xff1a;面試價值與核心要點 在RabbitMQ集群環境中&#xff0c;如何保證消息的高可用性是最常被問及的面試問題之一。今天我們將深入探討RabbitMQ提供的兩種高可用隊列實現方案&#xff1a;經典鏡像隊列(Mirror…

Maven 常用命令詳解

前言 Apache Maven 是 Java 項目管理和構建自動化工具&#xff0c;它通過一個項目對象模型&#xff08;POM, Project Object Model&#xff09;來管理項目的構建、報告和文檔。Maven 的核心優勢在于其強大的依賴管理、標準化的項目結構以及豐富的插件生態系統。掌握 Maven 的常…

Android Studio切換到經典UI,老UI

為什么要寫這邊文章&#xff0c;我自己的android studio年兒半載安裝一次新的&#xff0c;所以記錄一下。1、新android studio安裝后都是新工作室風格的UI。2、菜單File ->Settings ,在Setting界面將Enable New UI 的勾選去掉&#xff0c;點擊OK&#xff0c;重啟Android Stu…

走進“Mesh無線自組網”:開啟智能家居和智慧工廠

隨著科技的迅猛發展&#xff0c;互聯網已經滲透到我們生活的方方面面&#xff0c;而其中最引人矚目的便是“智能家居”和“智慧工廠”。這些新興領域的飛速發展&#xff0c;離不開底層網絡技術的支持。眾多的網絡通信技術中&#xff0c;Mesh無線自組網以其獨特的優勢&#xff0…

力扣熱題100——雙指針

雙指針兩數之和&#xff08;有序數組&#xff0c;相向雙指針&#xff09;問題&#xff1a;在有序數組中找到兩個數&#xff0c;使它們的和等于目標值。思路&#xff1a;左指針從起點出發&#xff0c;右指針從終點出發&#xff0c;根據和與目標值的大小調整指針。 #include <…

AI Infra與LLM的聯系與差異

一、定義與定位LLM&#xff08;大語言模型&#xff09; 定義&#xff1a;基于海量文本訓練的深度學習模型&#xff0c;通過Transformer架構實現語言理解與生成&#xff0c;典型代表如GPT-4、通義千問等。定位&#xff1a;AI應用的核心能力層&#xff0c;直接面向用戶提供文本生…

數據結構-雙鏈表

學習完單鏈表&#xff0c;現在繼續學習雙鏈表一、雙鏈表結構帶頭雙向循環鏈表&#xff08;簡稱&#xff1a;雙鏈表&#xff09;注意&#xff1a;這?的“帶頭”跟前面我們說的“頭節點”是兩個概念&#xff0c;實際前面的在單鏈表階段稱呼不嚴謹&#xff0c;但是為了同學們更好…

福彩雙色球第2025090期籃球號碼分析

明天是星期四&#xff0c;明天晚上雙色球開獎。福彩雙色球第2025090期籃球號碼分析&#xff0c;上期開出號碼05&#xff0c;數字形式是質數奇數2路球&#xff0c;小號0字頭數字。本期籃球號碼分析&#xff0c;籃球2尾數0212遺漏6期上次遺漏27期&#xff0c;籃球3尾數0313遺漏4期…

Python爬蟲實戰:研究Photon工具,構建企業信息收集系統

1. 引言 1.1 研究背景 在數字化時代,互聯網作為全球最大的信息載體,涵蓋商業情報、學術資源、公共信息等多個領域,對企業決策、學術研究和社會治理具有重要參考價值。傳統信息獲取方式依賴人工檢索和簡單腳本爬取,存在效率低下、覆蓋范圍有限、數據處理能力不足等問題。 …

Python Pandas.lreshape函數解析與實戰教程

Python Pandas.lreshape 函數解析與實戰教程 摘要 本教程旨在提供一份關于Pandas庫中 pandas.lreshape 函數的全面使用教程和分析。lreshape 是一個用于數據重塑(Data Reshaping)的工具,具體而言,它擅長將“寬格式”(Wide Format)數據轉換為“長格式”(Long Format)數…