CVPR | 2025 | MAP:通過掩碼自回歸預訓練釋放混合 Mamba - Transformer 視覺骨干網絡的潛力

文章目錄

  • CVPR | 2025 | MAP:通過掩碼自回歸預訓練釋放混合 Mamba - Transformer 視覺骨干網絡的潛力
    • 創新點
    • 初步研究
      • 初步結論
    • 方法
      • 確定一個混合網絡
      • 方法
      • 掩碼機制
      • 掩碼比例
      • MAP的transformer解碼器
      • 重建目標
    • 實驗
      • ImageNet-1k 上的 2D 分類

CVPR | 2025 | MAP:通過掩碼自回歸預訓練釋放混合 Mamba - Transformer 視覺骨干網絡的潛力

  • 論文:https://arxiv.org/pdf/2410.00871
  • 代碼:https://github.com/yunzeliu/MAP
  • (代碼)鏡像:https://gitee.com/apuppyliu-cong/MAP.git
  • 會議:CVPR
  • 年份:2025

創新點

  • 貢獻主要有以下三點:
    • 第一,首次提出了一種用于預訓練混合 Mamba - Transformer 視覺骨干網絡的新方法,在統一框架下提升了混合骨干網絡以及純 Mamba 和純 Transformer 骨干網絡的性能。
    • 第二,為了便于分析,我們還對純 Mamba 在自回歸預訓練中的關鍵組件進行了深入分析,發現其有效性取決于預訓練順序與 Mamba 掃描順序的一致性,以及合適的令牌掩碼比例。
    • 第三,我們證明了所提出的 MAP 方法在各種 2D 和 3D 數據集上,顯著提升了 Mamba - Transformer 和純 Mamba 骨干網絡的性能。大量的消融實驗證實了每個設計選擇的合理性和有效性。

初步研究

表 1. 初步研究。我們使用 ViT - B 和 Vim - B 作為默認配置。AR 策略按行優先順序處理圖像令牌,而 MAE 按照默認設置運行。對于對比學習,我們僅使用裁剪和縮放的數據增強,并使用 MoCov2 進行預訓練。所有實驗都在 224x224 的分辨率下進行。AR 的掩碼令牌數量設置為 40 個令牌(20%)。

  1. 實驗表明,MAE 更適合 Transformer 的預訓練,而 AR 更適合 Mamba 的預訓練
    1.1 對于 ViT 而言,應用 MAE 策略對于建立令牌之間的雙向關聯、從而提高性能至關重要
    1.2 對于 Vim,更重要的是對前后令牌之間的連續性進行建模
  2. 經過深入分析發現,與掃描順序一致的自回歸預訓練以及適當的掩碼比例是 Mamba 預訓練的關鍵

表 2. AR 順序對下游任務的影響。Vim(R)指采用行優先掃描的 Vim。Vim(C)指采用列優先掃描的 Vim。AR(R)指行優先自回歸預訓練。AR(C)指列優先自回歸預訓練。結果表明,當 AR 預訓練設計與 Mamba 的掃描順序一致時,可獲得最佳性能。

圖 3. AR 預訓練和 Mamba 掃描的不同順序。行優先和列優先的順序使網絡能夠以不同的方式和序列感知局部信息。

  1. 自回歸預訓練的掩碼比例。

表 3. 掩碼比例對 AR 預訓練的影響。分別掩碼 1 個令牌(0.5%)、20 個令牌(10%)、40 個令牌(20%)、60 個令牌(30%)、100 個令牌(50%)和 140 個令牌(70%),同時記錄在下游任務上的微調結果。實驗表明,適當的掩碼比例對于自回歸預訓練很重要。

初步結論

得出以下三個結論,作為設計混合骨干網絡預訓練的參考:

  • MAE 更適合 Transformer,而 AR 更適合 Mamba。
  • 對于 Transformer 的 MAE 預訓練,非對稱結構和適當的掩碼比例很重要。
  • 對于 Mamba 的 AR 預訓練,適當的 AR 順序和掩碼比例很重要。

方法

本文的重點是研究如何預訓練混合 Mamba - Transformer 框架,而非設計混合框架本身。

確定一個混合網絡

結果表明,采用 MMMTMMMT 的混合方式效果最佳。在比較 Mamba - R * 與 MMMMMMTT 時,發現在 Mamba 之后添加 Transformer 增強了其長上下文建模能力,從而提升了性能。在比較 MMMMMMTT 與 TTMMMMMM 時,我們觀察到僅僅在 Mamba 之后附加 Transformer 并不能充分發揮該架構的潛力

這表明在開始部分融入 Transformer 對于提取足夠的局部特征至關重要。我們認為 MMMTMMMT 方法有效地平衡了局部特征提取和上下文建模增強,因此將其作為我們的默認配置。

圖 4. 不同的混合模型設計。(d)取得了最佳結果,被設置為默認模型,并稱為 HybridNet。

表 4. Mamba - Transformer 骨干網絡的混合設計。所有實驗都是從零開始訓練的。Mamba - R表示 24 個 Mamba - R [40] Mamba 層加上 8 個額外的 Mamba 層。DeiT表示 24 個 DeiT [39] Transformer 層加上 8 個額外的 Transformer 層。MMMMMMTT 表示 24 個 Mamba 層之后跟隨 8 個 Transformer 層。TTMMMMMM 表示 8 個 Transformer 層之后跟隨 24 個 Mamba 層。TMMMTMMM 表示由 1 個 Transformer 層和 3 個 Mamba 層組成的單元,重復 8 次。MMMTMMMT 表示由 3 個 Mamba 層之后跟隨 1 個 Transformer 層組成的單元,重復 8 次。

方法

圖2.(a)MAE預訓練。其核心在于基于未掩碼的令牌重建被掩碼的令牌,以建立全局雙向上下文理解。(b)AR預訓練。它著重于建立上下文之間的關聯,其可擴展性在大型語言模型領域已得到充分驗證。(c)MAP預訓練(我們提出的方法)。我們的方法首先對輸入圖像進行隨機掩碼處理,然后以逐行自回歸的方式重建原始圖像。這種預訓練方法在對局部特征的上下文特征以及局部特征之間的關聯進行建模方面展現出顯著優勢,使其與Mamba-Transformer混合架構具有高度的兼容性。(d)在ImageNet-1K上不同預訓練策略下的性能提升。我們發現MAE預訓練更適合Transformer,而AR更適配Mamba。另一方面,MAP更適合Mamba-Transformer骨干網絡。此外,MAP在對純Mamba或純Transformer骨干網絡進行預訓練時也表現出令人矚目的性能,這體現了我們方法的有效性和廣泛適用性。

如圖 2(c)所示,對于給定圖像,HybridNet 首先將經過隨機掩碼處理的圖像映射到特征空間,隨后借助 Transformer 解碼器按行對原始圖像進行解碼。

假設將圖像 I\mathbf{I}I 按行劃分:
I={r1,r2,...,rM}I=\left\{r_{1}, r_{2}, ..., r_{M}\right\}I={r1?,r2?,...,rM?}
每行 rir_{i}ri? 由以下令牌組成:
ri={xi1,xi2,...,xiN}r_{i}=\left\{x_{i 1}, x_{i 2}, ..., x_{i N}\right\}ri?={xi1?,xi2?,...,xiN?}
在每行中選取一部分令牌進行掩碼處理。

Mi?{1,2,...,N}M_{i} \subset\{1,2, ..., N\}Mi??{1,2,...,N} 表示行 rir_{i}ri? 中被掩碼令牌的索引。

對于給定的行 rir_{i}ri? ,需同時預測所有被掩碼的令牌:
p(xij∣xi,j?Mi,r<i)p\left(x_{i j} | x_{i, j \notin M_{i}}, r_{<i}\right)p(xij?xi,j/Mi??,r<i?)

其中,r<ir_{<i}r<i? 指的是第 iii 行之前的所有行。

iii 行中令牌的預測取決于所有先前的行以及該行內可見的令牌。這可以表示為:
p(ri∣r<i)=∏j=1Np(xij∣xi,j?Mi,r<i)p\left(r_{i} | r_{<i}\right)=\prod_{j=1}^{N} p\left(x_{i j} | x_{i, j \notin M_{i}}, r_{<i}\right)p(ri?r<i?)=j=1N?p(xij?xi,j/Mi??,r<i?)
整體的損失函數為預測令牌的負對數似然之和:
L=?∑i=1M∑j∈Milog?p(xij∣xi,j?Mi,r<i)\mathcal{L}=-\sum_{i=1}^{M} \sum_{j \in M_{i}} \log p\left(x_{i j} | x_{i, j \notin M_{i}}, r_{<i}\right)L=?i=1M?jMi??logp(xij?xi,j/Mi??,r<i?)

掩碼機制

實驗了不同的掩碼策略,包括隨機掩碼、順序掩碼和對角線掩碼。實驗表明,隨機掩碼能產生最佳結果。

圖 5. 不同的掩碼策略。隨機掩碼策略產生最佳結果。

掩碼比例

MAP的transformer解碼器

使用 Transformer 解碼器而非 Mamba 解碼器的原因是,Transformer 解碼器可以通過應用解碼器掩碼,基于編碼器的特征進行區域重建。相比之下,Mamba 解碼器由于其單向掃描特性,難以同時重建整個局部區域。

解碼器采用獨特的行解碼策略,允許一次對一行令牌進行自回歸解碼,增強了網絡捕獲局部特征和區域間上下文關系的能力。

圖 6. 不同的解碼器掩碼。綠色表示激活。白色表示非激活。

表 6. 解碼器掩碼設計。我們的 MAP 解碼器策略取得最佳結果。

重建目標

重建目標與 MAE 一致,我們將歸一化的原始像素作為重建目標,并采用 MSE 損失。

實驗

ImageNet-1k 上的 2D 分類

預訓練階段,我們采用 50% 掩碼比例的隨機掩碼策略,僅使用隨機裁剪作為數據增強策略。在所有設置下訓練 1600 個 epoch。在微調階段,我們直接微調 400 個 epoch 并報告結果。

表 8. ImageNet-1k 分類結果。吞吐量在 A100 GPU 上計算。內存開銷以 128 的批處理大小衡量。我們的結果以藍色突出顯示。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/93899.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/93899.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/93899.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Spring Boot + Spring AI 最小可運行 Demo

一. 項目依賴&#xff08;pom.xml&#xff09;<project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.0https://maven.apache.org/xsd/mav…

AI重塑校園教育:中小學AI智慧課堂定制方案+AI作業批改減負,告別一刀切學生進步快

家長們&#xff0c;你有沒有聽過孩子抱怨上學的煩惱&#xff1f;課堂上老師講的內容&#xff0c;有的同學覺得太簡單 “吃不飽”&#xff0c;有的卻跟不上 “聽不懂”&#xff1b;放學后作業堆成山&#xff0c;老師要熬夜批改到半夜&#xff0c;錯題反饋要等第二天才能拿到&…

舊物循環,交易新生——舊物回收二手交易小程序,引領綠色消費新風尚

在資源日益緊張、環境污染問題日益突出的今天&#xff0c;綠色消費已經成為時代發展的必然趨勢。舊物回收二手交易小程序&#xff0c;作為綠色消費的重要載體&#xff0c;正以其獨特的優勢和魅力&#xff0c;引領著一場關于舊物循環、交易新生的綠色革命。一、舊物循環&#xf…

刷機維修進階教程-----如何清除云賬號 修復wifi 指南針 相機 指紋等刷機故障

在刷機、系統升級或降級過程中,是否遇到過以下問題:WiFi無法開啟、相機無響應、指南針或陀螺儀失靈 指紋等故障?另外,云賬號是否仍會保留,即使通過9008模式刷機也無法徹底清除?那么這篇博文都可以找到答案。 通過博文了解?????? 1??????----云賬號信息分區如…

AI翻唱實戰:用[靈龍AI API]玩轉AI翻唱 – 第6篇

歷史文章 [靈龍AI API] 申請訪問令牌 - 第1篇 [靈龍AI API] AI生成視頻API&#xff1a;文生視頻 – 第2篇 圖生視頻實戰&#xff1a;用[靈龍AI API]玩轉AI生成視頻 – 第2篇&#xff0c;從靜圖到大片 單圖特效實戰&#xff1a;用[靈龍AI API]玩轉AI生成視頻 – 第3篇&#…

大模型0基礎開發入門與實踐:第11章 進階:LangChain與外部工具調用

第11章 進階&#xff1a;LangChain與外部工具調用 1. 引言 在上一章&#xff0c;我們成功地創造了我們的第一個“生命”——一個可以對話的機器人。我們為它的誕生而興奮&#xff0c;但很快我們就會發現它的局限性。它就像一個被囚禁在玻璃房中的天才大腦&#xff0c;擁有淵博…

SQL 日期處理:深入解析與高效實踐

SQL 日期處理&#xff1a;深入解析與高效實踐 引言 在數據庫管理中&#xff0c;日期和時間數據的處理是不可或缺的一部分。SQL&#xff08;結構化查詢語言&#xff09;提供了豐富的日期和時間函數&#xff0c;使得對日期的處理變得既靈活又高效。本文將深入探討SQL日期處理的相…

源代碼部署 LAMP 架構

源代碼部署 LAMP 架構 &#xff08;Linux Apache MySQL PHP&#xff09; 一、LAMP 架構概述 LAMP 是一套經典的開源 Web 服務架構&#xff0c;通過源代碼安裝可實現高度定制化&#xff0c;適用于對軟件版本、功能模塊有特定需求的場景。本指南基于 CentOS 7 系統&#xf…

GO環境變量中GO111MODULE到底是干啥的?

查看GO111MODULE變量GO111MODULE的作用GO111MODULE的案例演示 一&#xff0c;查看GO111MODULE變量 ]# go env GO111MODULE 或者 ]# go env | grep GO111MODULE二&#xff0c;GO111MODULE的作用 auto : 自動判斷機制 當項目位于 $GOPATH/src 目錄外且包含 go.mod 文件時&…

在線培訓機構如何降低培訓視頻被盜錄的風險

每一節精心錄制的培訓視頻&#xff0c;都凝聚著講師的心血與機構的巨大投入。然而&#xff0c;只需一個簡單的錄屏軟件&#xff0c;這一切都可能被輕易竊取。一旦被盜取&#xff0c;不但會損失經濟利益&#xff0c;還可能會影響機構的聲譽。那么&#xff0c;在線培訓機構如何降…

Docker:安裝配置

目錄一、卸載舊版本二、配置Docker的yum庫三、安裝Docker3.1 在線安裝方式3.2 離線安裝方式四、配置阿里云鏡像加速【選配】五、Docker服務相關命令六、導出和導入鏡像官網 一、卸載舊版本 首先如果系統中已經存在舊版本的Docker&#xff0c;則先卸載&#xff1a; yum remov…

RabbitMQ:SpringAMQP 入門案例

目錄一、概述二、基礎配置三、生產者四、消費者一、概述 這是一篇Java集成RabbitMQ的入門案例&#xff0c;在這里我們做一個小案例&#xff0c;來體會一下RabbitMQ的魅力。 首先我們要做的就是創建一個生產者一個消費者&#xff1a; 生產者直接向RabbitMQ的隊列&#xff08;Q…

Ubuntu 下面安裝搜狗輸入法debug記錄

目錄0. 整體安裝流程1. 在鍵盤輸入法系統中&#xff0c;沒有“fcitx”選項解決方法0. 整體安裝流程 詳細的Ubuntu搜狗輸入法安裝指南請參考官方教程&#xff1a;Ubuntu搜狗輸入法安裝指南 1. 在鍵盤輸入法系統中&#xff0c;沒有“fcitx”選項 即使是安裝完 fcitx&#xff0…

Jenkins+GitLab在CentOS7上的自動化部署方案

最近在安裝jenkins實現微服務的自動發布&#xff0c;記錄配置過程以免再次踩坑。 Centos7環境準備 jenkins、gitlab配置&#xff0c;全程使用ftpuser普通用戶操作 &#xff08;1&#xff09;安裝好jdk并配置好環境變量 安裝路徑/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.191.…

打開或者安裝Navicat時出現Missing required library libcurl.dll,126報錯解決方法(libmysql_e.dll等)

提示 Missing required library libcurl.dll 出現原因是由于Navicat安裝目錄下libcurl.dll可能不能用了&#xff0c;下載該文件放到Navicat安裝目錄下即可。下載地址&#xff1a;libcurl.dll — download free for Windows 下載解壓包里只有個libcurl.dll 提示 Missing requir…

基于SpringBoot的流浪動物領養管理系統【2026最新】

作者&#xff1a;計算機學姐 開發技術&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源碼”。 專欄推薦&#xff1a;前后端分離項目源碼、SpringBoot項目源碼、Vue項目源碼、SSM項目源碼、微信小程序源碼 精品專欄&#xff1a;…

Qt實現TabWidget通過addTab函數添加的頁,頁內控件自適應窗口大小

前言&#xff1a;因為項目的要求&#xff0c;需要把幾個不同類型功能的界面集成在同一個窗口中&#xff0c;方便用戶不切換窗口&#xff0c;也能快捷的操作不同類型的功能。我首先想到的是通過選項卡方式&#xff0c;讓幾個類別的功能界面通過不同選項卡進行切換&#xff0c;這…

代碼隨想錄算法訓練營27天 | ??56. 合并區間、738.單調遞增的數字、968.監控二叉樹(提高)

題目鏈接&#xff1a;56. 合并區間、738.單調遞增的數字、968.監控二叉樹 文章鏈接&#xff1a;代碼隨想錄 貪心算法 1. 合并區間 &#xff08;待更新...&#xff09; class Solution { private:static bool cmp(const vector<int>& a, const vector<int>&…

從 H.264/H.265 到 H.266:RTSP播放器的跨代際演進

引言&#xff1a;H.266與實時視頻的交匯點 視頻編解碼的發展歷程&#xff0c;始終是 帶寬效率與視覺體驗的博弈。從 H.264 的普及&#xff0c;到 H.265/HEVC 的深化應用&#xff0c;每一次標準迭代&#xff0c;都在推動視頻向更高分辨率、更高幀率、更復雜場景的應用邁進。而 …

oc-mirror plugin v2 錯誤could not establish the destination for the release i

openshift 4.19使用的鏡像倉庫為harbor. 運行disk to registry時出現下面的錯誤&#xff1a; 2025/08/19 17:51:13 [ERROR] : [Executor] [release collector] could not establish the destination for the release image 備注&#xff1a; 我沒有賬戶&#xff0c;無法打開…