?????????近年來,Transformer 架構雖在各類任務中成為主流,但注意力機制的二次復雜度對長序列處理構成挑戰。為此,類似 RNN 的模型如 Mamba 被引入,其核心是狀態空間模型(SSM),旨在以線性復雜度處理長序列。然而,將 Mamba 應用于視覺任務時,其性能常不及卷積和基于注意力的模型。研究發現,Mamba 更適合兼具長序列和自回歸特性的任務,而多數視覺任務(如圖像分類)并不滿足這些特性。基于此,研究者提出 MambaOut,通過移除 Mamba 塊中的 SSM,僅保留門控 CNN 結構,驗證 SSM 在視覺任務中的必要性。
1.Mambaout原理
????????MambaOut 的核心原理是基于對 Mamba 適用場景的分析:Mamba 的 SSM 機制具有 RNN 特性,適合處理長序列且需因果 token 混合(自回歸)的任務,而視覺理解任務(如分類)無需因果限制,且短序列場景下 SSM 優勢不明顯。MambaOut 通過堆疊門控 CNN 塊構建模型,門控 CNN 塊與 Mamba 塊的區別在于不含 SSM,其 token 混合依賴深度卷積,結合 MLP 和門控機制,在保證計算效率的同時,避免了 SSM 在非長序列視覺任務中的冗余性。實驗表明,該結構在 ImageNet 分類中超越含 SSM 的視覺 Mamba 模型,驗證了 SSM 的非必要。
????????MambaOut 采用類似 ResNet 的分層架構,包含四個階段,每個階段堆疊門控 CNN 塊。門控 CNN 塊的具體結構為:輸入經歸一化后,通過線性層分為門控信號(g)、輸入信號(i)和卷積信號(c);c 經深度卷積(如 7×7 kernel)處理后,與 i 拼接并與 g 的激活值相乘,再通過線性層輸出,最終與殘差連接相加。模型配置根據尺寸(如 Femto、Tiny、Small、Base)調整通道數、塊數量等參數,例如 Small 版本包含(3, 4, 27, 3)個塊,通道數為(96, 192, 384, 576)。?
2.Mambaout習作思路?
???????????MambaOut 采用 7×7 深度 wise 卷積作為 Token Mixer,通過局部感受野聚合信息,相較于 Mamba 的 SSM 模塊更專注于空間局部模式提取,在遙感缺陷檢測中能精準捕獲裂縫、破損等小目標缺陷的邊緣與結構特征,其類似 ResNet 的四階段分層架構可從不同尺度解析缺陷形態,避免長序列依賴引入的無關上下文干擾,結合門控機制與深度卷積的高效特征交互,在抵御云層、地物紋理等背景干擾的同時,充分利用 GPU 并行計算能力,實現高分辨率遙感圖像中多尺度缺陷的精準定位與快速檢測。
3. YOLO與Mambaout的結合? ???? ? ?
? ? ? ? ?MambaOut 替換 YOLO 主干時,通過門控 CNN 強化局部特征提取,7×7 深度卷積擴大感受野,顯著提升小目標檢測能力。其架構移除 SSM 避免因果約束,能更好整合全局信息,提升遮擋目標檢測中定位能力。
4. Mambaout代碼部分
使用Mambaout替換YOLO backbone 整合全局信息,提升遮擋目標檢測中定位能力,以及小目標、多尺度_嗶哩嗶哩_bilibili
?代碼獲取:https://github.com/tgf123/YOLOv8_improve
5. Mambaout引入到YOLOv12中
將百度網盤的壓縮包下載后解壓,用編輯器打開運行即可
6. Mambaout引入到YOLOv11中
將百度網盤的壓縮包下載后解壓,用編輯器打開運行即可