CVPR 2025上,眾多創新研究展示了Mamba在圖像分類、目標檢測、語義分割等多個任務中的卓越表現。其中,可變形Mamba的最新研究成果正在不斷刷新我們對視覺任務性能的認知。大連理工大學發布的DefMamba通過可變形掃描策略動態調整掃描路徑,優先關注重要信息,顯著提升了圖像分類、目標檢測和分割等任務的性能。Sparse Deformable Mamba在高光譜圖像分類中展現了高精度與低計算量的優勢,通過稀疏可變形序列動態生成稀疏的Mamba序列,減少冗余和計算成本。
這些創新不僅在理論上拓展了Mamba的應用邊界,還為實際場景中的復雜視覺任務提供了更高效、更精準的解決方案。我整理了10篇關于【可變形Mamba】的相關論文,全部論文PDF版,工棕號 沃的頂會?回復“可變曼巴”領取。
X-VILA:Cross-Modality Alignment for Large Language Model
文章解析?
本文提出TransMamba框架,通過兩階段策略將Transformer預訓練知識遷移至Mamba,設計WSAB方法解決架構差異,引入Cross-Mamba增強跨模態交互,在少數據下提升多任務性能。
創新點?
提出兩階段知識遷移框架,通過特征校準和自適應雙向蒸餾,將Transformer知識高效遷移至Mamba。
設計Weight Subcloning和Adaptive Bidirectional Distillation(WSAB),解決跨架構層差異和雙向優化問題。
引入Cross-Mamba模塊,賦予Mamba跨模態交互能力,優化多模態任務中圖文信息融合。
研究方法?
特征校準:用MLP對齊Transformer與Mamba的特征維度,零填充匹配維度差異,為知識遷移奠基。
自適應雙向蒸餾:基于余弦相似度分配層權重,分正向和反向蒸餾,避免矩陣特征過優化。
權重子克隆:復用Transformer非SSM參數,按神經元重要性初始化Mamba,加速收斂。
跨模態優化:設計Cross-Mamba模塊,融合文本與圖像特征,初始化結合預訓練模型穩定訓練。
研究結論?
TransMamba在圖像分類、視覺問答等任務中優于原生Mamba,如CIFAR-100準確率提升2.83%,少用25%數據。
自適應雙向蒸餾和權重子克隆有效,50%數據即可達全量訓練性能,蒸餾策略比傳統方法優。
Cross-Mamba增強跨模態能力,Trans-LLaVA參數減少60%仍接近原模型性能,視頻檢索指標提升。
TransMamba:Flexibly Switching between Transformer and Mamba
文章解析?
本文提出TransMamba框架,通過共享參數矩陣實現Transformer與Mamba動態切換,設計Memory Converter確保信息無損轉換,在長序列處理中兼具效率與性能優勢。
創新點?
設計共享參數矩陣(QKV 與 CBx),實現Transformer與Mamba在不同token長度和層間的動態切換。
開發Memory Converter,將Attention輸出轉換為SSM兼容狀態,確保TransPoint處信息無損傳遞。
提出靈活TransPoint調度策略,基于序列長度和層間分布優化模型結構,平衡效率與性能。
研究方法?
共享參數設計:讓Transformer的QKV與Mamba的CBx共享參數,支持兩種機制靈活切換。
Memory Converter實現:通過數學推導將Attention的K、V轉換為SSM初始狀態,保證模式轉換時信息一致性。
TransPoint調度:結合序列長度和層間特性,采用對數趨勢分布 TransPoint,避免突變影響性能。
多任務驗證:在ARQ、LongBench-v2等數據集上對比Transformer、Mamba2 及 Hybrid模型,驗證框架優勢。
研究結論?
TransMamba在效率上較Transformer提升25%,訓練FLOPs更低,長序列處理時性能優于Mamba2和Hybrid模型。
Memory Converter和TransPoint調度策略有效,層特異性、寬范圍且細粒度的TransPoint設置可提升模型表現。
訓練與推理階段采用不同TransPoint策略仍可行,為后續動態優化提供方向,模型具結構靈活性和擴展性。