多尺度頻率輔助類 Mamba 線性注意力模塊（MFM），融合頻域和空域特征，提升多尺度、復雜場景下的目標檢測能力

?????????在偽裝物體檢測領域，現有方法大多依賴空間局部特征，難以有效捕捉全局信息，而 Transformer 類方法雖能建模長距離依賴關系，卻存在計算成本高、網絡結構復雜的問題。同時，頻域特征雖具備全局建模能力，可頻繁的頻域與空域轉換會增加計算復雜度。此外，Mamba 方法憑借高效的注意力機制和輕量化設計，在降低計算成本方面展現出巨大潛力，但其在偽裝物體檢測中的應用尚未被充分探索。基于此，為解決傳統方法在全局信息捕捉和計算效率上的不足，MFM 模塊應運而生，它融合頻域和空域特征，通過多尺度策略進一步提取全局信息，優化了傳統基于 Transformer 的方法。

1.MFM（Multi-scale Frequency-Assisted Mamba-Like Linear Attention）原理

????????MFM 模塊的核心原理是將頻域特征與類 Mamba 線性注意力機制相結合，以實現高效的全局特征建模。其借助快速傅里葉變換（FFT）將輸入特征轉換到頻域，生成查詢 Q、鍵 K 和值 V，通過頻域注意力機制捕捉全局依賴關系，再經逆快速傅里葉變換（IFFT）轉回空域。同時，引入線性注意力機制替代傳統非線性 Softmax，降低計算復雜度，并利用選擇性狀態空間模型（如 MLLA）中的遺忘門機制（結合 LePE、RoPE 和 CPE 等位置編碼），增強對長序列特征的處理能力。此外，通過多尺度結構（如采用不同尺寸的深度 wise 卷積）處理不同尺度的特征，結合頻率權重模塊（FWM）進行殘差連接，強化頻域信息的表示，從而在有效捕捉全局信息的同時，降低計算開銷。

MFM 模塊的設計融合了頻域特征提取、多尺度處理及類 Mamba 線性注意力機制，具體結構如下：

輸入預處理階段
輸入特征?Ei??首先經過條件位置編碼（CPE）處理，以增強特征的位置信息表征，隨后通過層歸一化（LN）穩定特征分布，得到張量?E~i?。這一步驟確保后續操作中特征的空間位置關系和數值穩定性。
多尺度特征分解與提取
將?E~i??沿通道維度拆分為多個分支，每個分支先通過 1×1 卷積降低通道維度，再分別經過不同尺寸的深度 wise 卷積（如 3×3、5×5）生成多尺度特征張量。例如，采用 3×3 和 5×5 深度 wise 卷積捕捉不同感受野下的局部特征，使模塊能夠處理圖像中不同大小的目標或細節。
線性注意力機制集成
對每個尺度的特征張量，先通過激活函數（如 Sigmoid）進行非線性變換，再經 reshape 操作調整維度，輸入線性注意力層?La?。線性注意力層采用類 Mamba 的選擇性狀態空間模型（SSM）結構，通過遺忘門機制（結合 LePE、RoPE 等位置編碼）建模長距離依賴關系，替代傳統 Transformer 的二次復雜度注意力，將計算復雜度降至線性級別。不同尺度的注意力結果經拼接（Φ）后得到融合特征?Ai?。
頻域信息增強模塊
引入頻率權重模塊（FWM）強化頻域特征表示：通過快速傅里葉變換（FFT）將輸入特征轉換至頻域，經卷積、批歸一化、GELU 激活等操作生成頻域權重，再與原頻域特征點乘，最后通過逆傅里葉變換（IFFT）轉回空域，形成頻域殘差連接。該過程增強了特征中的全局頻域信息，抑制背景噪聲。
特征融合與輸出
將多尺度注意力融合特征?Ai??與頻域增強后的特征進行點乘，再通過 1×1 卷積調整通道維度，得到?Fi1?。隨后，Fi1??與 FWM 處理后的殘差特征、原始輸入特征?Ei??相加，并再次經過 CPE 編碼，得到?Fi2?。最后，Fi2??與多層感知機（MLP）處理后的結果、層歸一化（LN）輸出融合，形成最終輸出特征?Fi?，實現多尺度頻域 - 空域特征的高效整合。

????????整個結構通過多尺度分解、線性注意力機制和頻域殘差連接，在降低計算復雜度的同時，增強了模型對全局上下文和多尺度目標的表征能力，適用于偽裝物體檢測等需要捕捉復雜特征依賴關系的任務。

2. MFM習作思路?

一）醫學領域

在醫學相關論文中，可描述為：“針對醫學影像中病變區域與周圍組織相似度高、邊界模糊等檢測難題，提出將 MFM 模塊應用于醫學偽裝物體（如病變區域）檢測。該模塊通過多尺度頻域 - 空域特征融合，有效捕捉醫學影像中病變組織的全局結構特征，抑制復雜背景噪聲，提升對微小病變或邊界模糊病變的檢測精度。同時，基于類 Mamba 的線性注意力機制，降低了模型計算復雜度，使其適用于醫學影像的實時分析與診斷。”

（二）遙感領域

在遙感領域論文中可表述為：“在遙感圖像中，偽裝目標（如軍事設施、隱藏建筑等）常與自然背景高度融合，傳統方法難以有效檢測。MFM 模塊通過多尺度頻域注意力提取遙感圖像中的全局上下文信息，增強對不同尺度偽裝目標的特征表示，克服了遙感圖像中目標尺度變化大、背景復雜的挑戰。結合類 Mamba 的輕量化設計，該模塊在保證檢測精度的同時，大幅降低了計算量，適用于大規模遙感圖像的高效處理。”

（三）缺陷檢測領域

對于缺陷檢測領域，可這樣描述：“工業產品表面缺陷常因與正常區域紋理、顏色相似而難以識別，MFM 模塊被引入缺陷檢測任務。其通過多尺度頻域 - 空域特征協同處理，有效提取缺陷的全局特征，區分缺陷與正常區域的細微差異，提升對微小缺陷、復雜紋理表面缺陷的檢測能力。基于線性注意力的類 Mamba 機制，使模型在工業實時檢測場景中具有更高的效率和實用性。”

（四）農業領域

在農業相關論文中，可描述為：“農業場景中，病蟲害植株、雜草等偽裝目標與正常作物外觀相似，檢測難度大。MFM 模塊通過融合多尺度頻域和空域特征，捕捉農業目標的全局光譜與結構特征，增強對病蟲害早期癥狀、雜草與作物的區分能力。類 Mamba 的線性注意力機制降低了模型計算復雜度，使其能夠在農業無人機、田間機器人等設備上實現實時檢測，為精準農業提供技術支持。”

3. YOLO與MFM的結合? ???

????????MFM 與 YOLO 結合時，借多尺度頻域 - 空域特征融合強化 YOLO 對小目標、多尺度目標的特征提取能力，提升復雜場景下的檢測精度；頻域全局建模抑制背景干擾，與 YOLO 的強泛化性互補，增強模型在光照變化、復雜背景下的魯棒性。

4. MFM代碼部分

多尺度頻率輔助類 Mamba 線性注意力模塊（MFM），使用類mamba模塊，融合頻域和空域特征，提升多尺度、復雜場景下的目標檢測能力_嗶哩嗶哩_bilibili

YOLO12模型改進方法，快速發論文，總有適合你的改進，還不改進上車_嗶哩嗶哩_bilibili

?代碼獲取：YOLOv8_improve/YOLOV12.md at master · tgf123/YOLOv8_improve · GitHub

5. MFM引入到YOLOv12中

第一: 先新建一個v12_changemodel，將下面的核心代碼復制到下面這個路徑當中，如下圖如所示。E:\Part_time_job_orders\YOLO_NEW\YOLOv12\ultralytics\v12_changemodel。

? ? ???????????????????????

第二：在task.py中導入包

????????????????????

第三：在task.py中的模型配置部分下面代碼

??????????????????????????????????

第四：將模型配置文件復制到YOLOV12.YAMY文件中

??????????????????????

? ???????????????????????????????????????????????第五：運行代碼


from ultralytics.models import NAS, RTDETR, SAM, YOLO, FastSAM, YOLOWorldif __name__=="__main__":# 使用自己的YOLOv12.yamy文件搭建模型并加載預訓練權重訓練模型model = YOLO("/home/shengtuo/tangfan/YOLO12/ultralytics/cfg/models/12/yolo12_MFMamba_Like_Linear Attention.yaml")# .load(r'E:\Part_time_job_orders\YOLO_NEW\YOLOv12\yolo12n.pt')  # build from YAML and transfer weightsresults = model.train(data="/home/shengtuo/tangfan/YOLO12/ultralytics/cfg/datasets/fire_smoke.yaml",epochs=300,imgsz=640,batch=4,# cache = False,# single_cls = False,  # 是否是單類別檢測# workers = 0,# resume=r'D:/model/yolov8/runs/detect/train/weights/last.pt',amp = True)

?上面是原模型，下面是改進模型