?????????在偽裝物體檢測領域,現有方法大多依賴空間局部特征,難以有效捕捉全局信息,而 Transformer 類方法雖能建模長距離依賴關系,卻存在計算成本高、網絡結構復雜的問題。同時,頻域特征雖具備全局建模能力,可頻繁的頻域與空域轉換會增加計算復雜度。此外,Mamba 方法憑借高效的注意力機制和輕量化設計,在降低計算成本方面展現出巨大潛力,但其在偽裝物體檢測中的應用尚未被充分探索。基于此,為解決傳統方法在全局信息捕捉和計算效率上的不足,MFM 模塊應運而生,它融合頻域和空域特征,通過多尺度策略進一步提取全局信息,優化了傳統基于 Transformer 的方法。
1.MFM(Multi-scale Frequency-Assisted Mamba-Like Linear Attention)原理
????????MFM 模塊的核心原理是將頻域特征與類 Mamba 線性注意力機制相結合,以實現高效的全局特征建模。其借助快速傅里葉變換(FFT)將輸入特征轉換到頻域,生成查詢 Q、鍵 K 和值 V,通過頻域注意力機制捕捉全局依賴關系,再經逆快速傅里葉變換(IFFT)轉回空域。同時,引入線性注意力機制替代傳統非線性 Softmax,降低計算復雜度,并利用選擇性狀態空間模型(如 MLLA)中的遺忘門機制(結合 LePE、RoPE 和 CPE 等位置編碼),增強對長序列特征的處理能力。此外,通過多尺度結構(如采用不同尺寸的深度 wise 卷積)處理不同尺度的特征,結合頻率權重模塊(FWM)進行殘差連接,強化頻域信息的表示,從而在有效捕捉全局信息的同時,降低計算開銷。
MFM 模塊的設計融合了頻域特征提取、多尺度處理及類 Mamba 線性注意力機制,具體結構如下:
-
輸入預處理階段
輸入特征?Ei??首先經過條件位置編碼(CPE)處理,以增強特征的位置信息表征,隨后通過層歸一化(LN)穩定特征分布,得到張量?E~i?。這一步驟確保后續操作中特征的空間位置關系和數值穩定性。 -
多尺度特征分解與提取
將?E~i??沿通道維度拆分為多個分支,每個分支先通過 1×1 卷積降低通道維度,再分別經過不同尺寸的深度 wise 卷積(如 3×3、5×5)生成多尺度特征張量。例如,采用 3×3 和 5×5 深度 wise 卷積捕捉不同感受野下的局部特征,使模塊能夠處理圖像中不同大小的目標或細節。 -
線性注意力機制集成
對每個尺度的特征張量,先通過激活函數(如 Sigmoid)進行非線性變換,再經 reshape 操作調整維度,輸入線性注意力層?La?。線性注意力層采用類 Mamba 的選擇性狀態空間模型(SSM)結構,通過遺忘門機制(結合 LePE、RoPE 等位置編碼)建模長距離依賴關系,替代傳統 Transformer 的二次復雜度注意力,將計算復雜度降至線性級別。不同尺度的注意力結果經拼接(Φ)后得到融合特征?Ai?。 -
頻域信息增強模塊
引入頻率權重模塊(FWM)強化頻域特征表示:通過快速傅里葉變換(FFT)將輸入特征轉換至頻域,經卷積、批歸一化、GELU 激活等操作生成頻域權重,再與原頻域特征點乘,最后通過逆傅里葉變換(IFFT)轉回空域,形成頻域殘差連接。該過程增強了特征中的全局頻域信息,抑制背景噪聲。 -
特征融合與輸出
將多尺度注意力融合特征?Ai??與頻域增強后的特征進行點乘,再通過 1×1 卷積調整通道維度,得到?Fi1?。隨后,Fi1??與 FWM 處理后的殘差特征、原始輸入特征?Ei??相加,并再次經過 CPE 編碼,得到?Fi2?。最后,Fi2??與多層感知機(MLP)處理后的結果、層歸一化(LN)輸出融合,形成最終輸出特征?Fi?,實現多尺度頻域 - 空域特征的高效整合。
????????整個結構通過多尺度分解、線性注意力機制和頻域殘差連接,在降低計算復雜度的同時,增強了模型對全局上下文和多尺度目標的表征能力,適用于偽裝物體檢測等需要捕捉復雜特征依賴關系的任務。
2. MFM習作思路?
一)醫學領域
在醫學相關論文中,可描述為:“針對醫學影像中病變區域與周圍組織相似度高、邊界模糊等檢測難題,提出將 MFM 模塊應用于醫學偽裝物體(如病變區域)檢測。該模塊通過多尺度頻域 - 空域特征融合,有效捕捉醫學影像中病變組織的全局結構特征,抑制復雜背景噪聲,提升對微小病變或邊界模糊病變的檢測精度。同時,基于類 Mamba 的線性注意力機制,降低了模型計算復雜度,使其適用于醫學影像的實時分析與診斷。”
(二)遙感領域
在遙感領域論文中可表述為:“在遙感圖像中,偽裝目標(如軍事設施、隱藏建筑等)常與自然背景高度融合,傳統方法難以有效檢測。MFM 模塊通過多尺度頻域注意力提取遙感圖像中的全局上下文信息,增強對不同尺度偽裝目標的特征表示,克服了遙感圖像中目標尺度變化大、背景復雜的挑戰。結合類 Mamba 的輕量化設計,該模塊在保證檢測精度的同時,大幅降低了計算量,適用于大規模遙感圖像的高效處理。”
(三)缺陷檢測領域
對于缺陷檢測領域,可這樣描述:“工業產品表面缺陷常因與正常區域紋理、顏色相似而難以識別,MFM 模塊被引入缺陷檢測任務。其通過多尺度頻域 - 空域特征協同處理,有效提取缺陷的全局特征,區分缺陷與正常區域的細微差異,提升對微小缺陷、復雜紋理表面缺陷的檢測能力。基于線性注意力的類 Mamba 機制,使模型在工業實時檢測場景中具有更高的效率和實用性。”
(四)農業領域
在農業相關論文中,可描述為:“農業場景中,病蟲害植株、雜草等偽裝目標與正常作物外觀相似,檢測難度大。MFM 模塊通過融合多尺度頻域和空域特征,捕捉農業目標的全局光譜與結構特征,增強對病蟲害早期癥狀、雜草與作物的區分能力。類 Mamba 的線性注意力機制降低了模型計算復雜度,使其能夠在農業無人機、田間機器人等設備上實現實時檢測,為精準農業提供技術支持。”
3. YOLO與MFM的結合? ???
????????MFM 與 YOLO 結合時,借多尺度頻域 - 空域特征融合強化 YOLO 對小目標、多尺度目標的特征提取能力,提升復雜場景下的檢測精度;頻域全局建模抑制背景干擾,與 YOLO 的強泛化性互補,增強模型在光照變化、復雜背景下的魯棒性。
4. MFM代碼部分
多尺度頻率輔助類 Mamba 線性注意力模塊(MFM),使用類mamba模塊,融合頻域和空域特征,提升多尺度、復雜場景下的目標檢測能力_嗶哩嗶哩_bilibili
YOLO12模型改進方法,快速發論文,總有適合你的改進,還不改進上車_嗶哩嗶哩_bilibili
?代碼獲取:YOLOv8_improve/YOLOV12.md at master · tgf123/YOLOv8_improve · GitHub
5. MFM引入到YOLOv12中
第一: 先新建一個v12_changemodel,將下面的核心代碼復制到下面這個路徑當中,如下圖如所示。E:\Part_time_job_orders\YOLO_NEW\YOLOv12\ultralytics\v12_changemodel。
? ? ???????????????????????
第二:在task.py中導入包
????????????????????
第三:在task.py中的模型配置部分下面代碼
??????????????????????????????????
第四:將模型配置文件復制到YOLOV12.YAMY文件中
??????????????????????
? ???????????????????????????????????????????????第五:運行代碼
from ultralytics.models import NAS, RTDETR, SAM, YOLO, FastSAM, YOLOWorldif __name__=="__main__":# 使用自己的YOLOv12.yamy文件搭建模型并加載預訓練權重訓練模型model = YOLO("/home/shengtuo/tangfan/YOLO12/ultralytics/cfg/models/12/yolo12_MFMamba_Like_Linear Attention.yaml")# .load(r'E:\Part_time_job_orders\YOLO_NEW\YOLOv12\yolo12n.pt') # build from YAML and transfer weightsresults = model.train(data="/home/shengtuo/tangfan/YOLO12/ultralytics/cfg/datasets/fire_smoke.yaml",epochs=300,imgsz=640,batch=4,# cache = False,# single_cls = False, # 是否是單類別檢測# workers = 0,# resume=r'D:/model/yolov8/runs/detect/train/weights/last.pt',amp = True)
?上面是原模型,下面是改進模型

???????????????
?