多尺度頻率輔助類 Mamba 線性注意力模塊(MFM),融合頻域和空域特征,提升多尺度、復雜場景下的目標檢測能力

?????????在偽裝物體檢測領域,現有方法大多依賴空間局部特征難以有效捕捉全局信息,而 Transformer 類方法雖能建模長距離依賴關系,卻存在計算成本高、網絡結構復雜的問題。同時,頻域特征雖具備全局建模能力,可頻繁的頻域與空域轉換會增加計算復雜度。此外,Mamba 方法憑借高效的注意力機制和輕量化設計,在降低計算成本方面展現出巨大潛力,但其在偽裝物體檢測中的應用尚未被充分探索。基于此,為解決傳統方法在全局信息捕捉和計算效率上的不足,MFM 模塊應運而生,它融合頻域和空域特征,通過多尺度策略進一步提取全局信息,優化了傳統基于 Transformer 的方法。

1.MFM(Multi-scale Frequency-Assisted Mamba-Like Linear Attention)原理

????????MFM 模塊的核心原理是將頻域特征與類 Mamba 線性注意力機制相結合,以實現高效的全局特征建模。其借助快速傅里葉變換(FFT)將輸入特征轉換到頻域,生成查詢 Q、鍵 K 和值 V,通過頻域注意力機制捕捉全局依賴關系,再經逆快速傅里葉變換(IFFT)轉回空域。同時,引入線性注意力機制替代傳統非線性 Softmax,降低計算復雜度,并利用選擇性狀態空間模型(如 MLLA)中的遺忘門機制(結合 LePE、RoPE 和 CPE 等位置編碼),增強對長序列特征的處理能力。此外,通過多尺度結構(如采用不同尺寸的深度 wise 卷積)處理不同尺度的特征,結合頻率權重模塊(FWM)進行殘差連接,強化頻域信息的表示,從而在有效捕捉全局信息的同時,降低計算開銷。

MFM 模塊的設計融合了頻域特征提取、多尺度處理及類 Mamba 線性注意力機制,具體結構如下:

  1. 輸入預處理階段
    輸入特征?Ei??首先經過條件位置編碼(CPE)處理,以增強特征的位置信息表征,隨后通過層歸一化(LN)穩定特征分布,得到張量?E~i?。這一步驟確保后續操作中特征的空間位置關系和數值穩定性。

  2. 多尺度特征分解與提取
    將?E~i??沿通道維度拆分為多個分支,每個分支先通過 1×1 卷積降低通道維度,再分別經過不同尺寸的深度 wise 卷積(如 3×3、5×5)生成多尺度特征張量。例如,采用 3×3 和 5×5 深度 wise 卷積捕捉不同感受野下的局部特征,使模塊能夠處理圖像中不同大小的目標或細節。

  3. 線性注意力機制集成
    對每個尺度的特征張量,先通過激活函數(如 Sigmoid)進行非線性變換,再經 reshape 操作調整維度,輸入線性注意力層?La?。線性注意力層采用類 Mamba 的選擇性狀態空間模型(SSM)結構,通過遺忘門機制(結合 LePE、RoPE 等位置編碼)建模長距離依賴關系,替代傳統 Transformer 的二次復雜度注意力,將計算復雜度降至線性級別。不同尺度的注意力結果經拼接(Φ)后得到融合特征?Ai?。

  4. 頻域信息增強模塊
    引入頻率權重模塊(FWM)強化頻域特征表示:通過快速傅里葉變換(FFT)將輸入特征轉換至頻域,經卷積、批歸一化、GELU 激活等操作生成頻域權重,再與原頻域特征點乘,最后通過逆傅里葉變換(IFFT)轉回空域,形成頻域殘差連接。該過程增強了特征中的全局頻域信息,抑制背景噪聲。

  5. 特征融合與輸出
    將多尺度注意力融合特征?Ai??與頻域增強后的特征進行點乘,再通過 1×1 卷積調整通道維度,得到?Fi1?。隨后,Fi1??與 FWM 處理后的殘差特征、原始輸入特征?Ei??相加,并再次經過 CPE 編碼,得到?Fi2?。最后,Fi2??與多層感知機(MLP)處理后的結果、層歸一化(LN)輸出融合,形成最終輸出特征?Fi?,實現多尺度頻域 - 空域特征的高效整合。

????????整個結構通過多尺度分解、線性注意力機制和頻域殘差連接,在降低計算復雜度的同時,增強了模型對全局上下文和多尺度目標的表征能力,適用于偽裝物體檢測等需要捕捉復雜特征依賴關系的任務。

2. MFM習作思路?

一)醫學領域

在醫學相關論文中,可描述為:“針對醫學影像中病變區域與周圍組織相似度高、邊界模糊等檢測難題,提出將 MFM 模塊應用于醫學偽裝物體(如病變區域)檢測。該模塊通過多尺度頻域 - 空域特征融合,有效捕捉醫學影像中病變組織的全局結構特征,抑制復雜背景噪聲,提升對微小病變或邊界模糊病變的檢測精度。同時,基于類 Mamba 的線性注意力機制,降低了模型計算復雜度,使其適用于醫學影像的實時分析與診斷。”

(二)遙感領域

在遙感領域論文中可表述為:“在遙感圖像中,偽裝目標(如軍事設施、隱藏建筑等)常與自然背景高度融合,傳統方法難以有效檢測。MFM 模塊通過多尺度頻域注意力提取遙感圖像中的全局上下文信息,增強對不同尺度偽裝目標的特征表示,克服了遙感圖像中目標尺度變化大、背景復雜的挑戰。結合類 Mamba 的輕量化設計,該模塊在保證檢測精度的同時,大幅降低了計算量,適用于大規模遙感圖像的高效處理。”

(三)缺陷檢測領域

對于缺陷檢測領域,可這樣描述:“工業產品表面缺陷常因與正常區域紋理、顏色相似而難以識別,MFM 模塊被引入缺陷檢測任務。其通過多尺度頻域 - 空域特征協同處理,有效提取缺陷的全局特征,區分缺陷與正常區域的細微差異,提升對微小缺陷、復雜紋理表面缺陷的檢測能力。基于線性注意力的類 Mamba 機制,使模型在工業實時檢測場景中具有更高的效率和實用性。”

(四)農業領域

在農業相關論文中,可描述為:“農業場景中,病蟲害植株、雜草等偽裝目標與正常作物外觀相似,檢測難度大。MFM 模塊通過融合多尺度頻域和空域特征,捕捉農業目標的全局光譜與結構特征,增強對病蟲害早期癥狀、雜草與作物的區分能力。類 Mamba 的線性注意力機制降低了模型計算復雜度,使其能夠在農業無人機、田間機器人等設備上實現實時檢測,為精準農業提供技術支持。”

3. YOLO與MFM的結合? ???

????????MFM 與 YOLO 結合時,借多尺度頻域 - 空域特征融合強化 YOLO 對小目標、多尺度目標的特征提取能力,提升復雜場景下的檢測精度;頻域全局建模抑制背景干擾,與 YOLO 的強泛化性互補,增強模型在光照變化、復雜背景下的魯棒性。

4. MFM代碼部分

多尺度頻率輔助類 Mamba 線性注意力模塊(MFM),使用類mamba模塊,融合頻域和空域特征,提升多尺度、復雜場景下的目標檢測能力_嗶哩嗶哩_bilibili

YOLO12模型改進方法,快速發論文,總有適合你的改進,還不改進上車_嗶哩嗶哩_bilibili

?代碼獲取:YOLOv8_improve/YOLOV12.md at master · tgf123/YOLOv8_improve · GitHub

5. MFM引入到YOLOv12中

第一: 先新建一個v12_changemodel,將下面的核心代碼復制到下面這個路徑當中,如下圖如所示。E:\Part_time_job_orders\YOLO_NEW\YOLOv12\ultralytics\v12_changemodel。

? ? ???????????????????????

第二:在task.py中導入

????????????????????

第三:在task.py中的模型配置部分下面代碼

??????????????????????????????????

第四:將模型配置文件復制到YOLOV12.YAMY文件中

??????????????????????

? ???????????????????????????????????????????????第五:運行代碼


from ultralytics.models import NAS, RTDETR, SAM, YOLO, FastSAM, YOLOWorldif __name__=="__main__":# 使用自己的YOLOv12.yamy文件搭建模型并加載預訓練權重訓練模型model = YOLO("/home/shengtuo/tangfan/YOLO12/ultralytics/cfg/models/12/yolo12_MFMamba_Like_Linear Attention.yaml")# .load(r'E:\Part_time_job_orders\YOLO_NEW\YOLOv12\yolo12n.pt')  # build from YAML and transfer weightsresults = model.train(data="/home/shengtuo/tangfan/YOLO12/ultralytics/cfg/datasets/fire_smoke.yaml",epochs=300,imgsz=640,batch=4,# cache = False,# single_cls = False,  # 是否是單類別檢測# workers = 0,# resume=r'D:/model/yolov8/runs/detect/train/weights/last.pt',amp = True)

?上面是原模型,下面是改進模型

改進后的模型

????????????????

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/88961.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/88961.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/88961.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Dify的默認端口怎么修改

1.定位配置文件 在 Dify 的安裝目錄中找到 .env 文件(通常位于 docker/ 子目錄下)。此文件定義了 Docker 容器的環境變量,包括端口配置。 2.調整端口參數 修改以下兩個關鍵配置項: # Docker 容器內部 Nginx 監聽的端口&#xf…

Go內存分配

圖解Go語言內存分配 - 知乎 go內置運行時,采用了自主管理,實現更好的內存使用模式,不需要每次內存分配都進行系統調用 采用TCMalloc算法:把內存分為多級管理,從而降低鎖的粒度 將可用的堆內存采用二級分配的方式進行…

cursor使用mcp連接mysql數據庫,url方式

背景。 用cursor生成后端代碼。讓cursor可以創建響應的表結構以及插入數據。使用的cursor版本是1.2.1 cursor 官網 mcp 說明smithery 中mysql mcp這個mcp具有建表的本領。 在cursor中是這樣配置的。 以上這種配置方式是是通過在smithery 網站中配置好自己的mysql數據庫連接后才…

Twisted study notes[1]

文章目錄serverreferencesserver Twisted usually using subclass twisted.internet.protocol.Protocol to treat protocols .Protocol is a fundamental class in Twisted for implementing network protocols.protocol class instant don’t exists forever because of it w…

Python 數據建模與分析項目實戰預備 Day 6 - 多模型對比與交叉驗證驗證策略

? 今日目標 引入多種常見分類模型(隨機森林、支持向量機、K近鄰等)比較不同模型的訓練效果使用交叉驗證提升評估穩定性🧾 一、對比模型列表模型類名(sklearn)適用說明邏輯回歸LogisticRegression基礎線、易于解釋KNNK…

xss-labs 1-8關

level1打開檢查&#xff0c;發現test直接放入h2標簽中此時通過script繞過h2標簽構造payload127.0.0.1/xss-labs/lvel1.php?name<script>alert(111)</script>直接使用script標簽繞過h2,并執行alert,通過level2打開檢查&#xff0c;輸入的123被放在input標簽里面的v…

Conda 核心命令快速查閱表

本表旨在提供一個簡潔、高效的 Conda 命令參考&#xff0c;專注于最常用功能的快速查找。 1. 環境管理 (Environment Management)功能 (Function)命令 (Command)示例 (Example)創建新環境conda create -n <env_name> [packages...]conda create -n myenv python3.9 panda…

音視頻學習(三十九):IDR幀和I幀

主要區分&#xff1a;I 幀 是幀內編碼幀&#xff0c;IDR 幀 是一種特殊的 I 幀&#xff0c;它是“清除參考幀鏈的強制切斷點”。H.264 視頻結構 結構 H.264 視頻由多個 NAL&#xff08;Network Abstraction Layer&#xff09;單元 構成&#xff0c;每一幀圖像可由一個或多個 NA…

人工智能與機器學習暑期科研項目招募(可發表論文)

人工智能與機器學習暑期科研項目招募 華中科技大學博士論文指導我是計算機專業的研二學生&#xff1a;從大二開始接觸科研&#xff0c;至今已發表1篇CCF-A類會議論文、1篇CCF-B類會議論文&#xff0c;以及2篇Top期刊論文。正是這段從本科開始的科研經歷&#xff0c;讓我在保研和…

C盤爆滿?一鍵清理恢復極速體驗!“小番茄C盤清理”徹底解放你的電腦

目錄 前言 C盤變紅&#xff1f;&#xff01;那么你的電腦將會出現下面糟糕的情況&#xff1a; 一、小番茄C盤清理介紹——拯救你的C盤爆紅&#xff01; 二、安裝登錄小番茄C盤清理 2.1 安裝小番茄C盤清理 2.2 登錄—擁有專屬自己電腦的小番茄C盤清理 三、手把手教你深度…

UI前端大數據可視化實戰技巧:如何利用數據故事化提升用戶參與度?

hello寶子們...我們是艾斯視覺擅長ui設計、前端開發、數字孿生、大數據、三維建模、三維動畫10年經驗!希望我的分享能幫助到您!如需幫助可以評論關注私信我們一起探討!致敬感謝感恩!一、引言&#xff1a;從 “圖表堆砌” 到 “故事共鳴” 的可視化革命當企業管理者面對布滿折線…

CSS基礎1.1

HTML骨架<!DOCTYPE html> <!-- 中文網站 --> <html lang"zh-CN"> <head><!--charset"UTF-8" 規定網頁的字符編碼 --><meta charset"UTF-8"><!-- ie(兼容性差) / edge --><meta http-equiv"X…

前端基礎JavaScript 筆記

本文是基于 B 站 pink 老師前端 JavaScript 課程整理的學習筆記 JS簡介 JavaScript是一種運行在客戶端&#xff08;瀏覽器&#xff09;的編程語言 作用&#xff1a;1.網頁特效(監聽用戶的一些行為讓網頁作出對應的反饋) 2.表單驗證(針對表單數據的合法性進行判斷) 3.數據交互…

「小程序開發」項目結構和頁面組成

微信小程序目錄 微信小程序的目錄,每種文件都有特定用途,組合起來才能構建完整應用。 小程序最基本的目錄結構通常包含這些部分: my-miniprogram/ ├── pages/ // 存放所有頁面 │ ├── index/ // 存放index頁面的邏輯文件 │ └── logs/ …

[element-ui]el-table在可視區域底部固定一個橫向滾動條

背景當el-table的列太多時&#xff0c;得拖動橫向滾動條才能看到&#xff0c;但如果內容也很多&#xff0c;可能橫向滾動條還看不到&#xff0c;又得滑到最下方才能拖動滾動條&#xff0c;這樣不太方便。若內容過多時&#xff0c;有個固定在可視區域的橫向滾動條就好了&#xf…

大模型核心組件結構與計算順序詳解(Embedding/FFN/LayerNorm等)

在大模型&#xff08;如GPT、BERT、LLaMA等&#xff09;的架構設計中&#xff0c;各個組件的協同工作是模型性能的核心保障。本文將詳細解析大模型中Embedding、前饋神經網絡&#xff08;FFN&#xff09;、LayerNorm、Softmax、MoE、殘差連接的作用及計算順序&#xff0c;幫助理…

希爾排序:突破傳統排序的邊界

一、算法思想希爾排序&#xff08;Shell Sort&#xff09;&#xff0c;也被叫做縮小增量排序&#xff0c;是插入排序的一種改進版本。希爾排序的核心在于先將整個待排序的記錄序列分割成若干個子序列&#xff0c;分別進行直接插入排序。隨著增量逐漸減小&#xff0c;子序列的長…

Kafka事務消息與Exactly-Once語義實戰指南

Kafka事務消息與Exactly-Once語義實戰指南 在分布式微服務或大數據處理場景中&#xff0c;消息隊列常被用于異步解耦、流量削峰和系統伸縮。對于重要業務消息&#xff0c;尤其是金融、訂單、庫存等場景&#xff0c;消息的精確投遞&#xff08;Exactly Once&#xff09;和事務一…

26.將 Python 列表拆分為多個小塊

將 Python 列表拆分為多個小塊(Chunk a List) ?? 場景 1:按份數 chunk_into_n(lst, n) 將一個列表平均拆分為 n 個塊。如果不能整除,最后一塊會包含剩余元素。 ? 示例代碼 from math import ceildef chunk_into_n(lst, n):size = ceil(len

18.理解 Python 中的切片賦值

1. 切片語法回顧 標準切片語法格式為: [start_at : stop_before : step]start_at:起始索引(包含)stop_before:結束索引(不包含)step:步長(默認為 1)例如: lst = [1, 2,