PFAE(Pyramidal Frequency Attention Extraction)通過頻域注意力機制提高邊界模糊、遮擋等場景的的檢測能力

?????????在偽裝物體檢測中,現有方法多依賴空間局部特征,難以捕捉全局信息,而 Transformer 類方法計算成本高昂。頻率域特征因具備全局建模能力,可有效抑制背景噪聲、提升偽裝物體語義清晰度,但頻域與空域的頻繁轉換會增加計算復雜度。基于此,PFAE 模塊被提出,旨在通過頻域注意力機制更高效地提取高頻特征,解決傳統方法在處理邊界模糊、遮擋等場景時的局限性。

1.PFAE原理

? ? ? ? PFAE 模塊的核心原理是結合頻域注意力與多尺度特征融合。首先,對輸入特征進行通道降維,通過不同膨脹率的擴張卷積分支提取多尺度特征;每個分支利用快速傅里葉變換(FFT)生成查詢 Q、鍵 K 和值 V,經點乘、激活實部與虛部后得到頻域注意力圖,再與 V 點乘并通過逆傅里葉變換(IFFT)轉回空域。過程中引入頻率權重模塊(FWM)進行殘差連接,最后通過卷積操作與殘差連接生成混合特征,實現對頻域信息的增強與多尺度特征的聚合。

PFAE 模塊的結構如圖 2 所示,主要包含以下部分:

????????特征降維:通過 1×1 卷積對輸入特征 E?降維,得到E^4?。

????????多尺度擴張卷積分支:4 個分支,膨脹率為2n?1(n≥2),每個分支包含頻域注意力模塊。

????????頻域注意力計算:利用 FFT 生成 Q、K、V,計算注意力圖Af?,并通過 IFFT 轉回空域。

????????頻率權重模塊(FWM):通過頻域殘差連接增強頻域信息表示。

????????特征融合與輸出:通過卷積操作與殘差連接,將多分支特征融合生成最終輸出E5?。

2. PFAE 在不同領域的應用描述

醫學領域

? ? ? ? 在醫學影像偽裝目標檢測相關論文中,PFAE 模塊可被描述為:“針對醫學影像中病灶與周圍組織邊界模糊、易受噪聲干擾的挑戰,提出基于頻域注意力的金字塔頻率注意力提取模塊(PFAE)。該模塊通過多尺度擴張卷積捕獲不同大小的病灶特征,結合頻域變換抑制背景噪聲,增強病灶區域的語義特征。在肺部結節、乳腺腫瘤等檢測任務中,PFAE 能有效提取隱藏于復雜解剖結構中的病灶高頻特征,提升分割精度,為醫學輔助診斷提供更可靠的依據。”

遙感領域

? ? ? ? 用于遙感圖像偽裝目標檢測的論文中,可這樣描述 PFAE:“在遙感場景中,偽裝目標(如軍事設施、隱藏車輛等)常與自然背景高度相似,傳統方法難以有效區分。PFAE 模塊通過頻域注意力機制,捕捉目標與背景在頻率域的差異特征,抑制植被、地形等復雜背景的干擾。多尺度結構可適應不同大小目標的檢測需求,從遙感圖像的高頻分量中提取目標的輪廓與結構信息,實現對偽裝目標的魯棒檢測,為遙感監測與安全預警提供技術支持。”

缺陷檢測領域

? ? ? ? 在工業缺陷偽裝檢測的論文中,PFAE 的描述可如下:“工業產品表面缺陷常因光照、紋理等因素與正常區域難以區分,傳統方法易受局部特征干擾。PFAE 模塊通過頻域變換提取缺陷區域的高頻特征,結合多尺度擴張卷積捕獲不同尺度的缺陷模式,有效抑制產品表面紋理、劃痕等噪聲的影響。在金屬板材、半導體晶圓等缺陷檢測中,該模塊能從復雜背景中精準定位偽裝缺陷,提升檢測的準確率與魯棒性,為工業質量控制提供高效解決方案。”

農業領域

? ? ? ? 于農業偽裝目標檢測相關論文中,PFAE 可表述為:“農業場景中,病蟲害植株、雜草等偽裝目標常與正常作物外觀相似,傳統檢測方法難以精準識別。PFAE 模塊利用頻域注意力機制,提取病蟲害葉片、雜草等目標的獨特頻率特征,抑制作物葉片紋理、自然光照等背景干擾。多尺度結構可適應不同生長階段目標的檢測需求,從圖像高頻分量中增強目標的語義信息,實現對農田中偽裝目標的準確識別與定位,為精準農業管理提供技術支撐。”

3. PFAE與yolo結合???????

? ? ? ? 將PFAE與YOLO結合時,可借助PFAE的頻域注意力與多尺度特征提取能力,增強YOLO對偽裝目標的全局語義理解,抑制復雜背景干擾;其輕量化結構適配YOLO的實時檢測框架,在工業缺陷、遙感目標等場景中,能提升YOLO對邊界模糊、尺度多變偽裝目標的檢測精度與魯棒性,同時保持高效推理速度。

4. PFAE代碼部分

PFAE(金字塔頻率注意力提取模塊)抑制復雜背景干擾,提升小目標、邊界模糊目標的檢測精度_嗶哩嗶哩_bilibili

YOLO12模型改進方法,快速發論文,總有適合你的改進,還不改進上車_嗶哩嗶哩_bilibili

?代碼獲取:YOLOv8_improve/YOLOV12.md at master · tgf123/YOLOv8_improve · GitHub

5. PFAE引入到YOLOv12中

第一: 先新建一個v12_changemodel,將下面的核心代碼復制到下面這個路徑當中,如下圖如所示。E:\Part_time_job_orders\YOLO_NEW\YOLOv12\ultralytics\v12_changemodel。

? ? ?????????????????????????

第二:在task.py中導入

?????????????????????????????

第三:在task.py中的模型配置部分下面代碼

???????????????????????????????????????????

第四:將模型配置文件復制到YOLOV12.YAMY文件中

???????????????????????????????

? ???????????????????????????????????????????????第五:運行代碼


from ultralytics.models import NAS, RTDETR, SAM, YOLO, FastSAM, YOLOWorldif __name__=="__main__":# 使用自己的YOLOv12.yamy文件搭建模型并加載預訓練權重訓練模型model = YOLO("/home/shengtuo/tangfan/YOLO12/ultralytics/cfg/models/12/yolo12_PFAE.yaml")# .load(r'E:\Part_time_job_orders\YOLO_NEW\YOLOv12\yolo12n.pt')  # build from YAML and transfer weightsresults = model.train(data="/home/shengtuo/tangfan/YOLO12/ultralytics/cfg/datasets/fire_smoke.yaml",epochs=300,imgsz=640,batch=4,# cache = False,# single_cls = False,  # 是否是單類別檢測# workers = 0,# resume=r'D:/model/yolov8/runs/detect/train/weights/last.pt',amp = True)

?上面是原模型,下面是改進模型

??

?????????????????????????

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/87852.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/87852.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/87852.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

AE插件安裝方法

Adobe After Effects簡稱AE,是adobe公司開發的一個視頻剪輯及設計軟件,AE軟件能夠實現對素材的非線性編輯而完成畫面的組接,同時還能對任何一部分進行修改,達到想要的結果。AE含有很多腳本、常用的表達式和插件,做動畫…

舵輪時鐘-STM32-28路PWM--ESP8266-NTP時間

1.STM32--PWM生成STM32不具備如此多的PWM,因此采用軟件定時器的方案實現:使用hal庫實現;main.c#include "main.h"#define close1 500#define open 1500#define close 2500// 定時器中斷配置(以TIM2為例) voi…

Redis的單線程和多線程(單Worker線程)

Redis的單線程和多線程 Redis6.0之前是單線程的,6.0之后是多線程的,我們先了解6.0版本之前的單線程Redis。但其實無論6.0之前還是6.0之后,redis用于工作的線程也只有一個,所以也可以說redis一直是單線程的。 Redis單線程 Redis 6.…

OSPFv3基礎

文章目錄 OSPFv3基礎OSPFv3的改進OSPFv2 v3相同OSPFv2 v3不同 🏡作者主頁:點擊! 🤖Datacom專欄:點擊! ??創作時間:2025年07月07日22點31分 OSPFv3基礎 OSPFv3協議號依然為89,在I…

前端篇——HTML知識點體系

目錄 一、基礎結構與文本 1. 文檔基礎 2. 文本元素 二、多媒體元素 1. 圖像 2. 音頻 3. 視頻 三、列表系統 1. 無序列表 2. 有序列表 3. 定義列表 四、表格系統 1. 表格結構 2. 合并單元格 五、表單系統 1. 輸入控件 2. 表單元素 3. 高級表單特性 六、布局系…

產品需求管理文檔中,需求模塊是怎么界定的

產品需求文檔中,需求模塊的界定方式主要包括:1、基于業務流程的功能劃分、2、按用戶角色使用場景分類、3、根據系統架構與技術邊界拆解、4、對數據實體和功能點進行組合聚類、5、結合未來演進節奏設置獨立迭代單元。 其中,“基于業務流程的功…

國內免代理免費使用Gemini大模型實戰

文章目錄 一、免費申請Gemini API密鑰二、使用openai-gemini1、在github上找到openai-gemini2、將openai-gemini部署到Netlify3、在Cherry Studio中配置和使用gemini的模型1)在Cherry Studio中配置gemini API2)在Cherry Studio中使用gemini 的模型 4、在…

day46-tomcat-java業務部署

1. ?選型1.1. 🎯中間件java web中間件說明tomcat組件,功能多jetty精簡,功能少一些......weblogic使用oracle數據庫配合weblogic(商業)國產:東方通(TongWEB)1.2. 📌jdkjdk選型說明jdk(oracle jdk)商業版,jd…

[netty5: HttpServerCodec HttpClientCodec]-源碼分析

在閱讀該篇文章之前,推薦先閱讀以下內容: [netty5: ChannelHandler & ChannelHandlerAdapter]-源碼解析[netty5: HttpObjectEncoder & HttpObjectDecoder]-源碼解析 HttpServerCodec HttpServerCodec 是一個 Netty 編解碼器,結合 …

華為OD機試 2025B卷 - 數組組成的最小數字(C++PythonJAVAJSC語言)

2025B卷目錄點擊查看: 華為OD機試2025B卷真題題庫目錄|機考題庫 + 算法考點詳解 2025B卷 100分題型 最新華為OD機試 真題目錄:點擊查看目錄 華為OD面試真題精選:點擊立即查看 2025華為od 機試2025B卷-華為機考OD2025年B卷 題目描述 給定一個整型數組,請從該數組中選…

Ubuntu下Tomcat的配置

進入Tomcat的conf目錄下 1 備份配置文件 cp server.xml server.xml.2下載server.xml&#xff0c;用notepad文本編輯器打開 2 修改Tomcat的端口號 找到如下內容<Connector port"8080" protocol"HTTP/1.1"connectionTimeout"20000"redirectPort…

Docker部Ollama安裝、本地大模型配置與One-API接入

Docker 安裝 Ollama Ollama 支持 Docker 安裝,極大簡化了部署流程。以下是具體步驟: 創建ollama文件夾 創建 docker-compose.yaml 文件新建一個 docker-compose.yaml 文件,內容如下: 編輯文件 …

ABB焊接機器人智能節氣儀

在現代焊接工業中&#xff0c;ABB焊接機器人憑借其高精度、高效率等優勢被廣泛應用。而在焊接過程中&#xff0c;節氣是一個重要的考量因素&#xff0c;這就凸顯出ABB焊接機器人智能節氣儀的重要性。ABB焊接機器人節氣是提高焊接生產效益的關鍵環節。傳統的焊接過程中&#xff…

攝影后期:使用Photoshop進行暗角控制

方法一&#xff1a;ctrlshiftR調出鏡頭校正工具&#xff0c;調整暈影 方法二&#xff1a;

pyhton基礎【24】面向對象進階五

目錄 十五.多繼承的繼承順序 - mro 調用父類方式不同導致結果不同 單繼承中的super 簡單總結 面試題 十六.魔術方法 魔術方法概述 魔術方法概覽 __getattribute__屬性 __getattribute__注意事項 常用的魔術方法 __doc__ __module__和__class__ __init__ __del__…

如何保障MySQL客戶端連接數據庫安全更安全

公司員工或外協人員&#xff0c;直接使用業務賬號或高權限賬號連接MySQL服務器&#xff0c;如同讓數據在連接時減少風險——賬號密碼易泄露、操作行為難追溯、安全風險陡增&#xff01;尤其是在客戶端連接環節&#xff0c;如何確保每一個接入點都安全可控&#xff0c;每一次操作…

機器學習入門:線性回歸詳解及Scikit-learn API使用指南

一、線性回歸概述線性回歸是統計學和機器學習領域中最基礎、最廣泛應用的預測建模技術之一。自19世紀初由弗朗西斯高爾頓(Francis Galton)首次提出以來&#xff0c;線性回歸已成為數據分析的核心工具&#xff0c;在經濟學、社會科學、生物統計學、工程學等眾多領域發揮著重要作…

高斯牛頓法求解三維變換矩陣的數學推導

目錄一、問題定義二、李代數基礎三、雅可比矩陣推導四、高斯牛頓迭代1. 整體雅可比矩陣2. 正規方程構建3. 參數更新4. 李代數更新五、理論優勢分析一、問題定義 給定兩組三維點云&#xff1a;源點云 P{pi∈R3}i1NP \{p_i \in \mathbb{R}^3\}_{i1}^NP{pi?∈R3}i1N?&#xff0…

JAVA 商城系統為什么受歡迎?ZKmall開源商城靈活定制 + 插件接入適配市場

在電商系統開發這塊&#xff0c;技術選得好不好&#xff0c;直接關系到平臺穩不穩定、能不能擴展、適配能力強不強。JAVA 語言因為 “跨平臺性突出、安全性高、可擴展性好” 這些特點&#xff0c;成了企業級電商系統的首選技術。而 ZKmall 商城基于 JAVA 開發的商城系統&#x…

【數據結構之哈夫曼樹與編碼實現】

文章目錄 前言一、哈夫曼樹與哈夫曼編碼簡介1. 什么是哈夫曼樹&#xff1f;2. 為什么需要哈夫曼編碼&#xff1f; 二、哈夫曼編碼原理三、哈夫曼樹的構建步驟詳解1. 統計字符頻率2. 定義哈夫曼樹節點3. 最小堆&#xff08;優先隊列&#xff09;的構造4. 合并節點&#xff0c;構…