🔥?在 YOLO 系列一路狂飆之后,YOLOv12 帶來了令人耳目一新的范式轉變——它不再以 CNN 為絕對核心,而是首次 圍繞注意力機制構建 YOLO 框架,在保證實時性的前提下,將檢測精度再次推向新高度!
為了進一步探索其性能潛力,我在 YOLOv12 的基礎上進行了系統性改進與重構,涉及特征提取、注意力機制、特征融合、結構連接、檢測頭設計等多個維度,總計超過一百多種優化點。本專欄將對這些模塊進行逐一拆解與分享。
🎯 現實目標檢測場景中仍面臨的關鍵挑戰
盡管當前目標檢測算法已趨于成熟,但在下列典型場景中,檢測器性能仍表現出顯著不足:
1. 多尺度目標混合
現實世界中的目標尺寸跨度極大,小至遠處行人、交通標志,大至近距離車輛、機械設備。現有模型在跨尺度泛化能力上仍有缺陷,大目標易截斷,小目標常漏檢,多尺度響應能力成為核心瓶頸。
列如遙感影像與農業監測任務中,目標尺寸跨度更為夸張:衛星圖中一個房屋與一輛車的像素差距巨大,農田病蟲害檢測中蟲體往往只占圖像極小區域,對小目標表達能力提出了極高要求。
2. 遮擋與密集目標
在行人密集、交通擁堵、農作物交錯種植、林區穿插目標等高遮擋場景中,目標間強遮擋帶來極大檢測難度,現有模型在遮擋下常出現 誤檢、錯分或重疊識別失敗,缺乏有效的上下文建模與空間解耦策略。
3. 小目標識別困難
在高空監控、遙感影像、夜間拍攝、醫療成像等任務中,小目標尺寸可能僅占圖像極小區域,現有模型存在特征表達不足、語義信息缺失問題。尤其在輕量化部署下,小目標召回率大幅下降,成為實際落地的一大痛點。
4. 背景干擾與相似性誤判
復雜背景(如森林、城市、農田、沙地)中,背景紋理復雜、偽目標干擾頻發。模型常對高頻背景或外觀相似區域產生誤判,說明當前特征表達能力對目標邊界和上下文解耦仍不充分。
列如農業視覺任務中尤為明顯,如病斑檢測中健康葉片與病斑顏色相近,果實檢測中果蔬與背景土壤同色,極易造成誤判。
5. 圖像模糊與運動失焦
夜間低光、低質量攝像頭、無人機動態拍攝等條件下,模糊圖像會導致目標邊界模糊、形狀不清,模型對這類圖像魯棒性差,容易漏檢或產生分類錯誤。
代碼獲取
https://github.com/tgf123/YOLOv8_improve/blob/master/YOLOV12.md
YOLOv8_improve/YOLOV12.md at master · tgf123/YOLOv8_improve
改進模塊分類導航(持續更新)
1?? Backbone結構優化
-
使用自適應稀疏自注意力ASSA修改Backbone部分,減少噪聲,增強Backbone遮擋、小目標特征
-
在Backbone中添加卷積和注意力融合模塊CAFM?利用注意力機制提取小目標和遮擋特征
-
在Backbone中添加級聯組注意力機制CGA,解決Bacbone(cnn)特征丟失的問題
-
在Backbone中添加CMRF,利用其級聯策略挖掘特征信息并融合不同感受野的信息,提高多尺度檢測能力。
-
在Backbone中添加可變形交互注意力模塊DIA-Module,提取全局上下文語義信息,增強上下文的聯系。
-
在Backbone中添加深度啟動和通道注意力模塊DICAM,提高朦朧水下低圖像的質量、對比度和色偏的目標。
-
在Backbone中添加雙域條帶注意力機制DSAM?,提取空間和頻率域的高效特征聚合特征,提高小目標、多尺度、遮擋、噪聲中的檢測精度。
-
在Backbone中添加FFCM 應運而生,旨在通過融合頻域特征,實現高效的全局建模,提高在噪聲較多的背景中提高檢測精度,同時增強邊緣/紋理特征。
-
在backbone中使用傅里葉變換+Transformer模塊FSAS模塊,提取待檢測物體的邊緣,紋理特征(邊緣模糊、或者需要邊緣特征的部分)。
-
在backbone中添加HaloAttention注意力機制,增強多尺度特征,提取多尺度特征。
-
在Backbone中添加HSMSSD,過將通道混合操作從輸入特征空間轉移到壓縮的隱狀態空間,保持輕量化的同時,融合高低層特征,提升模型表示能力。
-
在backbone部分插入HTB,提取解決惡劣天氣中待檢測目標的特征。
-
在backbone部分插入多分支卷積IDC,提取多尺度特征。
-
在backbone部分插入曼哈頓自注意力機制Manhattan_SelfAttention,構建一種具有明確空間先驗且能有效處理全局信息的通用視覺骨干網絡,提取遮擋、小目標特征。
-
在backbone部分插入多維協作注意力MCAM,從通道、高度、寬度三個維度的協同建模,動態捕捉關鍵特征。
-
在backbone部分插入頻率多尺度注意力MFMSAttentionBlock,從多尺度和多頻率信息方面提取特征,提高多尺度、小目標。
-
添加混合結構模塊MixStructure,融合多尺度特征與混合注意力機制,實現全局去噪與局部細節恢復的平衡,提高小目標檢測能力,增強細節特征。
-
在backbone部分插入多尺度大核注意力MLKA,通過結合大核分解與多尺度學習提取多尺度特征。
-
利用MSAA對backbone的特征進行細化處理。通過空間和通道兩個路徑的操作,增強了空間和通道方面的特征信息,提取多尺度特征。
-
在nebackbonek部分插入量化脈沖驅動的自注意力機制MSAR,提高對小目標、遮擋的關注。
-
在backbone引入多尺度卷積注意力模塊MSCAM,通過?CAB、SAB 和 MSCB?三個子模塊協同工作,提取多尺度特征,增強對遮擋目標的關注。
-
在backbone部分插入多尺度前饋網絡MSFN,增強backbone的多尺度特征提取能力。
-
引入非局部注意力機制Non_Local,通過在全局范圍內捕捉特征圖中所有位置的相互關系,提升模型性能,增強小目標、遮擋檢測/
-
引入自集成注意力機制SEAM,通過多視角特征融合和一致性正則化來增強模型的魯棒性和泛化能力,特別適用于處理遮擋問題和多尺度特征融合問題
-
在backbone部分插入單頭自注意力SHSA,結合全局上下文信息,提高對遮擋、小目標關注。
-
在backbone部分插入稀疏自注意力機制Sparse_Self_Attention,解決YOLO11因自注意力機制Backbone過分關注語義信息的問題。
-
在Backbone部分插入混洗注意力模塊SSAttention,旨在更好地聚合不同掃描方向得到的序列,充分利用互補信息,增強全局特征。
-
在Backbone部分插入令牌統計自注意力TSSA,通過對令牌特征二階矩統計分析,精準聚焦目標區域,提高提高多尺度 遮擋。
2?? Backbone替換
-
引入MobileNetV4替換backbone,平衡精度與效率
-
引入Swin Transformer替換backbone,利用自注意力機制獲取上下文信息
-
引入ShuffleNet v1替換backbone,實現輕量化
-
引入ShuffleNet v2替換backbone,實現輕量化
-
引入OverLoCK替換YOLO backbone 融合自上而下注意力機制,實現高效的長程依賴建模與局部細節捕捉,同時平衡計算復雜度與性能
-
引入TransXNet替換YOLO backbone 學習全局和局部動態信息,提高檢測精度
-
引入基于星運算(element-wise multiplication)的高效神經網絡模型StarNet替換backbone
-
使用MobileMamba替換YOLO backbone 提高檢測精度
3?? 特征融合改進 concat
-
引入跨尺度選擇性融合模塊CSFblock 解決不同分辨率特征融合的問題
-
引入動態特征融合DFF模塊,通過動態機制在融合過程中選擇重要特征,以解決上述現有技術在特征融合方面的不足。
-
EFC 模塊通過增強層間特征相關性來優化特征融合。解決卷積神經網絡特征提取時易出現特征消失問題,以及傳統特征金字塔網絡(FPN)的融合方法,如簡單拼接或相加操作,無法充分利用多尺度融合優勢,不同層特征相關性弱,融合后易產生冗余特征。
-
引入多尺度差異融合模塊MDFM,解決不同尺度特征融合時的差異問題。
-
引入調制融合模塊MFM 動態融合不同層的特征,增強檢測精度
4?? Neck部分改進
-
使用自適應稀疏自注意力ASSA修改Neck部分,減少噪聲,提高neck層對遮擋、小目標的感知能力
-
在Neck中添加可變形交互注意力模塊DIA-Module,增強模型對不同變化物體的關注能力。
-
將使用傅里葉變換+Transformer模塊FSAS插入到neck部分,增強neck部分的邊緣信息
-
在Neck中添加HaloAttention注意力機制,增強多尺度特征,能有效處理不同尺度對象,提升對多尺度目標的關注能力。
-
引入分層互補注意力混合器HRAMI,旨在彌補Neck層下采樣特征導致的像素級信息損失,同時利用語義級信息,保持高效的層次結構,提高檢測精度。
-
在neck部分插入HTB,利用動態范圍直方圖自注意力(DHSA)和雙尺度門控前饋網絡(DGFF)解決惡劣天氣中待檢測目標難的問題。
-
在neck部分插入曼哈頓自注意力機制Manhattan_SelfAttention提高對待檢測目標的關注。
-
在neck部分插入頻率多尺度注意力MFMSAttentionBlock,解決低分辨率特征圖上采樣到高分辨率時,容易導致信息損失問題。
-
在neck部分插入量化脈沖驅動的自注意力機制MSAR,提高對小目標、遮擋的關注。
-
neck部分插入單頭自注意力SHSA,提高對遮擋、小目標關注。
-
在neck部分插入稀疏自注意力機制Sparse_Self_Attention,平衡對語義和非語義特征的提取,提高在目標定位任務中的表現 。
-
在neck部分插入混洗注意力模塊SSAttention,旨在更好地聚合不同掃描方向得到的序列,充分利用互補信息,增強全局信息。
-
在neck部分插入令牌統計自注意力TSSA,通過對令牌特征二階矩統計分析,精準聚焦目標區域,提高檢測精度。
5?? C3K2模塊改進
-
使用AFE_Block修改C3K2模塊,提高復雜場景中的檢測精度
-
使用風車卷積APConv 修改C3K2模塊,提升紅外小目標的檢測能力(其他小目標也可以)
-
在C3K2模塊中添加卷積加法自注意力機制CASelf_Attention,使用全群信息緩解CNN帶來的細節特征丟失的問題。
-
在C3K2模塊中添加通道混合器 CGLU,利用門控機制提高復雜場景中的檢測精度(小目標、遮擋、多尺度)
-
使用CMUNeXt改進C3K2模塊,利用大核深度可分離卷積提取全局信息,同時保持輕量化,解決遮擋小目標問題。?
-
使用上下文引導模塊ContextGuided改進C3K2,利用并行空洞卷積,提取全局和局部特征,提前高小目標/多尺度檢測能力
-
利用卷積調制ConvMod改進C3K2,有著自注意力機制的能力,但比其更加輕量化,解決多尺度、小目標問題
-
使用通道壓縮的自注意力機制CRA改進C3K2,提取全局信息,解決CNN特征丟失的問題
-
DCT(離散余弦變換)是一種將圖像從像素域轉換到頻率域的數學方法,可分離出高頻(細節紋理)和低頻(整體結構)成分,提升待檢測目標的定位模型對微觀和宏觀信息的捕捉能力。
-
在C3K2模塊中添加DLKA_Attention模塊,利用其可變形的大核設計,自適應地捕捉不同形狀和尺寸的對象特征,適用于遮擋,形狀各異的目標
-
在C3K2模塊中添加雙域條帶注意力機制DSAM?,旨在通過空間和頻率域的高效特征聚合提高小目標、多尺度、遮擋、噪聲中的檢測精度。
-
在C3K2模塊引入輕量級深度神經網絡的卷積核Dual,結合了組卷積(GroupConv)和異構卷積(HetConv)的優勢降低參數量
-
在C3K2模塊引入EGA模塊是 LEGNet 中用于處理低質量遙感圖像的核心模塊,有效解決遙感圖像中對比度低、邊緣不連續和光照變化導致的特征模糊問題
-
引入高效多尺度注意力EMA_attention,提高多尺度,小目標檢測能力。
-
focal_modulation_module 提高多尺度小目標檢測能力
-
在C3K2模塊中引入特征細化模塊FRFN,逐層細化特征,增強了網絡對局部和全局信息的捕捉能力。這種方法特別適用于需要多尺度特征、小目標、遮擋等任務。
-
引入門控瓶頸卷積GBC 關注目標抑制背景干擾,增強模型對裂縫形態信息的建模能力。
-
在C3K2模塊中引入多分支卷積IDC,提取多尺度特征。
-
在C3K2模塊中引入核選擇融合注意力KSFA 增大感受野,提高多尺度 小目標檢測能力
-
在C3K2模塊引入局部特征嵌入全局特征提取模塊LEGM 融合全局與局部特征解決多尺度、去噪、遮擋的問題
-
在C3K2模塊引入LIA,利用局部重要性的注意力機制,抑制噪聲,提高遮擋、小目標檢測。
-
在C3K2模塊中引入LLSKM(可學習局部顯著核模塊),借鑒 “中心減鄰域” 原理,將傳統顯著核分解為可學習的卷積核與注意力增強的普通卷積,通過通道注意力機制動態調整參數,引導網絡捕捉紅外小目標的點、邊緣等顯著特征,提升檢測敏感性與多尺度適應性。
-
在C3K2模塊引入LSKA,利用分離卷積核實現輕量化,同時結合局部和全局信息,提高小目標、遮擋檢測
-
在C3K2模塊引入局部通道注意力機制MLCA,結合局部和全局特征的能力,有效增強了模型對重要信息的關注。
-
在C3K2模塊引入多尺度大核注意力MLKA,通過結合大核分解與多尺度學習提升多尺度目標檢測能力。
-
在C3K2模塊引入MSBlock,提升多尺度,小目標。
-
在C3K2模塊中引入多尺度前饋網絡MSFN,從多個尺度特征中充分挖掘和利用圖像中的多尺度特征,提高多尺度檢測能力。
-
引入多尺度小波池化變壓器MWPT 通過結合小波變換、多尺度池化以及門控機制等技術解決多尺度、小目標、邊緣模糊等問題
-
引入前景注意力Outlook_atention,它能高效地將更細粒度的特征和上下文編碼為 token,提升模型對小目標、遮擋的檢測性能
-
引入基于部分卷積的前饋網絡PCFN,通過部分卷積和跨通道交互的方式來加強特征表達
-
引入并行化補丁感知注意力模塊PPA 提升小目標檢測,解決紅外小目標檢測下采樣信息丟失問題的模塊
-
引入矩形自校準模塊RCM,通過矩形自校準注意力機制和形狀自校準捕捉全局上下文信息,并結合局部細節融合,提升模型對前景物體的建模能力和邊界識別精度。
-
在C3K2模塊中引入Restormer,從不同子空間捕捉特征間關系,計算注意力權重衡量元素重要性以聚合信息,捕捉長距離依賴關系;通過位置編碼為模型提供元素位置信息,輔助檢測小目標、遮擋。
-
在C3K2模塊中引入SConv,通過空間重構單元(SRU)和通道重構單元(CRU)減少卷積神經網絡中的空間和通道冗余,增強對這正以及小目標的檢測能力
-
在C3K2模塊中引入Shift_channel_mix,緩解信息損失和梯度錯誤問題
-
引入簡單無參數注意力模塊SimAM 提升小目標和遮擋檢測
-
引入自調制特征聚合模塊SMFA,捕獲非局部信息和局部細節,協同建模圖像的全局結構與局部細節。
-
在C3K2模塊中引入空間帶狀注意力機制SSA,增強模型對空間信息處理能力。
-
添加StarNet星形卷積StarsBlock,通過星操作(element-wise multiplication)實現高維非線性特征映射。
-
引入空間池化模塊StripPooling,通過條帶池化在水平和垂直方向上捕捉長距離依賴關系,增強全局和局部特征表達。解決遮擋、小目標
-
在C3K2模塊中引入前 k 稀疏注意力TKSA 動態選擇重要區域,關注遮擋小目標區域,減少噪聲的影響
-
在C3K2模塊中引入小波卷積WaveletConv增加頻域信息,有效解決模糊問題以及對邊緣和細節高頻成分的關注。
-
引入了小波卷積模塊WTConv?,旨在擴大卷積的感受野并有效捕捉圖像中的低頻信息。其對多尺度問題和小目標問題上有很好的效果。
6?? A2C2f模塊改進
-
使用自適應稀疏自注意力ASSA替換A2C2F中的自注意力機制,減少噪聲,提高對遮擋、小目標的檢測能力
-
在A2C2F模塊中添加卷積和注意力融合模塊CAFM,提升小目標和遮擋檢測
-
在A2C2F模塊中添加卷積加法自注意力機制CASelf_Attention,使用全群信息緩解CNN帶來的細節特征丟失的問題。
-
在A2C2F模塊中添加通道混合器 CGLU,利用門控機制提高復雜場景中的檢測精度
-
利用卷積調制ConvMod改進A2C2F,有著自注意力機制的能力,但比其更加輕量化,解決多尺度、小目標問題
-
使用通道壓縮的自注意力機制CRA替換A2C2F中的自注意力機制,利用其查詢和鍵的通道維度縮減為一維的能力,降低了自注意力的計算成本,實現輕量化。
-
在A2C2F模塊中添加可變形交互注意力模塊DIA-Module替換原有的注意力,增強空間信息表示,使 YOLOv11在復雜場景下對可變形目標的定位更精準。
-
在A2C2F模塊中添加DLKA_Attention模塊,利用其可變形的大核設計,自適應地捕捉不同形狀和尺寸的對象特征,適用于遮擋,形狀各異的目標
-
在A2C2F模塊中引入特征細化模塊FRFN,逐層細化特征,增強了網絡對局部和全局信息的捕捉能力。這種方法特別適用于需要多尺度特征、小目標、遮擋等任務。
-
使用傅里葉變換+Transformer模塊FSAS替換原有的自注意力機制,引入頻域特征,增強邊緣信息,解決圖像模糊問題等。
-
使用HaloAttention換原有的自注意力機制,通過 Haloing 策略和分塊操作減少計算量與內存占用,同時構建多尺度特征層次,能有效處理不同尺度對象,提升了模型對復雜視覺任務的適應性和準確性。
-
使用HTB替換A2C2F原有的自注意力機制,利用動態范圍直方圖自注意力(DHSA)和雙尺度門控前饋網絡(DGFF)解決惡劣天氣中待檢測目標難的問題。
-
在A2C2F模塊中引入多分支卷積IDC,提取多尺度特征。
-
在A2C2F模塊中引入核選擇融合注意力KSFA 增大感受野,提高多尺度 小目標檢測能力
-
在A2C2F模塊中引入LLSKM(可學習局部顯著核模塊),借鑒 “中心減鄰域” 原理,將傳統顯著核分解為可學習的卷積核與注意力增強的普通卷積,通過通道注意力機制動態調整參數,引導網絡捕捉紅外小目標的點、邊緣等顯著特征,提升檢測敏感性與多尺度適應性。
-
在A2C2F模塊引入LSKA,利用分離卷積核實現輕量化,同時結合局部和全局信息,提高小目標、遮擋檢測。
-
使用曼哈頓自注意力機制Manhattan_SelfAttention替換A2C2F模塊自注意力機制,解決窗口操作對用于自注意力的令牌進行分區,從而降低計算成本
-
使用多維協作注意力MCAM替換A2C2F模塊自注意力機制,通過輕量化設計實現通道、高度、寬度三個維度的協同建模,抗背景干擾,增強多尺度、小目標。
-
使用頻率多尺度注意力MFMSAttentionBlock替換A2C2F模塊自注意力機制,使用頻域和多尺度相結合的方法增強YOLOv11模型的小目標和多尺度特征提取。
-
在A2C2F模塊引入合局部通道注意力機制MLCA,結合局部和全局特征的能力,有效增強了模型對重要信息的關注。
-
使用量化脈沖驅動的自注意力機制???????MSAR改進A2C2F模塊,現輕量化自注意力機制,通過低比特量化權重和二進制脈沖信號顯著降低模型參數量與計算能耗,平衡檢測效率與精度。
-
使用多尺度前饋網絡MSFN改進A2C2F模塊,從多個尺度特征中充分挖掘和利用圖像中的多尺度特征,提高多尺度檢測能力。
-
使用單頭自注意力SHSA替換A2C2F模塊自注意力機制,輸入通道的一部分上應用單頭注意力來減少計算冗余,同時保留全局和局部信息的結合,從而提高了效率和準確性。
-
引入自調制特征聚合模塊SMFA,捕獲非局部信息和局部細節,協同建模圖像的全局結構與局部細節。
-
使用稀疏自注意力機制Sparse_Self_Attention替換A2C2F模塊自注意力機制,模型能夠抑制對語義信息的關注,將更多的注意力放在提取非語義特征上。同時,由于只在張量塊內計算,減少了大量不必要的計算,降低了模型的計算量,提高了運行效率。
-
使用混洗注意力模塊SSAttention替換A2C2F模塊自注意力機制,旨在更好地聚合不同掃描方向得到的序列,充分利用互補信息。
-
使用令牌統計自注意力TSSA替換A2C2F模塊自注意力機制,通過高效注意力算子解決傳統自注意力機制計算和內存復雜度隨輸入 token 數量呈二次方增長的問題,實現輕量化。
7?? UpSample 改進
-
引入跨尺度選擇性融合模塊CSFblock 解決不同分辨率特征融合的問題
-
DySample是一種輕量高效的動態上采樣方法,通過動態采樣的方式實現上采樣。解決傳統的最近鄰插值和雙線性插值的上采樣方法。
-
考慮到YOLO目標檢測的neck對特征特征層上采用的時候的時候,會產生特征的丟失,同時增強模型的多尺度特征,本文將SAFM模塊替換neck層的upsample()。
7?? Conv改進
-
在處理復雜圖像時,單一的頻域信息可能不足以捕獲所有重要細節。為了解決這個問題,我們可以結合小波變換(DWT)和卷積操作的Down_wt。
-
入輕量級深度神經網絡的卷積核Dual,結合了組卷積(GroupConv)和異構卷積(HetConv)的優勢降低參數量
-
引入dynamic_tanh優化模型提高精度
-
MDFF旨在減少上下文特征的損失,融合多分支上下文關系,增強網絡提取特征區域的能力
-
引入RepBN增強卷積過程中的歸一化問題
-
引入殘差哈爾離散小波變換RHDWT 降噪、減少特征丟失,增強小目標和遮擋的檢測能力