目標檢測之YOLOv5到YOLOv11——從架構設計和損失函數的變化分析

YOLO（You Only Look Once）系列作為實時目標檢測領域的標桿性框架，自2016年YOLOv1問世以來，已歷經十余年迭代。本文將聚焦YOLOv5（2020年發布）到YOLOv11（2024年前后）的核心技術演進，從架構設計、損失函數展開深度對比分析，揭示其如何通過技術創新突破實時檢測的性能邊界。

一、架構設計：從固定尺度到動態特征融合的范式升級

1.1 YOLOv5的經典架構：CSPDarknet+FPN+PAN

YOLOv5的核心架構由三部分組成：

Backbone（骨干網絡）：基于CSPNet（Cross Stage Partial Network）設計的CSPDarknet，通過跨階段局部連接減少計算量，同時保持特征表達能力；
Neck（特征融合）：采用FPN（Feature Pyramid Network）+ PAN（Path Aggregation Network）的雙金字塔結構，分別實現自頂向下（語義增強）和自底向上（位置增強）的特征融合；
Head（檢測頭）：多尺度檢測頭（通常3個尺度），分別負責小、中、大目標的檢測。

其局限性在于：

特征融合依賴固定的金字塔層級，對極端尺度（如超小目標或超大目標）的適應性不足；
骨干網絡的卷積操作對旋轉目標（如傾斜的車輛、航空影像中的艦船）的幾何特征捕捉能力有限。

yolov5s網絡結構圖

1.2 YOLOv11的架構突破

YOLOv11針對復雜場景需求，對架構進行了優化改動：

在這里插入圖片描述

1.2.1 Backbone：從CSPDarknet到C3K2的結構優化

核心改進：C3K2模塊替代C3

參考上圖，相比于yolov5，V11使用C3K2模塊替代C3，而C3K2又是在C2F模塊上進行改進的。
在這里插入圖片描述

（1）C3K2模塊的結構邏輯

C3K2是C2F模塊的動態變體，其核心設計如下：

基礎結構：包含兩個1×1卷積層（cv1和cv2）用于通道調整，中間串聯n個Bottleneck塊；
動態配置：通過參數c3k控制Bottleneck類型：
- 當c3k=False時，使用普通Bottleneck（3×3卷積+殘差連接）；
- 當c3k=True時，替換為C3模塊（3×3卷積+分組卷積+殘差連接），增強特征提取的多樣性；
優勢：通過動態選擇Bottleneck類型，平衡計算效率與特征表達能力，相比YOLOv8的CF2模塊，參數量減少15%，推理速度提升10%（COCO數據集測試）。

1.2.2 Neck：SPPF+C2PSA的注意力增強

關鍵改進：C2PSA模塊的引入

原描述中“CFC+SFC模塊”的表述不準確。實際YOLOv11的Neck在SPPF（Spatial Pyramid Pooling - Fast）后新增了C2PSA模塊（C2f with Pointwise Spatial Attention）。

C2PSA的結構解析

C2PSA是C2f模塊的擴展，核心改進是集成了PSA（Pointwise Spatial Attention）機制：

C2f模塊基礎：包含兩個1×1卷積層（cv1和cv2），中間串聯多個Bottleneck塊，用于特征融合；
PSA注意力增強：在Bottleneck塊后添加空間注意力分支，通過以下步驟生成注意力權重：
1. 對輸入特征圖進行全局平均池化，得到通道級統計信息；
2. 通過MLP（多層感知機）生成每個空間位置的注意力權重；
3. 將權重與原始特征逐元素相乘，增強目標區域的特征響應；
優勢：相比傳統C2f模塊，C2PSA對小目標邊緣的特征捕捉能力提升20%（DOTA小目標子集測試）。

1.2.3 Head：深度可分離卷積的輕量化設計

核心改進：分類分支的深度可分離卷積

原描述中“多模態檢測頭”的表述需補充具體實現細節。YOLOv11的Head在分類分支（cls）引入了深度可分離卷積（Depthwise Separable Convolution），具體設計如下：
在這里插入圖片描述

（1）Head的分支結構

YOLOv11的Head分類檢測頭增加了兩個DWConv,可以查看上面的Head結構圖

（2）深度可分離卷積的優勢

深度可分離卷積將傳統3×3卷積拆分為深度卷積（Depthwise Conv）和逐點卷積（Pointwise Conv），計算量僅為傳統卷積的1/9（假設輸入/輸出通道數均為C）。在分類分支中應用后，YOLOv11的Head參數量減少30%，同時保持分類精度（COCO數據集mAP僅下降0.5%）。

二、損失函數：YOLOv5與YOLOv11損失函數設計對比分析

目標檢測的核心任務可拆解為定位（Bounding Box Regression）、分類（Classification）及置信度預測（Objectness）三大模塊，損失函數的設計直接影響模型在不同場景下的性能表現。YOLOv5與YOLOv11在損失函數層面的迭代，集中體現在對小目標、密集場景及類別不平衡問題的針對性優化上。以下從三大核心損失展開詳細對比：

2.1定位損失（Bounding Box Regression Loss）

定位損失的核心目標是最小化預測框與真實框的幾何差異，提升目標位置回歸精度。

YOLOv5：CIoU Loss（默認配置）

YOLOv5采用CIoU（Complete IoU）Loss作為定位損失，其公式定義為：
$L_{\text{CIoU}} = 1 - \text{IoU} + \frac{\rho^2(b, b^{\text{gt}})}{c^2} + \alpha v$

$\text{IoU}$ ：預測框與真實框的交并比，衡量重疊程度；
$\rho^2(b, b^{\text{gt}})$ ：預測框與真實框中心點的歐氏距離平方，約束位置偏差；
$c$ ：兩框最小外接矩形的對角線長度，用于歸一化距離項；
$\alpha$ ：權重系數（ $\alpha = \frac{v}{1 - \text{IoU} + v}$ ），平衡縱橫比損失；
$v$ ：縱橫比一致性度量（ $\frac{4}{\pi^2} \left( \arctan \frac{w^{\text{gt}}}{h^{\text{gt}}} - \arctan \frac{w}{h} \right)^2$ ），約束寬高比例。

分析：CIoU在IoU基礎上增加了中心點距離和縱橫比約束，顯著提升了回歸精度。但縱橫比損失（ $v$ ）的計算依賴反正切函數，在長寬比差異較大時（如細長目標）可能導致梯度不穩定，影響訓練收斂速度。

YOLOv11：NWD Loss（可選增強配置）

YOLOv11引入NWD（Normalized Wasserstein Distance）Loss作為定位損失的可選方案，其公式為：
$L_{\text{NWD}} = 1 - \exp\left( -\frac{\sqrt{d_c^2 + d_{\text{wh}}^2}}{C} \right)$

$d_c$ ：預測框與真實框中心點的歐氏距離；
$d_{\text{wh}}$ ：寬高差異度量（ $d_{\text{wh}} = \frac{(w - w^{\text{gt}})^2 + (h - h^{\text{gt}})^2}{4}$ ）；
$C$ ：歸一化常數（經驗值，如12.8）。

分析：NWD將邊界框建模為二維高斯分布，通過Wasserstein距離衡量分布相似性，具有以下優勢：

小目標與密集場景友好：即使預測框與真實框不重疊（IoU=0），NWD仍能提供有效梯度，避免訓練中斷；
尺度魯棒性：對目標尺度變化不敏感，適合多尺度檢測任務；
幾何約束更平滑：指數函數的引入使梯度變化更平緩，提升訓練穩定性。

2.2分類損失（Classification Loss）

分類損失的核心是優化模型對目標類別的判別能力，需重點解決類別不平衡（如小目標樣本少）和困難樣本（如模糊目標）的優化問題。

YOLOv5：Focal Loss

YOLOv5采用Focal Loss緩解類別不平衡問題，公式為：
$L_{\text{cls}} = -\alpha_t (1 - p_t)^\gamma \log(p_t)$

$\alpha_t$ ：類別權重（ $\alpha_t = \alpha$ 當正樣本， $\alpha_t = 1 - \alpha$ 當負樣本），平衡正負樣本數量；
$\gamma$ ：調制因子（通常取2），抑制易分類樣本的損失貢獻；
$p_t$ ：預測概率（ $p_t = p$ 當真實類別為正， $p_t = 1 - p$ 當真實類別為負）。

分析：Focal Loss通過動態調整樣本權重，有效緩解了類別不平衡問題，但對小目標（樣本量少且特征弱）和困難樣本（如遮擋目標）的優化效果有限，易出現漏檢或誤分類。

YOLOv11：DFL（Distribution Focal Loss）+ Focal Loss

YOLOv11引入DFL（Distribution Focal Loss）與Focal Loss結合，公式為：
$L_{\text{DFL}} = -\sum_{k=0}^n \left( y_k \log(\sigma(x_k)) + (1 - y_k) \log(1 - \sigma(x_k)) \right)$

$x_k$ ：模型預測的類別分布（ $k$ 為類別索引）；
$y_k$ ：真實標簽的One-Hot編碼；
$\sigma$ ：Sigmoid激活函數。

分析：DFL直接優化類別分布而非單一概率值，通過學習類別間的分布關系（如“貓”與“狗”的特征差異），提升了小目標和困難樣本的分類精度。結合Focal Loss的動態權重調整，進一步緩解了類別不平衡問題。

2.3置信度損失（Objectness Loss）

置信度損失用于衡量模型對“目標存在性”的判斷準確性，需平衡正負樣本（背景與目標）的損失貢獻。

YOLOv5：Binary Cross-Entropy（BCE）Loss

YOLOv5使用BCE Loss計算置信度損失，公式為：
$L_{\text{obj}} = -\sum_i \left( y_i \log(p_i) + (1 - y_i) \log(1 - p_i) \right)$

$y_i$ ：真實置信度（1表示目標存在，0表示背景）；
$p_i$ ：模型預測的置信度（0-1概率值）。

分析：BCE Loss簡單高效，但對難負樣本（如與目標高度相似的背景區域）的抑制能力較弱，易導致模型對背景區域誤判為目標。

YOLOv11：Focal Loss變體

YOLOv11對置信度損失進行了改進，采用Focal Loss的變體：
$L_{\text{obj}}^{\text{改進}} = -\alpha_t (1 - p_t)^\gamma \left( y_i \log(p_i) + (1 - y_i) \log(1 - p_i) \right)$
分析：通過引入Focal Loss的調制因子（ $p_t)^\gamma$ ），動態降低易分類樣本（如高置信度背景或清晰目標）的損失權重，重點優化難負樣本（如模糊背景區域）和難正樣本（如小目標），提升模型對復雜場景的判別能力。

2.4 總結與對比

損失函數類型	YOLOv5	YOLOv11	關鍵改進點
定位損失	CIoU Loss	NWD Loss（可選）	對小目標/密集場景更友好，無重疊時仍提供有效梯度
分類損失	Focal Loss	DFL + Focal Loss	優化類別分布，提升小目標/困難樣本分類精度
置信度損失	二元交叉熵損失	Focal Loss變體	動態抑制易分類樣本，增強難負樣本優化能力