摘要
一階段檢測器通常將目標檢測形式化為密集的分類與定位(即邊界框回歸)問題。分類部分通常使用 Focal Loss 進行優化,而邊界框位置則在狄拉克δ分布下進行學習。最近,一階段檢測器的發展趨勢是引入獨立的預測分支來估計定位質量,所預測的質量可以輔助分類,從而提升檢測性能。
本文深入研究了這三個基本要素的表示方式:質量估計、分類和定位。我們發現現有方法存在兩個問題:
訓練與推理階段中,質量估計與分類的使用不一致(即,訓練時分開優化,測試時卻組合使用FCOS模型這樣做);
定位時采用的狄拉克δ分布不夠靈活,無法處理真實場景中常見的模糊性與不確定性。
為了解決上述問題,我們設計了新的表示方式:
將質量估計與分類信息合并到一個分類向量中,使其在訓練與推理中一致;
使用向量表示邊界框位置的任意分布,從而替代固定的狄拉克δ分布。
這種改進后的表示方式有效避免了訓練-測試之間的不一致性,同時能夠更準確地表達真實數據中的分布特征。然而,這些改進引入了連續標簽,這超出了原始 Focal Loss 的適用范圍。
因此,我們提出了一種推廣形式的 Focal Loss,稱為Generalized Focal Loss(GFL),將其從離散標簽拓展到連續形式以適應新的表示方式。在 COCO test-dev 上,我們的 GFL 使用 ResNet-101 骨干網絡取得了 45.0% 的 AP,超越了 SAPD(43.5%)與 ATSS(43.6%)等現有最先進方法,并且推理速度更快或相當。我們的最佳模型在單卡單尺度條件下可實現 48.2% 的 AP,并在單張 2080Ti GPU 上以 10 FPS 運行。
代碼與預訓練模型已發布于:https://github.com/implus/GFocal。
引言(部分)
近年來,密集檢測器逐漸成為目標檢測的發展趨勢,而對邊界框及其定位質量估計的表示方式的關注,推動了檢測性能的持續提升。當前主流方法將邊界框表示為簡單的狄拉克δ分布。例如在 FCOS 中,預測額外的定位質量(如 IoU 得分或 centerness 分數)并與分類置信度相乘作為最終評分,在 NMS 時用于排序,這一策略被廣泛采用并證明能提高準確率。
盡管上述方法取得了成功,但我們發現以下兩個關鍵問題:
訓練和推理階段的不一致性:
定位質量估計與分類得分在訓練中是獨立優化的,但在推理階段卻被組合使用(例如相乘);
當前