廣義焦點丟失：學習用于密集目標檢測的合格和分布式邊界盒之GFL論文閱讀

摘要

一階段檢測器通常將目標檢測形式化為密集的分類與定位（即邊界框回歸）問題。分類部分通常使用 Focal Loss 進行優化，而邊界框位置則在狄拉克δ分布下進行學習。最近，一階段檢測器的發展趨勢是引入獨立的預測分支來估計定位質量，所預測的質量可以輔助分類，從而提升檢測性能。

本文深入研究了這三個基本要素的表示方式：質量估計、分類和定位。我們發現現有方法存在兩個問題：

訓練與推理階段中，質量估計與分類的使用不一致（即，訓練時分開優化，測試時卻組合使用FCOS模型這樣做）；
定位時采用的狄拉克δ分布不夠靈活，無法處理真實場景中常見的模糊性與不確定性。
在這里插入圖片描述

為了解決上述問題，我們設計了新的表示方式：

將質量估計與分類信息合并到一個分類向量中，使其在訓練與推理中一致；
使用向量表示邊界框位置的任意分布，從而替代固定的狄拉克δ分布。

這種改進后的表示方式有效避免了訓練-測試之間的不一致性，同時能夠更準確地表達真實數據中的分布特征。然而，這些改進引入了連續標簽，這超出了原始 Focal Loss 的適用范圍。

因此，我們提出了一種推廣形式的 Focal Loss，稱為Generalized Focal Loss（GFL），將其從離散標簽拓展到連續形式以適應新的表示方式。在 COCO test-dev 上，我們的 GFL 使用 ResNet-101 骨干網絡取得了 45.0% 的 AP，超越了 SAPD（43.5%）與 ATSS（43.6%）等現有最先進方法，并且推理速度更快或相當。我們的最佳模型在單卡單尺度條件下可實現 48.2% 的 AP，并在單張 2080Ti GPU 上以 10 FPS 運行。
代碼與預訓練模型已發布于：https://github.com/implus/GFocal。

引言（部分）

近年來，密集檢測器逐漸成為目標檢測的發展趨勢，而對邊界框及其定位質量估計的表示方式的關注，推動了檢測性能的持續提升。當前主流方法將邊界框表示為簡單的狄拉克δ分布。例如在 FCOS 中，預測額外的定位質量（如 IoU 得分或 centerness 分數）并與分類置信度相乘作為最終評分，在 NMS 時用于排序，這一策略被廣泛采用并證明能提高準確率。

盡管上述方法取得了成功，但我們發現以下兩個關鍵問題：

訓練和推理階段的不一致性：
定位質量估計與分類得分在訓練中是獨立優化的，但在推理階段卻被組合使用（例如相乘）；
當前

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/85641.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/85641.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/85641.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！