廣義焦點丟失:學習用于密集目標檢測的合格和分布式邊界盒之GFL論文閱讀

摘要

一階段檢測器通常將目標檢測形式化為密集的分類與定位(即邊界框回歸)問題。分類部分通常使用 Focal Loss 進行優化,而邊界框位置則在狄拉克δ分布下進行學習。最近,一階段檢測器的發展趨勢是引入獨立的預測分支來估計定位質量,所預測的質量可以輔助分類,從而提升檢測性能。

本文深入研究了這三個基本要素的表示方式:質量估計、分類和定位。我們發現現有方法存在兩個問題:

訓練與推理階段中,質量估計與分類的使用不一致(即,訓練時分開優化,測試時卻組合使用FCOS模型這樣做);
定位時采用的狄拉克δ分布不夠靈活,無法處理真實場景中常見的模糊性與不確定性。
在這里插入圖片描述

為了解決上述問題,我們設計了新的表示方式:

將質量估計與分類信息合并到一個分類向量中,使其在訓練與推理中一致;
使用向量表示邊界框位置的任意分布,從而替代固定的狄拉克δ分布。

這種改進后的表示方式有效避免了訓練-測試之間的不一致性,同時能夠更準確地表達真實數據中的分布特征。然而,這些改進引入了連續標簽,這超出了原始 Focal Loss 的適用范圍。

因此,我們提出了一種推廣形式的 Focal Loss,稱為Generalized Focal Loss(GFL),將其從離散標簽拓展到連續形式以適應新的表示方式。在 COCO test-dev 上,我們的 GFL 使用 ResNet-101 骨干網絡取得了 45.0% 的 AP,超越了 SAPD(43.5%)與 ATSS(43.6%)等現有最先進方法,并且推理速度更快或相當。我們的最佳模型在單卡單尺度條件下可實現 48.2% 的 AP,并在單張 2080Ti GPU 上以 10 FPS 運行。
代碼與預訓練模型已發布于:https://github.com/implus/GFocal。

引言(部分)

近年來,密集檢測器逐漸成為目標檢測的發展趨勢,而對邊界框及其定位質量估計的表示方式的關注,推動了檢測性能的持續提升。當前主流方法將邊界框表示為簡單的狄拉克δ分布。例如在 FCOS 中,預測額外的定位質量(如 IoU 得分或 centerness 分數)并與分類置信度相乘作為最終評分,在 NMS 時用于排序,這一策略被廣泛采用并證明能提高準確率。

盡管上述方法取得了成功,但我們發現以下兩個關鍵問題:

訓練和推理階段的不一致性:
定位質量估計與分類得分在訓練中是獨立優化的,但在推理階段卻被組合使用(例如相乘);
當前

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/85641.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/85641.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/85641.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Real-World Deep Local Motion Deblurring論文閱讀

Real-World Deep Local Motion Deblurring 1. 研究目標與實際問題意義1.1 研究目標1.2 實際問題1.3 產業意義2. 創新方法:LBAG模型與關鍵技術2.1 整體架構設計2.2 關鍵技術細節2.2.1 真實模糊掩碼生成(LBFMG)2.2.2 門控塊(Gate Block)2.2.3 模糊感知補丁裁剪(BAPC)2.3 損…

【Docker基礎】Docker鏡像管理:docker commit詳解

目錄 引言 1 docker commit命令概述 1.1 什么是docker commit 1.2 使用場景 1.3 優缺點分析 2 docker commit命令詳解 2.1 基本語法 2.2 常用參數選項 2.3 實際命令示例 2.4 提交流程 2.5 步驟描述 3 docker commit與Dockerfile構建對比 3.1 構建流程對比 3.2 對…

可調式穩壓二極管

1.與普通穩壓二極管的比較: 項目普通穩壓二極管可調式穩壓二極管(如 TL431)輸出電壓固定(如5.1V、3.3V)可調(2.5V ~ 36V,取決于外部分壓)精度低(5%~10%)高&a…

Kafka使用Elasticsearch Service Sink Connector直接傳輸topic數據到Elasticsearch

鏈接:Elasticsearch Service Sink Connector for Confluent Platform | Confluent Documentation 鏈接:Apache Kafka 一、搭建測試環境 下載Elasticsearch Service Sink Connector https://file.zjwlyy.cn/confluentinc-kafka-connect-elasticsearch…

訊方“教學有方”平臺獲華為昇騰應用開發技術認證!

教學有方 華為昇騰應用開發技術認證 權威認證 彰顯實力 近日,訊方技術自研的教育行業大模型平臺——“教學有方”,成功獲得華為昇騰應用開發技術認證。這一認證不僅是對 “教學有方” 平臺技術實力的高度認可,更標志著訊方在智慧教育領域的…

保護你的Electron應用:深度解析asar文件與Virbox Protector的安全策略

在現代軟件開發中,Electron框架因其跨平臺特性而備受開發者青睞。然而,隨著Electron應用的普及,如何保護應用中的核心資源文件——asar文件,成為了開發者必須面對的問題。今天,我們將深入探討asar文件的特性&#xff0…

端口安全配置示例

組網需求 如圖所示,用戶PC1、PC2、PC3通過接入設備連接公司網絡。為了提高用戶接入的安全性,將接入設備Router的接口使能端口安全功能,并且設置接口學習MAC地址數的上限為接入用戶數,這樣其他外來人員使用自己帶來的PC無法訪問公…

零基礎RT-thread第四節:電容按鍵

電容按鍵 其實只需要理解,手指按上去后充電時間變長,我們可以利用定時器輸入捕獲功能計算充電時間,超過無觸摸時的充電時間一定的閾值就認為是有手指觸摸。 基本原理就是這樣,我們開始寫代碼: 其實,看過了…

SQL基礎操作:從增刪改查開始

好的!SQL(Structured Query Language)是用于管理關系型數據庫的標準語言。讓我們從最基礎的增刪改查(CRUD)?? 操作開始學習,我會用簡單易懂的方式講解每個操作。 🛠 準備工作(建表…

vim 編輯模式/命令模式/視圖模式常用命令

以下是一份 Vim 命令大全,涵蓋 編輯模式(Insert Mode)、命令模式(Normal Mode) 和 視圖模式(Visual Mode) 的常用操作,適合初學者和進階用戶使用。 🧾 Vim 模式簡介 Vim…

每天看一個Fortran文件(10)

今天來看下MCV模式調用物理過程的相關代碼。我想改進有關于海氣邊界層方面的內容,因此我尋找相關的代碼,發現在physics目錄下有一個sfc_ocean.f的文件。 可以看見這個文件是在好多好多年前更新的了,里面內容不多,總共146行。是計算…

python打卡day37

疏錦行 知識點回顧: 1. 過擬合的判斷:測試集和訓練集同步打印指標 2. 模型的保存和加載 a. 僅保存權重 b. 保存權重和模型 c. 保存全部信息checkpoint,還包含訓練狀態 3. 早停策略 作業:對信貸數據集訓練后保存權重&#xf…

【Spark征服之路-2.9-Spark-Core編程(五)】

RDD行動算子: 行動算子就是會觸發action的算子,觸發action的含義就是真正的計算數據。 1. reduce ? 函數簽名 def reduce(f: (T, T) > T): T ? 函數說明 聚集 RDD 中的所有元素,先聚合分區內數據,再聚合分區間數據 val…

【入門】【練17.3 】比大小

| 時間限制:C/C 1000MS,其他語言 2000MS 內存限制:C/C 64MB,其他語言 128MB 難度:中等 分數:100 OI排行榜得分:12(0.1分數2難度) 出題人:root | 描述 試編一個程序,輸入…

CppCon 2017 學習:Free Your Functions!

“Free Your Functions!” 這句話在C設計中有很深的含義,意思是: “Free Your Functions!” 的理解 “解放你的函數”,鼓勵程序員: 不要把所有的函數都綁在類的成員函數里,優先考慮寫成自由函數(non-mem…

日常運維問題匯總-19

60. OVF3維護成本中心與訂貨原因之間的對應關系時,報錯提示,SYST: 不期望的日期 00/00/0000。消息號 FGV004,如下圖所示: OVF3往右邊拉動,有一個需要填入的字段“有效期自”,此字段值必須在成本中心定義的有…

2025SCA工具推薦︱基于多模態SCA的新一代開源供應鏈風險審查與治理平臺

近年來,隨著開源軟件在企業數字化轉型中的廣泛應用,開源供應鏈攻擊事件頻發,企業普遍面臨三大突出難題:一是不清楚自身引入了哪些開源組件,二是不掌握組件中潛在的安全漏洞和合規風險,三是缺乏自動化、全流…

CppCon 2017 學習:Migrating a C++03 library to C++11 case study

這段內容是在介紹 Wt(發音類似 “witty”) —— 一個用于 C 的 Web UI 框架。總結如下: 什么是 Wt? Wt 是一個 用 C 編寫的 widget(控件)驅動的 Web 框架。類似于桌面 GUI 框架(比如 Qt&#…

coding習慣 + Bug記錄整理

📖 清單 1、包裝類型導致的NPE2、xxApiWrapper命名3、see注釋4、MySQL模糊匹配特殊字符bug 整理些平時不好的coding習慣導致的bug📝 1、包裝類型導致的NPE 處理項目的一個bug,看日志是發生了空指針,相關代碼如下: D…

機器學習項目微服務離線移植

機器學習項目微服務離線移植 引言:為什么需要Docker化機器學習項目? 在當今的機器學習工程實踐中,項目部署與移植是一個常見但極具挑戰性的任務。傳統部署方式面臨著"在我機器上能運行"的困境——開發環境與生產環境的不一致導致…