yolo world (1): 論文解讀

在這里插入圖片描述

YOLO 系列檢測器以其高效性和實用性而聞名。然而，它們依賴于預定義和訓練的目標類別，這限制了其在開放場景中的適用性。為了解決這一限制，我們提出了 YOLO-World，這是一種創新的方法，通過視覺-語言建模和大規模數據集預訓練，增強了 YOLO 的開放詞匯檢測能力。具體來說，我們提出了一種新的可重參數化視覺-語言路徑聚合網絡（RepVL-PAN）和區域-文本對比損失，以促進視覺和語言信息之間的交互。我們的方法在零樣本檢測方面表現出色，能夠高效地檢測各種目標。在具有挑戰性的 LVIS 數據集上，YOLO-World 在 V100 GPU 上實現了 35.4 AP 和 52.0 FPS，在準確性和速度方面均優于許多最先進的方法。此外，經過微調的 YOLO-World 在多個下游任務中表現出色，包括目標檢測和開放詞匯實例分割。
paper: YOLO-World: Real-Time Open-Vocabulary Object Detection
github: https://github.com/AILab-CVC/YO

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/92383.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/92383.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/92383.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！