YOLO 系列檢測器以其高效性和實用性而聞名。然而,它們依賴于預定義和訓練的目標類別,這限制了其在開放場景中的適用性。為了解決這一限制,我們提出了 YOLO-World,這是一種創新的方法,通過
視覺-語言建模
和大規模數據集預訓練,增強了 YOLO 的開放詞匯檢測能力
。具體來說,我們提出了一種新的可重參數化視覺-語言路徑聚合網絡
(RepVL-PAN)和區域-文本對比
損失,以促進視覺和語言信息之間的交互。我們的方法在零樣本
檢測方面表現出色,能夠高效地檢測各種目標。在具有挑戰性的 LVIS 數據集上,YOLO-World 在 V100 GPU 上實現了 35.4 AP 和 52.0 FPS,在準確性和速度方面均優于許多最先進的方法。此外,經過微調的 YOLO-World 在多個下游任務中表現出色,包括目標檢測和開放詞匯實例分割。
paper: YOLO-World: Real-Time Open-Vocabulary Object Detection
github: https://github.com/AILab-CVC/YO