YOLO-World實時開集檢測論文閱讀

論文:《YOLO-World: Real-Time Open-Vocabulary Object Detection》
代碼:https://github.com/AILab-CVC/YOLO-World

1.Abstract

我們介紹了YOLO World,這是一種創新的方法,通過在大規模數據集上進行視覺語言建模和預訓練,增強YOLO的開放詞匯檢測能力。具體而言,我們提出了一種新的可重新參數化的視覺-語言路徑聚合網絡(RepVL-PAN)區域文本對比損失,以促進視覺和語言信息之間的交互。我們的方法可以以zero-shot方式高效檢測各種物體。
在這里插入圖片描述

YOLO World遵循標準YOLO架構[20],并利用預先訓練的CLIP[39]文本編碼器對輸入文本進行編碼。我們進一步提出了可重新參數化的視覺語言路徑聚合網絡(RepVL-PAN)來連接文本特征和圖像特征,以獲得更好的視覺語義表示。在推理過程中,可以移除文本編碼器,并將文本嵌入重新參數化為RepVL PAN的權重,以實現高效部署。對于實際應用,一旦我們訓練了檢測器,即YOLO World,我們就可以對提示或類別進行預編碼,以構建離線詞匯表,然后將其無縫集成到檢測器中。

在這里插入圖片描述

2.Related Work

傳統的目標檢測方法可以簡單地分為三類,即基于區域region-based的方法、基于像素pixel-based的方法和基于查詢query-based的方法。

3. Method

3.1. Pre-training Formulation: Region-Text Pairs

傳統的對象檢測方法,包括YOLO系列[20],使用實例注釋Ω={Bi,ci}Ni=1,其由邊界框{Bi}和類別標簽{ci}組成。在本文中,我們將實例注釋重新表述為區域-文本對Ω={Bi,ti}Ni=1,其中ti是區域Bi的對應文本。具體而言,**文本ti可以是類別名稱、名詞短語或對象描述。**此外,YOLO World采用圖像I和文本T(一組名詞)作為輸入和輸出預測框{B?k}和相應的對象嵌入{ek}(ek∈RD)。

在這里插入圖片描述

所提出的YOLO World的總體架構如圖所示。3,它由YOLO檢測器、文本編碼器和可重新參數化的視覺語言路徑聚合網絡(RepVL PAN)組成。給定輸入文本,YOLO World中的文本編碼器將文本編碼為文本嵌入。YOLO檢測器中的圖像編碼器從輸入圖像中提取多尺度特征。然后,我們利用RepVL PAN,通過利用圖像特征和文本嵌入之間的跨模態融合來增強文本和圖像表示。

YOLO Detector。YOLO World主要基于YOLOv8[20]開發,其中包含作為圖像編碼器的Darknet backbone[20,43]、用于多尺度特征金字塔的路徑聚合網絡(PAN)以及用于邊界框回歸和object embeddings的head。

Text-Enocder。給定文本T,我們采用CLIP[39]預先訓練的Transformer文本編碼器來提取相應的文本嵌入W=TextEncoder(T)∈RC×D,其中C是名詞的數量,D是embeding維數。與純文本語言編碼器相比,CLIP文本編碼器提供了更好的視覺語義功能,可以將視覺對象與文本連接起來[5]。當輸入的文本是描述或引用表達式時,我們采用簡單的n-gram算法提取名詞短語,然后將其輸入到文本編碼器中。

3.3. Re-parameterizable Vision-Language PAN

Text-guided CSPLayer. 如圖4所示,跨階段部分層(CSPLayer)是在自上而下或自下而上的融合之后使用的。我們通過將文本引導合并到多尺度圖像特征中來擴展[20]的CSPLayer(也稱為C2f),以形成文本引導的CSPLyer。具體地說,給定文本嵌入W和圖像特征Xl∈RH×W×D(l∈{3,4,5}),我們在最后一個bottleneck之后采用max-sigmoid attention將文本特征聚合為圖像特征:在這里插入圖片描述

Image-Pooling Attention。為了增強具有圖像感知信息的文本嵌入,我們通過提出圖像池注意來聚合圖像特征以更新文本嵌入。我們不是直接在圖像特征上使用交叉注意力,而是利用多尺度特征上的最大池化來獲得3×3個區域,從而產生總共27個補丁標記X∈R27×D。然后通過以下方式更新文本嵌入:W ′ = W + MultiHead-Attention(W, X ?, X ?)


Pre-training data。對于預訓練YOLO-World,我們主要采用檢測或grounding數據集,包括Ob-Projects365(V1)[46]、GQA[17]、Flickr30k[38],如表1所示。根據[24],我們從GoldG[21](GQA和Flickr30k)中的COCO數據集中排除圖像。用于預訓練的檢測數據集的注釋包含邊界框和類別或名詞短語。此外,我們還用圖像-文本對擴展了預訓練數據,即CC3M?[47],我們已經通過第3.4節中討論的偽標記方法標記了246k個圖像。

Grounding數據集通常用于計算機視覺和自然語言處理的聯合任務,特別是Visual Grounding任務。這類數據集包含圖像以及與之相關的物體描述,目標是定位描述中提及的物體。以下是Grounding數據集格式的詳細介紹,并通過舉例說明:一、數據集格式Grounding數據集一般由以下幾個部分組成:圖像(Images): 數據集包含一系列圖像,這些圖像中包含了需要被定位的物體。
描述(Descriptions): 針對每張圖像,數據集提供了相應的描述,這些描述可能是一個句子、短語或者是一個物體名稱,用于指明需要定位的物體。
標注框(Bounding Boxes): 對于描述中提及的每個物體,數據集都提供了一個或多個標注框,這些標注框用坐標表示物體在圖像中的位置。
類別標簽(Category Labels) (可選): 某些數據集還可能包含物體的類別標簽,以便于分類和識別。
二、舉例說明以Flickr30k Entities數據集為例,這是一個常用的Visual Grounding數據集:圖像: 數據集包含31783張圖像。
描述: 每張圖像對應5個不同的caption(描述),總共有158915個caption。
標注框: 數據集提供了244035個phrase-box標注,即針對特定短語的標注框。例如,如果一個caption是“A man in a red shirt is riding a bike”,那么“man”、“red shirt”和“bike”都可能有對應的標注框。
類別標簽: 數據集中的phrase還會被細分為people, clothing, body parts, animals, vehicles, instruments, scene, other等八個不同的類別。
在RefCOCO、RefCOCO+、RefCOCOg等數據集中,格式類似,但可能包含更多的交互性和復雜性,例如在RefCOCO+中,查詢不包含絕對的方位詞,要求模型更智能地理解上下文來定位物體。總的來說,Grounding數據集的格式是為了訓練模型能夠準確理解語言描述,并在圖像中定位相應物體的能力。通過大量的圖像、描述和標注框的組合,模型可以學習到如何從復雜的視覺和語言信息中提取關鍵特征,實現準確的物體定位。

在這里插入圖片描述
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/42708.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/42708.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/42708.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

js之彈性布局使用方法

彈性布局(Flexbox)是一種現代化的 CSS 布局方法,它可以讓您更方便地創建響應式和動態布局。在本篇文檔中,我們將介紹彈性布局的基本概念以及如何在項目中使用它。 一、基本概念 容器(Container)&#xff…

WPF中邏輯樹和視覺樹

在WPF(Windows Presentation Foundation)中,“邏輯樹”(Logical Tree)和“可視樹”(Visual Tree)是兩個重要的概念,它們代表了不同的對象層次結構,用于描述應用程序的組織…

洛谷 [SNCPC2024] 寫都寫了,交一發吧 題解

分析 顯然&#xff0c;兩個相同的數去按位與的結果還是該數。 由于一個代碼可以提交多次&#xff0c;那么可以把得分最高的代碼提交兩次&#xff0c;這樣的得分就是這個代碼的得分&#xff0c;很明顯&#xff0c;這樣是最優的。 Code #include<iostream> using names…

STM32微控制器的SPI存儲解決方案:W25Q64 Flash存儲器深度應用

摘要 在嵌入式系統設計中&#xff0c;存儲解決方案對于數據的持久化至關重要。W25Q64 Flash存儲器以其高效的存儲能力和與SPI總線的兼容性&#xff0c;成為STM32微控制器項目中的優選。本文將深入探討STM32微控制器的SPI存儲解決方案&#xff0c;重點介紹W25Q64 Flash存儲器的…

vue3+antd 實現點擊按鈕彈出對話框

格式1&#xff1a;確認對話框 按鈕&#xff1a; 點擊按鈕之后&#xff1a; 完整代碼&#xff1a; <template><div><a-button click"showConfirm">Confirm</a-button></div> </template> <script setup> import {Mod…

如何查看程序是否在運行-Linux

1.命令 ps aux | grep RiboCode2_manythreads.py2.結果&#xff1a; 2020200 1063124 99.8 19.2 56105444 50796184 pts/0 Sl 18:40 114:36 python RiboCode2_manythreads.py -a ./RiboCode_annot -c config15d.txt -o ./ORFs_15d_final_result --gtf -t 15從輸出結果可以看出…

階段三:項目開發---大數據開發運行環境搭建:任務4:安裝配置Spark集群

任務描述 知識點&#xff1a;安裝配置Spark 重 點&#xff1a; 安裝配置Spark 難 點&#xff1a;無 內 容&#xff1a; Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop …

Bean的管理

1.主動獲取Bean spring項目在需要時&#xff0c;會自動從IOC容器中獲取需要的Bean 我們也可以自己主動的得到Bean對象 &#xff08;1&#xff09;獲取bean對象&#xff0c;首先獲取SpringIOC對象 private ApplicationContext applicationContext //IOC容器對象 (2 )方法…

昇思25天學習打卡營第13天 | ShuffleNet圖像分類

ShuffleNet網絡介紹 ShuffleNetV1是曠視科技提出的一種計算高效的CNN模型&#xff0c;和MobileNet, SqueezeNet等一樣主要應用在移動端&#xff0c;所以模型的設計目標就是利用有限的計算資源來達到最好的模型精度。ShuffleNetV1的設計核心是引入了兩種操作&#xff1a;Pointw…

ExcelVBA運用Excel的【條件格式】(二)

ExcelVBA運用Excel的【條件格式】&#xff08;二&#xff09;前面知識點回顧1. 訪問 FormatConditions 集合 Range.FormatConditions2. 添加條件格式 FormatConditions.Add 方法語法表達式。添加 (類型、 運算符、 Expression1、 Expression2)3. 修改或刪除條件格式4. …

如何在Spring Boot中實現動態多語言支持

如何在Spring Boot中實現動態多語言支持 大家好&#xff0c;我是免費搭建查券返利機器人省錢賺傭金就用微賺淘客系統3.0的小編&#xff0c;也是冬天不穿秋褲&#xff0c;天冷也要風度的程序猿&#xff01; 一、引言 隨著全球化市場的發展&#xff0c;多語言支持已經成為現代…

密碼技術中分組模式解析

目錄 1. 概述 2. ECB模式 2.1 概述 2.2 ECB模式的加密 2.3 ECB模式的解密 2.4 優點 2.5 缺點 3. CBC模式【推薦】 3.1 概述 3.2 CBC模式的加密 3.3 CBC模式的解密 3.4 優點 3.5 缺點 4. CFB模式 4.1 概述 4.2 CFB模式的加密 4.3 CFB模式的解密 4.4 優點 4.…

智慧地產視覺監控系統開源了,系統采用多種優化技術,提高系統的響應速度和資源利用率

智慧地產視覺監控平臺是一款功能強大且簡單易用的實時算法視頻監控系統。它的愿景是最底層打通各大芯片廠商相互間的壁壘&#xff0c;省去繁瑣重復的適配流程&#xff0c;實現芯片、算法、應用的全流程組合&#xff0c;從而大大減少企業級應用約95%的開發成本。用戶只需在界面上…

Python打開Excel文檔并讀取數據

Python 版本 目前 Python 3 版本為主流版本&#xff0c;這里測試的版本是&#xff1a;Python 3.10.5。 常用庫說明 Python 操作 Excel 的常用庫有&#xff1a;xlrd、xlwt、xlutils、openpyxl、pandas。這里主要說明下 Excel 文檔 .xls 格式和 .xlsx 格式的文檔打開和讀取。 …

Drools開源業務規則引擎(二)- Drools規則語言(DRL)

文章目錄 1.DRL文件的組成&#xff1a;2.package3.import4.function5.query6.declare7.global8.rule8.1.規則屬性8.2.LHS8.2.1.語法格式8.2.2.運算符優先級8.2.3.特殊的運算符1.matches, not matches2.contains, not contains3.memberOf, not memberOf4.in, notin5.soundslike6…

Powershell 獲取電腦保存的所有wifi密碼

一. 知識點 netsh wlan show profiles 用于顯示計算機上已保存的無線網絡配置文件 Measure-Object 用于統計數量 [PSCustomObject]{ } 用于創建Powershell對象 [math]::Round 四舍五入 Write-Progress 顯示進度條 二. 代碼 只能獲取中文Windows操作系統的wifi密碼如果想獲取…

護網在即,助力安服仔漏洞掃描~

整合了個漏掃系統&#xff0c;安服仔必備~ 使用場景 網前布防&#xff0c;漏洞掃描&#xff0c;資產梳理 使用方法&#xff1a; 啟動虛擬機后運行命令&#xff1a; ./StartSystemScript.sh 輸入密碼attack 啟動完成后瀏覽器打開網站&#xff1a; http://IP:5000 相關賬戶…

Git 常用命令備忘

1、刪除 (1)、git push origin --delete dev 刪除遠程分支 (2)、git branch -d dev 刪除本地分支 git branch -D dev 強制刪除本地分支 2、創建分支 (1)、git checkout -b dev 創建本地分支 (2)、git push origin dev 創建遠程分支&#xff0c;此時本地分支與遠程…

02-android studio實現下拉列表+單選框+年月日功能

一、下拉列表功能 1.效果圖 2.實現過程 1&#xff09;添加組件 <LinearLayoutandroid:layout_width"match_parent"android:layout_height"wrap_content"android:layout_marginLeft"20dp"android:layout_marginRight"20dp"android…

表單驗證的藝術:WebKit 支持 HTML 表單的全面解析

表單驗證的藝術&#xff1a;WebKit 支持 HTML 表單的全面解析 在 Web 開發的多彩世界中&#xff0c;表單是用戶與網頁交互的重要橋梁。WebKit 作為眾多現代瀏覽器的渲染引擎&#xff0c;提供了強大的 HTML 表單支持和驗證功能。本文將深入探討 WebKit 如何支持 HTML 表單和進行…