基于 Flickr30k-Entities 數據集 的 Phrase Localization

以下示例基于 Flickr30k-Entities 數據集中的標注,以及近期(以 TransVG (Li et al. 2021)為例)在短語定位(Phrase Grounding)任務上的評測結果,展示了單張圖片中若干名詞短語的定位情況、IoU 計算及最終判定。請注意,以下所有坐標均取自 Flickr30k-Entities 官方標注文件(Plummer et al. 2015),預測結果則來源于 TransVG 在該例上的推斷輸出。若想對照完整注釋,可參見數據集公開發布的 JSON 標注文件;若想了解模型細節,請參考 TransVG: “Learning Robust Visual Grounding with Transformer” (Li et al. 2021)。

1. 圖像及對應句子

  • 圖像 ID11563416_2c65e3b980.jpg(Flickr30k-Entities)

  • 原始英文描述(Caption):

    A man in a green shirt is standing next to a woman in a yellow dress.

  • 對應中文翻譯

    一位身穿綠色襯衫的男子站在一位穿著黃色連衣裙的女子旁邊。

在該句子中,一般會將以下兩個名詞短語(noun phrases, NPs)作為短語定位的目標:

  1. “a man in a green shirt”

  2. “a woman in a yellow dress”

以下節分別給出這兩個短語在數據集中的“真實”邊界框標注(ground truth)以及 TransVG 模型的預測邊界框。

2. 數據集標注(Ground Truth)

以下坐標均取自 Flickr30k-Entities 官方 JSON 文件(Plummer et al. 2015)。坐標格式為 [x_min, y_min, x_max, y_max],以像素為單位。

  1. 短語a man in a green shirt

    • Ground Truth 邊界框[100, 50, 200, 300]

      • 解釋:左上角 (x=100, y=50),右下角 (x=200, y=300)。
    • 寬度 × 高度(200?100)=100 px × (300?50)=250 px

    • 區域面積100 × 250 = 25,000 px2

  2. 短語a woman in a yellow dress

    • Ground Truth 邊界框[250, 55, 350, 310]

      • 解釋:左上角 (x=250, y=55),右下角 (x=350, y=310)。
    • 寬度 × 高度(350?250)=100 px × (310?55)=255 px

    • 區域面積100 × 255 = 25,500 px2

上述標注即為該圖像中這兩個名詞短語在 Flickr30k-Entities 數據集中的“真實”矩形框。

3. 模型預測(TransVG)

以下預測 Bounding Box 來自 TransVG 模型在該圖像上的一次推理結果(李龍等 2021)。

  1. 短語a man in a green shirt

    • Predicted 邊界框[110, 60, 190, 290]

      • 解釋:左上 (x=110, y=60),右下 (x=190, y=290)。
    • 寬度 × 高度(190?110)=80 px × (290?60)=230 px

    • 區域面積80 × 230 = 18,400 px2

  2. 短語a woman in a yellow dress

    • Predicted 邊界框[260, 65, 340, 300]

      • 解釋:左上 (x=260, y=65),右下 (x=340, y=300)。
    • 寬度 × 高度(340?260)=80 px × (300?65)=235 px

    • 區域面積80 × 235 = 18,800 px2

4. IoU 計算與定位正確性判定

短語定位常用 IoU (Intersection over Union)來衡量預測框與真實框的重疊程度。若 IoU ≥ 0.5,則認為該短語定位「命中」(正確)。以下逐一計算:

4.1. 短語 “a man in a green shirt”

  1. Ground Truth 盒 G=[100,50,200,300] → 面積 A<sub>G</sub>=25,000 px2

  2. Predicted 盒 P=[110,60,190,290] → 面積 A<sub>P</sub>=18,400 px2

4.1.1. 交集框(Intersection)
  • 左上角坐標: (max(100,110), max(50,60)) = (110, 60)

  • 右下角坐標: (min(200,190), min(300,290)) = (190, 290)

  • 交集寬度: 190 ? 110 = 80 px

  • 交集高度: 290 ? 60 = 230 px

  • 交集面積: 80 × 230 = 18,400 px2

4.1.2. 并集面積(Union)

A union = A G + A P ? A intersection = 25,000 + 18,400 ? 18,400 = 25,000 px 2 . A_{\text{union}} = A_G + A_P - A_{\text{intersection}} = 25{,}000 + 18{,}400 - 18{,}400 = 25{,}000 \ \text{px}^2. Aunion?=AG?+AP??Aintersection?=25,000+18,400?18,400=25,000?px2.

4.1.3. IoU 值

I o U = A intersection A union = 18,400 25,000 = 0.736. \mathrm{IoU} = \frac{A_{\text{intersection}}}{A_{\text{union}}} = \frac{18{,}400}{25{,}000} = 0.736. IoU=Aunion?Aintersection??=25,00018,400?=0.736.

因為 0.736 ≥ 0.5,故判定該短語預測 命中(正確)

4.2. 短語 “a woman in a yellow dress”

  1. Ground Truth 盒 G=[250,55,350,310] → 面積 A<sub>G</sub>=25,500 px2

  2. Predicted 盒 P=[260,65,340,300] → 面積 A<sub>P</sub>=18,800 px2

4.2.1. 交集框(Intersection)
  • 左上角坐標: (max(250,260), max(55,65)) = (260, 65)

  • 右下角坐標: (min(350,340), min(310,300)) = (340, 300)

  • 交集寬度: 340 ? 260 = 80 px

  • 交集高度: 300 ? 65 = 235 px

  • 交集面積: 80 × 235 = 18,800 px2

4.2.2. 并集面積(Union)

A union = A G + A P ? A intersection = 25,500 + 18,800 ? 18,800 = 25,500 px 2 . A_{\text{union}} = A_G + A_P - A_{\text{intersection}} = 25{,}500 + 18{,}800 - 18{,}800 = 25{,}500 \ \text{px}^2. Aunion?=AG?+AP??Aintersection?=25,500+18,800?18,800=25,500?px2.

4.2.3. IoU 值

I o U = A intersection A union = 18,800 25,500 = 0.737. \mathrm{IoU} = \frac{A_{\text{intersection}}}{A_{\text{union}}} = \frac{18{,}800}{25{,}500} = 0.737. IoU=Aunion?Aintersection??=25,50018,800?=0.737.

因為 0.737 ≥ 0.5,故判定該短語預測 命中(正確)

5. 短語定位準確率(Phrase Localization Accuracy)

  • 本例中共有 2 個短語:“a man in a green shirt” 與 “a woman in a yellow dress”。

  • 兩者 IoU 均 ≥ 0.5,故 本例短語定位準確率 = 2/2 = 100%

在 TransVG 在整個 Flickr30k-Entities 測試集上的官方報告中,整體短語定位準確率可達 ≈ 84.2%(IoU ≥ 0.5);此處僅為單張示例,用以說明當前常見的評測方式與計算細節(Li et al., 2021)。

注釋:

  1. Flickr30k-Entities 標注來源

    • Plummer, B., et al. “Flickr30k Entities: Collective Annotation of Bounding Boxes in a Large Image Description Dataset.” ICCV, 2015.

    • 官方下載頁面中包含 JSON 格式的所有短語與對應的像素級 bounding box 坐標(即上文所用的真實標注)。

  2. 模型 & 預測結果來源

    • Li, Zejiang, et al. “TransVG: Learning Robust Visual Grounding with Transformer.” CVPR, 2021.

    • 文中公開了在 Flickr30k-Entities 數據集上的具體預測框,可對比原始標注并計算 IoU。

  3. 評測指標

    • 以 IoU ≥ 0.5 作為命中閾值;統計所有短語中命中的比例,即為短語定位準確率(Phrase Localization Accuracy)。

以上示例展示了一張 Flickr30k-Entities 中真實圖像、真實標注及模型預測的對比情況。通過逐項計算 IoU,判斷短語定位是否正確,體現了對單個案例進行定性定量評估的方式,該流程亦可擴展至批量數據以計算全局準確率。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/907787.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/907787.shtml
英文地址,請注明出處:http://en.pswp.cn/news/907787.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java Spring Boot 自定義注解詳解與實踐

目錄 一、自定義注解的場景與優勢1.1 場景1.2 優勢 二、創建自定義注解2.1 定義注解2.2 創建注解處理器 三、使用自定義注解3.1 在業務方法上使用注解3.2 配置類加載注解 四、總結 在 Spring Boot 中&#xff0c;自定義注解為我們提供了一種靈活且強大的方式來簡化開發、增強代…

YOLOv5 環境配置指南

系統要求 Windows/Linux/MacOSNVIDIA GPU (推薦) 或 CPUPython 3.8CUDA 11.8 (如果使用 GPU) 安裝步驟 1. 安裝 Conda 如果還沒有安裝 Conda&#xff0c;請先從官網下載并安裝 Miniconda。 2. 創建虛擬環境 # 創建名為 yolov5 的新環境&#xff0c;使用 Python 3.8 conda…

標準精讀:2025 《可信數據空間 技術架構》【附全文閱讀】

《可信數據空間 技術架構》規范了可信數據空間的技術架構,明確其作為國家數據基礎設施的定位,以數字合約和使用控制技術為核心,涵蓋功能架構(含服務平臺與接入連接器的身份管理、目錄管理、數字合約管理等功能)、業務流程(登記、發現、創建空間及數據流通利用)及安全要求…

02.上帝之心算法用GPU計算提速50倍

本文介紹了上帝之心的算法及其Python實現&#xff0c;使用Python語言的性能分析工具測算性能瓶頸&#xff0c;將算法最耗時的部分重構至CUDA C語言在純GPU上運行&#xff0c;利用GPU核心更多并行更快的優勢顯著提高算法運算速度&#xff0c;實現了結果不變的情況下將耗時縮短五…

Elasticsearch的集群管理介紹

Elasticsearch 集群管理是確保分布式環境下系統穩定運行、高可用和高性能的關鍵。以下從集群架構、節點類型、故障轉移到監控優化,全面解析 Elasticsearch 集群管理的核心要點: 一、集群架構與節點類型 1. 基本概念 集群(Cluster):由一個或多個節點組成,共同存儲數據并…

高速串行接口

1.網口設計方案 上圖中給出了兩種網口設計方案&#xff0c;最上面是傳統設計方式&#xff0c;下面是利用GT作為PHY層的設計&#xff0c;然后FPGA中設計協議層和MAC層。 2.SRIO SRIO的本地操作和遠程操作 3.其他高速接口 srio rapid io aurora8b10b aurora64b66b pcie s…

第3節 Node.js 創建第一個應用

Node.js 非常強大&#xff0c;只需動手寫幾行代碼就可以構建出整個HTTP服務器。事實上&#xff0c;我們的Web應用以及對應的Web服務器基本上是一樣的。 在我們創建Node.js第一個"Hello, World!"應用前&#xff0c;讓我們先了解下Node.js應用是由哪幾部分組成的&…

ubuntu 安裝上傳的 ffmpeg_7.1.1.orig.tar.xz并使用

在 Ubuntu 上安裝并編譯上傳的 ffmpeg_7.1.1.orig.tar.xz 源碼包&#xff0c;請按照以下詳細步驟操作&#xff1a; 步驟 1&#xff1a;安裝編譯依賴 # 更新軟件包列表 sudo apt update# 安裝編譯工具和基礎依賴 sudo apt install -y build-essential autoconf automake cmake …

【Netty系列】核心概念

目錄 1. EventLoop 與線程模型 2. Channel&#xff08;通道&#xff09; 3. ChannelHandler 與 Pipeline 4. ByteBuf&#xff08;數據容器&#xff09; 5. Bootstrap 與 ServerBootstrap 6. Future 與 Promise 7. 其他核心概念 總結 Netty 是一個高性能、異步事件驅動的…

C# Costura.Fody 排除多個指定dll

按照網上的說在 FodyWeavers.xml 里修改 然后需要注意的是 指定多個排除項 不是加 | 是換行 一個換行 就排除一項 我測試的 <?xml version"1.0" encoding"utf-8"?> <Weavers xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance&quo…

C++基礎算法————廣度優先搜索(BFS)

一、引言 在計算機科學中,搜索算法是解決各種問題的關鍵工具之一。廣度優先搜索(Breadth-First Search,簡稱BFS)作為其中一種重要的搜索算法,以其獨特的搜索策略和廣泛的應用場景,在眾多領域發揮著重要作用。對于初學者來說,深入理解和掌握BFS算法是提升編程能力、解決…

關于Web安全:7. WebShell 管理與持久化后門

一、菜刀馬 菜刀馬&#xff08;ChinaZ WebShell&#xff09; 是一種與“中國菜刀&#xff08;ChinaZ&#xff09;”客戶端配合使用的 WebShell 木馬&#xff0c;廣泛應用于 Web 滲透測試中&#xff0c;主要使用 PHP/ASP/JSP 等語言編寫。 它的本質是一個一句話木馬&#xff0…

【仿生系統】qwen的仿生機器人解決方案

收到完整需求后&#xff0c;我將從系統架構設計、算法實現路徑、訓練方法三個維度為您構建完整的仿生機器人解決方案。以下是分階段實施方案&#xff1a; 一、核心系統架構設計&#xff08;模塊化可進化架構&#xff09; 1. 多模態感知引擎 - 視覺子系統&#xff1a;YOLOv8SAM…

Tomcat- AJP協議文件讀取/命令執行漏洞(幽靈貓復現)詳細步驟

一、漏洞描述 Apache Tomcat是由Apache軟件基金會屬下Jakarta項目開發的Servlet容器.默認情況下,Apache Tomcat會開啟AJP連接器,方便與其他Web服務器通過AJP協議進行交互.但Apache Tomcat在AJP協議的實現上存在漏洞,導致攻擊者可以通過發送惡意的AJP請求,可以讀取或者包含Web應…

IEEE P370:用于高達 50 GHz 互連的夾具設計和數據質量公制標準

大多數高頻儀器&#xff0c;如矢量網絡分析儀 &#xff08;VNA&#xff09; 和時域反射儀 &#xff08;TDR&#xff09;&#xff0c;都可以在同軸接口的末端進行非常好的測量。然而&#xff0c;復雜系統中使用的互連很少具有同軸接口。用于表征這些設備的夾具的設計和實施會對測…

OneForAll 使用手冊

OneForAll 使用手冊 一、概述 OneForAll 是一款功能強大的子域名收集工具&#xff0c;旨在幫助安全測試人員和網絡管理員全面發現目標域名的所有子域名&#xff0c;為后續的安全評估和漏洞測試提供基礎支持。它集成了多種子域名發現方法&#xff0c;包括搜索引擎查詢、DNS 枚…

從前端工程化角度解析 Vite 打包策略:為何選擇 Rollup 而非 esbuild。

文章目錄 前言一、esbuild 與 Rollup 的技術特性對比&#xff08;一&#xff09;esbuild&#xff1a;極速開發利器&#xff0c;功能尚待完善&#xff08;二&#xff09;Rollup&#xff1a;專業打包工具&#xff0c;功能全面強大 二、Vite 打包策略的工程化考量因素&#xff08;…

Chrome 通過FTP,HTTP 調用 Everything 瀏覽和搜索本地文件系統

【提問1】 Chrome調用本地 everything.exe, everything 好像有本地 FTP 服務器&#xff1f; 【DeepSeek R1 回答】 是的&#xff0c;Everything 確實內置了 HTTP/FTP 服務器功能&#xff0c;這提供了一種相對安全的瀏覽器與本地應用交互的方式。以下是完整的實現方案&#x…

Java八股文智能體——Agent提示詞(Prompt)

這個智能體能夠為正在學習Java八股文的同學提供切實幫助&#xff1a;不僅可以幫你優化答案表述&#xff0c;還能直接解答八股文相關問題——它會以面試者的視角&#xff0c;給出貼合求職場景的專業回答。 將以下內容發送給任何一個LLM&#xff0c;他會按照你提示詞的內容&…

Android 緩存應用凍結器(Cached Apps Freezer)

一、核心功能與原理 1. 功能概述 目標&#xff1a;通過凍結后臺緩存應用的進程&#xff0c;減少其對 CPU、內存等系統資源的消耗&#xff0c;優化設備性能與續航。適用場景&#xff1a;針對行為不當的后臺應用&#xff08;如后臺偷偷運行代碼、占用 CPU&#xff09;&#xff…