室外 3DVG 基準

室外 3DVG基準(按重要性與被引用頻率)

  1. Talk2Car / Talk2Car-3D (2019 / 衍生) — 對象 referral(駕駛場景)

    • 說明:最早的自然語言 → 駕駛場景對象引用數據集之一(原 Talk2Car 是以 nuScenes 為底并提供自然語言命令,評測以 bounding-box 定位為主;后續研究把它轉換/擴展為 3D 版本(常見稱呼 Talk2Car-3D)以用于 3D grounding 實驗)。
    • 模態:相機圖像 + LiDAR(源自 nuScenes);語言為自由命令 / referring expressions。
    • 可用性:原始 Talk2Car 數據/工具公開(論文與 repo)。
    • 參考:Talk2Car paper & repo. (ACL Anthology, GitHub)
  2. CityRefer (NeurIPS 2023) — 城市尺度點云的 3D visual grounding

    • 說明:面向 city-scale outdoor point clouds(SensatUrban 數據),提供面向 3D 對象定位 的自然語言描述(約 35k 描述),專門為城市/點云室外 grounding 設計。
    • 模態:稠密城市點云(SensatUrban)+地理信息(OpenStreetMap 對齊的地標標簽)。
    • 可用性:數據集與基線/代碼均公開(NeurIPS 數據集/補充材料、GitHub)。
    • 參考:CityRefer(paper + supplementary / project)。(arXiv, NeurIPS Proceedings)
  3. WildRefer (ECCV 2024) — STRefer / LifeRefer(大規模動態/行人場景)

    • 說明:提出 3DVG in the wild,包含 STRefer 與 LifeRefer 兩個子集,側重動態/人類中心的室外場景(LiDAR + camera + language),用于 3D 對象定位。
    • 模態/特點:多傳感器 LiDAR+相機,多幀動態序列,語言為人工標注的 referring expressions;代碼/數據倉庫可查。
    • 可用性:論文與官方實現公開(ECCV 論文 & GitHub)。
    • 參考:WildRefer paper & repo. (ECVA, GitHub)
  4. City-scale localization / Text→position(Text2Pos / KITTI360Pose,CVPR2022) — 文本到點云定位(大尺度/格網定位)

    • 說明:任務是把自然語言描述映射到城市尺度的位置/格子(coarse→fine localization),而非單個精確 3D box 的實例定位,但它是室外語言?點云的大尺度基準,常被歸入 outdoor 3DVG 的范圍(強調位姿/位置而非 box)。
    • 數據源:KITTI360 / KITTI360Pose 構建。
    • 可用性:論文與實現資源可查(CVPR2022)。
    • 參考:Text2Pos / KITTI360Pose. (CVF開放獲取, text2pos.github.io)
  5. NuGrounding (2025 preprint) — 多視角/多攝像頭的 3DVG(基于 nuScenes)

    • 說明:最近工作(預印本)宣稱構建了“首個大規模 multi-view 3D visual grounding benchmark for autonomous driving”(NuGrounding),使用 nuScenes 數據并自動/半自動構造 grounding prompt(包含實例定位、multi-view 融合考察)。
    • 模態:nuScenes(LiDAR + 多攝像頭),instance-level grounding 目標。
    • 可用性:預印本已發布(arXiv);數據/代碼通常在作者 repo/補充中公布(需按作者 release 狀態檢查)。
    • 參考:NuGrounding (arXiv preprint). (arXiv)
  6. Talk2LiDAR / Talk2PC / BEVGrounding(2024–2025) — Lidar-centered 3DVG 基準

    • 說明:近年若干工作提出 專門面向 LiDAR(點云)或 BEV 的 3DVG 基準(例如文獻/會議里出現的 Talk2LiDAR / Talk2PC / BEVGrounding 等),目的在于直接在 LiDAR(或 BEV)上進行自然語言驅動的實例定位(not just 2D→3D)。這些基準通常在論文/補充中給出數據構建細節與基線實驗。
    • 可用性/引用:相關論文與 openreview / conference 出版物可檢索(示例:“Talk2LiDAR / BEVGrounding”)。(OpenReview)
  7. Talk2Radar (2024) — Radar 點云 + 自然語言 的 3D referring 數據集

    • 說明:把 4D mmWave radar / radar point cloud 與自然語言 referring 表達結合起來,提出了 Talk2Radar 基準(示例規模:數千條 referring prompts),用于在雷達點云上做 3D referring / REC。
    • 可用性:論文/預印本公布,數據說明在論文與項目頁中給出。
    • 參考:Talk2Radar arXiv / paper。(arXiv, ResearchGate)
  8. GroundingOcc / 3D occupancy grounding(2025 preprints / repos)

    • 說明:將傳統“bounding-box grounding”推廣到體素級 occupancy grounding(即自然語言 → voxel 層級的占用/形狀),一些工作在 nuScenes 上構建了 GroundingOcc / occupancy-grounding 基準(更細粒度、對幾何要求更高)。這是室外 3DVG 的一種延伸任務。
    • 可用性:近期預印本與代碼倉(如 GroundingOcc GitHub)已發布。(arXiv, Hugging Face)
  • 范圍差別:上面列出的數據集包含不同定義的“grounding”——有些是實例級(給定語言返回 3D box / object instance,如 CityRefer、Talk2Car-3D、NuGrounding、WildRefer、Talk2LiDAR),有些是定位/格網/占用級(Text2Pos、GroundingOcc),有些專注于特殊傳感器(Talk2Radar)。在做比較實驗時要把任務定義(instance localization vs. occupancy vs. coarse localization)事先對齊。(arXiv)
  • 公開性:CityRefer、Talk2Car(原版)與 WildRefer 的代碼/數據是可訪問的(paper + repo);新近的 NuGrounding、Talk2LiDAR、Talk2Radar、GroundingOcc 等有的在 arXiv / openreview 給出了預印本與實現鏈接,但具體數據發布/許可/下載狀態請以各作者 repo / paper 的說明為準(部分可能需申請訪問或尚屬作者 release 階段)。請在使用前檢查各自的 license/下載頁面。(arXiv, OpenReview, GitHub)
數據集 / 基準 (year)任務類型傳感器模態論文 PDF / 預印本官方 repo / 下載 / project page
Talk2Car (2019)instance-level visual grounding (commands → box)multi-view camera + LiDAR (built on nuScenes)Paper / info page. (talk2car.github.io)GitHub / dataset page (Talk2Car). (GitHub, talk2car.github.io)
CityRefer (NeurIPS 2023)instance-level 3D visual grounding (city-scale)city-scale photogrammetric point clouds (SensatUrban)NeurIPS paper PDF / proceedings. (NeurIPS Proceedings, arXiv)Project / supplementary (paper page includes links). (NeurIPS Proceedings)
WildRefer (ECCV 2024)instance-level 3D object localization / grounding in large-scale dynamic scenes (STRefer, LifeRefer)LiDAR + camera (dynamic / human-centric outdoor scenes)ECCV paper PDF. (ECVA, ACM Digital Library)ECCV project / poster & code pointer (paper + repo). (eccv.ecva.net, ACM Digital Library)
Text2Pos / KITTI360Pose (CVPR 2022)localization: text → position (coarse→fine city-scale localization)LiDAR / city-scale point clouds (KITTI360)CVPR 2022 paper (Text2Pos). (CVF開放獲取, text2pos.github.io)Project page (Text2Pos site). (text2pos.github.io)
NuGrounding (2025, preprint)multi-view instance-level 3D grounding for autonomous drivingnuScenes: LiDAR + multi-camera (multi-view)arXiv preprint / PDF (NuGrounding). (arXiv)arXiv + authors’ repo (check paper for repo link). (arXiv)
Talk2LiDAR / BEVGrounding (2024–2025, papers / preprints)instance-level 3D grounding on LiDAR / BEVLiDAR (point cloud) / sometimes radar fusion; BEV representationsPaper / arXiv describing Talk2LiDAR & BEVGrounding (preprints). (arXiv)Repo(s) linked from paper / authors (see paper for code links). (arXiv)
Talk2PC / Talk2PC (TPCNet) (2025 preprint)instance-level LiDAR-centered 3D visual groundingLiDAR ± radar / multi-sensor point cloudarXiv preprint (Talk2PC / TPCNet). (arXiv)Paper + likely repo (見 arXiv / paper 補充)。(arXiv)
Talk2Radar (2024)instance-level 3D referring on radar point clouds4D mmWave radar (+可能的相機 / LiDAR配合)arXiv paper (Talk2Radar). (arXiv)arXiv page + repo link in paper (authors’ project page). (arXiv)
GroundingOcc / Talk2Occ (GroundingOcc) (2025 preprint)occupancy-level 3D grounding (voxel/occupancy grounding)nuScenes (multi-sensor) → voxel occupancy + languagearXiv preprint (GroundingOcc / GroundingOcc paper PDF). (arXiv)GitHub: authors report dataset/repo at https://github.com/RONINGOD/GroundingOcc . (arXiv, alphaXiv)
  1. 定義差異:表中包含三類不同目標 —— instance-level(給定語言返回某個物體的 3D box / instance)、localization/position(把語言映射到城市尺度的位置格子或坐標)、和occupancy(把語言映射到體素/占用網格)。在比較模型/結果時務必對齊任務定義。(CVF開放獲取, arXiv)
  2. 數據來源 / 依賴:一些基準是直接建立在已有自動駕駛數據集之上(例如 Talk2Car 建立在 nuScenes 之上;NuGrounding / GroundingOcc / Talk2Radar / 多個 occupancy 型基準也以 nuScenes 為底),因此使用它們通常需要先獲取相應的原始底層數據(nuScenes、KITTI360、SensatUrban 等)并遵守這些數據集的許可。請在論文/項目頁查看"如何下載 / license"說明。(talk2car.github.io, nuscenes.org)
  3. release 狀態:CityRefer、Talk2Car、WildRefer、Text2Pos(KITTI360Pose)是明確已發布且可訪問的數據集/基準。NuGrounding、Talk2LiDAR、Talk2PC、Talk2Radar、GroundingOcc 等包含最近(2023–2025)發表或預印本工作;大多數作者會在論文或補充中給出 repo/下載鏈接,但某些資源可能為預印本階段(請以對應 GitHub / project page 為準)。我在表中把可用的 repo / arXiv / project page 都附上了來源鏈接。(NeurIPS Proceedings, ECVA, arXiv)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/95710.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/95710.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/95710.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Jenkins安裝部署(Win11)和常見配置鏡像加速

一、安裝前準備 本文使用的Jenkins Windows一鍵安裝包,JDK事先配置好環境變量,Jenkins版本: Jenkins下載地址:jenkins一鍵安裝包v2-479-1.msi資源-CSDN下載 二、Jenkins安裝部署 1、下載Jenkins ,點擊下一步下一步…

Windows MCP.Net:革命性的 .NET Windows 桌面自動化 MCP 服務器

📋 目錄 項目概述 核心技術架構 功能特性詳解 技術實現亮點 安裝與配置 實戰應用場景 代碼示例與API詳解 性能優化與最佳實踐 未來發展規劃 總結 項目概述 在人工智能快速發展的今天,AI 助手與操作系統的深度集成成為了一個重要趨勢。Window…

Java ArrayList的介紹及用法

十分想念順店雜可。。。ArrayList 是 Java 集合框架中最常用的類之一,實現了 List 接口,底層基于動態數組實現,支持動態擴容,相比普通數組更靈活。以下是其詳細介紹及用法:一、核心特性動態大小:無需預先指…

Docker 命令大全及使用場景總結

一、容器生命周期管理1. 創建并運行容器docker run [選項] 鏡像名 [命令]常用選項:-d:后臺運行(detached)-it:交互式終端(如 -it ubuntu bash)--name:指定容器名稱-p 主機端口:容器端…

簡單的 HTTPS 學習

簡單的 HTTPS 學習 1. 需求 現在使用的服務是HTTP調用形式,服務可能會有調用外圍https形式的服務,簡單了解了一下,然后寫了一個簡單的例子進行記錄。 HTTP(超文本傳輸協議) 是一種用于傳輸超文本的應用層協議&#…

[系統架構設計師]系統質量屬性與架構評估(八)

[系統架構設計師]系統質量屬性與架構評估(八) 一.軟件系統質量屬性 1.基本概念 軟件系統質量屬性:可測量或可測試的屬性 開發期質量屬性,運行期質量屬性面向架構評估的質量屬性:1.可用性: 提升策略 錯誤檢測…

【R語言】R 語言中 gsub 與正則表達式詳解(含 POSIX 與 Perl 風格實例)

R 語言中 gsub 與正則表達式詳解(含 POSIX 與 Perl 風格實例) 在 R 語言中,字符串處理是非常常見的需求,R 語言中的 gsub() 函數則具有字符串替換的功能。本文將通過兩個實例,幫助你深入理解 R 的 gsub()、POSIX 字符…

EN55035多媒體設備電磁兼容性抗干擾要求標準

EN55035 是一項由歐洲標準化委員會制定的電磁兼容性(EMC)標準,全稱為《多媒體設備的電磁兼容性要求》。該標準主要針對多媒體設備的電磁輻射和抗干擾能力進行規范,確保這類設備在電磁環境中能夠正常工作,同時不對其他設…

計算分組內時間列的最大差值

計算分組內時間列的最大差值 在 Pandas 中,要計算每個分組內 time 列的最大值與當前行值的差值,需結合 groupby() 和 transform() 方法。核心步驟如下:分組計算最大值 使用 transform(max) 獲取每個分組中 time 列的最大值,結果會…

CUDA 編程筆記:CUDA延遲隱藏

一、核心概念:延遲隱藏(Latency Hiding)是 GPU 通過多線程機制掩蓋指令延遲的關鍵技術。當某些線程束(warp)因指令延遲(如內存訪問或算術計算)而等待時,其他就緒線程束會立即被調度執…

MySQL工具包中的其他程序

雖然有很多不同的程序,但有些選項是公共的,比兔用戶名和密碼,使用方法和MySQL相同,在這里統一列出,后面我們介紹不同的工具時,只討論個性的選項以及作用以下是常用的MySQL程序:程序名作用mysqld…

C#WPF實戰出真汁09--【消費開單】--選擇菜品

1、功能介紹當選擇一個空桌時,必須先開臺才能開單,可以先開臺,再開單,也可以開臺的同時開單當選擇一個用餐中的餐桌時,必須顯示該桌前面已經點好的菜品,同時可以繼續點餐或結賬所以無論哪個功能都涉及選擇菜…

大廠語音合成成本深度對比:微軟 / 阿里 / 騰訊 / 火山 API 計費拆解與技術選型指南

在 AI 配音、智能客服、教育音頻等場景爆發的當下,語音合成 API 已成為企業技術棧中的核心組件。然而,不同云廠商的計費規則差異顯著,短文本 / 長文本計費分離、預付費 / 后付費價格梯度懸殊、音色授權費暗藏成本陷阱等問題,常導致…

Flutter開發 網絡請求

HttpClient&#xff08;dart自有&#xff09; 1.get 點擊請求按鈕獲取數據&#xff0c;解析數據獲取單詞展示到屏幕上。class MyState extends State {String info "暫無數據";List<Widget> texts [];overridevoid initState() {super.initState();}override…

vscode中用python調用matlab的函數(環境安裝)

本實踐適用于WIN11-x64和ubuntu22.04-x64系統&#xff0c;其余系統和架構未驗證。 效果展示 1.環境要求 MATLAB Engine API for Python 的系統要求&#xff1a;參閱此官方文檔MATLAB 與 Python 的版本兼容性&#xff1a;參閱此官方文檔 2.安裝步驟 安裝Vscode&#xff08;不…

【數據分享】大清河(大慶河)流域上游土地利用

而今天要說明數據就是大清河&#xff08;大慶河&#xff09;流域上游土地利用。數據介紹大清河&#xff0c;又稱大慶河&#xff0c;作為海河流域的重要支流&#xff0c;其流域上游地區不僅是區域水資源調控的關鍵節點&#xff0c;更是生態保護與經濟發展的重要載體。以下從地理…

圖論——Djikstra最短路

原理解釋 首先解釋一下它大概的應用場景以及原理&#xff1a;現在有這么一張圖&#xff0c;圖上各點之間都有一定的邊權或者說是距離。給定你一個起點&#xff08;例如點1&#xff09;&#xff0c;讓你求這個點到圖上所有點的最短距離是多少&#xff1f; 這個問題比較平常&…

kafka初步介紹

Kafka角色介紹TopicTopic主題的意思&#xff0c;消費者必須指定主題用于的消息發送&#xff0c;生產者也必須指定主題用于消息的接收。topic只是邏輯上的劃分。partitionpartition是分區的意思&#xff0c;他的主要作用是將發送到一個topic的數據做一個劃分。如果有4個partitio…

windows10的vs2019編譯openssl靜態庫備忘

1、下載安裝openssl源碼2、官網下載安裝activeperl或Strawberry Perl。官網下載慢&#xff0c;網盤找找。使用中activeperl有些異常提示、缺模塊&#xff0c;最后使用了Strawberry Perl。3、安裝nasm。powershell使用choco install nasm -y 即可。powershell使用cd命令打開當前…

學習筆記與效率提升指南:編程、記憶與面試備考

在學習與工作中&#xff0c;高效的記錄習慣、針對性的記憶方法和實用的技能儲備&#xff0c;是提升效率的關鍵。本文結合編程學習、面試備考和英語單詞積累&#xff0c;整理一套可落地的學習思路&#xff0c;尤其適合編程初學者。 一、學習核心原則&#xff1a;高效優先&#x…