室外 3DVG基準(按重要性與被引用頻率)
-
Talk2Car / Talk2Car-3D (2019 / 衍生) — 對象 referral(駕駛場景)
- 說明:最早的自然語言 → 駕駛場景對象引用數據集之一(原 Talk2Car 是以 nuScenes 為底并提供自然語言命令,評測以 bounding-box 定位為主;后續研究把它轉換/擴展為 3D 版本(常見稱呼 Talk2Car-3D)以用于 3D grounding 實驗)。
- 模態:相機圖像 + LiDAR(源自 nuScenes);語言為自由命令 / referring expressions。
- 可用性:原始 Talk2Car 數據/工具公開(論文與 repo)。
- 參考:Talk2Car paper & repo. (ACL Anthology, GitHub)
-
CityRefer (NeurIPS 2023) — 城市尺度點云的 3D visual grounding
- 說明:面向 city-scale outdoor point clouds(SensatUrban 數據),提供面向 3D 對象定位 的自然語言描述(約 35k 描述),專門為城市/點云室外 grounding 設計。
- 模態:稠密城市點云(SensatUrban)+地理信息(OpenStreetMap 對齊的地標標簽)。
- 可用性:數據集與基線/代碼均公開(NeurIPS 數據集/補充材料、GitHub)。
- 參考:CityRefer(paper + supplementary / project)。(arXiv, NeurIPS Proceedings)
-
WildRefer (ECCV 2024) — STRefer / LifeRefer(大規模動態/行人場景)
- 說明:提出 3DVG in the wild,包含 STRefer 與 LifeRefer 兩個子集,側重動態/人類中心的室外場景(LiDAR + camera + language),用于 3D 對象定位。
- 模態/特點:多傳感器 LiDAR+相機,多幀動態序列,語言為人工標注的 referring expressions;代碼/數據倉庫可查。
- 可用性:論文與官方實現公開(ECCV 論文 & GitHub)。
- 參考:WildRefer paper & repo. (ECVA, GitHub)
-
City-scale localization / Text→position(Text2Pos / KITTI360Pose,CVPR2022) — 文本到點云定位(大尺度/格網定位)
- 說明:任務是把自然語言描述映射到城市尺度的位置/格子(coarse→fine localization),而非單個精確 3D box 的實例定位,但它是室外語言?點云的大尺度基準,常被歸入 outdoor 3DVG 的范圍(強調位姿/位置而非 box)。
- 數據源:KITTI360 / KITTI360Pose 構建。
- 可用性:論文與實現資源可查(CVPR2022)。
- 參考:Text2Pos / KITTI360Pose. (CVF開放獲取, text2pos.github.io)
-
NuGrounding (2025 preprint) — 多視角/多攝像頭的 3DVG(基于 nuScenes)
- 說明:最近工作(預印本)宣稱構建了“首個大規模 multi-view 3D visual grounding benchmark for autonomous driving”(NuGrounding),使用 nuScenes 數據并自動/半自動構造 grounding prompt(包含實例定位、multi-view 融合考察)。
- 模態:nuScenes(LiDAR + 多攝像頭),instance-level grounding 目標。
- 可用性:預印本已發布(arXiv);數據/代碼通常在作者 repo/補充中公布(需按作者 release 狀態檢查)。
- 參考:NuGrounding (arXiv preprint). (arXiv)
-
Talk2LiDAR / Talk2PC / BEVGrounding(2024–2025) — Lidar-centered 3DVG 基準
- 說明:近年若干工作提出 專門面向 LiDAR(點云)或 BEV 的 3DVG 基準(例如文獻/會議里出現的 Talk2LiDAR / Talk2PC / BEVGrounding 等),目的在于直接在 LiDAR(或 BEV)上進行自然語言驅動的實例定位(not just 2D→3D)。這些基準通常在論文/補充中給出數據構建細節與基線實驗。
- 可用性/引用:相關論文與 openreview / conference 出版物可檢索(示例:“Talk2LiDAR / BEVGrounding”)。(OpenReview)
-
Talk2Radar (2024) — Radar 點云 + 自然語言 的 3D referring 數據集
- 說明:把 4D mmWave radar / radar point cloud 與自然語言 referring 表達結合起來,提出了 Talk2Radar 基準(示例規模:數千條 referring prompts),用于在雷達點云上做 3D referring / REC。
- 可用性:論文/預印本公布,數據說明在論文與項目頁中給出。
- 參考:Talk2Radar arXiv / paper。(arXiv, ResearchGate)
-
GroundingOcc / 3D occupancy grounding(2025 preprints / repos)
- 說明:將傳統“bounding-box grounding”推廣到體素級 occupancy grounding(即自然語言 → voxel 層級的占用/形狀),一些工作在 nuScenes 上構建了 GroundingOcc / occupancy-grounding 基準(更細粒度、對幾何要求更高)。這是室外 3DVG 的一種延伸任務。
- 可用性:近期預印本與代碼倉(如 GroundingOcc GitHub)已發布。(arXiv, Hugging Face)
- 范圍差別:上面列出的數據集包含不同定義的“grounding”——有些是實例級(給定語言返回 3D box / object instance,如 CityRefer、Talk2Car-3D、NuGrounding、WildRefer、Talk2LiDAR),有些是定位/格網/占用級(Text2Pos、GroundingOcc),有些專注于特殊傳感器(Talk2Radar)。在做比較實驗時要把任務定義(instance localization vs. occupancy vs. coarse localization)事先對齊。(arXiv)
- 公開性:CityRefer、Talk2Car(原版)與 WildRefer 的代碼/數據是可訪問的(paper + repo);新近的 NuGrounding、Talk2LiDAR、Talk2Radar、GroundingOcc 等有的在 arXiv / openreview 給出了預印本與實現鏈接,但具體數據發布/許可/下載狀態請以各作者 repo / paper 的說明為準(部分可能需申請訪問或尚屬作者 release 階段)。請在使用前檢查各自的 license/下載頁面。(arXiv, OpenReview, GitHub)
數據集 / 基準 (year) | 任務類型 | 傳感器模態 | 論文 PDF / 預印本 | 官方 repo / 下載 / project page |
---|---|---|---|---|
Talk2Car (2019) | instance-level visual grounding (commands → box) | multi-view camera + LiDAR (built on nuScenes) | Paper / info page. (talk2car.github.io) | GitHub / dataset page (Talk2Car). (GitHub, talk2car.github.io) |
CityRefer (NeurIPS 2023) | instance-level 3D visual grounding (city-scale) | city-scale photogrammetric point clouds (SensatUrban) | NeurIPS paper PDF / proceedings. (NeurIPS Proceedings, arXiv) | Project / supplementary (paper page includes links). (NeurIPS Proceedings) |
WildRefer (ECCV 2024) | instance-level 3D object localization / grounding in large-scale dynamic scenes (STRefer, LifeRefer) | LiDAR + camera (dynamic / human-centric outdoor scenes) | ECCV paper PDF. (ECVA, ACM Digital Library) | ECCV project / poster & code pointer (paper + repo). (eccv.ecva.net, ACM Digital Library) |
Text2Pos / KITTI360Pose (CVPR 2022) | localization: text → position (coarse→fine city-scale localization) | LiDAR / city-scale point clouds (KITTI360) | CVPR 2022 paper (Text2Pos). (CVF開放獲取, text2pos.github.io) | Project page (Text2Pos site). (text2pos.github.io) |
NuGrounding (2025, preprint) | multi-view instance-level 3D grounding for autonomous driving | nuScenes: LiDAR + multi-camera (multi-view) | arXiv preprint / PDF (NuGrounding). (arXiv) | arXiv + authors’ repo (check paper for repo link). (arXiv) |
Talk2LiDAR / BEVGrounding (2024–2025, papers / preprints) | instance-level 3D grounding on LiDAR / BEV | LiDAR (point cloud) / sometimes radar fusion; BEV representations | Paper / arXiv describing Talk2LiDAR & BEVGrounding (preprints). (arXiv) | Repo(s) linked from paper / authors (see paper for code links). (arXiv) |
Talk2PC / Talk2PC (TPCNet) (2025 preprint) | instance-level LiDAR-centered 3D visual grounding | LiDAR ± radar / multi-sensor point cloud | arXiv preprint (Talk2PC / TPCNet). (arXiv) | Paper + likely repo (見 arXiv / paper 補充)。(arXiv) |
Talk2Radar (2024) | instance-level 3D referring on radar point clouds | 4D mmWave radar (+可能的相機 / LiDAR配合) | arXiv paper (Talk2Radar). (arXiv) | arXiv page + repo link in paper (authors’ project page). (arXiv) |
GroundingOcc / Talk2Occ (GroundingOcc) (2025 preprint) | occupancy-level 3D grounding (voxel/occupancy grounding) | nuScenes (multi-sensor) → voxel occupancy + language | arXiv preprint (GroundingOcc / GroundingOcc paper PDF). (arXiv) | GitHub: authors report dataset/repo at https://github.com/RONINGOD/GroundingOcc . (arXiv, alphaXiv) |
- 定義差異:表中包含三類不同目標 —— instance-level(給定語言返回某個物體的 3D box / instance)、localization/position(把語言映射到城市尺度的位置格子或坐標)、和occupancy(把語言映射到體素/占用網格)。在比較模型/結果時務必對齊任務定義。(CVF開放獲取, arXiv)
- 數據來源 / 依賴:一些基準是直接建立在已有自動駕駛數據集之上(例如 Talk2Car 建立在 nuScenes 之上;NuGrounding / GroundingOcc / Talk2Radar / 多個 occupancy 型基準也以 nuScenes 為底),因此使用它們通常需要先獲取相應的原始底層數據(nuScenes、KITTI360、SensatUrban 等)并遵守這些數據集的許可。請在論文/項目頁查看"如何下載 / license"說明。(talk2car.github.io, nuscenes.org)
- release 狀態:CityRefer、Talk2Car、WildRefer、Text2Pos(KITTI360Pose)是明確已發布且可訪問的數據集/基準。NuGrounding、Talk2LiDAR、Talk2PC、Talk2Radar、GroundingOcc 等包含最近(2023–2025)發表或預印本工作;大多數作者會在論文或補充中給出 repo/下載鏈接,但某些資源可能為預印本階段(請以對應 GitHub / project page 為準)。我在表中把可用的 repo / arXiv / project page 都附上了來源鏈接。(NeurIPS Proceedings, ECVA, arXiv)