CVPR 2025|基于視覺語言模型的零樣本3D視覺定位

論文信息

題目:Zero-Shot 3D Visual Grounding from Vision-Language Models

基于視覺語言模型的零樣本3D視覺定位

作者:Rong Li, Shijie Li, Lingdong Kong, Xulei Yang, Junwei Liang

論文創新點

  1. 提出全新框架:論文提出SeeGround這一無需訓練的零樣本3D視覺定位框架,通過渲染視圖和空間文本,將3D場景重新組織成適用于2D視覺語言模型(2D-VLMs)的輸入。

  2. 設計動態視角選擇策略:設計了一種查詢引導的視角選擇策略,能動態選擇最優視角,既能捕捉特定對象線索,又能獲取空間上下文,從而提升模型對3D場景的理解和定位能力。

  3. 引入視覺提示機制:提出一種視覺提示機制,將2D圖像特征與3D空間描述對齊,減少在復雜場景中定位的模糊性,提高目標定位的準確性。

  4. 取得領先實驗結果:該方法在ScanRefer和Nr3D兩個標準基準測試上取得了零樣本設置下的最優結果,展現出強大的泛化能力,且無需針對3D數據進行特定訓練。

摘要

3D視覺定位(3DVG)旨在利用自然語言描述在3D場景中定位目標物體,這使得諸如增強現實和機器人技術等下游應用成為可能。現有的方法通常依賴有標記的3D數據和預定義的類別,限制了其在開放世界場景中的可擴展性。作者提出了SeeGround,這是一個零樣本3DVG框架,它利用2D視覺 - 語言模型(VLM)來避免對特定3D訓練的需求。為了彌合模態差距,作者引入了一種混合輸入格式,將與查詢對齊的渲染視圖與空間豐富的文本描述相結合。該框架包含兩個核心組件:一個視角適應模塊,它根據查詢動態選擇最佳視角;以及一個融合對齊模塊,它整合視覺和空間信號以提高定位精度。在ScanRefer和Nr3D上的大量評估證實,SeeGround相對于現有的零樣本基線有顯著改進,分別超過它們7.7%和7.1%,甚至可以與完全監督的方法相媲美,這表明它在具有挑戰性的條件下具有很強的泛化能力。

關鍵詞

3D視覺定位;零樣本學習;視覺 - 語言模型;跨模態對齊

一、引言

3D視覺定位(3DVG)專注于使用自然語言描述在3D場景中定位被提及的物體。這種能力在增強現實[1 - 6]、視覺 - 語言導航[7 - 9]和機器人感知[10 - 22]等應用中至關重要。解決這一任務需要在雜亂多樣的3D環境中同時具備語言理解和空間推理能力。

大多數現有方法依賴于使用有限的、標注繁重的數據集來訓練特定任務的模型[1, 23 - 28],這限制了它們的泛化能力。將這些模型擴展到更廣泛的場景既耗費資源又不切實際[29 - 31]。最近的趨勢[32, 33]試圖通過納入大語言模型(LLM)[34, 35]來解釋重新格式化的文本查詢,以減少對3D監督的依賴。然而,這些策略往往忽略了關鍵的視覺屬性,如顏色、紋理、視角和空間布局,而這些對于精細定位至關重要(見圖1)。

圖片

為了克服這些限制,作者引入了SeeGround,這是一個無需訓練的3DVG框架,它利用2D視覺 - 語言模型(VLM)[35 - 37]的開放詞匯能力。這些模型在大規模圖像 - 文本語料庫上進行預訓練,具有很強的泛化能力,使其成為零樣本3DVG的理想選擇[24, 38]。由于VLM并非天生為3D輸入而設計,作者提出了一種跨模態對齊機制,通過查詢驅動的渲染和空間豐富的文本描述,將3D場景重新格式化為兼容的輸入。這種策略使得無需額外的特定3D訓練即可對3D內容進行推理[39]。

作者的表示結合了與查詢對齊的渲染2D圖像和從預先計算的物體檢測中導出的結構化空間文本。與靜態多視圖或鳥瞰投影不同,作者的查詢引導渲染動態地捕捉局部物體細節和全局上下文。空間文本提供了精確的語義和位置線索。為了進一步彌合語言和視覺之間的差距,作者納入了一種視覺提示技術,突出候選區域,引導VLM解決歧義并關注相關的圖像區域。

作者在兩個標準基準上驗證了該方法。在ScanRefer[1]上,SeeGround比先前的零樣本方法提高了7.7%,在Nr3D[40]上提高了7.1%,縮小了與完全監督模型的差距。值得注意的是,作者的方法在模糊或部分語言輸入的情況下仍然穩健,通過依賴視覺上下文來完成定位過程。

總之,作者的貢獻如下:

  • 作者提出了SeeGround,這是一種用于零樣本3DVG的無需訓練的方法,它通過渲染視圖和空間文本將3D場景重新格式化為適合2D - VLM的輸入。

  • 作者設計了一種查詢引導的視角選擇策略,以捕捉特定物體線索和空間上下文。

  • 作者提出了一種視覺提示機制,將2D圖像特征與3D空間描述對齊,減少雜亂場景中的定位歧義。

  • 作者的方法在ScanRefer和Nr3D上取得了零樣本的最先進結果,表明在無需特定3D訓練的情況下具有很強的泛化能力。

三、方法

(一)概述

3D視覺定位(3DVG)的目標是根據自然語言查詢在3D場景中定位目標物體,通過預測其對應的3D邊界框:。

作者提出了一種新穎的3DVG框架,該框架結合2D視覺 - 語言模型(2D - VLM)與空間豐富的3D表示。由于傳統的3D數據格式與2D - VLM的輸入模態不兼容,作者提出了一種混合表示,將渲染的2D視圖與結構化的3D空間描述相融合。這使得2D - VLM能夠在無需特定3D重新訓練的情況下,對視覺和空間信息進行聯合推理。

該框架由三個主要組件組成:(1)一個多模態3D表示模塊(3.1節);(2)一個視角適應模塊(3.2節);(3)一個融合對齊模塊(3.3節)。這種架構通過充分利用預訓練的2D - VLM的優勢,能夠在復雜的3D場景中準確地解釋和定位物體。框架概述如圖2所示。

圖片

(二)多模態3D表示

作者利用在大規模圖像 - 文本數據上預訓練的2D視覺 - 語言模型(2D - VLM),以實現對新物體的開放集理解。然而,傳統的3D表示,如點云[53, 70]、體素[71]和隱式場[54],本質上與2D - VLM期望的輸入格式不兼容。為了彌合這一差距,作者提出了一種混合表示,將2D渲染圖像與基于文本的3D空間描述相結合。

  1. 基于文本的3D空間描述:作者首先使用一個開放詞匯的3D檢測器檢測場景中的所有物體:其中和分別表示每個物體的3D邊界框和語義標簽。這些輸出被轉換為自然語言并存儲在一個物體查找表(OLT)中以供重用:OLT作為物體級空間信息的結構化存儲庫,支持高效推理,并避免在多個查詢中進行冗余計算。

  2. 混合3D場景表示:雖然文本描述編碼了布局和語義,但它們缺乏精細的視覺線索。為了補充這一點,作者渲染與輸入查詢對齊的2D圖像:其中是渲染圖像,是相應的空間描述文本。這種配對使2D - VLM能夠同時訪問視覺外觀線索(如顏色、紋理、形狀)和準確的3D空間語義,有助于全面的場景理解。

(三)視角適應模塊

現有的視圖選擇策略通常無法與查詢所隱含的視角對齊。例如,LAR[43]渲染以物體為中心的多視圖,但缺乏全局場景上下文,而鳥瞰視圖提供了全面的空間覆蓋,但省略了垂直信息,導致遮擋和誤解(見圖3(a))。多視圖或多尺度方法[59]改善了覆蓋范圍(見圖3(b) - (d)),但仍然依賴靜態視角。此外,當渲染的視角不能反映語言查詢時,2D - VLM可能會誤解場景。因此,作者引入了一種查詢驅動的動態渲染策略,使視角與查詢意圖對齊,捕捉更多相關的空間和視覺細節(見圖3(e))。

圖片

  1. 動態視角選擇:給定查詢,2D - VLM使用少樣本提示識別一個錨點物體和一組候選目標:作者將虛擬相機放置在場景中心,面向錨點物體,并將其向后和向上移動以增強可見性和上下文。如果無法自信地提取錨點(例如,在多物體或模糊查詢中),作者默認使用位于質心的偽錨點,并應用相同的相機放置策略。

  2. 查詢對齊圖像渲染:基于選定的視角,作者使用look - at - view - transform函數計算相機姿態,該函數產生相對于的旋轉和平移。然后獲得渲染圖像為。這種查詢對齊的渲染保留了關鍵的視覺特征,同時過濾掉無關的雜亂信息,使2D - VLM能夠更準確地定位被提及的物體(見圖3(e))。

(四)融合對齊模塊

雖然2D圖像和空間描述提供了互補信息,但直接將它們輸入2D - VLM可能無法將視覺線索與相應的3D語義相關聯,特別是在包含相似實例的場景中(例如,多個椅子),這通常會導致定位錯誤。為了解決這個問題,作者引入了一個融合對齊模塊,明確地將2D視覺特征與空間定位的物體描述對齊。

  1. 深度感知視覺提示:給定渲染圖像,作者從物體查找表OLT中檢索每個物體的3D點,并使用相機姿態將它們投影到圖像平面上。為了處理遮擋,作者將每個點的深度與渲染的深度圖進行比較,只保留可見點。對于每個物體,作者在其可見投影的中心放置一個視覺提示。生成的提示圖像為:其中是屬于物體的可見像素的指示掩碼。

  2. 使用2D - VLM進行物體預測:最后,給定自然語言查詢、提示圖像和結構化空間描述,2D - VLM預測被提及的物體:通過強制視覺和空間模態之間的對齊,該模塊有效地減少了定位歧義,并提高了在雜亂場景中的物體定位能力。

四、實驗

(一)實驗設置

  1. 數據集:作者在兩個廣泛使用的3D視覺定位基準上評估方法。ScanRefer[1]包含800個ScanNet場景中的51,500個指代表達。Nr3D[40]包括通過雙人游戲收集的41,503個查詢。ScanRefer專注于稀疏點云定位,而Nr3D提供密集的3D邊界框注釋,能夠進行更精細的評估。

  2. 實現細節:在Nr3D驗證集上進行消融實驗。圖像以1000×1000分辨率渲染,排除頂部0.3 m以匹配封閉房間設置。作者遵循ZSVG3D[32]并使用Mask3D[58]進行一致的物體檢測。

(二)對比研究

在ScanRefer上,作者的方法在“Unique”分割上的Acc@0.25 / Acc@0.5達到75.7% / 68.9%,在“Multiple”分割上達到34.0% / 30.0%,超過了所有現有的零樣本和弱監督基線[32, 33, 46],并接近完全監督方法的性能[28, 45]。在Nr3D上,作者的模型總體準確率達到46.1%,比之前零樣本的最先進方法高出7.1%[32]。它在不同子集上保持穩健,在“Easy” / “Hard”分割上達到54.5% / 38.3%,在“View - Dependent” / “View - Independent”分割上達到42.3% / 48.2%,有效地縮小了與完全監督方法的差距[23]。

圖片

圖片

(三)消融研究

  1. 架構設計的影響:作者首先評估所提出架構中每個組件的貢獻。結果總結在表3中。

    圖片

    場景布局:僅使用3D坐標(37.7%,表3(a))提供了粗略的物體位置,但準確率較低。通過3D邊界框的2D渲染(無紋理或顏色)納入場景布局(39.7%,表3(b)),引入了空間上下文,幫助模型推理物體的大小和位置。視覺線索:整合物體顏色/紋理(39.5%,表3(c))使模型能夠區分視覺上相似的物體,例如“白色”與“黑色”(圖4(a))。

圖片

融合對齊模塊:如表3(d)所示,添加作者提出的融合對齊模塊通過將渲染圖像與空間文本對齊,將準確率提高到43.3%,使模型能夠在雜亂場景中定位目標。

視角適應模塊:納入視角適應模塊(45.0%,表3(e))通過使視角與查詢所隱含的空間上下文對齊,提高了定位準確率(圖4(b))。這有助于解決歧義并增強空間推理。

完整配置:完整配置(表3(f))實現了最高準確率(46.1%),驗證了SEEGROUND的有效性以及所有組件結合的協同效益。 2.?作者方法與現有方法對比:ZSVG3D[32]通過投影物體中心并應用預定義的啟發式方法來推斷空間關系,但缺乏靈活性,省略了視覺上下文,并且在檢測不完善時會失敗(圖6)。如圖5a所示,其基于VLM的變體僅渲染目標和錨點中心而無背景。相比之下,作者的方法生成全場景渲染,能夠利用周圍的視覺線索對未檢測到或模糊的物體進行推理。

圖片

圖片

  1. Qwen2 - VL與GPT - 4對比:為了提高可及性和可重復性,作者采用開源的Qwen2 - VL[36]作為智能體。為了進行公平比較,作者使用Qwen2 - VL代替GPT - 4[35]重新評估ZSVG3D(圖5b)。在相同的VLM下,作者的方法始終優于ZSVG3D,證實了作者策略的有效性,與底層語言模型無關。

  2. 視圖選擇策略的影響:表4顯示了不同視角策略的影響。作者的查詢驅動方法優于靜態基線。固定方法(Center2Corner、Edge2Center、Corner2Center)缺乏適應性,而鳥瞰視圖(BEV)雖然具有全局性,但錯過了關鍵的空間線索,如方向和高度。相比之下,作者的動態策略實現了持續的提升,特別是在Hard(+4.4%)和View - Dependent(+5.7%)查詢上。

    圖片

  3. 不完整文本描述下的魯棒性評估:圖6顯示了作者模型在不完整查詢下的魯棒性,其中省略錨點物體以模擬檢測失敗。雖然基于LLM的方法在沒有錨點線索時顯著下降,但作者的方法成功利用視覺上下文保持準確的定位。這些結果強調了整合視覺和文本信號對于穩健3D理解的重要性。

  4. 不同檢測器上的結果:表5比較了不同3D檢測器的性能。使用Mask3D時,作者的方法達到44.1%,顯著超過ZSVG3D(36.4%)。使用OVIR - 3D時,作者的性能仍然更高(30.7%對19.3%)。當提供真實(GT)框時,作者的方法達到59.5%,揭示了明顯的性能上限。

圖片

  1. 類型錯誤分析:作者從10個場景中隨機采樣185個案例,以識別常見的失敗模式(圖7)。定位和分類錯誤的減少表明視覺輸入對空間理解的益處。然而,空間關系錯誤仍然頻繁(19%),這表明在精細推理方面的局限性,可以通過專門的空間模塊來解決。作者當前的視角選擇在復雜的以自我為中心的引用(例如,“當窗戶在左邊時”,“從門進入時”)方面也存在困難。此外,由于使用原始數據集點云,渲染質量有限,阻礙了物體的區分。未來的工作可以納入高保真渲染,以增強雜亂場景中的視覺清晰度。

    圖片

五、結論

在本文中,作者提出了SeeGround,這是一個零樣本3D視覺定位框架,通過查詢對齊的渲染和空間描述彌合了3D數據與2D視覺 - 語言模型之間的差距。作者的視角適應模塊動態選擇視角,而融合對齊模塊對齊視覺和空間線索以實現穩健的定位。在兩個基準上的實驗表明,作者的方法優于零樣本基線。

聲明

本文內容為論文學習收獲分享,受限于知識能力,本文對原文的理解可能存在偏差,最終內容以原論文為準。本文信息旨在傳播和學術交流,其內容由作者負責,不代表本號觀點。文中作品文字、圖片等如涉及內容、版權和其他問題,請及時與我們聯系,我們將在第一時間回復并處理。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/96412.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/96412.shtml
英文地址,請注明出處:http://en.pswp.cn/web/96412.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Realtime API 語音代理端到端接入全流程教程(含 Demo,延遲 280ms)

在現代應用中,實時語音交互已經成為重要功能,而低延遲的語音傳輸更是用戶體驗的關鍵指標。本文將詳細介紹如何使用 Realtime API 實現 語音代理 的端到端接入,包括環境搭建、接口調用、低延遲優化及 Demo 演示。通過本教程,開發者…

AI賦能辦公:用Python解決發票合并打印難題

一、問題的提出今天網友提問:報銷時,財務要求要把發票合并打印,即兩張合成一張放在A4紙上,中間還要加一道黑色分界線,如何快速完成數十張發票的打印?問題的提出二、問題分析這個問題可以采用兩種方法解決&a…

Shell編程之正則表達式與文本處理工具

一、正則表達式基礎1. 正則表達式概述?定義?:正則表達式(Regular Expression,簡稱Regex)是由普通字符?(如字母、數字、標點符號)與元字符?(具有特殊含義的專用字符)組成的字符串…

使用 Spring AI Alibaba Graph 實現工作流

1 依賴<dependency><groupId>com.alibaba.cloud.ai</groupId><artifactId>spring-ai-alibaba-starter-dashscope</artifactId><version>1.0.0.2</version> </dependency><dependency><groupId>com.alibaba.cloud.…

碰一碰系統源碼于小程序打通技術開發整合方案,驅動AI技術開發源代碼

碰一碰系統結合小程序開發數據互通&#xff0c;驅動AI技術開發源代碼碰一碰系統作為門店獲客技術落地的核心載體&#xff0c;已從標準化產品向實體店定制演進。本文從源碼d的形式出發&#xff0c;解析企業級數字人分身系統的交互系統&#xff0c;為技術團隊提供可落地的開發指南…

深度學習——自然語言處理NLP

自然語言處理中的詞向量技術演進與實踐一、傳統統計語言模型的困境與突破1.1 統計語言模型的局限性早期NLP主要依賴統計語言模型&#xff0c;如n-gram模型&#xff0c;通過統計詞序列的頻率來預測語言概率。這類模型存在兩個根本缺陷&#xff1a;早期統計語言模型的局限性1. 維…

uni-app頭像疊加顯示

展示代碼<view class"bmBox"><view class"bmLeft">已報名&#xff1a;<text class"blueColor">10人</text></view><view class"bmRight dflex"><view class"avatarList"><ima…

私有化部署Ragflow的預訓練模型

部署ragflow代碼庫中的det.onnx模型&#xff08;通常是目標檢測或文檔結構解析類模型&#xff0c;如版面分析模型&#xff09;到火山云&#xff0c;需基于ONNX Runtime推理框架&#xff0c;結合火山云的計算資源和服務能力實現。以下是具體步驟&#xff1a; 一、模型特性與依賴…

go中的singleflight是如何實現的?

大家周四快樂&#xff0c;今天分享粉絲投稿的面經。 內容整理如下&#xff1a;go go singleflight 的底層實現 singleflight 是 Go 語言標準庫中的一個很有用的包&#xff0c;它主要用來處理并發請求時的重復問題。比如在高并發場景下&#xff0c;如果多個請求同時訪問同一個資…

【開關電源篇】整流及其濾波電路的工作原理和設計指南-超簡單解讀

開關電源之整流電路1. 什么是半波整流電路&#xff1f;1.1 電路結構與工作原理1.2 輸出特性分析2. 全波整流電路如何工作&#xff1f;2.1 電路結構特點2.2 工作過程分析2.3 優缺點對比3. 橋式整流電路有什么優勢&#xff1f;3.1 電路組成3.2 工作原理詳解3.3 性能特點4. 什么是…

創建GLFW窗口,開啟OpenGL之路

前言&#xff1a;本系列文章主要是一個學習筆記和總結&#xff0c;具體學習過程參考https://learnopengl-cn.github.io/這個網站的是學習OpenGL的一個很完美的新手教程。在這個部分系列中&#xff0c;我會以自己的理解詳細描述每個函數、方法的使用&#xff0c;以及關鍵參數的解…

es通過分片遷移遷移解決磁盤不均勻問題

POST _cluster/reroute {"commands": [{"move": {"index": "xxx_detail","shard": 2,"from_node": "el8P9Ul","to_node": "4sDv-RD"}}] }查看遷移進程 GET _cat/shards?v查看磁盤…

c++打包pyd文件給Python使用調用函數

c打包pyd文件給Python使用調用函數C語言源碼&#xff1a;simplemath.cpp代碼&#xff1a;// // Created by ASFOR on 2025/9/11. // #include <pybind11/pybind11.h>namespace py pybind11;// 一個簡單的加法函數 int add(int a, int b) {return a b; }// 一個簡單的乘…

hadoop的api操作對象存儲

一、獲取文件或目錄1. 獲取某個目錄下的文件// 必須的依賴 import org.apache.hadoop.conf.Configuration import org.apache.hadoop.fs.{FileSystem, LocatedFileStatus, Path, RemoteIterator}// 獲取某個目錄下的文件路徑 def list_file(conf: Configuration, dir_path: Str…

《UE5_C++多人TPS完整教程》學習筆記52 ——《P53 FABRIK 算法(FABRIK IK)》

本文為B站系列教學視頻 《UE5_C多人TPS完整教程》 —— 《P53 FABRIK 算法&#xff08;FABRIK IK&#xff09; 的學習筆記&#xff0c;該系列教學視頻為計算機工程師、程序員、游戲開發者、作家&#xff08;Engineer, Programmer, Game Developer, Author&#xff09; Stephen …

HttpServletRequest vs ServletContext 全面解析

HttpServletRequest vs ServletContext 全面解析 一、 核心區別概覽特性HttpServletRequest (請求對象)ServletContext (Servlet上下文/應用對象)作用域請求范圍應用范圍生命周期從客戶端發出請求開始&#xff0c;到服務器返回響應結束。從Web應用啟動&#xff08;部署&#xf…

Java后端工程師如何學AI

Java后端工程師如何學AI 目錄 前言為什么Java后端工程師要學習AIAI學習路徑規劃基礎知識體系實踐項目建議學習資源推薦學習時間規劃常見問題與解決方案職業發展建議總結 前言 隨著人工智能技術的快速發展&#xff0c;AI已經不再是計算機科學專業的專屬領域。作為Java后端工…

Django REST Framework 中 @action 裝飾器詳解

概述 action 裝飾器是 Django REST Framework (DRF) 中 ViewSet 的一個核心功能&#xff0c;用于定義自定義路由方法。它允許開發者在標準的 CRUD 操作&#xff08;list、create、retrieve、update、destroy&#xff09;之外&#xff0c;創建符合特定業務需求的接口&#xff0c…

【重磅更新】RetroBoard 全面升級,讓敏捷回顧更高效、更安全、更貼心!

??????? ??????? ??????? ??????? ??????? ??????? ??????? ??????? ??????? ??????? ??????? ???????…

中州養老:華為云設備管理接口開發全流程

需求分析點擊同步數據時,要把華為云的數據拉取到我們的系統中對于新增設備操作,實際上這些參數與華為云產品我們添加設備時的參數是一樣的表結構設計E-R圖數據庫字段接口分析對于設備中的數據,我們既要再IOT平臺存儲,又要在數據庫中存儲.之所以保存兩份數據的原因:IOT平臺中只是…