CVPR 2025|基于視覺語言模型的零樣本3D視覺定位

論文信息

題目：Zero-Shot 3D Visual Grounding from Vision-Language Models

基于視覺語言模型的零樣本3D視覺定位

作者：Rong Li, Shijie Li, Lingdong Kong, Xulei Yang, Junwei Liang

論文創新點

提出全新框架：論文提出SeeGround這一無需訓練的零樣本3D視覺定位框架，通過渲染視圖和空間文本，將3D場景重新組織成適用于2D視覺語言模型（2D-VLMs）的輸入。
設計動態視角選擇策略：設計了一種查詢引導的視角選擇策略，能動態選擇最優視角，既能捕捉特定對象線索，又能獲取空間上下文，從而提升模型對3D場景的理解和定位能力。
引入視覺提示機制：提出一種視覺提示機制，將2D圖像特征與3D空間描述對齊，減少在復雜場景中定位的模糊性，提高目標定位的準確性。
取得領先實驗結果：該方法在ScanRefer和Nr3D兩個標準基準測試上取得了零樣本設置下的最優結果，展現出強大的泛化能力，且無需針對3D數據進行特定訓練。

摘要

3D視覺定位（3DVG）旨在利用自然語言描述在3D場景中定位目標物體，這使得諸如增強現實和機器人技術等下游應用成為可能。現有的方法通常依賴有標記的3D數據和預定義的類別，限制了其在開放世界場景中的可擴展性。作者提出了SeeGround，這是一個零樣本3DVG框架，它利用2D視覺 - 語言模型（VLM）來避免對特定3D訓練的需求。為了彌合模態差距，作者引入了一種混合輸入格式，將與查詢對齊的渲染視圖與空間豐富的文本描述相結合。該框架包含兩個核心組件：一個視角適應模塊，它根據查詢動態選擇最佳視角；以及一個融合對齊模塊，它整合視覺和空間信號以提高定位精度。在ScanRefer和Nr3D上的大量評估證實，SeeGround相對于現有的零樣本基線有顯著改進，分別超過它們7.7%和7.1%，甚至可以與完全監督的方法相媲美，這表明它在具有挑戰性的條件下具有很強的泛化能力。

關鍵詞

3D視覺定位；零樣本學習；視覺 - 語言模型；跨模態對齊

一、引言

3D視覺定位（3DVG）專注于使用自然語言描述在3D場景中定位被提及的物體。這種能力在增強現實[1 - 6]、視覺 - 語言導航[7 - 9]和機器人感知[10 - 22]等應用中至關重要。解決這一任務需要在雜亂多樣的3D環境中同時具備語言理解和空間推理能力。

大多數現有方法依賴于使用有限的、標注繁重的數據集來訓練特定任務的模型[1, 23 - 28]，這限制了它們的泛化能力。將這些模型擴展到更廣泛的場景既耗費資源又不切實際[29 - 31]。最近的趨勢[32, 33]試圖通過納入大語言模型（LLM）[34, 35]來解釋重新格式化的文本查詢，以減少對3D監督的依賴。然而，這些策略往往忽略了關鍵的視覺屬性，如顏色、紋理、視角和空間布局，而這些對于精細定位至關重要（見圖1）。

為了克服這些限制，作者引入了SeeGround，這是一個無需訓練的3DVG框架，它利用2D視覺 - 語言模型（VLM）[35 - 37]的開放詞匯能力。這些模型在大規模圖像 - 文本語料庫上進行預訓練，具有很強的泛化能力，使其成為零樣本3DVG的理想選擇[24, 38]。由于VLM并非天生為3D輸入而設計，作者提出了一種跨模態對齊機制，通過查詢驅動的渲染和空間豐富的文本描述，將3D場景重新格式化為兼容的輸入。這種策略使得無需額外的特定3D訓練即可對3D內容進行推理[39]。

作者的表示結合了與查詢對齊的渲染2D圖像和從預先計算的物體檢測中導出的結構化空間文本。與靜態多視圖或鳥瞰投影不同，作者的查詢引導渲染動態地捕捉局部物體細節和全局上下文。空間文本提供了精確的語義和位置線索。為了進一步彌合語言和視覺之間的差距，作者納入了一種視覺提示技術，突出候選區域，引導VLM解決歧義并關注相關的圖像區域。

作者在兩個標準基準上驗證了該方法。在ScanRefer[1]上，SeeGround比先前的零樣本方法提高了7.7%，在Nr3D[40]上提高了7.1%，縮小了與完全監督模型的差距。值得注意的是，作者的方法在模糊或部分語言輸入的情況下仍然穩健，通過依賴視覺上下文來完成定位過程。

總之，作者的貢獻如下：

作者提出了SeeGround，這是一種用于零樣本3DVG的無需訓練的方法，它通過渲染視圖和空間文本將3D場景重新格式化為適合2D - VLM的輸入。
作者設計了一種查詢引導的視角選擇策略，以捕捉特定物體線索和空間上下文。
作者提出了一種視覺提示機制，將2D圖像特征與3D空間描述對齊，減少雜亂場景中的定位歧義。
作者的方法在ScanRefer和Nr3D上取得了零樣本的最先進結果，表明在無需特定3D訓練的情況下具有很強的泛化能力。

三、方法

（一）概述

3D視覺定位（3DVG）的目標是根據自然語言查詢在3D場景中定位目標物體，通過預測其對應的3D邊界框：。

作者提出了一種新穎的3DVG框架，該框架結合2D視覺 - 語言模型（2D - VLM）與空間豐富的3D表示。由于傳統的3D數據格式與2D - VLM的輸入模態不兼容，作者提出了一種混合表示，將渲染的2D視圖與結構化的3D空間描述相融合。這使得2D - VLM能夠在無需特定3D重新訓練的情況下，對視覺和空間信息進行聯合推理。

該框架由三個主要組件組成：（1）一個多模態3D表示模塊（3.1節）；（2）一個視角適應模塊（3.2節）；（3）一個融合對齊模塊（3.3節）。這種架構通過充分利用預訓練的2D - VLM的優勢，能夠在復雜的3D場景中準確地解釋和定位物體。框架概述如圖2所示。

（二）多模態3D表示

作者利用在大規模圖像 - 文本數據上預訓練的2D視覺 - 語言模型（2D - VLM），以實現對新物體的開放集理解。然而，傳統的3D表示，如點云[53, 70]、體素[71]和隱式場[54]，本質上與2D - VLM期望的輸入格式不兼容。為了彌合這一差距，作者提出了一種混合表示，將2D渲染圖像與基于文本的3D空間描述相結合。

基于文本的3D空間描述：作者首先使用一個開放詞匯的3D檢測器檢測場景中的所有物體：其中和分別表示每個物體的3D邊界框和語義標簽。這些輸出被轉換為自然語言并存儲在一個物體查找表（OLT）中以供重用：OLT作為物體級空間信息的結構化存儲庫，支持高效推理，并避免在多個查詢中進行冗余計算。
混合3D場景表示：雖然文本描述編碼了布局和語義，但它們缺乏精細的視覺線索。為了補充這一點，作者渲染與輸入查詢對齊的2D圖像：其中是渲染圖像，是相應的空間描述文本。這種配對使2D - VLM能夠同時訪問視覺外觀線索（如顏色、紋理、形狀）和準確的3D空間語義，有助于全面的場景理解。

（三）視角適應模塊

現有的視圖選擇策略通常無法與查詢所隱含的視角對齊。例如，LAR[43]渲染以物體為中心的多視圖，但缺乏全局場景上下文，而鳥瞰視圖提供了全面的空間覆蓋，但省略了垂直信息，導致遮擋和誤解（見圖3（a））。多視圖或多尺度方法[59]改善了覆蓋范圍（見圖3（b） - （d）），但仍然依賴靜態視角。此外，當渲染的視角不能反映語言查詢時，2D - VLM可能會誤解場景。因此，作者引入了一種查詢驅動的動態渲染策略，使視角與查詢意圖對齊，捕捉更多相關的空間和視覺細節（見圖3（e））。

動態視角選擇：給定查詢，2D - VLM使用少樣本提示識別一個錨點物體和一組候選目標：作者將虛擬相機放置在場景中心，面向錨點物體，并將其向后和向上移動以增強可見性和上下文。如果無法自信地提取錨點（例如，在多物體或模糊查詢中），作者默認使用位于質心的偽錨點，并應用相同的相機放置策略。
查詢對齊圖像渲染：基于選定的視角，作者使用look - at - view - transform函數計算相機姿態，該函數產生相對于的旋轉和平移。然后獲得渲染圖像為。這種查詢對齊的渲染保留了關鍵的視覺特征，同時過濾掉無關的雜亂信息，使2D - VLM能夠更準確地定位被提及的物體（見圖3（e））。

（四）融合對齊模塊

雖然2D圖像和空間描述提供了互補信息，但直接將它們輸入2D - VLM可能無法將視覺線索與相應的3D語義相關聯，特別是在包含相似實例的場景中（例如，多個椅子），這通常會導致定位錯誤。為了解決這個問題，作者引入了一個融合對齊模塊，明確地將2D視覺特征與空間定位的物體描述對齊。

深度感知視覺提示：給定渲染圖像，作者從物體查找表OLT中檢索每個物體的3D點，并使用相機姿態將它們投影到圖像平面上。為了處理遮擋，作者將每個點的深度與渲染的深度圖進行比較，只保留可見點。對于每個物體，作者在其可見投影的中心放置一個視覺提示。生成的提示圖像為：其中是屬于物體的可見像素的指示掩碼。
使用2D - VLM進行物體預測：最后，給定自然語言查詢、提示圖像和結構化空間描述，2D - VLM預測被提及的物體：通過強制視覺和空間模態之間的對齊，該模塊有效地減少了定位歧義，并提高了在雜亂場景中的物體定位能力。

四、實驗

（一）實驗設置

數據集：作者在兩個廣泛使用的3D視覺定位基準上評估方法。ScanRefer[1]包含800個ScanNet場景中的51,500個指代表達。Nr3D[40]包括通過雙人游戲收集的41,503個查詢。ScanRefer專注于稀疏點云定位，而Nr3D提供密集的3D邊界框注釋，能夠進行更精細的評估。
實現細節：在Nr3D驗證集上進行消融實驗。圖像以1000×1000分辨率渲染，排除頂部0.3 m以匹配封閉房間設置。作者遵循ZSVG3D[32]并使用Mask3D[58]進行一致的物體檢測。

（二）對比研究

在ScanRefer上，作者的方法在“Unique”分割上的Acc@0.25 / Acc@0.5達到75.7% / 68.9%，在“Multiple”分割上達到34.0% / 30.0%，超過了所有現有的零樣本和弱監督基線[32, 33, 46]，并接近完全監督方法的性能[28, 45]。在Nr3D上，作者的模型總體準確率達到46.1%，比之前零樣本的最先進方法高出7.1%[32]。它在不同子集上保持穩健，在“Easy” / “Hard”分割上達到54.5% / 38.3%，在“View - Dependent” / “View - Independent”分割上達到42.3% / 48.2%，有效地縮小了與完全監督方法的差距[23]。

（三）消融研究

架構設計的影響：作者首先評估所提出架構中每個組件的貢獻。結果總結在表3中。
場景布局：僅使用3D坐標（37.7%，表3（a））提供了粗略的物體位置，但準確率較低。通過3D邊界框的2D渲染（無紋理或顏色）納入場景布局（39.7%，表3（b）），引入了空間上下文，幫助模型推理物體的大小和位置。視覺線索：整合物體顏色/紋理（39.5%，表3（c））使模型能夠區分視覺上相似的物體，例如“白色”與“黑色”（圖4（a））。

融合對齊模塊：如表3（d）所示，添加作者提出的融合對齊模塊通過將渲染圖像與空間文本對齊，將準確率提高到43.3%，使模型能夠在雜亂場景中定位目標。

視角適應模塊：納入視角適應模塊（45.0%，表3（e））通過使視角與查詢所隱含的空間上下文對齊，提高了定位準確率（圖4（b））。這有助于解決歧義并增強空間推理。

完整配置：完整配置（表3（f））實現了最高準確率（46.1%），驗證了SEEGROUND的有效性以及所有組件結合的協同效益。 2.?作者方法與現有方法對比：ZSVG3D[32]通過投影物體中心并應用預定義的啟發式方法來推斷空間關系，但缺乏靈活性，省略了視覺上下文，并且在檢測不完善時會失敗（圖6）。如圖5a所示，其基于VLM的變體僅渲染目標和錨點中心而無背景。相比之下，作者的方法生成全場景渲染，能夠利用周圍的視覺線索對未檢測到或模糊的物體進行推理。

Qwen2 - VL與GPT - 4對比：為了提高可及性和可重復性，作者采用開源的Qwen2 - VL[36]作為智能體。為了進行公平比較，作者使用Qwen2 - VL代替GPT - 4[35]重新評估ZSVG3D（圖5b）。在相同的VLM下，作者的方法始終優于ZSVG3D，證實了作者策略的有效性，與底層語言模型無關。
視圖選擇策略的影響：表4顯示了不同視角策略的影響。作者的查詢驅動方法優于靜態基線。固定方法（Center2Corner、Edge2Center、Corner2Center）缺乏適應性，而鳥瞰視圖（BEV）雖然具有全局性，但錯過了關鍵的空間線索，如方向和高度。相比之下，作者的動態策略實現了持續的提升，特別是在Hard（+4.4%）和View - Dependent（+5.7%）查詢上。
不完整文本描述下的魯棒性評估：圖6顯示了作者模型在不完整查詢下的魯棒性，其中省略錨點物體以模擬檢測失敗。雖然基于LLM的方法在沒有錨點線索時顯著下降，但作者的方法成功利用視覺上下文保持準確的定位。這些結果強調了整合視覺和文本信號對于穩健3D理解的重要性。
不同檢測器上的結果：表5比較了不同3D檢測器的性能。使用Mask3D時，作者的方法達到44.1%，顯著超過ZSVG3D（36.4%）。使用OVIR - 3D時，作者的性能仍然更高（30.7%對19.3%）。當提供真實（GT）框時，作者的方法達到59.5%，揭示了明顯的性能上限。

類型錯誤分析：作者從10個場景中隨機采樣185個案例，以識別常見的失敗模式（圖7）。定位和分類錯誤的減少表明視覺輸入對空間理解的益處。然而，空間關系錯誤仍然頻繁（19%），這表明在精細推理方面的局限性，可以通過專門的空間模塊來解決。作者當前的視角選擇在復雜的以自我為中心的引用（例如，“當窗戶在左邊時”，“從門進入時”）方面也存在困難。此外，由于使用原始數據集點云，渲染質量有限，阻礙了物體的區分。未來的工作可以納入高保真渲染，以增強雜亂場景中的視覺清晰度。