標題:
Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D
摘要:
我們提出了 Locate 3D,這是一種可根據指代表達(如“沙發和燈之間的小咖啡桌”)在三維場景中定位物體的模型。Locate 3D 在標準的指代定位基準測試中創下了新的最先進水平,并展現出強大的泛化能力。值得注意的是,Locate 3D 可直接處理傳感器觀測流(帶位姿的 RGB-D 幀),從而支持在機器人和增強現實設備上的實際部署。我們方法的關鍵是 3D-JEPA,這是一種新穎的自監督學習(SSL)算法,適用于傳感器點云。它以使用 2D 基礎模型(如 CLIP、DINO)提取特征的三維點云作為輸入,并在潛在空間中通過掩碼預測任務促進點云上下文特征的自監督學習。在訓練完成后,3D-JEPA 編碼器將與一個語言條件解碼器一起進行微調,以聯合預測三維掩碼和包圍框。此外,我們還引入了 Locate 3D 數據集,這是一個用于三維指代定位的新數據集,涵蓋多個采集設置,包含超過 13 萬條標注。這一數據集支持對模型泛化能力的系統研究,并有助于構建更強大的模型。
框架圖:
Locate 3D 的整體架構分為三個階段運行:
- 第一階段:預處理。我們構建一個點云,并通過 2D 基礎模型提取“提升”的特征,這些模型提供了局部信息。
- 第二階段:上下文化表示。這些提升特征被輸入到預訓練的 3D-JEPA 編碼器中,從而生成整個場景的上下文化表示。
- 第三階段:三維定位。一個三維解碼頭利用文本查詢和 3D-JEPA 特征來定位被指代的目標物體。
引言重要內容節選:
- 目前,3D-RefExp(3D指代表達定位)任務仍具有相當大的挑戰性。在方法的一個極端,有一些研究針對該任務在小型基準數據集上訓練專用模型。這類方法通常在推理時需要人工標注,如詳細的三維網格或物體實例分割,這使得它們難以在真實世界的設備上部署。在另一個極端,有一些方法嘗試利用 2D 多模態語言模型(VLM) 來處理 3D 任務。雖然這類方法可以借助大型語言模型(LLM)編碼豐富的語言結構,但它們對三維世界的表示方式通常比較簡單且人為設定,缺乏靈活性和泛化能力。
- Locate 3D 的工作流程分為三個階段:在第一階段的預處理階段,我們利用底層的傳感器觀測流,將來自 2D 基礎模型的特征“提升”到三維點云中。隨后,我們使用一個通過我們提出的 3D-JEPA 自監督學習(SSL)算法預訓練的 Transformer 編碼器,將這些“提升”的基礎特征轉換為上下文化特征,以提供更好的場景級理解能力。最后,我們使用一個基于語言條件的三維解碼器來定位目標物體。值得注意的是,Locate 3D 可直接處理傳感器觀測流,無需任何人工后處理(例如三維網格優化或真實物體的實例分割標注),這使其可以直接部署在機器人和增強現實設備上。
本文貢獻:
- 3D-JEPA 是一種新穎的自監督學習(SSL)方法,適用于三維點云,可學習三維場景的上下文化表示。它的輸入是從 2D 基礎模型中“提升”出的特征所構成的三維點云。其自監督的偽任務是對特征化點云中隨機掩碼區域的潛在嵌入向量進行預測。我們證明了:最終生成的 3D-JEPA 特征能夠提供場景層級的上下文理解,而來自 2D 基礎模型的“提升”特征則僅能提供局部理解。從概念上來看,這類似于自然語言處理(NLP)中 上下文化的 token 嵌入與 詞向量嵌入之間的差異。通過 3D-JEPA 的預訓練,Locate 3D 模型的性能得到了顯著提升:在域內評估中由 59.8% 提升至 61.7%,在跨域評估中由 51.5% 提升至 56.7%。
- Locate 3D 是一個用于 3D 指代表達(3D RefExp) 的模型,在多個基準測試中取得了最先進(SoTA)的結果,并展現出強大的跨域泛化能力。Locate 3D 通過微調我們預訓練好的 3D-JEPA 編碼器,結合一個語言條件三維解碼器來完成 3D RefExp 任務。該解碼器在三維特征與文本查詢之間執行交替式交叉注意力機制,并采用聯合的掩碼與包圍框預測策略。在標準的 3D RefExp 基準測試集(ScanRefer、SR3D、NR3D)上,Locate 3D 相較于現有方法實現了從 58.5% 提升至 61.7% 的最優性能。更關鍵的是,與以往模型相比,Locate 3D 在取得顯著性能的同時減少了大量假設條件。在推理階段,它不依賴真實區域提議、網格模型或表面法線,這使其特別適合在真實場景中部署。在與采用類似假設的先前工作對比時,Locate 3D 實現了從 40.7% 到 61.7% 的大幅性能躍升。此外,它還在 ScanNet++ 中的保留場景和標注上展現出強泛化能力,并在一個多房間測試環境中成功完成物體定位任務,從而支持一個端到端的機器人導航與抓取系統流程。
- Locate 3D 數據集(L3DD) 是一個用于 3D 指代表達(3D RefExp) 的新數據集,涵蓋了 ScanNet、ScanNet++和 ARKitScenes三大子數據集。L3DD 共包含 1,346 個場景,提供超過 13 萬條語言標注,使我們能夠研究 Locate 3D 在不同采集設置和多樣化室內環境采樣下的魯棒性表現。同時,它也可以作為其他指代表達模型的補充訓練數據來源。雖然 Locate 3D 在僅使用標準基準訓練數據的情況下已實現 61.7% 的最先進性能,但在引入 L3DD 訓練數據后,其在同一基準上的性能進一步提升至 63.7%。我們將使用 L3DD 數據集訓練的增強模型稱為 Locate 3D+。
相關工作
自監督學習(SSL)
相較于2D視覺,自監督學習(SSL)及更廣泛的3D數據表示學習(如點云)仍相對較少被研究(Fei 等,2023)。在少數研究中,大多集中于使用物體級點云學習單個物體的表示(Sauder 和 Sievers, 2019;Pang 等, 2022;Zhang 等, 2022)。PointMAE(Pang 等, 2022;Zhang 等, 2022)和 PointBERT(Yu 等, 2021)采用掩碼建模技術處理物體級點云,并展示了其表示在分類和分割任務中的有效性。我們的工作與其有兩個本質區別:首先,我們聚焦于場景級點云,這相比先前研究中的單物體點云規模要大得多;其次,我們處理的是高維特征點云,而非RGB點云。實驗表明,在此條件下,掩碼建模的樸素應用并不有效。PointCLIP(Zhang 等, 2021a)利用CLIP的2D基礎特征,但同樣僅用于物體級點云。先前也有研究探索用于點云數據的對比學習方法(Xie 等, 2020;Zhang 等, 2021b),旨在學習對變換不變的表示。也有一些方法嘗試將2D特征通過可微渲染(Kobayashi 等, 2022;Cao 等, 2025)或對比學習(Peng 等, 2023)蒸餾至3D空間。Ponder-v2(Zhu 等, 2023a)提出了基于可微渲染的SSL預訓練任務。更多相關工作可參考點云SSL的綜述(Fei 等, 2023)。
三維指稱定位(3D Referential Grounding)
近年來,感知與語言交叉的任務再次引起關注,如視覺指稱(Zhang 等, 2023;Liu 等, 2023;Ren 等, 2024)和視覺問答(Agrawal 等, 2016;Sermanet 等, 2023;Majumdar 等, 2024)。本工作尤為相關的是3D指稱定位基準,如 SR3D、NR3D 和 ScanRefer(Achlioptas 等, 2020),要求從語言描述中在3D場景中定位目標物體。需注意,這些基準的原始設定中提供了場景中所有物體的真實框(包括測試階段),任務是在其中選出正確的目標框。而 Locate 3D 則直接處理傳感器點云數據,無需任何標注。在該設定下的先前研究極少。
當前3D定位方法主要可分為兩類:第一類是為該任務專門設計的端到端模型,分為兩種模式。一種是 detection-based 模式,即模型直接預測與查詢匹配的邊界框(Luo 等, 2022;Jain 等, 2021);另一種是 selection-based 模式,即預訓練視覺骨干網絡生成候選區域(邊界框或分割掩碼),模型再選擇最匹配查詢的候選(Chen 等, 2022;Zhu 等, 2023b, 2024;Unal 等, 2024)。然而這些方法大多未能應用于原始傳感器點云,也未能擴展至多數據集,唯一的例外是 ConcreteNet(Unal 等, 2024),該方法從零開始訓練排序模型。該類方法的主要限制在于依賴外部候選區域生成器,而這在3D中往往困難且易出錯。
第二類方法旨在將2D基礎模型(如VLM)用于3D任務。雖然將2D特征直接提升至3D在定位簡單名詞短語中表現良好(Jatavallabhula 等, 2023b;Kobayashi 等, 2022;Wang 等, 2024),但在3D指稱定位中效果有限。因此,一些方法嘗試使用更強的多模態大模型(Yang 等, 2023a;Xu 等, 2024),或為該任務微調獨立的任務頭(Hong 等, 2023;Huang 等, 2024)。盡管這些方法繼承了基礎模型強泛化能力,但其依賴的“指稱工具”本身存在局限。從更廣義上看,Locate 3D 可被視為這些智能體在未來執行任務時可利用的強大工具。
方法介紹:
Locate 3D 的整體架構如圖 1 所示。該模型旨在處理靜態環境下的 RGB-D 傳感器觀測數據(例如:物體在短時間內保持靜止的家庭場景)。
Locate 3D 包含三個主要模塊:
- 預處理模塊(Preprocessing):利用二維基礎模型(2D Foundation Models)構建帶有特征的三維點云(詳見第 2.1 節);
- 上下文表示模塊(Contextualized Representations):通過 PointTransformer-v3(PTv3)編碼器對點云特征進行處理,生成具有上下文信息的三維表示。該編碼器采用我們提出的新型自監督學習算法 3D-JEPA 進行預訓練(詳見第 2.2 節);
- 目標定位模塊(Localization):使用一個語言條件的三維目標定位解碼器,聯合預測目標的掩碼(Mask)和邊界框(Bounding Box)(詳見第 2.3.1 節)。該解碼器從零開始訓練,并與使用 3D-JEPA 初始化的 PTv3 編碼器一起,針對指代表達定位任務進行聯合優化訓練(詳見第 2.3.2 節)。
預處理:將2D基礎模型提升到3D點云中
我們首先對輸入(已配準的 RGB-D 圖像)進行預處理,通過構建三維點云來編碼幾何信息,并利用現成的二維基礎模型(2D foundation models)對點云進行語義特征提取。我們從 DINOv2(Oquab 等,2023)中提取純視覺特征(即 patch 級別特征)。我們還從 CLIP(Radford 等,2021)中提取視覺-語言特征。由于 CLIP 特征是全局特征(即每張輸入圖像提取一個特征,而不是密集提取),我們使用 SAM(Kirillov 等,2023)從輸入圖像中提取二維實例掩碼,并基于掩碼提取每個實例的 CLIP 特征。這些特征隨后被映射回包含掩碼的像素。我們將 CLIP 特征與 DINO 特征拼接,并結合 RGB 像素強度的諧波編碼,生成密集的二維特征圖。這些特征圖被提升到三維空間,方法參考了 Jatavallabhula 等(2023b)的思路。我們首先將 RGB-D 圖像反投影以生成點云,并對其進行體素化(在實驗中我們使用了 5cm 的體素大小)。然后,我們通過加權平均體素內所有特征的方式,計算每個體素的單一特征。加權方式是基于體素邊界距離的三線性插值計算。該過程生成了一個帶有“提升”特征的點云: P t CLift = { ( x i , y i , z i , f i ) } i = 1 N \mathbf{Pt}_{\text{CLift}} = \{(x_i, y_i, z_i, f_i)\}_{i=1}^N PtCLift?={(xi?,yi?,zi?,fi?)}i=1N? 其中, f i ∈ R d f_i \in \mathbb{R}^d fi?∈Rd 表示第 i 個點的特征向量。
3D-JEPA:通過自監督學習上下文表示
3D-JEPA 接收前述升維特征 P t C lift \mathrm{PtC}_{\text{lift}} PtClift? 作為輸入,學習場景的上下文表示。與僅局限于某個物體、掩碼或局部塊的特征不同,我們希望學習到能夠關注場景不同區域的特征,從而獲得全面語義信息的表示。這一思路類似于自然語言處理中的上下文詞向量(contextualized embeddings)與傳統詞嵌入(word embeddings)之間的差異。
為了實現這種上下文表示的學習,我們借鑒了 \textit{Joint Embedding Predictive Architectures}(JEPA)框架(Assran et al., 2023;Bardes et al., 2024),提出了 \textbf{3D-JEPA}。該方法基于編碼器-預測器架構,在學習到的隱空間中執行掩碼預測(masked prediction)。
設輸入點云為 P t C \mathrm{PtC} PtC,包含由 2D 基礎模型升維而來的特征。我們使用兩個 Transformer 網絡:編碼器 E θ ( ? ) E_\theta(\cdot) Eθ?(?) 和預測器 P ? ( ? ) P_\phi(\cdot) P??(?),目標函數如下:
min ? θ , ? ∥ P ? ( E θ ( P t C ~ ) , M ) ? s g ( E ˉ θ ( P t C ) ) ∥ \min_{\theta, \phi} \left\| P_\phi\left(E_\theta(\tilde{\mathrm{PtC}}), M\right) - \mathrm{sg}\left(\bar{E}_\theta(\mathrm{PtC})\right) \right\| minθ,?? ?P??(Eθ?(PtC~),M)?sg(Eˉθ?(PtC)) ?
其中: P t C ~ \tilde{\mathrm{PtC}} PtC~ 表示帶有隨機掩碼的點云; M M M 是描述被掩碼區域的變量; s g ( ? ) \mathrm{sg}(\cdot) sg(?) 是停止梯度(stop-gradient)操作符; E ˉ θ ( ? ) \bar{E}_\theta(\cdot) Eˉθ?(?) 是編碼器的指數移動平均版本,用于防止特征塌陷(collapse)。損失在所有被掩碼區域的點上逐點計算并進行平均。在訓練完成后,編碼器 E θ ( ? ) E_\theta(\cdot) Eθ?(?) 即可作為場景的上下文表示提取器使用。
在隱空間(latent space)} 中進行掩碼預測相較于在輸入空間中進行具有以下兩點優勢:
- 與 2D 圖像中常規的 MAE 方法不同,我們的輸入特征空間維度很高——由于使用了升維后的 2D 基礎特征,其維度相當于 ViT 的輸出維度。直接重建這類高維度、細粒度特征較為困難。
- 最近的研究表明,使用教師-學生架構執行掩碼預測的方法能獲得更好的表現。
為將 JEPA 方法適配至 3D 空間,我們設計了基于有界半徑(bounded radius) 的掩碼策略,并提出了高效的 3D 原生編碼器和預測器架構。
編碼器與預測器結構(Encoder and Predictor Architectures)
與包含規則網格結構的圖像或體素(voxels)不同,點云具有無序性(order invariant)且是集合形式(set-valued)。U-Net、PointNet、DeepSets以及 PointTransformer等架構都已被證明在處理點云任務中非常有效。
在我們實現的 3D-JEPA 中,編碼器采用 Point Transformer v3。在每一層中,它首先基于點的局部鄰近性,使用雙射的空間填充曲線(bijective space filling curves)對點云進行序列化處理。接著,將點劃分為局部分組,并在每組內進行注意力計算,這一過程與卷積操作在概念上相似。
對于預測器,我們使用了類似的序列化步驟,但后續采用的是帶稀疏注意力模式(sparse attention pattern)的標準 Transformer。這種設計由于不依賴于顯式分組,從一開始就允許信息更快地混合。然而,我們發現稀疏注意力對于提高訓練吞吐量與顯存效率,以及保證訓練穩定性是至關重要的。
掩碼策略(Masking Patterns)
我們發現掩碼模式的選擇對所學習表示的質量具有關鍵影響,這與已有研究文獻中的發現一致。特別地,在我們嘗試的多種變體中,下圖所示的“序列化百分比掩碼模式(serialized percent masking pattern)”表現最佳。該掩碼方式包含兩個顯著特點:
- 以“區域”為單位進行掩碼(即遮蓋彼此距離較近的點),而不是隨機點,這種方式相比于簡單的局部插值更能促進模型對空間結構的理解;
- 按照場景的百分比進行掩碼,而不是固定數量,從而可以適配不同空間尺度的點云數據,有效提升訓練的泛化能力。
Object Localization from Referring Expressions
為了解決 3D 指代表達(Referring Expressions)任務,我們設計了一個基于語言條件的 3D 目標定位解碼器(見圖 3),其輸入為由我們提出的 3D-JEPA 編碼器(第 2.2 節)生成的上下文表征。
本節將依次介紹該解碼器的架構設計(第 2.3.1 節)以及端到端的訓練流程(第 2.3.2 節)。
2.3.1 基于語言條件的 3D 解碼器
如圖 3 所示,該解碼器處理兩個輸入:3D-JEPA 特征 E θ ( P t C lift ) E_\theta(\mathrm{PtC}_{\text{lift}}) Eθ?(PtClift?) 和文本查詢 t t t。這兩個輸入通過 transformer 結構進行迭代優化,隨后被送入三個并行的預測頭,生成所有目標的 3D 掩碼和包圍盒預測。具體架構如下所述。
解碼器輸入嵌入:我們首先將 3D-JEPA 表征 E θ ( P t C lift ) E_\theta(\mathrm{PtC}_{\text{lift}}) Eθ?(PtClift?) 投影到模型工作維度 E E E,并添加可學習的 3D 位置嵌入。同樣地,我們將文本查詢 t t t 的每個詞的 CLIP(Radford 等, 2021)嵌入投影到相同維度。隨后,我們初始化一組可學習的目標查詢 Q Q Q,并將其與語言嵌入在序列維度上拼接。在下文中,我們將投影后的 3D-JEPA 特征稱為“點特征”,而將拼接后的目標查詢與語言 token 統稱為“查詢”。
解碼器模塊:我們在點特征和查詢之間應用一系列自注意力和交叉注意力操作。具體來說,每個解碼器模塊包含三個注意力模塊:(1)查詢間的自注意力模塊,用于相互優化其表征;(2)交叉注意力模塊,使查詢能從點特征中提取相關信息以增強上下文理解;(3)用于更新點特征的交叉注意力模塊,使其能夠結合優化后的查詢信息。這第三個模塊受到 Jain 等人(2025)的啟發,其在 3D 檢測任務中驗證了更新視覺特征的重要性。該解碼器模塊被重復應用,用于點特征與查詢的迭代優化。在 Locate 3D 中,解碼器模塊數量為 n = 8 n = 8 n=8,模型維度為 E = 768 E = 768 E=768。我們觀察到,模型規模與性能之間呈正相關(見第 4 節)。
解碼器預測頭:我們的解碼器包含三個并行的預測頭(見圖 7),獨立地將優化后的可學習查詢 Q Q Q 作為候選目標進行處理。具體而言,對于每個查詢,我們通過專用預測頭聯合預測其 3D 包圍盒與 3D 掩碼。此外,參考 Kamath 等人(2021),我們還預測一個對齊矩陣,用于將每個查詢與指代表達中的名詞進行匹配。
掩碼預測頭遵循 Cheng 等人(2021)的方法,通過 MLP 處理查詢,并與點特征進行點積運算,生成每點的掩碼 logits。文本對齊預測頭由一個 MLP 構成,接收查詢并直接輸出對齊矩陣。對于包圍盒預測,我們設計了一種新的架構(見圖 7):首先將線性投影后的 ( x , y , z ) (x, y, z) (x,y,z) 坐標拼接到點特征上,然后將其與優化后的查詢進行交叉注意力操作,最終為每個查詢通過一個 MLP 回歸出包圍盒。
2.3.2 Locate 3D 的訓練過程
Locate 3D 從零開始訓練語言條件的 3D 解碼器,并對預訓練的 3D-JEPA 編碼器 PTv3 進行微調。它利用目標掩碼與包圍盒這兩種監督信號顯式結合空間約束(包圍盒)與密集語義監督(掩碼),從而獲得更好的目標定位效果(見第 4.3 節實驗)。
具體而言,Locate 3D 優化一個復合損失函數,包括:(1)掩碼損失,結合 Dice 損失與交叉熵損失;(2)包圍盒損失,由 L1 距離與廣義 IoU組成;(3)帶有 α \alpha α 平衡因子的文本對齊 Focal 損失。
按照 Carion 等人(2020)的方法,我們定義匹配代價,并使用匈牙利匹配將對象查詢預測與真實目標進行配對。在每一層解碼器上施加逐層加權的深度監督,并維護模型權重的指數滑動平均(EMA),用于評估與推理。為避免破壞預訓練特征,我們使用分階段的學習率調度器;具體做法為:首先凍結編碼器,僅訓練解碼器;然后以較低的學習率聯合微調整個模型。
3 Locate 3D 數據集概述
Locate 3D 數據集(L3DD)是一個新的人工標注的指代表達數據集,涵蓋了 ScanNet(Dai et al., 2017)、ScanNet++(v1)(Yeshwanth et al., 2023)和 ARKitScenes(Dehghan et al., 2021)。本節描述了該數據集,第四節討論了使用 L3DD 訓練 3D 指代表達模型的影響。
3.1 數據集統計
總的來說,我們的數據集包含 131,641 個樣本。按場景數據集劃分,L3DD 包括:
- ScanNet:30,135 個新的語言標注,涵蓋 550 個場所和 5,527 個物體用于訓練;4,470 個新的語言標注,涵蓋 130 個場所和 1,038 個物體用于驗證。
- ScanNet++:91,846 個新的語言標注,涵蓋 230 個場所和 13,359 個物體用于訓練;3,774 個新的語言標注,涵蓋 50 個場所和 1,303 個物體用于驗證。
- ARKitScenes:991 個新的語言標注,涵蓋 293 個場所和 1,862 個物體用于預訓練場景;425 個新的語言標注,涵蓋 93 個場所和 460 個物體用于驗證。
所有驗證集的樣本都至少由 1 名人工標注員進行驗證。超過 80% 的 ARKitScenes 和 ScanNet++ 驗證集樣本至少經過三次驗證,只有當大多數標注員一致認為樣本無歧義正確時,樣本才會被包括在內。
3.2 與先前數據集的比較
如上表 所示,與先前的數據相比,L3DD 在兩個關鍵維度上大大增加了現有 3D 指代表達數據集的規模——語言標注數量和場景覆蓋范圍。我們的語言標注大約是現有訓練數據的兩倍,并且在調整場景大小后,我們大約是現有密集 RefExp 標注場所數量的五倍。這些標注跨越多個場景數據集,允許在固定標注過程的前提下進行場景泛化的有原則的研究。我們在表 10 中展示了,這種額外的場景多樣性是 L3DD 作為訓練數據價值的關鍵——在標注數量固定的情況下,同時使用 ScanNet 和 ScanNet++ 進行訓練,明顯優于僅使用 ScanNet 標注進行訓練(在 SR3D/NR3D/ScanRefer 上的 recall@0.25 從 61.8% 提高到 63.2%)。
最后,我們解決了 RefExp 生成、錨點定位,并在某些情況下甚至在單次操作中進行分割。在現有數據集中,這些組件的標注是通過多年的工作積累而來的。L3DD 的數據集視覺效果、收集過程以及進一步的分析可在附錄 D 中查閱。
實驗與分析
在本節中,我們報告了我們訓練模型的結果。Locate 3D 在標準的 3D 基準數據集 SR3D、NR3D和 ScanRefer上進行了訓練和評估。Locate 3D+ 額外加入了我們新收集的 L3DD 數據集進行訓練。我們在基準數據集的驗證集上進行評估,并報告了不假設有 ground-truth 物體提議的 top-1 準確率。值得注意的是,我們在直接從提升的 RGB-D 觀察中獲得的傳感器點云上評估我們的方法,而不是從 ScanNet 提供的網格重建中采樣的清理過的后處理點云。這種選擇更好地代表了現實世界的部署場景,盡管由于傳感器噪聲、缺失區域和配準錯誤(如在 Jain 等,2024 中討論的那樣),通常會導致性能下降。第 4.1 節比較了 Locate 3D 和先前方法在標準基準數據集上的表現。第 4.2 節分析了 3D-JEPA 預訓練的影響。第 4.3 節呈現了我們架構中各個組件的消融研究,第 4.4 節評估了我們的方法在新環境和機器人部署中的泛化能力。
Locate 3D 與先前方法在 3D 基準數據集上的比較
首先,我們研究了 Locate 3D 在三個標準基準數據集 SR3D、NR3D 和 ScanRefer(Achlioptas 等,2020;Chen 等,2020)上的表現。我們與先前的工作和兩個視覺語言模型(VLM)基線進行比較。VLM 基線通過一個由三個階段組成的模塊化管道處理 RGB-D 觀察。在第 1 階段,VLM——無論是 Llama-3還是 GPT-4o——用于從觀察流中選擇一個 2D 幀。在第 2 階段,VLM 通過選擇由 GroundingDINO和 SAM 2生成的 2D 物體掩碼,從選定的幀中選擇一個物體。在第 3 階段,使用 SAM 2(Ravi 等,2024)對所選物體的 2D 掩碼進行時間傳播,并通過深度和相機信息提升到 3D,以生成預測的 3D 邊界框。Llama-3 和 GPT-4o VLM 基線的更多細節請參見附錄 F。
我們在表 2 中展示了總體結果。大多數先前的工作假設在訓練和推理時可以訪問精細化的網格和網格(物體)區域提議。相反,我們選擇在更現實的條件下評估我們的模型,即只使用傳感器觀察流。在這種更嚴格的設置下,我們的模型(Locate 3D)即使與那些在精細網格點云下操作的先前方法進行比較,仍然取得了最先進的(SoTA)結果。此外,當使用我們自己的 L3DD 數據集進行訓練(Locate 3D+)時,模型在所有度量上表現得更強,盡管保持相同的架構和訓練方法。接下來,我們將討論導致這些性能提升的不同組件。
理解 3D-JEPA 的影響
3D SSL(自監督學習)是必要的嗎?提升的 2D 基礎特征是否足夠?我們進行了一個系統的消融研究,考察了三個關鍵方面:(1)輸入特征的選擇,(2)使用編碼器架構與僅在提升的特征上訓練解碼器的作用,以及(3)用 3D-JEPA 預訓練初始化編碼器的好處。對于每種配置,我們都訓練了相同類型的解碼器。總體結果展示在表 3 中。
我們首先考察了輸入特征的影響,將原始 RGB 點云與提升的 2D 基礎特征進行比較。結果清晰地展示了強大的 2D 基礎特征的重要性,CF 相對于 RGB 展現了顯著的提升(28.9% → 53.9% Acc@25)。在引入編碼器架構后,我們觀察到了有趣的模式。即使是隨機初始化,編碼器也為兩種輸入類型提供了增益,盡管 RGB 特征的提升更為明顯(28.9% → 51.4%)與 CF 特征(53.9% → 59.8%)。使用凍結的 3D-JEPA 編碼器,相比于基線 CF 特征,在 Acc@25 和 Acc@50 上分別提高了 3% 和 4%,表明 3D-JEPA 學到了適合定位的強表示。最后,我們發現微調 3D-JEPA 編碼器達到了最佳性能 61.7%,突顯了 SSL 預訓練和任務特定微調的重要性。
Locate 3D 的消融研究
來自 2D 基礎特征的好處
由于互聯網上有大量數據可用,2D 基礎模型不斷取得進展。這些進展是否也能改善 3D 的結果?如果能,這為利用進展提供了一個強大的機會。為了驗證這一點,我們使用不同的 2D 基礎特征訓練了 Locate 3D 的變體。這個過程通過提升 2D 特征,使用這些特征預訓練 3D 主干,并進行 3D-RefExp 的端到端微調,結果展示在表 4 中。我們發現,使用更大的模型(CLIP-L,SAM-H)相對于較小的變體(CLIP-B,MobileSAM)能夠改善結果,表明擴展模型規模有益。此外,使用 CLIP-L 和 DINO-v2 相比單獨使用 CLIP-L,結果有了顯著提升。因此,我們發現 2D 基礎模型的改進能夠轉化為 3D 物體定位的提升。
最優解碼器頭架構與監督策略
鑒于我們是聯合預測任務,我們研究了兩個關鍵設計選擇:(1)監督信號的類型(僅掩碼、僅邊框或兩者結合),以及(2)邊界框預測頭的架構。我們的實驗(表 6)表明,僅掩碼監督獲得了適度的性能(55.4%),但落后于我們采用專門的邊框頭的做法(61.7%)。雖然使用 DBSCAN 后處理這些掩碼有助于解決噪聲預測問題(58.4%),但它仍然表現不佳,尤其是在較高 IoU 下(IoU@50 時 41.6% 對比 49.4%),同時將非可微的組件引入了管道。相反,單獨的邊框監督導致了極差的性能(0.3%),我們推測這是由于缺乏更密集的掩碼監督信號。最后,在邊框頭架構方面,我們發現基于變換器的設計相較于使用 MLP(61.7% 對比 35.6%)顯著優越,證明了通過跨注意力正確整合空間信息的重要性。
在新環境中的評估
L3DD 上的表現
我們通過在我們 L3DD 數據集(第 3 節)上對 Locate 3D 的評估,檢驗其泛化能力。該數據集涵蓋了三個場景數據集。我們還在用于機器人測試的持出環境(FRE)上評估了 412 個樣本。即使只在 ScanNet 上訓練,Locate 3D 在 L3DD 的 ScanNet++ 和 ARKitScenes 上也展示了強大的表現。盡管存在顯著的領域差距,Locate 3D 在大多數度量上都超過了基線,展示了我們方法的魯棒性。
我們的消融研究揭示了促成這種強泛化能力的關鍵組件。首先,用提升的基礎特征(CF)替代原始 RGB 輸入顯著改善了跨數據集的表現,所有基準測試結果都有提升(SN++:37.5% → 51.5%,ARKitScenes:11.3% → 41.7%,FRE:39.9% → 54.1%)。引入 3D-JEPA 初始化(Locate 3D)進一步增強了泛化能力,使得在 SN++ 上的性能提升至 56.7%,在 ARKitScenes 上提升至 46.2%。最后,在表 8 中,我們展示了將 L3DD 的附加訓練數據(Locate 3D+)引入后,在所有基準上的顯著改進(SN++:56.7% → 83.9%,ARKitScenes:46.2% → 57.6%,FRE:52.0% → 73.5%)。然而,我們觀察到,包含來自 L3DD 域內的訓練數據會減少 3D-JEPA 預訓練對 L3DD 評估的影響。
在機器人上的部署
如前所述,我們的模型能夠處理傳感器流,并且在測試時無需人工干預(例如,網格細化或實例分割)。我們在 Spot 機器人上部署了我們的 Locate 3D 模型,在一個持出的公寓場景中進行測試。該場景通過多房間測試公寓的方式屬于分布外數據,并且其大小超過了訓練數據。任務是導航至家具物體并拾起“毛絨玩具”。成功通過抓取玩具來驗證。我們的結果顯示,Locate 3D 在 10 次實驗中成功率達到了 8/10,超越了基線,后者的最高成功率為 5.66/10(詳細信息請參見表 11)。注意,導航和拾取使用了預訓練的技能,而定位依賴于我們的模型。更多詳細信息請參見補充視頻和附錄 E.1。
計算分析
運行時間分析
為了提高計算效率,我們為每個視圖緩存環境的 2D 特征以及特征化的點云。在 ScanNet 實驗中,我們離線計算這個緩存;在機器人實驗中,我們在進行初步環境探索階段時計算它。使用這個特征緩存,模型的前向傳播在包含 100k 特征點的場景中需要 1 秒,并在 A100 GPU 上使用 8 GB 的 VRAM。
限制
我們之所以能夠使用這種緩存,是因為我們的基準測試是在靜態(ScanNet)或準靜態(機器人)環境下進行的。將我們的方法擴展到動態場景需要實時計算 2D 特征,并不斷更新特征化的環境。我們認為,前者是一個工程問題,而后者是一個活躍的研究領域,像 Lifelong LERF(Rashid 等,2024)等方法正在探索這一問題。
總結
在本研究中,我們提出了 Locate 3D——一個用于從文本指稱表達中在三維空間中定位目標物體的模型。我們的方法依賴于 3D-JEPA,這是一種針對點云的全新自監督學習方法。該方法首先將2D基礎模型(如 SAM、CLIP、DINO)提取的特征投影到3D點云中,隨后在這些提升后的特征上進行自監督學習,預訓練任務為潛在空間中的掩碼預測——即利用場景中其余部分預測被掩碼區域的潛在特征。我們證明,該策略能夠學習具有上下文感知能力的表示——即某個點的特征能夠結合整個場景的信息。我們還展示了,采用 3D-JEPA 預訓練的骨干網絡可以通過 mask-and-box 解碼器在 RefExp 任務上有效微調,最終形成 Locate 3D 模型。實驗證明,Locate 3D 在多個標準 RefExp 基準上達到了最新的最優性能。此外,與以往方法不同,Locate 3D 僅依賴傳感器采集的點云,因此更適用于機器人、智能眼鏡等實際應用場景。