25年6月來自上海交大、EvoMind Tech 和上海算法創新研究院(IAAR-Shanghai)的論文“EVO-0: Vision-Language-Action Model with Implicit Spatial Understanding”。
視覺-語言-動作 (VLA) 模型已成為一種有前途的框架,可使通用機器人能夠在現實世界中感知、推理和行動。這些模型通常建立在預訓練的視覺-語言模型 (VLM) 之上,由于大規模文本預訓練,VLM 在語義理解方面表現出色。然而,VLM 通常缺乏精確的空間理解能力,因為它們主要針對 2D 圖像-文本對進行調整,而沒有 3D 監督。為了解決這一限制,最近的方法已經加入顯式的 3D 輸入,例如點云或深度圖,但這需要額外的深度傳感器或有缺陷的估計。相比之下,本文引入一個即插即用模塊,該模塊利用現成的視覺幾何基礎模型,將 3D 幾何特征隱式注入 VLA 模型中。其設計五個需要精確空間理解能力的空間挑戰性任務來驗證方法的有效性。
EVO-0 是一種 VLA 架構,它探索一種以隱式方式增強 VLA 模型空間理解的替代策略。具體而言,利用視覺幾何落地 transformer (VGGT) (Wang 2025) 強大的 3D 感知能力,該 transformer 在大規模 2D-3D 配對數據集上進行訓練。這些 3D 特征可以通過使用 VGGT 從機器人數據的原始視頻輸入中獲得,可用于補充 VLM,而無需依賴顯式深度輸入或估計。為此,設計一個輕量級融合模塊,將 VGGT 中基于幾何的特征與 VLM 中的視覺 tokens 相結合,使模型能夠感知物體布局并更有效地推理空間關系。
初步知識
形式化地講,在每個時間步 t,VLA 模型接收多視角視覺觀測 {I_ti} 和語言指令 L,它們由 VLM 聯合編碼,生成上下文嵌入 z_t。然后,該嵌入與機器人特定狀態 S_t(例如關節角度、夾持器狀態或末端執行器位姿)連接,并傳遞給動作專家以生成低級控制命令 A_t。因此,整個流程定義一個條件分布 p(A_t | I_ti, L, S_t)。
與通常針對特定任務進行訓練的標準模仿學習策略相比,VLA 框架提升語義基礎、模態融合和泛化能力。這使得機器人不僅能夠遵循多樣化且抽象的語言指令,還能以最少的微調適應新任務和視覺場景。
與依賴精細調整的模塊和傳感器的傳統 SLAM 或深度估計流程不同,視覺幾何基礎模型 (VGFM)(Leroy 2024;Wang 2024/2025;Li 2025c)是一類經過訓練的視覺模型,用于從二維視覺輸入重建三維結構信息。由于 VGFM 是在幾何監督下訓練的,因此它們能夠從多視角單目輸入中恢復細粒度的空間結構。這些模型為空間理解等下游任務提供了強大的結構先驗,尤其是在缺乏顯式三維傳感器的情況下。
EVO-0 模型
近期基于 3D 的 VLA 模型,例如 PointVLA (Li 2025a) 和 SpatialVLA (Qu 2025),通常采用顯式 3D 輸入(例如點云或深度圖)來增強空間理解。這些方法雖然有效,但通常需要額外的傳感器和預處理,并且通常對攝像機視點的變化較為敏感。相比之下,VGGT 則提供一種隱引入空間感知的有前景的替代方案,得益于其多樣化的訓練數據和優雅的前饋架構。近期研究已成功將 VGGT 應用于 VLM 架構(Wu 2025)和 SLAM 系統(Maggio, 2025)),證明了基于幾何的視覺 token 可以提升多模態學習和經典機器人感知中的空間理解能力。
基于這些發現,假設將 VGGT 中幾何感知的視覺表征引入動作預測流程,可以豐富空間上下文,從而實現更精準、更泛化的策略學習,而無需顯式的點云或深度輸入。為了驗證這一假設,基于 π0 (Black 2024)(一個最先進的開源 VLA 模型)構模型,并將 VGGT 中的幾何-覺察特征融入其視覺嵌入流中。該架構如圖所示。具體而言,用 VGGT 作為空間編碼器,并從其最后一層提取 tokens。
為了將 VGGT 衍生的 token 特征集成到視覺語言流水線中,引入一個輕量級的融合器模塊,該模塊融合 Dosovitskiy (2020) 的 Vision Transformer 和 VGGT 編碼器的嵌入。具體來說,該融合器由一個交叉注意層組成,其中二維視覺 token t_2D 用作查詢,VGGT 衍生的 token t_3D 用作鍵和值。其中,M_2D 和 M_3D 分別表示來自 Vision Transformer 和 VGGT 編碼器的 token 數量。
融合后的 token 隨后被轉發至 (PaliGemma Beyer 2024) 的視覺-語言模型,該模型會同時關注幾何增強的視覺輸入和語言 token,以預測動作。為了保持計算效率并最大程度地減少對預訓練 VLM 主干網絡的干擾,凍結核心 VLM 參數,并插入了輕量級低秩自適應 (LoRA) (2022) 層。在訓練期間,僅對融合模塊、LoRA 層和流匹配動作專家進行微調,從而以最小的開銷實現有效的自適應。
下面詳細描述了這五項任務,并附有下圖所示的直觀圖:
- 將圓柱體置于目標中心。機器人需要將圓柱形物體精確地對準桌面上標記目標區域的中心。這項任務類似于射擊:目標上有同心環,得分取決于圓柱體的中心落入哪個環。越靠近中心,得分越高。
- 釘孔插入。這項任務要求機器人將圓柱形釘子插入木板上三個緊密貼合的孔中的一個。這需要在三維空間中精確對準,因為微小的傾斜或偏移都可能導致任務失敗。
- 抓取中間的瓶子。三個瓶子緊密地排成一排,機器人被指示抓取中間的瓶子。這個設置模擬了雜貨店的場景,商品密集地擺放在貨架上。成功的定義是拿起中間的瓶子,并且不碰到或撞倒相鄰的瓶子。
- 能夠拾取和放置。在這個任務中,機器人必須拾取一個標準罐子并將其放置在架子上的指定位置。放置的位置在不同的試驗中會有所不同,包括位置和高度,這要求模型將空間理解推廣到不同的配置。
- 透明物體拾取和放置。該任務設置與上一個任務類似,但涉及玻璃瓶等透明物體。這帶來了額外的挑戰,因為透明材料通常難以被 RGB 傳感器捕捉,而且容易產生眩光,使其難以感知和定位。