EVO-0:具有隱空間理解的視覺-語言-動作模型

25年6月來自上海交大、EvoMind Tech 和上海算法創新研究院(IAAR-Shanghai)的論文“EVO-0: Vision-Language-Action Model with Implicit Spatial Understanding”。

視覺-語言-動作 (VLA) 模型已成為一種有前途的框架,可使通用機器人能夠在現實世界中感知、推理和行動。這些模型通常建立在預訓練的視覺-語言模型 (VLM) 之上,由于大規模文本預訓練,VLM 在語義理解方面表現出色。然而,VLM 通常缺乏精確的空間理解能力,因為它們主要針對 2D 圖像-文本對進行調整,而沒有 3D 監督。為了解決這一限制,最近的方法已經加入顯式的 3D 輸入,例如點云或深度圖,但這需要額外的深度傳感器或有缺陷的估計。相比之下,本文引入一個即插即用模塊,該模塊利用現成的視覺幾何基礎模型,將 3D 幾何特征隱式注入 VLA 模型中。其設計五個需要精確空間理解能力的空間挑戰性任務來驗證方法的有效性。


EVO-0 是一種 VLA 架構,它探索一種以隱式方式增強 VLA 模型空間理解的替代策略。具體而言,利用視覺幾何落地 transformer (VGGT) (Wang 2025) 強大的 3D 感知能力,該 transformer 在大規模 2D-3D 配對數據集上進行訓練。這些 3D 特征可以通過使用 VGGT 從機器人數據的原始視頻輸入中獲得,可用于補充 VLM,而無需依賴顯式深度輸入或估計。為此,設計一個輕量級融合模塊,將 VGGT 中基于幾何的特征與 VLM 中的視覺 tokens 相結合,使模型能夠感知物體布局并更有效地推理空間關系。

初步知識

形式化地講,在每個時間步 t,VLA 模型接收多視角視覺觀測 {I_ti} 和語言指令 L,它們由 VLM 聯合編碼,生成上下文嵌入 z_t。然后,該嵌入與機器人特定狀態 S_t(例如關節角度、夾持器狀態或末端執行器位姿)連接,并傳遞給動作專家以生成低級控制命令 A_t。因此,整個流程定義一個條件分布 p(A_t | I_ti, L, S_t)。

與通常針對特定任務進行訓練的標準模仿學習策略相比,VLA 框架提升語義基礎、模態融合和泛化能力。這使得機器人不僅能夠遵循多樣化且抽象的語言指令,還能以最少的微調適應新任務和視覺場景。

與依賴精細調整的模塊和傳感器的傳統 SLAM 或深度估計流程不同,視覺幾何基礎模型 (VGFM)(Leroy 2024;Wang 2024/2025;Li 2025c)是一類經過訓練的視覺模型,用于從二維視覺輸入重建三維結構信息。由于 VGFM 是在幾何監督下訓練的,因此它們能夠從多視角單目輸入中恢復細粒度的空間結構。這些模型為空間理解等下游任務提供了強大的結構先驗,尤其是在缺乏顯式三維傳感器的情況下。

EVO-0 模型

近期基于 3D 的 VLA 模型,例如 PointVLA (Li 2025a) 和 SpatialVLA (Qu 2025),通常采用顯式 3D 輸入(例如點云或深度圖)來增強空間理解。這些方法雖然有效,但通常需要額外的傳感器和預處理,并且通常對攝像機視點的變化較為敏感。相比之下,VGGT 則提供一種隱引入空間感知的有前景的替代方案,得益于其多樣化的訓練數據和優雅的前饋架構。近期研究已成功將 VGGT 應用于 VLM 架構(Wu 2025)和 SLAM 系統(Maggio, 2025)),證明了基于幾何的視覺 token 可以提升多模態學習和經典機器人感知中的空間理解能力。

基于這些發現,假設將 VGGT 中幾何感知的視覺表征引入動作預測流程,可以豐富空間上下文,從而實現更精準、更泛化的策略學習,而無需顯式的點云或深度輸入。為了驗證這一假設,基于 π0 (Black 2024)(一個最先進的開源 VLA 模型)構模型,并將 VGGT 中的幾何-覺察特征融入其視覺嵌入流中。該架構如圖所示。具體而言,用 VGGT 作為空間編碼器,并從其最后一層提取 tokens。

請添加圖片描述

為了將 VGGT 衍生的 token 特征集成到視覺語言流水線中,引入一個輕量級的融合器模塊,該模塊融合 Dosovitskiy (2020) 的 Vision Transformer 和 VGGT 編碼器的嵌入。具體來說,該融合器由一個交叉注意層組成,其中二維視覺 token t_2D 用作查詢,VGGT 衍生的 token t_3D 用作鍵和值。其中,M_2D 和 M_3D 分別表示來自 Vision Transformer 和 VGGT 編碼器的 token 數量。

融合后的 token 隨后被轉發至 (PaliGemma Beyer 2024) 的視覺-語言模型,該模型會同時關注幾何增強的視覺輸入和語言 token,以預測動作。為了保持計算效率并最大程度地減少對預訓練 VLM 主干網絡的干擾,凍結核心 VLM 參數,并插入了輕量級低秩自適應 (LoRA) (2022) 層。在訓練期間,僅對融合模塊、LoRA 層和流匹配動作專家進行微調,從而以最小的開銷實現有效的自適應。

下面詳細描述了這五項任務,并附有下圖所示的直觀圖:

  1. 將圓柱體置于目標中心。機器人需要將圓柱形物體精確地對準桌面上標記目標區域的中心。這項任務類似于射擊:目標上有同心環,得分取決于圓柱體的中心落入哪個環。越靠近中心,得分越高。
  2. 釘孔插入。這項任務要求機器人將圓柱形釘子插入木板上三個緊密貼合的孔中的一個。這需要在三維空間中精確對準,因為微小的傾斜或偏移都可能導致任務失敗。
  3. 抓取中間的瓶子。三個瓶子緊密地排成一排,機器人被指示抓取中間的瓶子。這個設置模擬了雜貨店的場景,商品密集地擺放在貨架上。成功的定義是拿起中間的瓶子,并且不碰到或撞倒相鄰的瓶子。
  4. 能夠拾取和放置。在這個任務中,機器人必須拾取一個標準罐子并將其放置在架子上的指定位置。放置的位置在不同的試驗中會有所不同,包括位置和高度,這要求模型將空間理解推廣到不同的配置。
  5. 透明物體拾取和放置。該任務設置與上一個任務類似,但涉及玻璃瓶等透明物體。這帶來了額外的挑戰,因為透明材料通常難以被 RGB 傳感器捕捉,而且容易產生眩光,使其難以感知和定位。

請添加圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/88803.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/88803.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/88803.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

文心大模型4.5開源測評:輕量化部署實踐與多維度能力驗證

前言:開源浪潮下的輕量化革命 2025年百度文心大模型4.5系列的開源,標志著國產大模型從“參數競賽”轉向“實用落地”的關鍵轉折。當行業仍在追逐千億參數模型時,文心4.5以0.3B輕量級模型撕開一條新賽道——單卡部署、低成本運維、中文場景高…

LeetCode 2401.最長優雅子數組

給你一個由 正 整數組成的數組 nums 。 如果 nums 的子數組中位于 不同 位置的每對元素按位 與(AND)運算的結果等于 0 ,則稱該子數組為 優雅 子數組。 返回 最長 的優雅子數組的長度。 子數組 是數組中的一個 連續 部分。 注意:長…

中華心法問答系統的解讀(1)

中華心法問答系統一、研究背景1. 研究意義2. 研究目的3. 信息檢索技術二、主要研究內容三、相關技術介紹1. Flask框架技術2. BERT模型(1)基本概念(2)BERT解決的問題(3)BERT的核心結構a. 模型結構b. 預訓練任…

Java 大視界 -- Java 大數據在智能安防視頻監控系統中的視頻摘要快速生成與檢索優化(345)

Java 大視界 -- Java 大數據在智能安防視頻監控系統中的視頻摘要快速生成與檢索優化(345)引言:正文:一、Java 構建的全場景視頻處理系統(含校園 / 工廠 / 礦區適配)1.1 校園宿舍區夜間檢索方案(…

信號量機制,互斥的避免自旋鎖的實現方法(操作系統)

這次的比喻場景要升級了,因為它既能解決互斥問題,也能解決同步問題。我們用一個更綜合的場景:一個擁有多輛共享單車的站點。共享單車 (資源):站點里有多輛共享單車,數量是有限的。你 (進程):想借一輛車去辦…

零基礎 “入坑” Java--- 十、繼承

文章目錄一、何為繼承二、繼承語法三、父類成員訪問1.成員變量2.成員方法四、super關鍵字五、子類構造方法六、super和this辨析七、再談初始化八、protected關鍵字九、繼承方式十、final關鍵字十一、繼承與組合根據我們學過的類的知識,我們來定義兩個類:…

JS進階-day1 作用域解構箭頭函數

作用域全局作用域——>盡量少使用,避免變量污染局部作用域——>函數作用域、塊級作用域作用域鏈——>底層變量查找機制(先在當前函數作用域查找,如果找不到,就沿著作用域鏈向上級作用域查找,直到全局作用域&a…

Arduino 無線通信實戰:使用 RadioHead實現 315MHz 433M模塊數據傳輸

本文將介紹如何使用 Arduino 和 RadioHead 庫實現 315MHz(或 433MHz)ASK 無線通信。通過兩個 Arduino 控制板,一個作為發射端,一個作為接收端,實現“按鍵控制 → 無線發送 → LED 控制”的基礎通信功能,非常…

012_PDF處理與文檔分析

PDF處理與文檔分析 目錄 PDF支持概述支持的功能文檔限制上傳方式分析能力應用場景最佳實踐 PDF支持概述 核心能力 Claude現在可以直接處理PDF文檔,提供全面的文檔分析能力。這項功能支持: 文本內容分析:提取和理解PDF中的文本圖像識別&…

系規備考論文:論IT服務知識管理

論IT服務知識管理 摘要 2022年7月,我公司中標某市化工廠網絡視頻監控管理系統綜合平臺運維服務項目,并任命我為系統規劃與管理師。該項目組織結構為項目型,合同金額為115.5萬元(含稅),工期為1年。本運維服務項目的主要工作包括系統軟件和網絡設備的日常監控與維護,定期…

2025.7.12總結

最近又兩三天沒寫總結了,如今必須要寫一稿,畢竟事關賺錢認知的一次顛覆。在我原有的認知里,賺錢,就是通過出賣自己的勞動時間,精力,給他人提供價值輸出。但是,賺錢,只能通過出賣體力…

把 DNA 當 PCIe:一條 365 nt 鏈實現 64 Gbps 片上光互連——基于鏈式 F?rster 共振的分子級波分復用鏈路

作者 | Blossom.118 2025-07-13 關鍵詞:DNA 光子學、FRET 波分復用、分子 PCIe、零能耗光鏈路、CMOS 兼容、開源版圖 ---- 1. 為什么用 DNA 做光互連? ? 帶寬密度:硅光 1 m 波導最高 0.4 Tbps/mm;一條 2 nm 直徑的 DNA 雙鏈&am…

[論文閱讀]Text Compression for Efficient Language Generation

Text Compression for Efficient Language Generation [2503.11426] Text Compression for Efficient Language Generation NAACL 2025 提出了“Generative Pretrained Thoughtformer”(GPTHF),這是一個分層 transformer 語言模型&#xf…

SwiftUI 7 新 WebView:金蛇出洞,網頁江湖換新天

概述 崇禎年間,華山派武學雖盛,卻在應對江湖新局時漸顯頹勢;如今 SwiftUI 江湖亦是如此 ——WWDC 25 之前,若要在 SwiftUI 中顯示網頁,開發者恰似袁承志初闖江湖,縱有一身本領,卻苦無稱手兵刃。…

LeetCode|Day9|976. 三角形的最大周長|Python刷題筆記

LeetCode|Day9|976. 三角形的最大周長|Python刷題筆記 🗓? 本文屬于【LeetCode 簡單題百日計劃】系列 👉 點擊查看系列總目錄 >> 📌 題目簡介 題號:976. 三角形的最大周長 難度&#x…

華擎B150M Pro4S魔改bios上8代U

100、200系主板魔改bios在DIY領域當屬于歷史性事件,2018年左右興起。雖然現在已經是2025年,魔改bios已經沒有多大意義,但是跟著前輩的教程魔改一次,可以重溫下當年DIY玩家的激情。 魔改教程在SMXDIY網站,寫的非常詳細&…

音視頻學習(三十七):pts和dts

概念 PTS(Presentation Time Stamp)顯示時間戳 表示:該幀應該在什么時間被顯示/播放。主要用于:同步音頻與視頻,控制播放節奏。舉例:視頻幀 A 的 PTS 是 300ms,表示應在視頻播放第 300 毫秒時顯…

關于數據庫的慢查詢

1.數據庫的慢查詢慢查詢是指執行時間超過預設閾值的數據庫查詢操作。它是數據庫性能優化的一個重要指標和切入點。慢查詢的主要特點執行時間長:超過了數據庫系統設定的慢查詢閾值(如MySQL默認是10秒)資源消耗大:可能占用大量CPU、…

【Rust日報】 Python 核心開發者對 Rust 的期望

半月刊:The Embedded Rustacean Issue #49亮點:📢 樂鑫 DevCon 2025 演講嘉賓征集🦺 CISA 和 NSA 參與內存安全對話🔐 微軟宣布 RIFT (Rust 惡意軟件分析工具)💰? Nordic 收購 Memf…

vue是什么

Vue簡介Vue(Vue.js)是一個用于構建用戶界面的漸進式JavaScript框架。它專注于視圖層,易于集成到現有項目中,也可用于開發復雜的單頁面應用(SPA)。Vue的核心特點是輕量、靈活和高效,通過數據綁定…