RSS 2025|斯坦福提出「統一視頻行動模型UVA」:實現機器人高精度動作推理

導讀

在機器人領域,讓機器人像人類一樣理解視覺信息并做出精準行動,一直是科研人員努力的方向。今天,我們要探討的統一視頻行動模型(Unified Video Action Model,UVA),就像給機器人裝上了一個“超級大腦”,為實現這一目標帶來了新的突破。

??【深藍AI】編譯

論文題目:Unified Video Action Model

論文作者:Shuang Li, Yihuai Gao, Dorsa Sadigh, Shuran Song

論文地址:https://arxiv.org/pdf/2503.00200

項目地址:https://unified-video-action-model.github.io/

一、UVA誕生的“前因后果”

以往的機器人研究中,視頻生成和行動預測的“配合”總是不太默契。行動建模追求捕捉精細動作的高時間速度,視頻生成則側重于高空間分辨率以輸出逼真視覺效果,這導致兩者難以平衡,處理速度也受到影響。

傳統的策略學習方法往往顧此失彼。只關注行動的方法,像跳過視頻生成的那些,雖然計算簡單,但錯失了視頻帶來的場景動態信息,容易過度依賴行動歷史,在面對視覺干擾時就“露怯”了。而先生成視頻再預測行動的方法,速度慢不說,視頻生成的誤差還會“傳染”到行動預測中。

為了解決這些難題,UVA應運而生。它就像一位“協調大師”,致力于同時處理視頻和行動信息,精準把握視覺與行動之間的潛在聯系,讓機器人在理解任務時更加“聰明”,還能在推理時快速做出行動預測。

圖1 | 統一視頻行動模型

二、UVA的“智慧核心”

(一)統一潛在視頻 - 行動表示

UVA采用統一的潛在表示,將視覺和行動數據“融合”在一起。和傳統分層生成視頻和行動的策略方法不同,UVA在訓練時同時接受視頻和行動數據的監督。這使得它能夠以較低的計算成本,捕捉到視覺和行動領域之間復雜的動態關系。通過潛在表示中豐富的場景信息,UVA在理解復雜環境和做出精準行動預測方面表現出色。

(二)解耦視頻 - 行動擴散以實現快速推理

為了提升效率,UVA把視頻生成和行動預測“分開處理”。訓練時,它用兩個輕量級擴散頭從統一的潛在空間中解碼視頻觀察和行動;推理時,直接利用潛在表示進行快速行動預測,跳過視頻生成這一步驟。這樣既保留了訓練中學習到的豐富信息,又能像只關注行動的方法一樣快速推理,實現了實時策略部署。

(三)掩碼訓練增加靈活性

UVA通過掩碼訓練解鎖了多種功能。它可以根據不同任務的需求,靈活地掩蓋輸入和輸出。比如,在只有圖像觀察時,它能像逆動力學模型一樣從視頻中生成行動標簽。這種訓練方式不僅充分利用了各種數據組合,還能防止模型過度適應特定任務,增強了模型的通用性和魯棒性。

三、UVA的“多面手”能力

(一)作為策略模型的出色表現

在策略學習方面,UVA在多種任務場景中都展現出了強大的實力。在模擬環境的單任務評估中,它能與最先進的Diffusion Policy(DP - C)模型媲美,在多任務評估中更是表現卓越。以PushT - M任務為例,UVA的成功率比最好的基線方法高出20%,在Libero10基準測試中也高出5%。

在真實世界的任務中,UVA同樣表現出色。雖然在單任務設置下,它的表現與針對特定數據集優化的DP - UMI相近,但在多任務設置下,UVA的優勢就凸顯出來了。在杯子排列、毛巾折疊和鼠標排列等任務中,UVA的成功率比DP - UMI更高。而且,UVA在處理視覺干擾、適應不同歷史長度輸入方面也有很好的表現,充分證明了聯合視頻 - 行動建模的重要性。

圖2 | 網絡架構

(二)作為視頻生成器的優秀成果

UVA在視頻生成方面也毫不遜色。通過掩碼自動編碼器訓練,它能夠以自回歸的方式生成視頻。與UniPi相比,UVA生成的視頻質量更高。在Libero10和杯子排列數據集上,UVA生成視頻的Fréchet Video Distance(FVD)得分更低,這意味著它生成的視頻在視覺保真度和時間連貫性上表現更好。即使只進行一步自回歸生成,UVA在杯子排列任務上的表現也優于UniPi,增加生成步數后效果更優。

(三)作為前向動力學模型的顯著成效

UVA還能作為前向動力學模型,指導預訓練策略模型的行為。在塊推動任務中,UVA可以根據歷史觀察和采樣的行動預測未來觀察,幫助策略模型選擇更好的行動軌跡。實驗表明,借助UVA的指導,預訓練策略模型DP - C的成功率從38% 提升到了60%,雖然比不上使用真實模擬器,但也極大地提高了任務完成的成功率。

圖3 | 模擬環境

(四)作為逆動力學模型的可靠性能

在逆動力學方面,UVA同樣表現出了良好的性能。以UMI杯子排列數據為例,UVA預測的行動與真實行動的誤差較小。與UniPi的逆動力學模型相比,UVA預測的行動更加連貫;與視覺慣性SLAM系統相比,雖然UVA的誤差略高,但仍在可接受范圍內,并且具有更好的泛化能力,有望成為難以校準且失敗率高的SLAM的替代方案。

四、UVA的“現在”與“未來”

UVA的出現,為機器人領域帶來了新的希望。它能夠充分利用視頻數據進行監督,在推理時快速預測行動,還具備多種功能,在多任務學習等方面表現出色。不過,UVA也并非完美無缺。目前,它還沒有充分利用大量無行動視頻數據,這使得它在一些真實世界任務中的表現與DP - UMI相當。

展望未來,研究人員計劃在大規模網絡視頻數據集上對UVA進行預訓練,以增強其泛化能力。此外,通過添加更多的擴散頭,UVA有望預測聲音、力等更多模態,成為一個更全面、更通用的框架。

統一視頻行動模型UVA為機器人的發展開辟了新的道路。隨著技術的不斷進步,相信UVA將不斷完善,讓機器人在更多領域發揮重要作用,為我們的生活帶來更多便利和驚喜。讓我們一起期待UVA在未來創造更多的可能!?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/82194.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/82194.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/82194.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于論文的大模型應用:基于SmartETL的arXiv論文數據接入與預處理(四)

上一篇介紹了基于SmartETL框架實現arxiv采集處理的基本流程,通過少量的組件定制開發,配合yaml流程配置,實現了復雜的arxiv采集處理。 由于其業務流程復雜,在實際應用中還存在一些不足需要優化。 5. 基于Kafka的任務解耦設計 5.…

Fiori學習專題三十五:Device Adaptation

由于在類似于手機的小面板上顯示時&#xff0c;我們為了留出更多空間展示數據&#xff0c;可以將一些控件折疊。 1.修改HelloPanel.view.xml&#xff0c;加入expandable“{device>/system/phone}” expanded"{ !${device>/system/phone} <mvc:ViewcontrollerNam…

【記錄】HunyuanVideo 文生視頻工作流

HunyuanVideo 文生視頻工作流指南 概述 本指南詳細介紹如何在ComfyUI中使用騰訊混元HunyuanVideo模型進行文本到視頻生成的全流程操作&#xff0c;包含環境配置、模型安裝和工作流使用說明。 參考&#xff1a;https://comfyui-wiki.com/zh/install/install-comfyui/install-c…

統一返回JsonResult踩坑

定義了一個統一返回類&#xff0c;但是沒有給Data 導致沒有get/set方法&#xff0c;請求一直報錯 public class JsonResult<T> {private int code;private String message;private T data;public JsonResult() {}public JsonResult(int code, String message, T data) {…

dubbo-token驗證

服務提供者過濾器 import java.util.Map; import java.util.Objects;/*** title ProviderTokenFilter* description 服務提供者 token 驗證* author zzw* version 1.0.0* create 2025/5/7 22:17**/ Activate(group CommonConstants.PROVIDER) public class ProviderTokenFilt…

沃倫森電氣高壓動態無功補償裝置助力企業電能優化

在工業生產的復雜電能環境中&#xff0c;電能質量直接影響企業的生產效率和運營成本。XX光伏科技有限公司作為一家快速發展的制造企業&#xff0c;隨著生產規模的不斷擴大&#xff0c;其內部電網面臨功率因數過低、電壓波動頻繁等問題&#xff0c;導致供電部門罰款增加、設備故…

基于EFISH-SCB-RK3576工控機/SAIL-RK3576核心板的網絡安全防火墻技術方案?(國產化替代J1900的全棧技術解析)

?基于EFISH-SCB-RK3576/SAIL-RK3576的網絡安全防火墻技術方案? &#xff08;國產化替代J1900的全棧技術解析&#xff09; ?一、硬件架構設計? ?流量處理核心模塊? ?多核異構架構?&#xff1a; ?四核Cortex-A72&#xff08;2.3GHz&#xff09;?&#xff1a;處理深度…

Maven 動態版本與SNAPSHOT機制詳解

&#x1f9d1; 博主簡介&#xff1a;CSDN博客專家&#xff0c;歷代文學網&#xff08;PC端可以訪問&#xff1a;https://literature.sinhy.com/#/?__c1000&#xff0c;移動端可微信小程序搜索“歷代文學”&#xff09;總架構師&#xff0c;15年工作經驗&#xff0c;精通Java編…

趣味編程:答案之書

概述&#xff1a;該篇博客主要介紹的是曾經一度風靡全網的答案之書小程序。 目錄 1. 效果展示 2. 源碼展示 3. 代碼邏輯詳解 3.1 頭文件與全局變量 3.2 main函數 3.3 主循環 3. 4 繪制界面 4. 運行問題 5.小結 1. 效果展示 該小程序是動態的效果&#xff0c; 因此實…

多線程初階(2)

說到多線程編程&#xff0c;一定少不了線程安全這個話題。我們前面了解了線程的原理以及線程與進程的關系。線程之間共享資源&#xff0c;這就代表了在多線程編程中一定會產生沖突&#xff0c;所以我們需要在敲代碼時保證線程安全&#xff0c;避免這樣的問題發生。 我們先看一…

【Ubuntu】安裝向日葵遠程控制

前言 在Ubuntu 24.04.2下安裝向日葵遠程控制出錯&#xff0c;少了一些依賴&#xff0c;需要安裝一些依賴。 1.安裝gconf2-common wget http://mirrors.kernel.org/ubuntu/pool/universe/g/gconf/gconf2-common_3.2.6-6ubuntu1_all.deb sudo dpkg -i gconf2-common_3.2.6-6ub…

【Python開源】深度解析:一款高效音頻封面批量刪除工具的設計與實現

&#x1f3b5; 【Python開源】深度解析&#xff1a;一款高效音頻封面批量刪除工具的設計與實現 &#x1f308; 個人主頁&#xff1a;創客白澤 - CSDN博客 &#x1f525; 系列專欄&#xff1a;&#x1f40d;《Python開源項目實戰》 &#x1f4a1; 熱愛不止于代碼&#xff0c;熱情…

JAVA房屋租售管理系統房屋出租出售平臺房屋銷售房屋租賃房屋交易信息管理源碼

一、源碼描述 這是一套房屋租售管理源碼&#xff0c;基于SpringBootVue框架&#xff0c;后端采用JAVA開發&#xff0c;源碼功能完善&#xff0c;涵蓋了房屋租賃、房屋銷售、房屋交易等業務。 二、源碼截圖

一篇文章講清楚mysql的聚簇索引、非聚簇索引、輔助索引

聚簇索引與非聚簇索引最大的區別就是&#xff1a; 聚簇索引的索引和數據是存放在一起的&#xff0c;都是在葉子結點&#xff1b; 非聚簇索引的索引和數據是分開存儲的&#xff0c;葉子節點存放的是索引和指向數據文件的地址&#xff0c;通過葉子節點找到索引&#xff0c;再通…

使用ESPHome燒錄固件到ESP32-C3并接入HomeAssistant

文章目錄 一、安裝ESPHome二、配置ESP32-C3控制燈1.主配置文件esp32c3-luat.yaml2.基礎通用配置base.yaml3.密碼文件secret.yaml4.圍欄燈four_light.yaml5.彩燈rgb_light.yaml6.左右柱燈left_right_light.yaml 三、安裝固件四、HomeAssistant配置ESPHome1.直接訪問2.配置ESPHom…

什么是變量提升?

變量提升&#xff08;Hoisting&#xff09; 是 JavaScript 引擎在代碼執行前的一個特殊行為&#xff0c;它會將變量聲明和函數聲明自動移動到當前作用域的頂部。但需要注意的是&#xff0c;只有聲明會被提升&#xff0c;賦值操作不會提升。 ??核心概念?? 變量聲明提升&…

【萬字長文】深入淺出 LlamaIndex 和 LangChain:從RAG到智能體,輕松駕馭LLM應用開發

Langchain系列文章目錄 01-玩轉LangChain&#xff1a;從模型調用到Prompt模板與輸出解析的完整指南 02-玩轉 LangChain Memory 模塊&#xff1a;四種記憶類型詳解及應用場景全覆蓋 03-全面掌握 LangChain&#xff1a;從核心鏈條構建到動態任務分配的實戰指南 04-玩轉 LangChai…

2025 后端自學UNIAPP【項目實戰:旅游項目】3、API接口請求封裝,封裝后的簡單測試以及實際使用

一、創建請求封裝目錄 選中自己的項目&#xff0c;右鍵鼠標---->新建---->目錄---->名字自定義【我的是api】 二、創建兩個js封裝文件 選中封裝的目錄&#xff0c;右鍵鼠標---->新建---->js文件---->名字自定義【我的兩個js文件分別是my_http和my_api】 三…

autojs和冰狐智能輔助該怎么選擇?

最近打算做自動化腳本&#xff0c;在autojs和冰狐智能輔助中做選擇&#xff0c;不知道該怎么選。沒辦法只能花費大量時間仔細研究了autojs和冰狐智能輔助&#xff0c;綜合考慮功能需求、開發復雜度、編程經驗及項目規模等因素。以下是兩者的核心對比及選擇建議&#xff0c;僅供…

python24-匿名函數

課程&#xff1a;B站大學 記錄python學習&#xff0c;直到學會基本的爬蟲&#xff0c;使用python搭建接口自動化測試就算學會了&#xff0c;在進階webui自動化&#xff0c;app自動化 匿名函數 匿名函數實踐是檢驗真理的唯一標準 匿名函數 匿名函數是指沒有名字的函數&#xff…