導讀
在機器人領域,讓機器人像人類一樣理解視覺信息并做出精準行動,一直是科研人員努力的方向。今天,我們要探討的統一視頻行動模型(Unified Video Action Model,UVA),就像給機器人裝上了一個“超級大腦”,為實現這一目標帶來了新的突破。
??【深藍AI】編譯
論文題目:Unified Video Action Model
論文作者:Shuang Li, Yihuai Gao, Dorsa Sadigh, Shuran Song
論文地址:https://arxiv.org/pdf/2503.00200
項目地址:https://unified-video-action-model.github.io/
一、UVA誕生的“前因后果”
以往的機器人研究中,視頻生成和行動預測的“配合”總是不太默契。行動建模追求捕捉精細動作的高時間速度,視頻生成則側重于高空間分辨率以輸出逼真視覺效果,這導致兩者難以平衡,處理速度也受到影響。
傳統的策略學習方法往往顧此失彼。只關注行動的方法,像跳過視頻生成的那些,雖然計算簡單,但錯失了視頻帶來的場景動態信息,容易過度依賴行動歷史,在面對視覺干擾時就“露怯”了。而先生成視頻再預測行動的方法,速度慢不說,視頻生成的誤差還會“傳染”到行動預測中。
為了解決這些難題,UVA應運而生。它就像一位“協調大師”,致力于同時處理視頻和行動信息,精準把握視覺與行動之間的潛在聯系,讓機器人在理解任務時更加“聰明”,還能在推理時快速做出行動預測。
圖1 | 統一視頻行動模型
二、UVA的“智慧核心”
(一)統一潛在視頻 - 行動表示
UVA采用統一的潛在表示,將視覺和行動數據“融合”在一起。和傳統分層生成視頻和行動的策略方法不同,UVA在訓練時同時接受視頻和行動數據的監督。這使得它能夠以較低的計算成本,捕捉到視覺和行動領域之間復雜的動態關系。通過潛在表示中豐富的場景信息,UVA在理解復雜環境和做出精準行動預測方面表現出色。
(二)解耦視頻 - 行動擴散以實現快速推理
為了提升效率,UVA把視頻生成和行動預測“分開處理”。訓練時,它用兩個輕量級擴散頭從統一的潛在空間中解碼視頻觀察和行動;推理時,直接利用潛在表示進行快速行動預測,跳過視頻生成這一步驟。這樣既保留了訓練中學習到的豐富信息,又能像只關注行動的方法一樣快速推理,實現了實時策略部署。
(三)掩碼訓練增加靈活性
UVA通過掩碼訓練解鎖了多種功能。它可以根據不同任務的需求,靈活地掩蓋輸入和輸出。比如,在只有圖像觀察時,它能像逆動力學模型一樣從視頻中生成行動標簽。這種訓練方式不僅充分利用了各種數據組合,還能防止模型過度適應特定任務,增強了模型的通用性和魯棒性。
三、UVA的“多面手”能力
(一)作為策略模型的出色表現
在策略學習方面,UVA在多種任務場景中都展現出了強大的實力。在模擬環境的單任務評估中,它能與最先進的Diffusion Policy(DP - C)模型媲美,在多任務評估中更是表現卓越。以PushT - M任務為例,UVA的成功率比最好的基線方法高出20%,在Libero10基準測試中也高出5%。
在真實世界的任務中,UVA同樣表現出色。雖然在單任務設置下,它的表現與針對特定數據集優化的DP - UMI相近,但在多任務設置下,UVA的優勢就凸顯出來了。在杯子排列、毛巾折疊和鼠標排列等任務中,UVA的成功率比DP - UMI更高。而且,UVA在處理視覺干擾、適應不同歷史長度輸入方面也有很好的表現,充分證明了聯合視頻 - 行動建模的重要性。
圖2 | 網絡架構
(二)作為視頻生成器的優秀成果
UVA在視頻生成方面也毫不遜色。通過掩碼自動編碼器訓練,它能夠以自回歸的方式生成視頻。與UniPi相比,UVA生成的視頻質量更高。在Libero10和杯子排列數據集上,UVA生成視頻的Fréchet Video Distance(FVD)得分更低,這意味著它生成的視頻在視覺保真度和時間連貫性上表現更好。即使只進行一步自回歸生成,UVA在杯子排列任務上的表現也優于UniPi,增加生成步數后效果更優。
(三)作為前向動力學模型的顯著成效
UVA還能作為前向動力學模型,指導預訓練策略模型的行為。在塊推動任務中,UVA可以根據歷史觀察和采樣的行動預測未來觀察,幫助策略模型選擇更好的行動軌跡。實驗表明,借助UVA的指導,預訓練策略模型DP - C的成功率從38% 提升到了60%,雖然比不上使用真實模擬器,但也極大地提高了任務完成的成功率。
圖3 | 模擬環境
(四)作為逆動力學模型的可靠性能
在逆動力學方面,UVA同樣表現出了良好的性能。以UMI杯子排列數據為例,UVA預測的行動與真實行動的誤差較小。與UniPi的逆動力學模型相比,UVA預測的行動更加連貫;與視覺慣性SLAM系統相比,雖然UVA的誤差略高,但仍在可接受范圍內,并且具有更好的泛化能力,有望成為難以校準且失敗率高的SLAM的替代方案。
四、UVA的“現在”與“未來”
UVA的出現,為機器人領域帶來了新的希望。它能夠充分利用視頻數據進行監督,在推理時快速預測行動,還具備多種功能,在多任務學習等方面表現出色。不過,UVA也并非完美無缺。目前,它還沒有充分利用大量無行動視頻數據,這使得它在一些真實世界任務中的表現與DP - UMI相當。
展望未來,研究人員計劃在大規模網絡視頻數據集上對UVA進行預訓練,以增強其泛化能力。此外,通過添加更多的擴散頭,UVA有望預測聲音、力等更多模態,成為一個更全面、更通用的框架。
統一視頻行動模型UVA為機器人的發展開辟了新的道路。隨著技術的不斷進步,相信UVA將不斷完善,讓機器人在更多領域發揮重要作用,為我們的生活帶來更多便利和驚喜。讓我們一起期待UVA在未來創造更多的可能!?