VidBot：從野外 2D 人體視頻中學習可泛化的 3D 動作，實現零樣本機器人操控

25年3月來自慕尼黑工大、瑞士 ETH 和微軟的論文“VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation”。

未來的機器人被設想為能夠執行各種家務的多功能系統。最大的問題仍然是，如何在盡量減少機器人物理學習的同時彌合具身之間的差距，因為物理學習從根本上來說擴展性不強。從自然人類視頻中學習，為機器人操作任務提供了一個有前途的解決方案，因為互聯網上已經存在大量相關數據。這項工作提出 VidBot，一個實現零樣本機器人操作的框架，使用從自然單目 RGB 人類視頻中學習的 3D affordance。VidBot 利用一個流水線提取顯式表征，即來自視頻的 3D 手部的軌跡，結合深度基礎模型和運動結構技術來重建與具身無關、時間一致、度量-尺度的 3D affordance 表征。其引入一種由粗到細的 affordance 學習模型，該模型首先從像素空間中識別粗略動作，然后利用擴散模型生成細粒度的交互軌跡。該模型以粗略動作為條件，并由測試時間約束引導，用于上下文-覺察的交互規劃，從而能夠大規模泛化到新的場景和具身。大量實驗證明 VidBot 的有效性，它在零樣本環境下的 13 項操作任務中顯著優于其他同類模型，并且可以在現實環境中無縫部署到機器人系統中。VidBot 為利用日常人類視頻提高機器人學習的可規模化鋪平道路。

如圖所示 VidBot：

請添加圖片描述

人工智能的進步正在加速個性化設備的開發，例如為用戶提供虛擬指導的智能眼鏡 [13, 22, 28, 62]。在不久的將來，機器人也將成為類似于智能手機或智能眼鏡的個性化系統，旨在為人類提供物理幫助。然而，機器人形態的多樣性和新穎性，對在開放式環境中部署人工智能執行開放式任務構成重大挑戰。

目前最先進的學習機器人操作技能方法，仍然嚴重依賴于人類專家的遙操作演示，這些演示用于在模仿學習 (IL) 范式下訓練機器人策略 [35, 37, 64, 95]。然而，這一過程仍然成本高昂、耗時且勞動密集。雖然近期的努力已經收集用于日常操作任務的大規模機器人演示，例如 Open X-Embodiment [59] 和 DROID [39]，但由于機器人實例、任務和環境的組合爆炸式增長，數據收集仍然具有挑戰性。

人類視頻提供一個有前途的可解決方案：目前有大量的網絡視頻捕捉到人類在各種環境中執行各種任務的場景。之前已有幾種方法探索人-機技能遷移 [2, 3, 65, 73, 78, 79, 88, 97]。然而，它們面臨著某些限制，例如需要靜態攝像機或場景、深度傳感器、動作捕捉系統等。這些限制通常導致實驗室環境缺乏場景、照明或視點的多樣性。有一系列研究探索利用具有豐富場景背景的互聯網真人視頻，來提升機器人學習任務，重點是學習視覺運動策略的視覺表征 [52, 57, 67, 85]。然而，一個主要的限制是依賴于人類在每個新環境中用每個新實例收集特定于任務的遙控數據來微調預訓練的模型。最近，像 [4] 這樣的工作通過明確提取與智體無關的交互軌跡取得進展。然而，這些提取出的運動被簡化為像素空間中的二維矢量，限制它們直接部署到機器人上。除了局限于二維圖像平面的視覺表征或像素級動作提示之外，三維 affordance ——具體來說，具有空間感知的接觸點和交互軌跡——對于統一不同的實例以從感知中解釋動作至關重要。然而，從日常人類視頻中提取一般的 3D 舞蹈數據仍然是一個巨大的挑戰，阻礙了機器人通過觀察人類來學習操縱技能。

視覺 affordance 學習。核心在于確定智體應在何處以及如何與給定場景進行交互。一項研究使用手動注釋的數據集回歸 affordance [16, 19, 20, 55]。然而，收集 affordance 標簽的成本非常高昂。因此，最近的一項研究通過在模擬環境中部署智體來探索有效交互來解決這一挑戰 [12, 24, 54, 58, 83]。盡管這些方法提供一種無需人工干預的數據收集替代方案，但它們通常會受到獲取各種虛擬資產的成本限制。相比之下，人類視頻作為 affordance 先驗的更通用來源而備受關注。一些方法 [4, 27, 48, 56] 利用人類視頻中的手與物體接觸標簽來預測每像素 affordance 得分。然而，這些流程通常僅識別接觸區域或模擬圖像平面內的交互動作，缺乏空間感知。近期的研究 [7, 92] 嘗試利用流作為空間感知的 affordance 表征來解決這一限制。然而，這些方法需要在測試時提供目標圖像或初始接觸區域。

機器人向人類學習。先前的研究已經探索利用人類視頻來輔助機器人學習任務。一種方法是從人類視頻中學習視覺表征，并使用預訓練的視覺編碼器來訓練策略網絡 [6, 52, 57, 67, 82, 85, 89]。另一類研究則側重于從人類視頻中學習獎勵函數 [3, 10, 11, 43, 47, 75, 78, 86, 88]。此外，一些研究還使用從視頻中提取的運動屬性，例如估計 3D 手勢或跟蹤手腕軌跡 [5, 61, 65, 73, 74, 78, 79, 91]。然而，這些方法通常僅限于實驗室設置和/或需要人類專家進行進一步的遙操作演示。[4] 使用日常人類視頻來提取與具身無關的動作。然而，其推斷的二維像素級運動過于簡單且模糊，限制了其直接部署到機器人上。

機器人中的擴散模型。擴散模型是一種強大的學習范式，它通過迭代去噪過程來近似復雜的數據分布。近年來，它們已在各種生成式建模應用中取得了成功[15, 23, 31, 32, 40, 68–70, 81, 96]。在機器人領域，擴散模型已被證明是強大的策略學習框架[1, 14, 36, 38, 45, 46, 51, 84]。擴散策略[14]引入一個通用框架，用于通過條件去噪擴散過程生成多模態機器人軌跡。擴散器[36]通過結合獎勵函數增強引導軌跡采樣。后續研究[46, 51, 84]提出更具因式分解的策略學習框架，使擴散模型能夠在關鍵步驟之間生成平滑的動作。然而，這些方法側重于回歸極其有限的域內遙操作數據，且在測試過程中不存在模態或具身方面的差距。

本文采用一種原則性方法，利用運動恢復結構（SfM）進行機器人學習，開發一種基于梯度的優化流水線，從野外視頻中提取 3D 手部軌跡。同時引入一個由粗到細的 affordance 學習框架，以便從提取的各種訓練數據中學習豐富的動作。

目標是從日常人類視頻中學習一個分解的 affordance 模型 a = π({I ?, D ?}, l)，其中 {I ?, D ?} 是 RGB-D 幀（圖像 ?I，深度 D ?），l 是語言指令。注意，深度幀可以從深度傳感器或度量-深度基礎模型獲得 [8, 90]。由于 affordance 表征預計與具身無關，按照先前的研究 [4, 48] 將最終輸出 affordance 表示 a 公式化為接觸點 c 和交互軌跡 τ，同時將此公式擴展到 3D 空間。具體而言，a = {c, τ}。N_c 是接觸點的數量，H 是軌跡范圍。注意，a 在觀察相機的幀中表征。

從人體視頻中獲取 3D Affordance

首先設計一個流程，用于從移動單目相機記錄的日常人體視頻中提取 3D 手部軌跡，其中每幀的姿態和位置均未知。

數據準備：給定一段包含彩色圖像的視頻 {?I_0,…,?I_T } 和語言描述 l，首先使用 SfM 系統 [71] 估計相機內參 K、每幀尺度未知的姿態 {T_WC_0,…,T_WC_T} 以及在世界坐標系中表達的稀疏特征點 {wl_0,…,wl_N_l}。利用度量-深度基礎模型 [8, 33, 90] 來預測每幀的稠密深度 {D?_0,…,D?_T}。進一步利用手部-物體檢測模型 [72] 和分割模型 [41, 94] 來獲取每幀手部和接觸物體的掩碼，即 {M_0^h,…,M_T^h}、{M_0^o,…,M_T^o}。

利用提供的手部掩碼，進一步收集 I_0 之前的幀及其手部掩碼，使用視頻修復模型 [44] 獲得無手的幀 { ?I_0 , …, ?I_T}。

一致性姿態優化。首要目標是將相機姿態校正到度量空間尺度。為了實現這一目標，利用相機內參及其姿態，將稀疏特征點投影到每個圖像平面，從而優化所有幀的全局尺度 s_g。然后，優化所有幀的姿態 T_WC_i 和尺度 s_i，以補償由于手部-物體動態運動導致的 SfM 重建誤差，同時使預測的深度在不同視圖之間更加一致。

Affordance 提取。獲取每一幀的手部中心點，并將其變換到具有精確姿勢和尺度的第一幀，以計算交互軌跡τ?。在第一幀中均勻地下采樣手部點以獲取接觸點 c?，并從最后一幀中獲取目標點 g?，以監督 affordance 模型的中間預測。語言描述 l、來自[90]的修復顏色? I_0 及其深度? D_0，以及使用 M_0^o 裁剪的修復目標圖像? I_0^o 被用作模型輸入。利用EpicKitchens-100 Videos數據集[18]及其由EpicFields[76]提供的SfM結果來展示流程的有效性。如圖展示了提取的結果：

請添加圖片描述

從粗到精的 affordance 學習

Affordance 模型概覽如圖所示。在設計模型時考慮兩個關鍵因素：（1）它應該能夠從大量自然人類 affordance 數據中捕捉基于觀察和指令的動作分布。（2）它應該在測試期間利用上下文信息來緩解由于訓練數據不完善而導致的具身差距和潛在的噪聲預測，從而提高生成的 affordance 質量。

請添加圖片描述

為了解決第一個因素，將 affordance 模型 π 分解為粗略模型 π_c 和精細模型 π_f。在粗略階段，π_c 進行高級場景理解，以 RGB-D 幀 { ?I, D ?} 和指令 l 為條件推斷出一組目標點 g 和接觸點 c，即 {g, c} = π_c({ ?I, D ? }, l), a_c = {g, c}。給定粗的階段輸出和任務輸入，π_f 在低層規劃細粒度的交互軌跡，τ = π_f({ ?I, D ? }, l, a_c)。為了實現第二個因素，為 π_f 集成多個分析成本函數，并在測試期間融入場景上下文和智體具身。這些約束指導軌跡生成過程，從而生成更合理、更能上下文-覺察的交互軌跡。

接觸點 c 和交互軌跡 τ 將成為最終的 affordance 輸出 a = {c, τ}。

在粗略階段，粗略 affordance 模型旨在從高維圖像空間中提取宏觀可操作信息。為了實現這一點，通過學習粗略affordance 的概率及其對應的深度（適用的時候）在像素空間中表示粗略操作點。

精細 affordance 模型用于推斷由接觸點和目標點引導的細粒度交互軌跡。受[36]啟發，精細階段建模一個條件擴散去噪過程。

成本-引導軌跡生成

如果條件目標點 g ? 存在偏移，推斷出的軌跡可能會出錯。這是預料之中的，因為 π_f 本質上充當了接觸點 c ? 和目標點 g ? 之間的間隙填充器。用于調節的最佳目標點并非總是基于預測分數來選擇，而來自目標集 g 的多個目標點可以產生更多樣化、更穩健的預測。然而，通過采樣不同的目標配置來多次查詢 affordance 模型在計算上效率低下。因此，將多目標調節轉換為成本函數，以在測試期間引導軌跡生成。此外，成本函數還包括場景避撞引導和接觸點法線引導。

其采用了 [32, 69] 中的重建引導。在軌跡生成過程中引入測試-時引導，有幾個優點：1）軌跡可以更好地捕捉目標分布，而無需通過精細 affordance 模型進行大量的前向傳遞。2）可以考慮新具身的形態和以前未見過的物體幾何，從而提供無碰撞的手部軌跡，并可輕松集成到下游全身規劃中。3）每個軌跡的最終成本值 J 是智體選擇最佳交互規劃的參考標準。

Affordance 模型訓練

為了訓練粗略的 affordance 模型，即 π_c^goal 和 π_c^cont，將提取的目標點 g? 和接觸點 c? 投影到圖像平面，并通過擬合高斯混合模型獲得真實概率，最終得到 H?_g 和 H?_c。目標深度 D?_g，還通過 π_goal 進行回歸，其是目標點的中值深度。引入一個輔助向量場回歸損失 L_v，用于粗略的可供性模型訓練。

模擬器環境。使用 IsaacGym [53] 作為基準測試的模擬平臺，并基于 [43] 開發環境。從三個廣泛使用的基準測試集（FrankaKitchen [30]、PartManip [24] 和 ManiSkill [29]）中選擇 13 項日常家務任務。這些任務包含打開、推動、滑動等基本動作，以及櫥柜、抽屜和水壺等各種物體。每個任務從三個不同的視角進行評估。每個模型為每個視角生成五條軌跡，每個模型每個任務總共進行 15 次試驗。評估方案使用先前研究中常用的成功率 (%) 來量化性能，其中成功的交互定義，為使任務目標的自由度 (DoF) 超過預先指定的閾值，并且不與場景中的其他物體發生碰撞。

基線模型。將模型與幾個公開的代表性基線模型進行比較。具體來說，GAPartNet [25] 和 Where2Act [54] 是使用在模擬器中收集（并與之交互）的虛擬鉸接體資產進行訓練的。Octo [59] 在大規模遙控數據集 [60] 上進行了預訓練，并使用收集的數據集進行進一步微調。VRB [4]、GFlow [92] 和模型都使用人類視頻進行訓練，而 GFlow [92] 可以訪問 [50] 中的真值深度、相機參數和物體姿態。因此，VRB [4] 和模型可以在更多的野外環境中運行。遵循 [42] 中的策略，使用物體法線聚類作為線索，將像素級軌跡從 VRB [4] 提升到 3D。VRB [4] 和 GFlow [92] 等基線無法準確推斷接觸區域。為了確保公平比較，使用自己的模型來推斷和標準化接觸配置。因此，基準測試的重點是預測準確的交互軌跡，這比接觸區域更具挑戰性。

真實機器人。在兩個現實世界的移動機器人平臺上驗證框架的有效性：Hello Robot Stretch 3 和 Boston Dynamics Spot（參見下圖）。這兩個機器人都配備用于感知的機載 RGB-D 攝像頭，并接收用于操作任務的語言指令。在三種不同的適合人類的環境中測試機器人物理能力范圍內的幾項家務任務，例如推抽屜、打開櫥柜和拿紙巾。總體而言，機器人在 55 次試驗中取得 80.0% 的成功率，證明該框架的具身不可知性和零樣本可遷移性。

請添加圖片描述