利用視覺-語言模型搭建機器人靈巧操作的支架

25年6月來自斯坦福和德國卡爾斯魯厄理工的論文“Scaffolding Dexterous Manipulation with Vision-Language Models”。

靈巧機械手對于執行復雜的操作任務至關重要，但由于演示收集和高維控制的挑戰，其訓練仍然困難重重。雖然強化學習 (RL) 可以通過在模擬中積累經驗來緩解數據瓶頸，但它通常依賴于精心設計的、針對特定任務的獎勵函數，這阻礙了其可擴展性和泛化能力。因此，當代靈巧操作領域的研究通常基于參考軌跡進行引導。這些軌跡指定了目標（target）手的姿勢，用于指導 RL 策略和目標（object）姿勢的探索，其能夠實現密集的、與任務無關的獎勵。然而，尋找合適的軌跡——尤其是針??對靈巧手的軌跡——仍然是一項重大挑戰。然而，由于 RL 最終會細化動作，因此顯式參考軌跡中的精確細節通常是不必要的。

本文關鍵見解是，現代視覺語言模型 (VLM) 已經編碼了指定任務和有效指導探索所需的常識性空間和語義知識。給定一個任務描述（例如“打開柜子”）和一個視覺場景，該方法首先使用現成的視覺語言模型 (VLM) 識別與任務相關的關鍵點（例如，手柄、按鈕），然后合成手部運動和物體運動的 3D 軌跡。隨后，在模擬環境中訓練一個低層殘差強化學習 (RL) 策略，以高保真度追蹤這些粗略軌跡或“支架”。通過一系列涉及關節運動和語義理解的模擬任務，該方法證明能夠學習穩健的靈巧操作策略。此外，還展示該方法，無需任何人工演示或人工設置獎勵，即可遷移到現實世界的機械手上。

方法概述如圖所示：

請添加圖片描述

問題表述

目標是學習一種用于靈巧操作的分層策略，其中高級和低級策略通過基于 3D 關鍵點的規劃或軌跡“支架”進行交互。雖然一些先前的研究假設能夠訪問真實狀態（通常在模擬中），但此類信息在實踐中通常只能部分觀察到。例如，假設人們能夠精確測量現實世界中的目標姿態和速度是不現實的。只有靈巧手的本體感受狀態 (w, q, q?) 是精確已知的，該狀態由當前腕部姿態 w、手指關節位置 q 和速度 q? 組成。假設訪問的是 RGB 圖像 I、深度 D 以及用于傳達任務的語言指令 L，而不是真實狀態。按照靈巧操作的標準做法，用一個絕對動作空間，該空間由期望的手腕 w^targ 和手指關節位置 q^targ 組成，即 (w^targ, q^targ) ∈ A。

高級策略 π^h 根據語言指令 L 生成一個基于粗略 3D 關鍵點的規劃 τ，并在時間 t = 1 處生成一個初始高級觀測值 o^h_1，其中包含初始圖像 I_1 和手腕位置 w_1。當使用 VLM 實例化 π^h 時，假設它能夠將圖像空間中的 2D 關鍵點 u⁽ⁱ⁾ 投影到世界坐標系中 3D 關鍵點 x⁽ⁱ⁾，這在實踐中很容易通過深度信息 D 和相機參數（內外）實現。最終規劃 τ 中的3D關鍵點 k 的數量，由指令 L 指定。將這些關鍵點枚舉為x⁽¹⁾,…x^(k)，并通過簡寫 1:T縮寫為長度為 T 的時間序列。最終的關鍵點規劃 τ 包含 k 個3D關鍵點序列 x⁽¹⁾_1:T,…x^(k)_1:T 和一個預測手腕姿勢序列 w ?_1:T。該粗略規劃通過 k 個關鍵點序列（用于捕捉目標運動）封裝任務信息，并通過手腕位置 w 封裝了指導智體探索的信息。

高級策略僅為腕關節 w 提供粗略的規劃，而非手指關節位置 q，后者將由低級策略通過強化學習進行學習。

低級策略 π^l 生成腕關節和手指動作 a_t 來執行關鍵點規劃 τ。假設可以訪問一個關鍵點追蹤模型，該模型在時間 t = 1 時給定一個初始 3D 關鍵點 x⁽ⁱ⁾_1，能夠追蹤其隨時間推移的位置，從而生成 x?_t⁽ⁱ⁾ 的估計值。然后，低級策略 π^l 通過強化學習進行優化，使用獎勵函數來鼓勵估計的 3D 關鍵點 x?(i) 與規劃 τ 生成的 x⁽ⁱ⁾_t 之間的一致性。為了完成此任務，它將低級觀測值 o^l_t（包含本體感受狀態 (w, q, q?) 和估計的關鍵點 x?⁽¹⁾_t, ……x?^(k)_t）作為輸入，以及規劃 τ_t:T 的所有未來步驟。

通過VLM生成高級策略的軌跡

使用VLM實現高級策略 π^h，該學習器必須能夠有效地將任務描述 L 和初始圖像 I_1 轉換為粗略運動規劃 τ，以便 π^l 完成。這需要高度的語義和空間推理能力：不同關鍵點 x?_1:T⁽ⁱ⁾ 的路徑必須遵循目標之間的理想關系（例如，將蘋果放在砧板上）和物理約束（例如，錘頭必須保持與手柄連接）。同時，預測的手腕軌跡 w ?_1:T 必須保持靠近目標物體以便于操作。使用VLM分三個階段生成粗略關鍵點規劃 τ：(1) 語義關鍵點檢測，(2) 粗略軌跡生成，以及 (3) 插值。如圖左側提供可視化概覽。此外，還可以使用少樣本提示 (few-shot prompting) 來改進生成的規劃 τ。

請添加圖片描述

關鍵點檢測。首先，VLM 在圖像 I 中識別與完成文本 L 中描述的任務相關的 k 個二維關鍵點 u⁽¹⁾, …, u^(k)。VLM 會根據該任務所需的關鍵點進行提示。例如，對于“敲擊”任務，關鍵點包括錘子的柄和頭；對于語義拾取任務，關鍵點包括物體的位置及其所需位置。由于 VLM 在二維圖像平面中運行，利用深度信息將二維關鍵點 u 提升到三維世界坐標 x。

軌跡生成。其次，給定文本描述 l，VLM 為每個初始三維關鍵點 x⁽¹⁾, …, x^(k) 和手腕位置 w_1 生成長度 n < T 的航點序列。總的來說，這將產生 (k + 1) × n 個 3D 航點，它們將作為規劃 τ 的基礎。雖然第一個關鍵點檢測階段依賴于 VLM 的圖像理解，但此階段更多地依賴于空間理解和推理——VLM 必須將語義描述轉化為動作，例如，“錘擊”的含義或門如何打開，同時尊重關鍵點之間的物理約束以及手和被操作目標之間的接近度。注：沒有讓 VLM 生成整個視界 T 的關鍵點軌跡，因為這樣做可能更加困難且不準確。相反，每個航點的質量比數量更重要，因為低級 RL 可以補償位置上的小錯誤，但不能補償推理中的大錯誤。

插值。最后，雖然為所有關鍵點和智體的手腕姿勢提供了長度為 n 的粗略航點軌跡，但直接使用這些航點作為運動目標可能會導致運動過快或抖動。因此，額外應用線性插值，將 n 個航點轉換為長度為 T 的序列，例如 x(i)_1:T，以形成用于訓練低級策略 π^l 的最終規劃 τ。
少樣本改進。雖然 VLM 生成的關鍵點規劃 τ 通常是正確的，但它們并非絕對可靠。例如，有時高級策略 π^h 會翻轉世界坐標軸，導致關鍵點規劃難以理解。如果 VLM 規劃未能完成任務，此類錯誤將無法挽回。然而，VLM 的準確率通常可以通過提供上下文示例來提高 [9, 36]。在部署最終系統后，可以將低級策略成功執行的規劃示例用作未來生成的上下文示例。假設 m 個成功規劃 τ⁽¹⁾, …, τ^(m)，可以將高級策略提示為 π^h(τ|s_1,τ⁽¹⁾, …,τ^(m))，從而為低級策略生成更好的規劃。正如實驗所示，隨著上下文規劃的改進，反復重復此過程可以進一步提高性能。

基于強化學習的低級控制

低級策略 π^l 確保 π^h 提供的關鍵點規劃 τ 能夠得到有效跟蹤。

用殘差強化學習 [13, 22] 來學習 π^l，將其形式化為一個基于低級觀測空間 O^l 和動作空間 A 的“規劃”條件馬爾可夫決策過程 (MDP)，其視界為 T。

為了考慮關鍵點估計中的噪聲，假設動態過程為隨機 p(o_t+1|o_t, a_t)，并且初始狀態 o^l_1 ～ p^init_τ 始終與高級規劃 τ 一致，以確保其有效性。

簡單來說，π^l 的優化目標是最大化從 π^h 中采樣的規劃預期累積獎勵，max_π^l E_τ～π^h(·|o^h_1) E_o^l_1:T ～π^l(·|τ)[∑?r_τ (o^l_t)]，其中 π^l(·|τ) 表示在 π^l 和 p^init_τ 下長度為 T 的完整軌跡分布。

密集關鍵點獎勵。基于強化學習的標準靈巧操作方法通常需要復雜的、手工制作的獎勵函數。然而，如果有一個高級關鍵點規劃 τ 來規定所有目標應該如何移動和交互，可以簡單地通過關鍵點距離來獎勵智體遵循規劃。雖然類似的想法已被用于跟蹤參考演示 [6] 中的真實物體姿態，但在此選擇跟蹤關鍵點，因為這些關鍵點不需要完全可觀測性。

殘差策略。為了引導智體朝著高級規劃 τ 指定的目標前進，在絕對姿態動作空間 A 中采用“殘差”強化學習 [13, 22]。具體來說，學習的低級策略 π_θ^l 預測的是相對于手腕規劃 w ?_t 的偏移量 ?w，而不是絕對動作 w^targ。這保證了學習的策略默認遵循規劃的手腕軌跡 w ?1:T，并且 ?w 的裁剪確保其不會偏離太遠。這種殘差方法利用 VLM 計劃編碼的世界知識來指導低級策略探索狀態空間的相關部分，以完成目標。實際上，π^l 被實現為一個多層感知器，其中關鍵點以固定順序提供，并且未來的規劃步驟 τ_t:T 被下采樣到固定長度。

終止條件。為了提高學習效率，如果跟蹤誤差超過閾值 δ，提前終止迭代。這個提前停止的標準可以作為一個強有力的監督信號，鼓勵策略保持接近預期軌跡。為了進一步指導學習，引入了一個課程：初始閾值 δ_init 在訓練過程中線性退火至 δ_init/2。這有助于在早期階段進行廣泛的探索，同時促進后期精確的軌跡跟蹤。

完整流程

上述組件定義生成單個規劃 τ～π^h(·|s_1) 并使用它來學習低級殘差策略 π^l 的過程。

訓練。最終的低級策略必須能夠在π^h生成的所有規劃中表現良好，這些規劃在初始條件、選定的關鍵點位置和生成的動作方面可能有所不同。因此，按照目標，針對靈巧手物體初始姿態的變化來訓練整個系統。對于環境中的N個初始條件中的每一個，從 π^h 中采樣相應的高級規劃。然后，使用PPO [54]在大規模并行模擬環境中從N個初始條件和規劃集合中隨機采樣，從而訓練低級策略。在模擬中，使用真值物體信息跟蹤關鍵點，以生成低級觀測值 o^l。跨隨機規劃進行訓練對于 π^l 保持對 π^h 生成的關鍵點和規劃的魯棒性至關重要。

評估。在測試時，將環境的初始條件隨機化。之后，用 VLM π^h 生成一個新規劃，并將其提供給凍結的學習策略 π_θ^l 進行閉環控制。高級策略繼承了底層 VLM 對視覺擾動的魯棒性，使其能夠輕松遷移到現實世界。用捕獲的 RGB-D 圖像生成 τ，并在現實世界中部署低級策略零樣本訓練。用姿態估計器估計低級觀測值 o^l 的關鍵點位置 [66]。

任務套件。用 ManiSkill 模擬器 [41，58] 和 Allegro Hand 模型構建一個評估套件，旨在評估四項核心靈巧操作能力，而運動規劃對于這些能力而言比較困難：i）語義理解，ii）非結構化運動，iii）鉸接物體操作，以及 iv）精確操作。如圖描述八個任務中的每一個，每個類別兩個。每個任務都由語言指令 L 指定，而不是獎勵函數。例如，“移動蘋果”任務的指令是“將蘋果移到砧板上”。高級 VLM π^h 另外由提示引導以檢測指定的關鍵點。至關重要的是，任務集評估的能力難以設計獎勵函數（鉸接體操作或需要復雜和非結構化運動）或難以使用經典運動規劃來指定（需要語義知識或精度）。

請添加圖片描述

方法。鑒于問題設置的新穎性，很少有適用的基線模型能夠同時滿足語言條件、無需演示且無需進行真實狀態估計。因此，實驗主要集中在與各種預言機 (Oracle) 和消融 (Ablations) 進行比較：
? 預言機關鍵點和軌跡：此基線模型為每個任務使用固定的、手動定義的關鍵點和硬編碼的軌跡，代表在完美語義理解和關鍵點檢測的情況下的性能上限。
? 減少航點：人為地限制 VLM 以生成更短的航點序列，例如長度為 3 而不是 n = 20，從而降低可通過關鍵點和手腕表達的運動的復雜性。
? 預先記錄的軌跡：此方法在測試時重復使用訓練集中預先記錄的軌跡，從而消除了對新場景的適應性。

評估系統的兩個版本：零樣本版本，其中視覺語言模型 (VLM) 不接收任何示例規劃；以及少樣本 100 個初始狀態和相應的計劃τ，用于使用 PPO 訓練 πl [54]。

評估。為了進行評估，構建特定于任務的二元成功指標（例如，物體到達目標位置、門打開到最小角度）來衡量性能。所有策略評估均針對 100 個初始狀態進行，其中包含新目標配置和手勢。對每種配置進行了 20 次試驗，總共進行了 2000 次評估，并對三個種子進行平均結果計算。