COMPASS：通過殘差強化學習和技能合成實現跨具身移動策略

25年2月來自 Nvidia、UC Berkeley 和 UT Austin 的論文“COMPASS: Cross-embOdiment Mobility Policy via ResiduAl RL and Skill Synthesis”。

隨著機器人越來越多地部署在不同的應用領域，可泛化的跨具身移動策略變得越來越重要。雖然經典的移動棧已被證明在特定的機器人平臺上有效，但它們在泛化到新具身時帶來了重大挑戰。基于學習的方法，例如模仿學習 (IL) 和強化學習 (RL)，提供了替代解決方案，但受到協變量漂移、大環境中的稀疏采樣和具身特定約束的影響。

COMPASS，是一種通過集成 IL、殘差 RL 和策略蒸餾來開發跨具身移動策略的工作流程。從移動機器人上的 IL 開始，利用易于訪問的教師策略來訓練將世界模型與移動策略相結合的基礎模型。在此基礎上，用殘差 RL 來微調具身特定策略，利用預訓練的表示來提高處理各種物理約束和傳感器模式的采樣效率。最后，策略蒸餾將這些具身專家策略合并為一個強大的跨具身策略。

實證研究證明，COMPASS 可有效擴展到各種機器人平臺，同時保持對各種環境配置的適應性，實現一個通才策略，成功率比預訓練的 IL 策略高出約 5 倍。由此產生的框架為跨實體移動性提供高效、可擴展的解決方案，使具有不同設計的機器人能夠在復雜場景中安全高效地導航。

機器人技術在工業和日常生活中都取得重大進展，推動對協作機器人處理日益復雜任務的需求。然而，由于不同機器人平臺在形態特征、運動學和傳感器配置方面存在許多差異，開發強大的跨實體移動策略仍然具有挑戰性 [1]–[3]。這些差異使得創建一種在現實環境中既強大又適應性強的一個普遍策略變得復雜。

經典移動棧 [4]、[5] 在特定機器人（尤其是輪式平臺）上表現出色，但在移植到具有不同傳感器套件和物理約束的新實體時，通常需要進行大量重新調整或重新開發。這種對每個機器人優化的依賴，引起人們對端到端學習方法的興趣 [6]、[7]，尤其是對于跨多個機器人的擴展。
模仿學習 (IL) 是一種引人注目的替代方案，因為它可以利用現有的專家演示和教師策略。盡管 IL 具有直觀的吸引力，但它可能會受到協變量漂移 [8] 的影響，即策略會遇到演示期間未見過的分布外狀態。雖然機器學習架構 [9]–[11] 和數據增強技術 [12] 的進步有助于緩解這些問題，但添加更多特定于機器人的因素會增加數據要求和訓練復雜性。為復雜模態（例如人形機器人）生成高質量的演示會使純 IL 方法更加復雜。

強化學習 (RL) [13] 提供了另一種獲得特定具身策略的標準途徑，尤其是對于運動等任務。然而，導航 RL 仍然受到自然環境中大搜索空間和稀疏獎勵的限制。殘差 RL [14]、[15] 通過以數據驅動的方式改進預訓練策略來解決這些問題，從而實現更快的收斂和更高的穩定性。與此同時，新興的視覺語言動作 (VLA) [1]、[3]、[16]、[17] 模型已顯示出跨平臺任務的前景，但通常通過低維基于航點的動作空間或開環規劃階段進行操作，這使得它們對于具有高維動態的平臺效率較低。

本文提出一個三階段工作流程，旨在構建強大的跨具身移動策略。首先，通過 IL 訓練一個基本策略，該策略從移動機器人上的教師演示中捕獲一般移動先驗。接下來，通過殘差 RL 將此基本策略細化為具身專家。最后，策略蒸餾將這些專家組合成適合多平臺部署的單一模型。如圖所示 COMPASS 工作流的高層概述：（1）IL；（2）具身專家的殘差 RL；（3）跨具身蒸餾。

請添加圖片描述

假設目標是跨不同機器人實現點對點移動的任務，每個機器人都具有獨特的運動學和動力學特征。在時間步 t，讓機器人觀察狀態定義為
x_t = (I_t, v_t, g_t, e)，

其中 I_t 是當前相機輸入（RGB 圖像），v_t 是測量的速度，g_t 提供路線或目標相關信息（例如，機器人框架中的目標位置），e 是指定機器人形態的實現嵌入。雖然 e 在一次事件中對于單個機器人保持不變，但它在不同的實現中有所不同。

目標是學習一個策略 π_θ，將 x_t 映射到速度命令 a_t = (v_t , ω_t )，然后由低級控制器使用該策略進行關節級驅動。環境的過渡動態 p(x_t+1 | x_t , a_t ) 取決于機器人的實現和場景中的外部因素。定義一個獎勵函數 R(·)，鼓勵高效、無碰撞地實現目標。目標是最大化預期折扣回報。

挑戰在于設計一個利用具身嵌入 e 的單一策略，允許共享知識但又能適應不同的形態約束。

第一步：移動先驗的 IL

第一步是使用 IL 獲取一個通用移動性基線。依靠現成的教師策略（通常是經典的移動棧）來處理標準移動機器人，這些策略通常提供可靠的演示。

潛狀態建模：引入潛狀態 s_t 來捕捉環境動態。讓 o_t = (I_t, v_t) 表示原始觀測值，包括 RGB 圖像和機器人速度。
在此目標是學習一個可以預測這個潛空間轉換的世界模型，包括基于動作的潛狀態更新和觀測的預測或重建。訓練就是基于專家演示，最小化重建或預測的誤差/損失。

2）潛空間中的策略學習：學習潛轉換后，接著訓練策略π_θ^IL，該策略采用策略狀態p_t（融合潛狀態s_t和路線嵌入 r_t）來預測動作 a_t。

訓練中，盡量減少策略輸出和教師動作之間的動作差異。這樣產生了基于 IL 的移動先驗。世界模型通過預測未來的觀察和潛轉換，幫助策略泛化到分布外的狀態，從而為決策提供強大的編碼表征。

X-Mobility：利用 X-Mobility [6] （可泛化導航）作為基礎策略，該策略將自回歸世界模型（如圖所示）與速度預測策略模型相結合。學習到的潛狀態 s_t 封裝環境動態和約束，而策略頭將此狀態與路線信息相結合以生成速度命令。X-Mobility 強大的泛化性能，表明其學習的表示可輕松適應不同的具身。

第二步：微調專家模型的 RL

通過 IL 訓練出一個有前途的通用移動策略后，通過殘差 RL 對其進行改進，以滿足特定于具身的需求。此階段解決機器人特定的運動學、傳感器配置以及基本 IL 策略可能無法完全捕獲的其他約束。

殘差策略設置：讓 a_t^base = π_θ^base(p_t) 成為來自 IL 基線的操作。引入一個殘差策略 π_φ^res，它采用 p_t 并輸出 a_res。最終操作是 a_t =a_t^base+a_t^res。π_φres 的作用是使基本策略適應特定具身特征的細微差別。
獎勵設計：定義一個獎勵函數 R 來促進安全高效的移動，它由以下部分組成：
進度：與目標的距離減少成正比的正獎勵。
避免碰撞：碰撞或跌倒的懲罰。
完成目標：到達目的地時獲得大量正獎勵。
采用這種簡單的公式來促進訓練，同時承認更復雜的獎勵塑造可能會產生更好的性能。
訓練循環：對殘差策略 π_φ^res 采用基于 PPO 的 RL 優化器 [18]。如圖所示，每次訓練迭代按如下方式進行：

請添加圖片描述

智體接收當前狀態 x_t，通過世界模型對其進行處理以形成策略狀態 p_t，然后從 IL 策略生成基本動作 a_t^base，從殘差網絡生成殘差動作 a_t^res。
組合動作 a_t 通過特定具身的聯合控制器在模擬環境中執行。
智體觀察下一個狀態 x_t+1 和與轉換相關的獎勵 R。
殘差策略 π_φ^res 通過基于梯度的方法更新，而 IL 策略 π_θ^base 保持凍結。
如果機器人到達目的地、與障礙物相撞或超時，環境將重置。收到重置信號后，世界模型中的歷史狀態也會被清除。
殘差策略網絡架構：殘差策略網絡采用與 IL 策略相同的世界模型。從 IL 動作策略中復制權重，并僅重新初始化最終輸出層以學習殘差組件。該策略可確保穩定的訓練，并將殘差學習重點放在彌補特定具身的性能差距上。對于評論家網絡，采用標準多層感知器 (MLP)，以相同的策略狀態作為輸入。

通過構建強大的預訓練基礎策略，殘差 RL 框架減輕典型的稀疏采樣挑戰，從而使每個特定具身能夠更快地收斂到高性能策略。

第三步：策略蒸餾以結合專家

在為每個機器人具身單獨訓練殘差 RL 專家后，將它們合并為一個多具身策略。此“提煉”策略捕獲所有專家策略的集體知識，同時使用具身嵌入來跨不同機器人平臺進行泛化。

從專家處收集數據：在殘差 RL 訓練之后，記錄每個專家的輸入和輸出分布，包括：
來自世界模型的策略狀態。
one-hot 具身標識符 e。
PPO 中使用的高斯動作分布均值和方差。

這個記錄的數據集構成蒸餾的基礎。

蒸餾方法：讓 π_φ^(i) 表示第 i 個具身的專家策略。每個專家都會對動作產生一個正態分布 N (μ^(i)§, σ^2)。在給定 p 和具身嵌入 e 的情況下，定義一個蒸餾策略 π_θ^dist，輸出 μ_θ (p,e)。為了匹配專家的分布，最小化 KL 散度。
具身嵌入：策略蒸餾的一個關鍵組成部分是具身嵌入 e，它捕獲每個具身的形態和動態特征。在最簡單的版本中，使用長度為 N 的 one-hot 編碼向量，其中 N 表示機器人具身的數量。該向量中的每個位置都對應一個特定的機器人。當 N 較小且機器人差異很大時，這種直接的方法非常有效。預計通過在嵌入空間內進行插值，可學習的嵌入可以更好地泛化到新的、未見過的具身。
蒸餾策略網絡架構：蒸餾策略保留相同的潛處理流水線，但在生成最終動作分布之前，還對具身進行條件限制（如圖所示）。該網絡由用于均值預測的 MLP 和全局方差參數組成，從而產生一個單一策略，該策略在所有考慮的機器人類型中實現近乎專家的性能。

請添加圖片描述

因此，該三步框架——模仿學習、殘差強化學習和策略蒸餾——彌合通用移動知識和高度專業化具身約束之間的差距，產生統一的跨具身移動策略。

訓練細節

IL 基礎策略：對于初始 IL 階段，用在 Carter 數據集上預訓練的 X-Mobility 檢查點。凍結此檢查點，然后將其用作后續 RL 細化的基礎網絡。
殘差 RL：利用 Nvidia Isaac Lab [19] 在并行化的視覺 RL 環境中訓練策略，從而實現高效的數據收集和快速的訓練更新。

為了避免過擬合并保持基礎策略跨環境泛化的能力，構建一組多樣化的訓練場景（如圖所示），以適應四種不同的機器人具身：Nova Carter（輪式）、Unitree H1（人形機器人）、Unitree G1（人形機器人）和 Spot Mini（四足機器人）。對于人形機器人和四足機器人，采用在 Isaac Lab 內訓練的基于 RL 運動策略，將速度命令映射到關節級控制。由于 Isaac Lab 對輪子物理的支持有限，Nova Carter 改用自定義控制器，根據速度命令直接調整機器人的根狀態。

請添加圖片描述

每個具身都在統一的環境中進行訓練，該環境隨機初始化智體的姿勢和目標位置，其中目標距離從機器人的起始位置均勻采樣 2m 到 5m 之間。機器人和目標之間的直線作為簡化的路線，在攝像機的視野范圍內提供短距離引導。每個 episode 跨越最多 256 個時間步長，如果智體發生碰撞、達到目標或超過最大 episode 長度，則會重置。用 2 個 Nvidia L40 GPU 并行訓練每個具身專家 1,000 episodes，64 個環境，但 Carter 除外，它只訓練 300 episodes 以減輕過擬合。減少 Carter 的訓練規劃是必要的，因為 X-Mobility 已經在 Carter 數據集上進行訓練，如果進行大量微調，它很容易過擬合。