ForceMimic：以力為中心的模仿學習，采用力運動捕捉系統進行接觸豐富的操作

25年3月來自上海交大盧策吾教授團隊的論文“ForceMimic: Force-Centric Imitation Learning with Force-Motion Capture System for Contact-Rich Manipulation”。

在大多數接觸豐富的操作任務中，人類會將隨時間變化的力施加到目標物體上，以補償視覺引導手部軌跡的不準確性。然而，目前的機器人學習算法主要側重于基于軌跡的策略，對學習與力相關的技能關注有限。為了解決這一限制，本文提出 ForceMimic，一種以力為中心的機器人學習系統，可提供自然、力-覺察且無需機器人的機器人演示收集系統，以及混合力-運動模仿學習算法，用于穩健的接觸豐富操作。所提出的 ForceCapture 系統，其中操作員可以在 5 分鐘內剝好西葫蘆，而力反饋遙操作則需要 13 分鐘以上的時間，并且很難完成任務。利用收集的數據，用提出的 HybridIL 來訓練以力為中心的模仿學習模型，該模型配備混合力-位置控制原語，以擬合機器人執行期間預測的扳手位置參數。實驗表明，該方法使模型能夠在接觸豐富的蔬菜剝皮任務下學習更為穩健的策略，與最先進的純基于視覺模仿學習相比，成功率提高 54.5%。

人類可以利用力-感知、精細的肌肉力控制來實現更好的操作，從抓握[1]、舉起[2]到剝皮[3]。力的利用可以檢測和糾正基于視覺運動規劃帶來的錯誤。受這些神經科學成果的啟發，大家開始探索力在機器人學習中的效用。然而，以力為中心的操作演示數據很難收集。互聯網上有大量人體視頻，但沒有記錄交互力數據。遙操作[4]是一種流行的數據收集方法，使操作員能夠遠程控制機器人完成操作任務。特別是，力反饋遙操作展示一條以力為中心的數據收集潛途徑。但它不能給操作員自然的操作體驗，不利于流暢的動作執行和精確的力控制。最近，便攜式手持設備[5，6]使野外學習成為可能。他們利用SLAM跟蹤攝像頭、記錄人手或手持夾持器的姿勢軌跡。除了無需真實機器人之外，它還提供額外的優勢，即人與目標之間幾乎直接的交互，這對于接觸豐富的力為中心操作至關重要。

另一方面，涉及力的機器人模仿學習，尚未得到充分探索。模仿策略學習模仿人類小腦的功能，研究發現，中樞神經系統可以預測力負荷，甚至將這種動態信息融合到人類運動的內部模型中 [1]。所以關心的是，引入力是否可以幫助模型更好地學習并指導低級機器人控制。

機器人數據收集系統：收集機器人操作演示的直接方法是遙操作 [4]，即人類操作員通過各種用戶界面遠程控制機器人執行操作任務，包括觸覺設備 [7]、外骨骼 [8–10]、虛擬現實 [11–14] 和領導者-追隨者范式 [15–19]。遙操作可以收集真實的機器人數據，訓練和部署數據之間沒有域差距，但它在人類操作員和機器人之間造成非直觀的控制性質，即使增加力反饋也是如此。最近，手持式夾持器 [5、6、20–22] 使野外學習成為可能。然而，雖然手持式夾持器在數據收集過程中提供更自然的體驗，但它并沒有讓策略模型意識到這種交互，也沒有記錄交互力。

機器人模仿學習：從人類專家收集的演示中進行模仿學習 (IL) 已廣泛應用于機器人學習任務。行為克隆 (BC) [23] 是 IL 中最簡單的方法之一，它以監督的方式直接學習從觀察到相應機器人動作的策略映射。盡管 BC 很簡單，但它在各種機器人操作中已經顯示出許多令人興奮的結果。大多數方法使用神經網絡參數化策略 [17, 24, 25]，將 2D 原始圖像像素映射到動作空間，而一些非參數方法 [26] 利用最近鄰從演示數據集中檢索動作。最近，擴散策略 [27] 以視覺表示為條件，并使用擴散模型對動作軌跡進行去噪。在此基礎上，幾種方法 [28, 29] 已適應 3D 點云作為觀察。然而，目前的模仿學習方法主要關注基于軌跡的技能，缺乏對交互力等動作空間的探索。力感知和控制在操作任務中起著至關重要的作用，通過視覺引導提供有價值和互補的信息 [30]。已有多項研究探索了接觸豐富的機器人操作中的力，從打開瓶蓋 [31]、組裝 [32] 到玩疊疊樂 [33]。最近，MOMA-Force [34] 利用視覺表征相似性從專家數據庫中檢索目標動作和扳手，并使用基于 PID 的控制器 [35, 36] 來控制機器人。ForceSight [37] 提出了一種基于 Transformer 的機器人規劃器，它根據文本輸入和 RGBD 圖像生成基于力的目標。

機器人剝皮：雖然剝皮是一項重要的日常生活工具活動 (IADL)，但在當前的機器人研究領域相對較少探索。Dong [38] 嘗試通過計算切割平面并控制沿規劃軌跡的恒定接觸力來剝五種食物，但這種方法嚴重依賴于預設的假設。MORPHeus [39] 引入神經網絡來釋放手工制作的感知假設，但它將剝皮過程分成幾個單獨的模塊和預設技能，側重于高級技能安排。

本文的 ForceMimic 是一種力為中心機器人學習系統，提供自然、力-覺察和無機器人的機器人演示收集體驗和力為中心模仿學習算法，配備混合力-位置控制，實現穩健的接觸豐富操作，如圖所示。首先開發 ForceCapture，一種手持式無機器人數據收集系統。之后，HybridIL 利用數據訓練力-覺察策略，輸出扳手位置參數。

請添加圖片描述

ForceMimic 首先采用 ForceCapture 手持式無機器人數據收集系統，自然地收集以力為中心的人類演示數據。然后，將無機器人數據轉換為（偽）機器人數據，彌合域差距。利用這些數據，HybridIL 學會預測扳手姿勢軌跡，并應用混合力-位置控制來擬合預測的力-位置參數，從而在接觸豐富的操作任務中實現穩健的性能。整體流程如圖所示：

請添加圖片描述

硬件設計：ForceCapture

在接觸豐富的操作過程中，準確、自然且經濟高效地捕獲力數據仍然是一項重大挑戰。受現有手持式運動數據收集設備 [5、6] 的啟發，本文開發一種低成本、多功能且無需機器人的力位置捕獲設備 ForceCapture。在設計 ForceCapture 時，始終堅持以下目標：
(1) 可擴展性。可擴展性的關鍵因素包括低成本、與不同力傳感器的兼容性、易于制造和維護。
(2) 現場力的真實感。與通過力反饋創造臨場感的遙操作系統不同，本文目標是直接從人類操作中捕獲實時力數據，而無需用戶學習如何與設備創建的人工環境進行交互。
(3) 人體工程學舒適度。設備必須遵循人體工程學原則，包括適當的重心和操作的便利性，以確保它不會干擾用戶的自然操作習慣。由于需要記錄準確的交互力數據，不良的人體工程學可能會改變肌肉用力模式或引起不適，從而導致操作過程中的力數據不自然。

整體設計如圖所示，其中展示兩個版本，一個帶有固定工具，另一個帶有自適應夾持器。其核心所示，這兩種設計都具有一個放置在末端執行器和用戶抓握手柄之間六軸力傳感器的特征，可用于捕捉執行器與環境的交互扳手。此外，位于力傳感器中心附近的 SLAM 相機，記錄交互過程中的運動數據。用戶握住手柄以直接操作工具或控制手指進行抓取和操縱任務。夾持器版本位于兩個手指底部的齒條齒輪（rack-and-pinion）機構確保夾持器的同步運動。小齒輪連接到編碼器，編碼器記錄夾持器的張開距離。連續寬度值是根據編碼器角度和夾持器寬度之間的校準關系確定的。

請添加圖片描述

值得注意的是，在手動控制夾鉗的開合過程中，手對夾鉗施加的力也會施加到力傳感器上。為了解決這個問題，設計 ? 所示。一旦手指閉合，就無法從指尖打開。相反，只能使用杠桿機構釋放它們以解鎖夾鉗。這種設計符合夾鉗開合的自然邏輯，并符合人體工程學原理。此外，ForceCapture 的整體設計，其重心位于手柄上方，符合人手自然的施力習慣。

ForceCapture 的制造非常簡單，主體完全采用 3D 打印生產。打印部件和編碼器的總成本約為 50 美元，符合成本效益的設計目標。配備夾爪的設備重量僅為 0.8kg，其中力傳感器重 0.5kg，配件重量僅為 0.3kg，比一罐可樂還要輕。

數據收集和遷移

數據收集系統包括一個六軸 F/T 傳感器、一個 RealSense T265 SLAM 攝像頭和一個外部 RealSense L515 RGB-D 攝像頭。對于夾持器版本，還收集編碼器角度數據。它們各自的采樣頻率分別為 1000 Hz、200 Hz、30 Hz 和 30 Hz。每個傳感器都以自己的頻率收集數據，在數據處理過程中，所有頻率都對齊以匹配 L515 觀察的頻率。

在初始階段，T265 放置在 L515 支架上，T265 和 L515 之間的相對位置由它們的安裝位置決定。一旦開始數據收集，T265 就會從支架上拆下并放置在 ForceCapture 上。此過程類似于 DexCap [6]，其中 T265 相對于 L515 的初始位置用于跟蹤 ForceCapture 的位置。

ForceCapture 旨在僅記錄末端執行器與外部環境之間的相互作用力。但是，力傳感器測量的是綜合力，包括工具的重力和慣性力。因此，需要從力傳感器數據中減去工具或夾持器產生的外力。假設 ForceCapture 的數據收集過程是準靜態的，這意味著在每個位置，力都處于靜態平衡狀態，只需要補償工具的重力。為了進行重力補償，首先以準靜態方式移動 ForceCapture 一段時間，同時記錄姿勢和扳手數據。利用每個位置的靜態平衡力，構建一個超定方程組，使用最小二乘（LS）解來估計工具的質心和重量。

此外，L515 相機記錄的 RGB-D 圖像被反向投影到點云中。為了減少數據采集過程中的點云與機器人部署中使用的點云之間的差異，統一排除操作背景和末端執行器坐標系上方的點云，僅保留一致的末端執行器和目標點云。并將點云體素化為 10,000 的大小。

學習算法：HybridIL

HybridIL，一種以力為中心的端到端模仿學習方法，它將感知映射到力-位置混合控制策略。HybridIL 將點云作為視覺輸入，通過 MLP 編碼器將其表示為一維視覺特征。然后，這些特征與機器人的 TCP 姿勢級聯，形成多種模態的聯合表示。策略生成，利用改進的擴散策略 [27] 來預測接下來 20 個時間步驟中的位置和扳手參數。

需要注意的是，扳手和位置控制必須正交。雖然模型沒有明確模擬扳手和位置的正交性，但通過與模型預測的力-位置參數一致的正交力-位置混合控制器，可實現這一點。這種方法不同于傳統的模仿學習方法，后者通常使用固定的低級位置控制器來跟蹤模型的位置命令預測。 HybridIL 采用兩個不同的控制原語來擬合模型的預測力-位置參數。當預測力低于閾值 6N 時，使用基于 IK 的 [42] 關節位置控制器。如果預測力在連續步驟中超過 6N，則采用混合力-位置控制器來執行模型的預測參數。6N 的力閾值是根據經驗確定的。正交力-位置匹配方法如圖所示。

請添加圖片描述

對于力連續超過 6N 的力-位置動作，運動方向根據前后的位置信息確定。相應的預測力信息被投影到運動方向的正交平面上，這定義執行期間的力控制參數。對于混合力-位置控制的初始步驟，如果末端執行器尚未與物體接觸，則應用與力控制相反方向的按壓控制以實現穩定接觸。這些功能是使用關節位置控制和混合力-位置控制原語的 Flexiv RDK （https://github.com/flexivrobotics/flexiv_rdk ），通過執行 HybridIL 力-位置動作來實現。

實驗裝置如圖 (a) 所示。程序包括拿起削皮器，在支架上削西葫蘆，放下削皮器，然后抓住西葫蘆調整其削皮方向，直到整個蔬菜都削好。由于任務涉及力捕獲和手指運動，使用 ForceCapture 的夾持器版本進行數據收集。遙操作裝置遵循 RH20T [7] 中描述的配置。

請添加圖片描述

上圖（b）顯示完成剝皮任務的時間比較。結果表明，遙操作所花的時間大約是 ForceCapture 的三倍，而 ForceCapture 所花的時間非常接近人類直接剝皮所花的時間。

為了評估 ForceMimic 的有效性，將剝皮動作制定為端到端技能學習任務。數據收集利用 ForceCapture 的固定工具版本。用戶用左夾持器將西葫蘆固定住，用右 ForceCapture 剝皮。機器人實驗設置把 L515 RGB-D 相機安裝在機械臂外部。L515 相機在數據收集和機器人實驗期間都保持一致的位置，但它可以靈活定位，以便像 DexCap [6] 一樣進行便攜式野外數據收集。配備夾持器的機器人用于基于規則穩定西葫蘆，而右臂的固定剝皮器與 ForceCapture 中使用的相同，通過 HybridIL 執行剝皮技能。實驗中使用的機械臂是 Flexiv Rizon 4，具有精確的力感應和力控制能力。

處理 15 個西葫蘆，收集 438 個剝皮技能片段，總共得到 30,199 個動作序列。這些動作相對于感知數據前進 3 個時間步。HybridIL 模型和基線方法都分別進行 500 個 epoch 的訓練。