ForceMimic:以力為中心的模仿學習,采用力運動捕捉系統進行接觸豐富的操作

25年3月來自上海交大盧策吾教授團隊的論文“ForceMimic: Force-Centric Imitation Learning with Force-Motion Capture System for Contact-Rich Manipulation”。

在大多數接觸豐富的操作任務中,人類會將隨時間變化的力施加到目標物體上,以補償視覺引導手部軌跡的不準確性。然而,目前的機器人學習算法主要側重于基于軌跡的策略,對學習與力相關的技能關注有限。為了解決這一限制,本文提出 ForceMimic,一種以力為中心的機器人學習系統,可提供自然、力-覺察且無需機器人的機器人演示收集系統,以及混合力-運動模仿學習算法,用于穩健的接觸豐富操作。所提出的 ForceCapture 系統,其中操作員可以在 5 分鐘內剝好西葫蘆,而力反饋遙操作則需要 13 分鐘以上的時間,并且很難完成任務。利用收集的數據,用提出的 HybridIL 來訓練以力為中心的模仿學習模型,該模型配備混合力-位置控制原語,以擬合機器人執行期間預測的扳手位置參數。實驗表明,該方法使模型能夠在接觸豐富的蔬菜剝皮任務下學習更為穩健的策略,與最先進的純基于視覺模仿學習相比,成功率提高 54.5%。

人類可以利用力-感知、精細的肌肉力控制來實現更好的操作,從抓握[1]、舉起[2]到剝皮[3]。力的利用可以檢測和糾正基于視覺運動規劃帶來的錯誤。受這些神經科學成果的啟發,大家開始探索力在機器人學習中的效用。然而,以力為中心的操作演示數據很難收集。互聯網上有大量人體視頻,但沒有記錄交互力數據。遙操作[4]是一種流行的數據收集方法,使操作員能夠遠程控制機器人完成操作任務。特別是,力反饋遙操作展示一條以力為中心的數據收集潛途徑。但它不能給操作員自然的操作體驗,不利于流暢的動作執行和精確的力控制。最近,便攜式手持設備[5,6]使野外學習成為可能。他們利用SLAM跟蹤攝像頭、記錄人手或手持夾持器的姿勢軌跡。除了無需真實機器人之外,它還提供額外的優勢,即人與目標之間幾乎直接的交互,這對于接觸豐富的力為中心操作至關重要。

另一方面,涉及力的機器人模仿學習,尚未得到充分探索。模仿策略學習模仿人類小腦的功能,研究發現,中樞神經系統可以預測力負荷,甚至將這種動態信息融合到人類運動的內部模型中 [1]。所以關心的是,引入力是否可以幫助模型更好地學習并指導低級機器人控制。

機器人數據收集系統:收集機器人操作演示的直接方法是遙操作 [4],即人類操作員通過各種用戶界面遠程控制機器人執行操作任務,包括觸覺設備 [7]、外骨骼 [8–10]、虛擬現實 [11–14] 和領導者-追隨者范式 [15–19]。遙操作可以收集真實的機器人數據,訓練和部署數據之間沒有域差距,但它在人類操作員和機器人之間造成非直觀的控制性質,即使增加力反饋也是如此。最近,手持式夾持器 [5、6、20–22] 使野外學習成為可能。然而,雖然手持式夾持器在數據收集過程中提供更自然的體驗,但它并沒有讓策略模型意識到這種交互,也沒有記錄交互力。

機器人模仿學習:從人類專家收集的演示中進行模仿學習 (IL) 已廣泛應用于機器人學習任務。行為克隆 (BC) [23] 是 IL 中最簡單的方法之一,它以監督的方式直接學習從觀察到相應機器人動作的策略映射。盡管 BC 很簡單,但它在各種機器人操作中已經顯示出許多令人興奮的結果。大多數方法使用神經網絡參數化策略 [17, 24, 25],將 2D 原始圖像像素映射到動作空間,而一些非參數方法 [26] 利用最近鄰從演示數據集中檢索動作。最近,擴散策略 [27] 以視覺表示為條件,并使用擴散模型對動作軌跡進行去噪。在此基礎上,幾種方法 [28, 29] 已適應 3D 點云作為觀察。然而,目前的模仿學習方法主要關注基于軌跡的技能,缺乏對交互力等動作空間的探索。力感知和控制在操作任務中起著至關重要的作用,通過視覺引導提供有價值和互補的信息 [30]。已有多項研究探索了接觸豐富的機器人操作中的力,從打開瓶蓋 [31]、組裝 [32] 到玩疊疊樂 [33]。最近,MOMA-Force [34] 利用視覺表征相似性從專家數據庫中檢索目標動作和扳手,并使用基于 PID 的控制器 [35, 36] 來控制機器人。ForceSight [37] 提出了一種基于 Transformer 的機器人規劃器,它根據文本輸入和 RGBD 圖像生成基于力的目標。

機器人剝皮:雖然剝皮是一項重要的日常生活工具活動 (IADL),但在當前的機器人研究領域相對較少探索。Dong [38] 嘗試通過計算切割平面并控制沿規劃軌跡的恒定接觸力來剝五種食物,但這種方法嚴重依賴于預設的假設。MORPHeus [39] 引入神經網絡來釋放手工制作的感知假設,但它將剝皮過程分成幾個單獨的模塊和預設技能,側重于高級技能安排。

本文的 ForceMimic 是一種力為中心機器人學習系統,提供自然、力-覺察和無機器人的機器人演示收集體驗和力為中心模仿學習算法,配備混合力-位置控制,實現穩健的接觸豐富操作,如圖所示。首先開發 ForceCapture,一種手持式無機器人數據收集系統。之后,HybridIL 利用數據訓練力-覺察策略,輸出扳手位置參數。

請添加圖片描述

ForceMimic 首先采用 ForceCapture 手持式無機器人數據收集系統,自然地收集以力為中心的人類演示數據。然后,將無機器人數據轉換為(偽)機器人數據,彌合域差距。利用這些數據,HybridIL 學會預測扳手姿勢軌跡,并應用混合力-位置控制來擬合預測的力-位置參數,從而在接觸豐富的操作任務中實現穩健的性能。整體流程如圖 所示:

請添加圖片描述

硬件設計:ForceCapture

在接觸豐富的操作過程中,準確、自然且經濟高效地捕獲力數據仍然是一項重大挑戰。受現有手持式運動數據收集設備 [5、6] 的啟發,本文開發一種低成本、多功能且無需機器人的力位置捕獲設備 ForceCapture。在設計 ForceCapture 時,始終堅持以下目標:
(1) 可擴展性。可擴展性的關鍵因素包括低成本、與不同力傳感器的兼容性、易于制造和維護。
(2) 現場力的真實感。與通過力反饋創造臨場感的遙操作系統不同,本文目標是直接從人類操作中捕獲實時力數據,而無需用戶學習如何與設備創建的人工環境進行交互。
(3) 人體工程學舒適度。設備必須遵循人體工程學原則,包括適當的重心和操作的便利性,以確保它不會干擾用戶的自然操作習慣。由于需要記錄準確的交互力數據,不良的人體工程學可能會改變肌肉用力模式或引起不適,從而導致操作過程中的力數據不自然。

整體設計如圖所示,其中展示兩個版本,一個帶有固定工具,另一個帶有自適應夾持器。 其核心所示,這兩種設計都具有一個放置在末端執行器和用戶抓握手柄之間六軸力傳感器的特征,可用于捕捉執行器與環境的交互扳手。 此外,位于力傳感器中心附近的 SLAM 相機,記錄交互過程中的運動數據。 用戶握住手柄以直接操作工具或控制手指進行抓取和操縱任務。 夾持器版本位于兩個手指底部的齒條齒輪(rack-and-pinion)機構確保夾持器的同步運動。 小齒輪連接到編碼器,編碼器記錄夾持器的張開距離。 連續寬度值是根據編碼器角度和夾持器寬度之間的校準關系確定的。

請添加圖片描述

值得注意的是,在手動控制夾鉗的開合過程中,手對夾鉗施加的力也會施加到力傳感器上。為了解決這個問題,設計 ? 所示。一旦手指閉合,就無法從指尖打開。相反,只能使用杠桿機構釋放它們以解鎖夾鉗。這種設計符合夾鉗開合的自然邏輯,并符合人體工程學原理。此外,ForceCapture 的整體設計,其重心位于手柄上方,符合人手自然的施力習慣。

ForceCapture 的制造非常簡單,主體完全采用 3D 打印生產。打印部件和編碼器的總成本約為 50 美元,符合成本效益的設計目標。配備夾爪的設備重量僅為 0.8kg,其中力傳感器重 0.5kg,配件重量僅為 0.3kg,比一罐可樂還要輕。

數據收集和遷移

數據收集系統包括一個六軸 F/T 傳感器、一個 RealSense T265 SLAM 攝像頭和一個外部 RealSense L515 RGB-D 攝像頭。對于夾持器版本,還收集編碼器角度數據。它們各自的采樣頻率分別為 1000 Hz、200 Hz、30 Hz 和 30 Hz。每個傳感器都以自己的頻率收集數據,在數據處理過程中,所有頻率都對齊以匹配 L515 觀察的頻率。

在初始階段,T265 放置在 L515 支架上,T265 和 L515 之間的相對位置由它們的安裝位置決定。一旦開始數據收集,T265 就會從支架上拆下并放置在 ForceCapture 上。此過程類似于 DexCap [6],其中 T265 相對于 L515 的初始位置用于跟蹤 ForceCapture 的位置。

ForceCapture 旨在僅記錄末端執行器與外部環境之間的相互作用力。但是,力傳感器測量的是綜合力,包括工具的重力和慣性力。因此,需要從力傳感器數據中減去工具或夾持器產生的外力。假設 ForceCapture 的數據收集過程是準靜態的,這意味著在每個位置,力都處于靜態平衡狀態,只需要補償工具的重力。為了進行重力補償,首先以準靜態方式移動 ForceCapture 一段時間,同時記錄姿勢和扳手數據。利用每個位置的靜態平衡力,構建一個超定方程組,使用最小二乘(LS)解來估計工具的質心和重量。

此外,L515 相機記錄的 RGB-D 圖像被反向投影到點云中。為了減少數據采集過程中的點云與機器人部署中使用的點云之間的差異,統一排除操作背景和末端執行器坐標系上方的點云,僅保留一致的末端執行器和目標點云。并將點云體素化為 10,000 的大小。

學習算法:HybridIL

HybridIL,一種以力為中心的端到端模仿學習方法,它將感知映射到力-位置混合控制策略。HybridIL 將點云作為視覺輸入,通過 MLP 編碼器將其表示為一維視覺特征。然后,這些特征與機器人的 TCP 姿勢級聯,形成多種模態的聯合表示。策略生成,利用改進的擴散策略 [27] 來預測接下來 20 個時間步驟中的位置和扳手參數。

需要注意的是,扳手和位置控制必須正交。雖然模型沒有明確模擬扳手和位置的正交性,但通過與模型預測的力-位置參數一致的正交力-位置混合控制器,可實現這一點。這種方法不同于傳統的模仿學習方法,后者通常使用固定的低級位置控制器來跟蹤模型的位置命令預測。 HybridIL 采用兩個不同的控制原語來擬合模型的預測力-位置參數。當預測力低于閾值 6N 時,使用基于 IK 的 [42] 關節位置控制器。如果預測力在連續步驟中超過 6N,則采用混合力-位置控制器來執行模型的預測參數。6N 的力閾值是根據經驗確定的。正交力-位置匹配方法如圖所示。

請添加圖片描述

對于力連續超過 6N 的力-位置動作,運動方向根據前后的位置信息確定。相應的預測力信息被投影到運動方向的正交平面上,這定義執行期間的力控制參數。對于混合力-位置控制的初始步驟,如果末端執行器尚未與物體接觸,則應用與力控制相反方向的按壓控制以實現穩定接觸。這些功能是使用關節位置控制和混合力-位置控制原語的 Flexiv RDK (https://github.com/flexivrobotics/flexiv_rdk ) ,通過執行 HybridIL 力-位置動作來實現。

實驗裝置如圖 (a) 所示。程序包括拿起削皮器,在支架上削西葫蘆,放下削皮器,然后抓住西葫蘆調整其削皮方向,直到整個蔬菜都削好。由于任務涉及力捕獲和手指運動,使用 ForceCapture 的夾持器版本進行數據收集。遙操作裝置遵循 RH20T [7] 中描述的配置。

請添加圖片描述

上圖(b)顯示完成剝皮任務的時間比較。結果表明,遙操作所花的時間大約是 ForceCapture 的三倍,而 ForceCapture 所花的時間非常接近人類直接剝皮所花的時間。

為了評估 ForceMimic 的有效性,將剝皮動作制定為端到端技能學習任務。數據收集利用 ForceCapture 的固定工具版本。用戶用左夾持器將西葫蘆固定住,用右 ForceCapture 剝皮。機器人實驗設置把 L515 RGB-D 相機安裝在機械臂外部。L515 相機在數據收集和機器人實驗期間都保持一致的位置,但它可以靈活定位,以便像 DexCap [6] 一樣進行便攜式野外數據收集。配備夾持器的機器人用于基于規則穩定西葫蘆,而右臂的固定剝皮器與 ForceCapture 中使用的相同,通過 HybridIL 執行剝皮技能。實驗中使用的機械臂是 Flexiv Rizon 4,具有精確的力感應和力控制能力。

處理 15 個西葫蘆,收集 438 個剝皮技能片段,總共得到 30,199 個動作序列。這些動作相對于感知數據前進 3 個時間步。HybridIL 模型和基線方法都分別進行 500 個 epoch 的訓練。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/71927.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/71927.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/71927.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【愚公系列】《Python網絡爬蟲從入門到精通》045-Charles的SSL證書的安裝

標題詳情作者簡介愚公搬代碼頭銜華為云特約編輯,華為云云享專家,華為開發者專家,華為產品云測專家,CSDN博客專家,CSDN商業化專家,阿里云專家博主,阿里云簽約作者,騰訊云優秀博主&…

vulnhub靶場【digitalworld.local系列】的electrical靶機

前言 靶機:digitalworld.local-electrical,IP地址為192.168.10.12,后期因為卡頓,重新安裝,ip地址后面為192.168.10.11 攻擊:kali,IP地址為192.168.10.6 kali采用VMware虛擬機,靶機…

macos 程序 運行

sudo xattr -r -d com.apple.quarantine [/Applications/Name]使用stow 管理配置文件

多視圖幾何--結構恢復--三角測量

三角測量 1. 核心公式推導 假設兩個相機的投影矩陣為 P P P 和 P ′ P P′,對應的匹配圖像點(同名點)為 ( u , v ) (u, v) (u,v) 和 ( u ′ , v ′ ) (u, v) (u′,v′),目標是求解三維點 X [ X x , X y , X z , 1 ] T X [X_x, X_y, X_z, 1]^T X…

共享內存的原理和創建

目錄 共享內存的原理 共享內存的創建 代碼實現創建 共享內存的管理指令 我們今天來學習共享內存!!! 共享內存的原理 兩個進程同時使用內存中開辟的共享空間進行通信就是建立并使用共享內存進行進程間的通信。System V 共享內存&#xf…

3.10[A]cv

核心模塊: rasterizer:光柵化器,負責三角形遍歷和像素繪制Shader:包含頂點著色器和多種片元著色器Texture:紋理處理模塊 頂點著色器的計算量一般遠小于片元著色器。因為組成三角形的頂點相對有限,而片元需…

mac使用Homebrew安裝miniconda(mac搭建python環境),并在IDEA中集成miniconda環境

一、安裝Homebrew mac安裝brew 二、使用Homebrew安裝miniconda brew search condabrew install miniconda安裝完成后的截圖: # 查看是否安裝成功 brew list環境變量(無需手動配置) 先執行命令看能不能正常返回,如果不能正常…

多視圖幾何--相機標定--從0-1理解張正友標定法

1基本原理 1.1 單應性矩陣(Homography)的建立 相機模型:世界坐標系下棋盤格平面(Z0)到圖像平面的投影關系為: s [ u v 1 ] K [ r 1 r 2 t ] [ X Y 1 ] s \begin{bmatrix} u \\ v \\ 1 \end{bmatrix} K…

WWDG窗口看門狗原理

WWDG(窗口看門狗)在窗口期喂狗 作用: 原理: 框圖 WWDG寄存器: WWDG_CR控制寄存器 WWDG_CFR配置寄存器 狀態寄存器WWDG_SR 超時時間計算公式 最小最大超時值 HAL配置函數: 1. IWDG 和 WWDG 的區別 IWDG&…

無公網IP也能遠程控制Windows:Linux rdesktop內網穿透實戰

文章目錄 前言1. Windows 開啟遠程桌面2. Linux安裝rdesktop工具3. Win安裝Cpolar工具4. 配置遠程桌面地址5. 遠程桌面連接測試6. 設置固定遠程地址7. 固定地址連接測試 前言 如今遠程辦公已經從一種選擇變成了許多企業和個人的必修課,而如何在Linux系統上高效地訪…

Pygame實現射擊鴨子游戲3-2

2 鴨子類Target的創建 2.1 __init__()函數 Target類的__init__()函數代碼如圖5所示。 圖5 __init__()函數代碼 其中,第18行將Target類聲明為pygame.sprite.Sprite類的子類;第19行代碼中,__init__()函數的img_path參數表示鴨子圖片的文件名…

利用Java爬蟲獲取衣聯網商品詳情:實戰指南

在電商領域,獲取商品詳情是數據分析和市場研究的重要環節。衣聯網作為知名的電商平臺,提供了豐富的服裝商品資源。本文將詳細介紹如何利用Java編寫爬蟲程序,通過商品ID獲取衣聯網商品詳情。 一、準備工作 (一)環境搭…

五、OpenGL中Shader與C++數據傳輸

文章目錄 一、概述二、Shader 代碼文件的基本格式三、Shader的向量語法介紹四、Shader之間的數據傳輸五、Shader與C的數據傳輸uniform六、完整示例 一、概述 在 OpenGL 中,Shader(著色器)使用 GLSL(OpenGL Shading Language&…

【3DMAX插件】3DMAX建筑大師插件MasterBuilder使用方法

3DMAX建筑大師插件是一款專為3DMAX設計的程序化(參數化)建筑建模工具,其最大特點是能夠一鍵生成建筑模型,極大地提升了工作效率。該插件配備了多種結構控制選項,涵蓋陽臺、門窗、欄桿、樓頂水塔等附屬建筑元素&#xf…

隱私保護在 Facebook 用戶身份驗證中的應用

在這個數字化的時代,個人隱私保護成為了公眾關注的焦點。社交媒體巨頭 Facebook 作為全球最大的社交平臺之一,擁有數十億用戶,其在用戶身份驗證過程中對隱私保護的重視程度直接影響著用戶的安全感和信任度。本文將探討 Facebook 在用戶身份驗…

Swift Package Manager (SPM) 創建并集成本地庫

在macOS 項目中,使用 Swift Package Manager (SPM) 創建并集成本地庫的完整步驟。 創建一個macos應用程序,選擇 swift、oc、swiftui都可以。 創建好應用之后,開始創建SPM本地庫。 打開終端app,進入項目根目錄,逐次輸…

滲透測試之利用sql拿shell(附完整流程+防御方案)【下】

導讀: 時刻保持謙遜,始終保持學習,探尋事物的本質,不要把事情復雜化 話不多說,書接上回 三、利用日志getshell 利用條件: 擁有網站的寫入權限知道網站的絕對路徑數據庫日志開啟 實際操作: (1)查看數據庫日志是否開啟以及路徑 show variables like %general%; (2…

LeetCode 熱題 100_每日溫度(72_739_中等_C++)(棧)(暴力破解;棧(從左到右);棧(從右到左))

LeetCode 熱題 100_每日溫度(72_739) 題目描述:輸入輸出樣例:題解:解題思路:思路一(暴力破解法(雙重循環)):思路二(棧:從左到右)&…

【HarmonyOS Next之旅】DevEco Studio使用指南(二)

目錄 1 -> 工程模板介紹 2 -> 創建一個新的工程 2.1 -> 創建和配置新工程 2.1.1 -> 創建HarmonyOS工程 2.2.2 -> 創建OpenHarmony工程 1 -> 工程模板介紹 DevEco Studio支持多種品類的應用/元服務開發,預置豐富的工程模板,可以根…

unity3d 背景是桌面3d數字人,前面是web的表單

是可以實現的,但涉及多個技術棧的結合,包括 Unity3D、Web 技術(HTML、JavaScript)、以及可能的 WebGL 或 WebRTC 技術。大致有以下幾種實現方案: 方案 1:Unity 作為獨立應用(桌面端&#xff0…