Science Robotics 通過人機交互強化學習進行精確而靈巧的機器人操作

機器人操作仍然是機器人技術中最困難的挑戰之一,其方法范圍從基于經典模型的控制到現代模仿學習。盡管這些方法已經取得了實質性進展,但它們通常需要大量的手動設計,在性能方面存在困難,并且需要大規模數據收集。這些限制阻礙了它們在實際世界中的大規模部署,其中可靠性、速度和穩健性至關重要。強化學習 (RL) 提供了一種強大的替代方案,它使機器人能夠通過交互自主獲得復雜的作技能。然而,由于樣品效率和安全性問題,在現實世界中充分發揮 RL 的潛力仍然具有挑戰性。強化學習 (RL) 是一種很有前途的方法,可以自主獲取復雜而靈巧的機器人技能。通過反復試驗學習,原則上,有效的 RL 方法應該能夠獲得針對部署任務的特定物理特征量身定制的高度熟練技能。這可能會帶來不僅超過手工設計控制器的性能,而且超越人類遠程作的性能。然而,由于樣本復雜性、假設(例如,準確的獎勵函數)和優化穩定性等問題,在現實環境中實現這一承諾一直具有挑戰性。RL 方法對于模擬訓練和現有大型真實世界數據集的訓練非常有效,目的是泛化 。它們還與手工設計的功能或表示一起使用,用于狹隘的定制任務。然而,開發通用的、基于視覺的方法仍然具有挑戰性,這些方法可以在不同的現實世界任務中有效地學習物理復雜的技能,同時超越 IL 和手工設計控制器的熟練程度。我們相信,在這方面取得根本性進展可以釋放新的機會,從而推動真正高性能的機器人縱政策的發展。這里開發了一種用于基于視覺的作的 RL 系統,可以獲得廣泛的精確和靈巧的機器人技能。系統名為人機交互樣本高效機器人強化學習 (HIL-SERL),通過集成許多組件來解決前面提到的挑戰,這些組件可以在現實世界中實現有效的基于視覺的 RL 策略。為了解決優化穩定性問題,使用了預訓練的可視化主干網進行策略學習。為了處理樣本復雜性問題,使用了一種基于具有先驗數據的 RL (RLPD)的樣本效率非策略 RL 算法,該算法結合了人工演示和校正。此外,還包括一個精心設計的低級控制器,以確保政策培訓期間的安全。在這里插入圖片描述
在訓練期間,系統會向人工操作員詢問潛在的更正,然后用于以非政策方式更新策略。研究發現,這種人機交互的糾正程序對于使策略能夠從錯誤中吸取教訓并提高績效至關重要,特別是對于本文考慮的難以從頭開始學習的具有挑戰性的任務。如圖 1 所示,系統解決的任務包括動態翻轉平底鍋中的對象;從塔上拿出疊疊樂塊;在兩只手臂之間交出物體;以及使用一個或兩個機械臂組裝復雜的設備,例如計算機主板、宜家擱板、汽車儀表板或正時皮帶。這些任務在復雜錯綜復雜的動態、高維狀態和動作空間、長視野或它們的組合方面提出了挑戰。其中一些技能以前被認為無法直接在現實環境中使用 RL 進行訓練,例如許多雙臂作任務,或者幾乎無法用當前的機器人方法克服,例如正時皮帶組裝或疊疊樂鞭打。此外,它們還需要不同類型的控制策略,例如用于精確作任務的反應性閉環控制或難以規定的精細開環行為,例如疊疊樂鞭打。然而,也許最出乎意料的發現是,系統可以訓練 RL 策略,在現實世界中只有 1 小時到 2.5 小時的訓練時間,在幾乎所有任務上實現近乎完美的成功率和超人的周期時間,受制于初始放置的幾厘米或程度變化。訓練有素的 RL 策略大大優于在相同數量的人類數據上訓練的 IL 方法,例如,相同數量的演示或糾正,平均成功率提高了 101%,周期時間縮短了 1.8×。這一結果很重要,因為它表明 RL 可以在實際培訓時間內直接在現實世界中學習各種復雜的基于視覺的縱策略,這在以前被認為用早期方法是不可行的。此外,RL 的性能水平遠遠超過了 IL 和手工設計的控制器。圖1.實驗任務概述。本文考慮的任務子集,包括 (A) 從塔上取出疊疊樂塊,(B) 翻轉平底鍋中的物體,以及組裝復雜的設備,在這里插入圖片描述
例如 (C) 正時皮帶、(D) 儀表板、(E) 主板和 (F) 宜家擱板。為了評估系統的有效性,將其與幾種最先進的 RL 方法進行了比較,并進行了消融研究以了解每個組件的貢獻。結果表明,系統不僅優于相關基線,而且還強調令人印象深刻的實證結果歸功于這些組件的精心整合。此外,還對實證結果進行了全面分析,提供了對基于 RL 的作有效性的見解。該分析探討了學習的 RL 策略的訓練動態,并進一步檢查了 RL 策略作為獲取不同類型控制策略的通用基于愿景的策略的靈活性。總之,通過適當的系統級設計選擇,RL 可以有效地解決現實世界中各種靈巧而復雜的基于視覺的作任務。系統支持從圖像輸入進行雙臂協調,并處理諸如鞭打疊疊樂塊和組裝正時皮帶等任務,展示了這種方法在不同作場景中的靈活性。在實際培訓的 1 到 2.5 小時內,該方法優于其他基線,將任務成功率提高了 2×,實現了近乎完美的成功率,平均執行速度提高了 1.8×。通過廣泛的實驗和分析結果表明,RL可以在實際訓練時間內直接在現實世界中學習各種復雜的基于視覺的縱策略。我們希望這項工作能夠激發新一代學習的機器人操作技術,有利于工業應用和研究進步。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/96560.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/96560.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/96560.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Dism++備份系統時報錯[句柄無效]的解決方法

當使用Dism進行系統備份時遇到“[句柄無效]”的錯誤,這通常是由于某些文件或目錄的句柄無法正確訪問或已被占用所導致。以下是一種有效的解決方法:一、查看日志文件定位日志文件:首先,打開Dism軟件所在的目錄,并找到其…

華為/思科/H3C/銳捷操作系統操作指南

好的,這是一份針對 華為(VRP)、思科(IOS/IOS-XE)、H3C(Comware)和銳捷(Ruijie OS) 這四大主流網絡設備廠商操作系統的對比操作指南。本指南將聚焦于它們的共性和特性,幫助你快速掌握多廠商設備的基本操作。 四大網絡廠商操作系統綜合操作指南 一、 核心概念與模式對…

一文讀懂 DNS:從域名解析到百度訪問全流程

目錄 前言 一、什么是 DNS?—— 互聯網的 “地址簿” 為什么需要 DNS? DNS 的核心參數 二、DNS 解析原理:遞歸與迭代的協作 1. 兩種核心查詢方式 2. 完整解析流程(以www.baidu.com為例) 緩存清理命令 三、DNS …

初試Docker Desktop工具

文章目錄1. 概述2. 下載3. 安裝4. 注冊5. 登錄6. 啟動7. 容器8. 運行容器8.1 運行容器的鏡像8.2 獲取示例應用8.3 驗證Dockerfile文件8.4 拉取Alpine精簡鏡像8.5 創建鏡像8.6 運行容器8.7 查看前端9. 訪問靜態資源9.1 本地靜態資源9.2 創建服務器腳本9.3 修改Dockerfile文件9.4…

百度披露Q2財報:營收327億,AI新業務收入首超百億

8月20日,百度發布2025年第二季度財報,顯示季度總營收327億元,百度核心營收263億元,歸屬百度核心凈利潤74億元,同比增長35%。受AI驅動,涵蓋智能云在內的AI新業務收入增長強勁,首次超過100億元&am…

【字母異位分組】

思路 核心思路:使用排序后的字符串作為鍵,將原始字符串分組 鍵的選擇:對于每個字符串,將其排序后得到標準形式作為鍵分組存儲:使用哈希表,鍵是排序后的字符串,值是對應的原始字符串列表結果構建…

高防cdn如何緩存網頁靜態資源

為什么需要優化網頁靜態資源的緩存? 網頁靜態資源包括圖片、CSS、JavaScript等文件,它們通常體積大、訪問頻繁。在網頁訪問過程中,如果每次都從源服務器請求這些靜態資源,會導致網絡延遲和帶寬消耗。而優化網頁靜態資源的緩存&am…

使用Pandas進行缺失值處理和異常值檢測——實戰指南

目錄 一、缺失值處理 1.1 缺失值的識別 1.2 刪除缺失值 1.3 填充缺失值 二、異常值檢測 2.1 異常值的定義 2.2 常用檢測方法 IQR(四分位數間距)法 Z-score(標準分數)法 三、實戰案例:基因表達數據預處理 四…

B.30.01.1-Java并發編程及電商場景應用

摘要 本文深入探討了Java并發編程的核心概念及其在電商系統中的實際應用。從基礎并發機制到高級并發工具,結合電商業務場景中的典型問題,如高并發秒殺、庫存管理、訂單處理等,提供了實用的解決方案和最佳實踐。 1. Java并發編程基礎 1.1 并發…

怎樣避免游戲檢測到云手機?

以下是一些可能避免游戲檢測到云手機的方法:云手機可能會因網絡配置等因素出現一些異常網絡行為,如網絡延遲的規律性變化等,在使用云手機玩游戲時,盡量保持網絡行為的穩定性和自然性,避免短時間內頻繁切換網絡連接&…

文件上傳 --- uploadlabs靶場

目錄 1 前端和js校驗 抓包改包 2 . 2.1 .htaccess(偽靜態) 2.2 %00截斷 (php5.2) 2.3 user_init_ 2.4 3 圖片碼防御 4 競爭型漏洞 思路: 容易出現的問題: 1 前端和js校驗 關閉JS的代碼,上傳PHP…

漢化版本 k6 dashboard

目前官方提供的 dashboard 只有英文版本,國內使用不方便,因此 fork 了下官方倉庫,添加了漢化版本 https://github.com/kinghard7/xk6-dashboardhttps://github.com/kinghard7/xk6-dashboard安裝 xk6 構建程序:go install go.k6.i…

視覺識別:ffmpeg-python、ultralytics.YOLO、OpenCV-Python、標準RTSP地址格式

視覺識別:ffmpeg-python、ultralytics.YOLO、OpenCV-Python、標準RTSP地址格式 ffmpeg-python 核心概念 常用過濾器(Filters) 高級操作 視頻截幀轉換圖片示例 參考 ultralytics.YOLO(You Only Look Once) 1. 模型加載 2. 訓練模型 (`train()`) 標準YAML格式示例 3. 預測 (…

浙江龍庭翔新型建筑材料有限公司全屋定制:暢享品質生活新境界!

在消費升級的時代浪潮中,浙江龍庭翔新型建筑材料有限公司以卓越的產品質量和創新的服務理念,重新定義全屋定制的內涵,為追求高品質生活的消費者打造理想家居。公司秉承"匠心質造,樂享生活"的核心價值觀,將環…

鷹角網絡基于阿里云 EMR Serverless StarRocks 的實時分析工程實踐

一、客戶背景與業務挑戰 1.1 客戶介紹 鷹角網絡(HYPERGRYPH) 成立于2017年,總部位于上海,是中國知名游戲研發與發行公司,代表產品包括現象級手游《明日方舟》及《泡姆泡姆》《來自星辰》《終末地》等。公司依托阿里云…

LWIP的IP 協議棧

IP 協議棧 下面的分析把上文對 IPv4 概念的說明與 lwIP 中的具體實現代碼對應起來,便于將理論與實現對照理解。分析覆蓋:輸入處理、路由與轉發、輸出與報文構建、分片/重組、校驗和與各種配置點(hook、選項、統計等)。目錄&#x…

高并發短信網關平臺建設方案概述

本方案涵蓋了架構設計、技術選型、核心功能、高可用保障以及實施路徑,旨在構建一個能夠應對千萬級日吞吐量、穩定、安全、可擴展的現代短信網關平臺。 高并發短信網關平臺建設方案 一、 項目概述與目標 1.1 項目背景 為滿足公司業務(如用戶注冊、登錄、交易驗證、營銷通知…

阿里云服務-開啟對象存儲服務及獲取AccessKey教程

(1)阿里云OSS簡介 (2)打開阿里云網址:阿里云登錄 - 歡迎登錄阿里云,安全穩定的云計算服務平臺 點擊“立即開通” (2)開通成功后,充值任意金額 頂欄選擇“費用”|“充值…

[特殊字符] 高可用高并發微服務架構設計:Nginx 與 API Gateway 的協同實踐

一、Nginx 和 Gateway 的關系:是替代還是協作? 不是替代關系,而是協作關系。 1. Nginx 的角色(通常在最外層) 反向代理 & 負載均衡:將前端請求分發到多個后端服務或網關實例。 靜態資源服務&#xf…

解碼LLM量化:深入剖析最常見8位與4位核心算法

解碼LLM量化:深入剖析8位與4位核心算法 大型語言模型(LLM)的性能日益強大,但其龐大的體積和高昂的計算成本構成了部署的主要障礙。模型量化,作為一種將高精度浮點權重(如16位)映射到低位寬整數&…