探索 HumanoidBench:類人機器人學習的新平臺

在科技飛速發展的當下,類人機器人逐漸走進我們的視野,它們有著和人類相似的外形,看起來能像人類一樣在各種環境里完成復雜任務,潛力巨大。但實際上,讓類人機器人真正發揮出實力,還面臨著重重挑戰。

這篇文章,將給大家帶來一個Benchmark的工作:HumanoidBench。

它是一個新的模擬基準平臺。工作鏈接:https://arxiv.org/pdf/2403.10506

如下圖所示:

image.png

1、研究背景:類人機器人發展的困境

一直以來,類人機器人都被寄予厚望,大家期待它們能在日常生活中無縫協助人類。像波士頓動力的 Atlas、特斯拉的 Optimus、宇樹的 H1 等,這些類人機器人在硬件方面取得了很大進展。可它們的控制器大多是針對特定任務專門設計的,每次遇到新任務或新環境,都得花費大量精力重新設計,而且整體的全身控制能力也很有限。

近年來,機器人學習在操作和移動方面都有了一定進展。但要把這些學習算法應用到類人機器人上,卻困難重重。主要原因是在現實世界中對類人機器人進行實驗,成本太高,還存在安全風險。比如,類人機器人的硬件設備價格昂貴,一旦在實驗中損壞,維修成本很高;而且如果機器人在實驗過程中失控,還可能對周圍環境和人員造成傷害。

image.png

為了推動類人機器人研究的快速發展,就需要一個合適的測試平臺。以往的模擬環境和基準測試,要么只關注簡單的操作任務,像抓取和放置;要么只側重于移動,忽略了全身控制和復雜任務的挑戰。就算有些引入了復雜任務,但在任務多樣性、模型準確性等方面還是有所欠缺。所以,開發一個全面的、能涵蓋各種復雜任務的類人機器人基準測試平臺就顯得尤為重要,這就是 HumanoidBench 誕生的背景。

2、方法——打造類人機器人的試煉場

2.1 模擬環境搭建

HumanoidBench 的模擬環境基于 MuJoCo 物理引擎構建,這個引擎以運行速度快、物理模擬準確著稱,為類人機器人的模擬提供了可靠的基礎。在這個環境中,主要使用宇樹 H1 類人機器人,它相對成本較低,并且有精確的模擬模型。H1 機器人配備了兩只靈巧的 Shadow Hands,這讓機器人具備了很強的操作能力。同時,環境中還提供了其他機器人模型,像宇樹 G1、敏捷機器人 Digit,以及不同的末端執行器,比如 Robotiq 2F - 85 平行夾爪和宇樹的 13 自由度手,滿足不同研究的需求。

如下圖:

image.png

從機器人的身體和手部設置來看,研究人員對不同機器人模型進行了細致的調整。比如,為了讓模擬機器人更接近人類形態,去掉了 Shadow Hands 原本笨重的前臂,使機器人的手部更符合未來類人機器人的發展趨勢。在觀察和動作空間方面,也有明確的設定。觀察空間包含機器人的本體感受狀態(關節角度和速度)、任務相關的環境觀察(物體的姿態和速度),還有從機器人頭部兩個攝像頭獲取的視覺觀察以及全身的觸覺感知。動作空間則通過位置控制來實現,控制頻率為 50Hz,這樣的設置能讓機器人在模擬環境中做出各種動作。

2.2 任務設計

HumanoidBench 包含了豐富多樣的任務,總共 27 個,分為 12 個移動任務和 15 個全身操作任務。這些任務從簡單到復雜,涵蓋了各種不同的場景和技能要求。

如下圖:

image.png

移動任務像是走路、站立、跑步等,看似簡單,但對于類人機器人來說卻并不輕松。以走路任務為例,機器人要保持向前的速度接近 1m/s,同時還不能摔倒,這就需要它精確控制身體的平衡和各個關節的運動。跑步任務則要求機器人以 5m/s 的速度前進,對其運動能力和協調性提出了更高的要求。還有像跨越障礙、在迷宮中導航這樣的任務,不僅考驗機器人的移動能力,還需要它具備一定的感知和決策能力。

全身操作任務就更復雜了,涉及到與物體的各種交互。比如,從卡車卸貨這個任務,機器人要先走到卡車旁,然后拿起貨物,再搬運到指定位置,這一過程需要它協調手部的抓取動作和身體的移動,還要根據貨物的重量和形狀調整力度。再比如打開不同類型的櫥柜門,像鉸鏈門、滑動門和抽屜,每種門的打開方式都不同,機器人需要學習不同的操作技巧。還有像打籃球這樣的任務,機器人要先接住從不同方向飛來的球,然后再投籃,這對它的反應速度、空間感知能力和手部操作能力都是極大的挑戰。

2.3 分層強化學習策略

針對類人機器人學習的復雜性,研究人員引入了分層強化學習(HRL)策略。在傳統的端到端強化學習中,算法很難處理高維度的動作空間和復雜的長期規劃任務,而 HRL 則將學習問題分層,把低層次的技能策略和高層次的規劃策略分開。

具體來說,在執行操作任務時,會先預訓練一個低層次的到達策略。比如在推箱子任務中,低層次策略就是讓機器人的手能夠準確地到達指定的 3D 點。這個策略就像是搭建高樓的基石,需要非常穩健。為了訓練出這樣的策略,研究人員利用了 MuJoCo MJX 提供的硬件加速功能,在大量并行環境中進行訓練。訓練完成后,低層次策略就被固定下來,高層次策略則利用這個預訓練的低層次策略,根據不同的任務需求,指揮低層次策略執行相應的動作,從而實現整個任務的完成。

3、實驗——檢驗 HumanoidBench 的有效性

3.1 實驗設置

image.png

在實驗中,研究人員選擇了四種強化學習算法作為基線進行測試,分別是 DreamerV3、TD - MPC2、SAC 和 PPO。這些算法在機器人學習領域都有一定的代表性,但在面對類人機器人的復雜任務時,表現卻各有不同。

為了確保實驗的準確性和可靠性,研究人員對每個算法都進行了約 48 小時的訓練,不同算法的訓練步數有所差異,比如 TD - MPC2 訓練 200 萬步,DreamerV3 訓練 1000 萬步。在訓練過程中,每個環境都設置了密集獎勵和稀疏子任務完成獎勵,通過這些獎勵機制來引導機器人學習正確的行為。同時,還對每個任務設置了成功的定性指標,方便評估算法的性能。

3.2 實驗結果

image.png

從實驗結果來看,這些基線算法在大多數任務上的表現都不太理想。在移動任務中,即使是像走路這樣看似簡單的任務,算法也需要大量的訓練步數才能學會,而且成功率也不高。這主要是因為類人機器人的狀態和動作空間維度很高,即使在移動任務中手部動作使用較少,但算法還是難以忽略手部的信息,導致策略學習變得困難。

點擊探索 HumanoidBench:類人機器人學習的新平臺查看全文

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/901997.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/901997.shtml
英文地址,請注明出處:http://en.pswp.cn/news/901997.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

數據結構中的寶藏秘籍之廣義表

廣義表,也被稱作列表(Lists),是一種遞歸的數據結構。它就像一個神秘的盒子,既可以裝著單個元素(原子),也可以嵌套著其他的盒子(子列表)。比如廣義表 (a (b c)…

【jenkins】首次配置jenkins

第一步,輸入管理員密碼 cat /var/jenkins_home/secrets/initialAdminPassword第二步,點擊安裝推薦的插件 第三步,創建管理員用戶 第四步,返回實例 第五步, 升級jenkins 第六步, 修復提示 第七步&#xff0c…

Android studio—socketIO庫return與emit的使用

文章目錄 一、Socket.IO庫簡單使用說明1. 后端 Flask Flask-SocketIO2. Android 客戶端集成 Socket.IO3. 布局文件注意事項 二、接受服務器消息的二種方法1. 客戶端接收通過 emit 發送的消息功能使用場景后端代碼(Flask-SocketIO)客戶端代碼&#xff08…

用Prompt 技術【提示詞】打造自己的大語言智能體

機器如何按照人類的指令執行任務的探索 機器需具備理解任務敘述的能力,以便能夠按照人類的指令執行任務,為機器提供一些范例作為參考,使其能夠理解該執行的任務類型。這樣的學習方式稱為“Instruction learning”,透過精心設計的…

Node.js 數據庫 事務 項目示例

1、參考:JavaScript語言的事務管理_js 函數 事務性-CSDN博客 或者百度搜索:Nodejs控制事務, 2、實踐 2.1、對于MySQL或MariaDB,你可以使用mysql或mysql2庫,并結合Promise或async/await語法來控制事務。 使用 mysql2…

【Mamba】MambaVision論文閱讀

文章目錄 MambaVision一、研究背景(一)Transformer vs Mamba?(二)Mamba in CV? 二、相關工作?(一)Transformer 在計算機視覺領域的進展?(二)Mamba 在計算機視覺領域的探索? 三、…

前端面試寶典---原型鏈

引言----感謝大佬的講解 大佬鏈接 原型鏈示意圖 原型鏈問題中需要記住一句話:一切變量和函數都可以并且只能通過__proto__去找它所在原型鏈上的屬性與方法 原型鏈需要注意的點 看上圖可以發現 函數(構造函數)也可以通過__proto__去找到原…

C語言---FILE結構體

一、FILE 結構體的本質與定義 基本概念 FILE 是 C 語言標準庫中用于封裝文件操作的結構體類型&#xff0c;定義于 <stdio.h> 中。它代表一個“文件流”&#xff0c;可以是磁盤文件、標準輸入輸出&#xff08;stdin/stdout/stderr&#xff09;或其他輸入輸出設備。 實現特…

基于大模型的直腸息肉診療全流程風險預測與方案優化研究報告

目錄 一、引言 1.1 研究背景與意義 1.2 研究目的與創新點 二、大模型技術概述 2.1 大模型原理簡介 2.2 大模型在醫療領域應用現狀 三、直腸息肉術前預測與準備 3.1 基于大模型的術前風險預測 3.1.1 息肉性質預測 3.1.2 手術難度預測 3.2 基于預測結果的術前準備 3.…

華為OD機試真題——MELON的難題(2025A卷:200分)Java/python/JavaScript/C++/C語言/GO六種最佳實現

2025 A卷 200分 題型 本文涵蓋詳細的問題分析、解題思路、代碼實現、代碼詳解、測試用例以及綜合分析&#xff1b; 并提供Java、python、JavaScript、C、C語言、GO六種語言的最佳實現方式&#xff01; 2025華為OD真題目錄全流程解析/備考攻略/經驗分享 華為OD機試真題《MELON的…

AI數據分析與BI可視化結合:解鎖企業決策新境界

大家好&#xff0c;今天我們來聊聊一個前沿而熱門的話題——AI數據分析與BI可視化結合&#xff0c;如何攜手推動企業決策邁向新高度。在數據爆炸的時代&#xff0c;企業如何高效利用這些數據&#xff0c;成為制勝的關鍵。AI數據分析與BI可視化的結合&#xff0c;正是解鎖這一潛…

克服儲能領域的數據處理瓶頸及AI拓展

對于儲能研究人員來說&#xff0c;日常工作中經常圍繞著一項核心但有時令人沮喪的任務&#xff1a;處理實驗數據。從電池循環儀的嗡嗡聲到包含電壓和電流讀數的大量電子表格&#xff0c;研究人員的大量時間都花在了提取有意義的見解上。長期以來&#xff0c;該領域一直受到對專…

【SpringBoot+Vue自學筆記】002 SpringBoot快速上手

跟著這位老師學習的&#xff1a;https://www.bilibili.com/video/BV1nV4y1s7ZN?vd_sourceaf46ae3e8740f44ad87ced5536fc1a45 最好和老師的idea版本完全一致&#xff01;截至本文寫的當日最新的idea好像默認jdk17&#xff0c;配置時遇到很多bug。 &#x1f33f; Spring Boot&a…

SpringAI+DeepSeek大模型應用開發——2 大模型應用開發架構

目錄 2.大模型開發 2.1 模型部署 2.1.1 云服務-開放大模型API 2.1.2 本地部署 搜索模型 運行大模型 2.2 調用大模型 接口說明 提示詞角色 ?編輯 會話記憶問題 2.3 大模型應用開發架構 2.3.1 技術架構 純Prompt模式 FunctionCalling RAG檢索增強 Fine-tuning …

藍橋杯12. 日期問題

日期問題 原題目鏈接 題目描述 小明正在整理一批歷史文獻。這些歷史文獻中出現了很多日期。 小明知道這些日期都在 1960 年 1 月 1 日 至 2059 年 12 月 31 日 之間。 令小明頭疼的是&#xff0c;這些日期采用的格式非常不統一&#xff1a; 有的采用 年/月/日有的采用 月…

STM32使用rand()生成隨機數并顯示波形

一、隨機數生成 1、加入頭文件&#xff1a;#include "stdlib.h" 2、定義一個用作生成隨機數種子的變量并加入到滴答定時器中不斷自增&#xff1a;uint32_t run_times 0; 3、設置種子&#xff1a;srand(run_times);//每次生成隨機數前調用一次為佳 4、生成一個隨…

『前端樣式分享』聯系我們卡片式布局 自適應屏幕 hover動效 在wikijs中使用 (代碼拿來即用)

目錄 預覽效果分析要點響應式網格布局卡片樣式&#xff1a;陰影和過渡效果 代碼優化希望 長短不一的郵箱地址在左右居中的同時,做到左側文字對齊(wikijs可用)總結 歡迎關注 『前端布局樣式』 專欄&#xff0c;持續更新中 歡迎關注 『前端布局樣式』 專欄&#xff0c;持續更新中…

【ubuntu】在Linux Yocto的基礎上去適配Ubuntu的wifi模塊

一、修改wifi的節點名 1.找到wifi模塊的PID和VID ifconfig查看wifi模塊網絡節點的名字&#xff0c;發現是wlx44876393bb3a&#xff08;wlxmac地址&#xff09; 通過udevadm info -a /sys/class/net/wlx44876393bba路徑的命令去查看wlx44876393bba的總線號&#xff0c;端口號…

健康養生:開啟活力生活新篇章

在當代社會&#xff0c;熬夜加班、久坐不動、外賣快餐成為許多人的生活常態&#xff0c;隨之而來的是各種亞健康問題。想要擺脫身體的疲憊與不適&#xff0c;健康養生迫在眉睫&#xff0c;它是重獲活力、擁抱美好生活的關鍵。? 應對不良飲食習慣帶來的健康隱患&#xff0c;飲…

【verilog】多個 if 控制同一個變量(后面會覆蓋前面)非阻塞賦值真的并行嗎?

非阻塞賦值 (<) 是“并行”的&#xff0c;但是代碼順序會影響結果&#xff1f;”這正是 Verilog 的硬件描述本質 vs 行為語義之間的微妙之處。 &#x1f4a1;1. 非阻塞賦值真的并行嗎&#xff1f; 是的&#xff01;非阻塞賦值 < 從行為上是并行的&#xff0c;也就是說&a…