具有類人先驗知識的 Affordance-覺察機器人靈巧抓取

25年8月來自武漢大學、阿里達摩院、湖畔研究中心、浙大和清華的論文“Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors”。

能夠泛化抓取目標的靈巧手是開發通用具身人工智能的基礎。然而,之前的方法僅僅關注低級抓取穩定性指標,而忽略了affordance-覺察的定位和擬人姿態,而這些對于下游操作至關重要。為了突破這些限制,AffordDex,一個采用兩階段訓練的框架,可以學習通用的抓取策略,并固有地理解運動先驗和目標 affordance。在第一階段,軌跡模仿器在大量人類手部動作語料庫上進行預訓練,以灌輸自然運動的強大先驗。在第二階段,訓練殘差模塊,使這些一般的擬人動作適應特定的目標實例。這一改進的關鍵在于兩個組件:負 affordance-覺察分割 (NAA) 模塊,用于識別功能上不合適的接觸區域;以及一個特別的師-生蒸餾過程,用于確保最終基于視覺的策略高度成功。大量實驗表明,AffordDex 不僅實現通用的靈巧抓取,而且在姿勢上保持與人類高度相似的抓取姿勢,并在接觸位置上保持功能上的恰當性。因此,AffordDex 在見過的、未知實例乃至全新類別上的表現均顯著超越最先進的基線模型。


靈巧抓取作為機器人操作的基礎能力,已引起學術界和工業界的廣泛關注 (Zhao et al. 2024b)。與較為簡單的末端執行器(例如平行爪、真空夾持器)相比,五指靈巧手的結構與人手結構更加相似,從而顯著提高了靈活性、精確度和任務適應性 (Zhong et al. 2025)。此外,擬人機器人通過遠程操作加速了豐富的人類演示數據的收集 (Li et al. 2025a)。因此,這種協同效應推動了該領域的快速發展,近期的算法在將抓取泛化至新物體方面取得了很高的成功率 (Fang et al. 2022, 2020; Gou et al. 2021; Wang et al. 2021; Xu et al. 2023; Wan et al. 2023)。

由于靈巧手具有較高的自由度 (DOF),傳統的基于運動規劃的方法 (Andrews & Kry 2013;Bai & Liu 2014) 難以處理如此復雜的手部關節運動。強化學習 (RL) 的最新進展 (Wan et al. 2023;Mandikal and Grauman 2022;Christen et al. 2022;Nagabandi et al. 2020;Mandikal and Grauman 2021) 已在復雜的靈巧操作中展現出良好的效果。然而,抓取的目標不僅僅是舉起一個物體。它涉及與人類意圖的一致性,并為后續的操作任務做好準備,例如避開刀刃或準備打開瓶蓋。現有方法雖然側重于低級抓握穩定性指標,但在很大程度上忽略了 affordance-覺察定位與類人運動學之間的關鍵結合,從而限制了它們在現實世界多步驟操作場景中的實用性。

本文通過建模負 affordance(需要避開的區域)來關注安全性和功能正確性這一關鍵方面,這些區域提供了清晰明確的負約束,從而簡化學習問題。 AffordDex,可以學習一種通用的抓握策略,該策略既具有類人運動能力,又能夠感知物體 affordance。其通過一個結構化的兩階段訓練范式來實現這一點。在第一階段,基于大量人類手部動作對基礎策略進行預訓練,以灌輸自然運動的強大先驗知識。在第二階段,訓練一個殘差模塊,使預訓練策略中的類人運動適應特定物體。如圖所示,AffordDex 生成的抓取動作不僅成功,而且非常類似于人類,功能正確,例如安全地握住刀柄。

請添加圖片描述

為了生成具有 affordance-覺察定位和類人運動的抓取動作(這對于促進下游操作至關重要),提出一個兩階段框架。第一階段通過在大規模人體運動數據集 (Zhan et al. 2024) 上通過模仿學習預訓練基本策略 πH 來建立強大的人體運動先驗。這將策略限制為一系列自然的類人運動。在第二階段,凍結 πH 的權重并通過強化學習 (RL) 訓練輕量級殘差模塊,使這些一般運動適應特定的物體交互。這個 RL 細化階段主要由兩個組件引導:負 affordance-覺察分割 (NAA) 模塊,它對物體不能接觸的位置提供明確的約束;以及一個師-生蒸餾框架,它利用特別狀態信息來顯著提升最終策略的性能。如圖展示該方法的概述:

請添加圖片描述

人手軌跡模仿

在此階段,目標是學習一個基礎策略πH,該策略能夠捕捉自然人手運動的運動學先驗。將此任務表述為一個強化學習 (RL) 問題,其中策略 πH (a_t|SH_t) 學習基于時刻 t 的當前狀態 SH_t 生成靈巧的手部動作。為了便于后續的微調階段,狀態由機器人狀態 R_t、物體狀態 O_t 和物體的點云表示 P_t組成,即SH_t = {R_t, O_t, P_t}。

獎勵函數。設計一個獎勵函數rH,以促進對人手軌跡的精確模仿和運動穩定性。它由兩個項組成:手指模仿獎勵 rH_finger 和平滑度獎勵 rH_smooth。

手指模仿獎勵 rH_finger 鼓勵靈巧手緊密跟蹤人手數據集中的參考手指姿勢。根據 (Li et al. 2025b) 的研究,根據機器人靈巧手和 MANO 手上對應關鍵點 F 之間的距離來定義此獎勵。

平滑度獎勵 rH_smooth 通過懲罰過度功耗來鼓勵節能運動。它通過關節速度和施加扭矩的元素乘積來計算。

負 affordance-覺察分割

先前研究在抓握合成方面存在一個顯著的局限性 (Xu et al. 2023; Wan et al. 2023; Zhong et al. 2025),即忽略了交互的語義和功能背景。一個典型的例子是刀:雖然刀刃在幾何上對于抓握來說是穩定的,但任何這樣的抓握在功能上都是不正確且不安全的。為了解決這一局限性,引入負 affordance-覺察分割 (NAA) 模塊,以融入負 affordance——推理物體的哪些部分不應該被觸碰。提出的 NAA 能夠利用視覺-語言模型 (VLM) 中豐富的世界知識 (Radford et al. 2021; Achiam et al. 2023),以開放詞匯的方式進行操作,并自動受益于未來基礎模型的進展。這確保了生成的抓取不僅在幾何上穩定,而且在語義上連貫且具有任務感知能力。

VLM 難以解釋無紋理的 3D 網格,因為這些模型主要依賴于從圖像中學習的豐富視覺線索。為了彌補這一缺陷,首先對原始網格應用程序化紋理 (Zhang et al. 2024c),該方法基于幾何分析生成語義上合理的紋理,確保在不同物體形狀上的魯棒性。接下來,從六個基本方向渲染帶紋理的物體,以創建多視圖圖像集 I 作為整體視覺表示。雖然這可能無法捕捉高度復雜物體的所有凹面,但它為基準數據集中物體的 affordance 預測提供了充分的基礎,體現了覆蓋范圍和計算成本之間的實際權衡。然后,本文查詢 GPT-4V (Achiam et al. 2023) 以引出物體 affordance 的詳細描述。

視覺-語言模型 (VLM) (Radford,2021) 和多模態大語言模型 (MLLM) (Achiam,2023) 在圖像級理解方面表現出色,但在分割所需的細粒度空間定位方面卻舉步維艱。為了解決這個問題,不再要求 CLIP (Radford,2021) 從圖像中找出“葉片部件”,而是將分割任務轉變為一個簡單得多的分類任務。生成一組精確的物體-部件掩碼 M_i,并將它們用作視覺提示,讓 CLIP 識別 M_i 中哪個掩碼與文本描述“葉片部件”的語義相似度最高。具體來說,對于每幅圖像 I_i ∈ I,提示“SAM”(Kirillov,2023),在 I_i 上疊加一個密集的點網格 G,這會提示 SAM 執行詳盡的分割,識別所有潛在的物體和部件。然后使用非最大抑制 (NMS) 對得到的掩碼集合進行細化,以消除重復,從而產生一個干凈的候選掩碼集 M_i。對于每個掩碼 M_ij ∈ M_i,用高斯濾波器模糊掩碼外部的區域來生成視覺提示圖像 I_ij (Yang et al. 2023)。然后,將提示圖像集 {I_ij} 與文本查詢一起傳遞給 CLIP,以計算每個圖像-文本對的相似度得分。選擇相似度得分最高的掩碼作為最終的分割掩碼。然后,將掩碼投影到 3D 空間中,以分割目標點云的相應區域,從而獲得負 affordance N_t,如圖所示。

請添加圖片描述

affordance-覺察的殘差學習

基于提出的NAA預測負 affordance,用殘差模塊 R 來改進預訓練策略πH。由于視覺姿態估計本質上不如使用特別狀態信息精確,直接訓練有效的基于視覺的策略可能具有挑戰性。因此,首先訓練一個基于狀態的教師策略πT,它可以訪問環境的真實狀態(例如物體狀態),以學習殘差動作來改進πH預測的初始動作。教師策略πT完成訓練后,用模仿學習算法DAgger(Ross、Gordon和Bagnell,2011)將 πT 蒸餾為基于視覺的學生策略 πS,該策略可以訪問預言機信息,并讓策略輔助和簡化基于視覺的策略學習。

基于狀態的教師策略。在此階段,輸入為機器人狀態 R_t、物體狀態 O_t、場景點云 P_t 和預測的負 affordance N_t。場景點云由多視角深度攝像頭融合。目標是學習殘差動作 ?_a_t = πT (S_tT),并結合 PPO (Schulman et al. 2017) 預測的負affordance。最終,動作通過逐元素加法計算得出。

獎勵函數。獎勵函數 rT 定義為:rT =?rT_d ?rT_g +rT_s ?r_n,其中抓握獎勵 r_dT 懲罰靈巧手與物體之間的距離,鼓勵手保持與物體表面的接觸,以實現穩固的抓握。目標獎勵 r_gT 懲罰物體與目標之間的距離,成功獎勵 rT 在物體成功到達目標時給予獎勵。此外,負 affordance 獎勵 r_nT 懲罰靈巧手接近預測的負affordance。

基于視覺的學生策略。對于基于視覺的策略,僅允許其訪問現實世界中可用的信息,包括機器人狀態 R_t、場景點云 P_t 和預測的負 affordance N_t。然后,用 DAgger (Ross, Gordon, and Bagnell 2011) 將教師策略 πT 蒸餾為基于視覺的學生策略 πS


實驗情況如下。

數據集

UniDexGrasp (Xu et al. 2023)。該數據集包含 3165 個不同的物體實例,涵蓋 133 個類別。評估基于這 3,200 個可見物體,以及來自見過類別的 140 個未見過物體和來自未見過的 100 個未可見物體。每個環境都隨機初始化一個物體及其初始姿態,該環境由固定攝像頭捕捉的全景 3D 點云 P_t 組成,用于基于視覺的策略學習。

OakInk2 (Zhan et al. 2024)。該數據集記錄人體上半身和物體的姿態和形狀的操作過程。用其中約 2,200 個右手操作序列對 πT 進行預訓練。還使用 OakInk2 中的物體來評估其在抓取方面的泛化能力。

指標

參照前人的研究(Xu et al. 2023; Wan et al. 2023; Wang et al. 2025),每個物體被隨機旋轉并落到桌面上,以增強其初始姿勢的多樣性。結果報告所有物體和抓取嘗試的抓取成功率 Succ、人像評分 HLS 和 affordance 評分 AS。如果物體在模擬器中 200 步內達到目標,則認為抓取成功。人像評分 HLS 評估抓取的擬人化質量,該質量是通過提示 Gemini 2.5 Pro(Comanici et al. 2025)分析??抓取執行的視覺序列獲得的。該指標專門用于評估靈巧手運動與典型人類運動的相似性,從而定量衡量自然度。相比之下,affordance 評分 (AS) 通過懲罰與不適當物體部位的接觸來評估抓握的功能正確性。該指標使用從 NAA 中采樣的 100 個“負 affordance”點云計算得出。具體來說,每指尖與負 affordance 點集中的任何點保持 2 厘米以上的距離,分數就會加 1,從而獎勵功能良好的抓握。

實施細節

在 Issac Gym (Makoviychuk,2021) 模擬器中進行實驗。訓練期間,在 NVIDIA RTX 4090 GPU 上并行模擬 4096 個環境。對于網絡架構,在基于狀態的設置中使用具有 4 個隱藏層(1024,1024,512,512)的多層感知器 (MLP) 作為策略網絡和價值網絡;在基于視覺的設置中,用一個額外的 PointNet+Transformer(Mu,2021)來編碼 3D 場景點云輸入。

靈巧手配置。用 Shadow Hand,它具有 24 個主動自由度 (DOF)。手腕具有 6 個由力和扭矩控制的自由度,而手指具有 18 個由關節角度控制的主動自由度。具體來說,拇指有 5 個 DOF,小指有 4 個,其余三個手指各有 3 個。此外,除拇指外,每個手指都包括一個被動的、不受控制的 DOF。

最后,AffordDex 算法總結如下:

請添加圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/97336.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/97336.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/97336.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

項目管理的關鍵成功因素

項目管理的關鍵成功因素包括:目標明確、科學規劃、有效溝通、資源保障、風險管理、團隊協作、持續監控與總結改進。目標明確保證方向不偏移、科學規劃確保執行有章可循、有效溝通減少誤解與沖突、資源保障提供堅實支撐、風險管理幫助預防問題、團隊協作提升整體效率…

[光學原理與應用-338]:ZEMAX - Documents\Zemax\Samples

Documents\Zemax\Samples 是 Zemax OpticStudio 軟件自帶的樣例文件目錄,包含大量預設的光學設計案例,涵蓋鏡頭設計、照明系統、公差分析、非序列光學等多個領域。這些樣例是學習軟件功能、驗證設計方法和快速啟動項目的寶貴資源。以下是該目錄的詳細解析…

el-table合并列實例

想要實現效果:目前接口返回數據data:[{companyCode: "NXKYS",companyName:1123,costContractId:1123,costContractName:1123,createBy:1123,details:[{brand:1123,contractItemName:1123,modelSpec:1123,projectItemId:1123,requestQty:1123,transactionZ…

虛假 TradingView Facebook 廣告在全球傳播 Android 間諜軟件

一項快速發展的惡意廣告活動最初通過 Meta 的廣告網絡針對 Windows 用戶,現已將其范圍擴展到 Android 設備,推廣偽裝成合法交易應用程序的 Brokewell 惡意軟件的高級版本。 Bitdefender Labs 警告稱,此次移動攻擊活動目前已在全球范圍內展開…

Android系統框架知識系列(十九):Android安全架構深度剖析 - 從內核到應用的全棧防護

?關鍵詞?:安全啟動鏈、應用沙箱、SELinux、硬件安全模塊、權限控制、零信任架構一、Android安全架構的基本概念與背景1. 移動安全環境的特殊性Android作為全球最大的移動操作系統,面臨著獨特的安全挑戰:?移動設備的安全威脅維度?&#xf…

智能消防栓悶蓋終端:讓城市消防管理更智慧高效

然而您是否知道,這些傳統的消防栓常常面臨非法開啟、人為破壞、水壓不足等管理難題?當火災真正發生時,它們能否可靠地提供"救命水"?如今,隨著智能消防栓悶蓋終端的出現,這一切正在悄然改變。 智…

【系統架構設計(一)】系統工程與信息系統基礎上:系統工程基礎概念

文章目錄一、系統工程的基本概念二、系統工程方法論1、霍爾三維結構:硬科學2、切克蘭德方法:軟科學思維3、其他三、系統工程生命周期管理1、生命周期階段劃分2、生命周期方法論系統工程與信息系統基礎為復雜系統設計提供從思維方法到具體技術的全方位指導…

[p2p-Magnet] 隊列與處理器 | DHT路由表

第6章:隊列與處理器 在第5章:分類器中,我們了解了系統如何分析原始種子數據。但當系統突然發現數百萬新種子時,如何高效處理這些海量任務?這就是隊列與處理器系統的職責所在。 核心概念 任務隊列 功能定位&#xf…

Spring JDBC 源碼初探:異常處理體系

一、Spring JDBC 異常體系簡介 當我們使用 Spring JDBC 進行數據訪問時,大多數人關注的是 JdbcTemplate 如何簡化數據庫操作,卻很少有人去深入理解異常體系。事實上,異常不僅僅是錯誤提示,它是系統健壯性、可維護性的重要一環。JD…

如何提高微型導軌的生產效率?

在精密機械制造領域,每一個細微的元件都可能成為決定產品性能和品質的關鍵因素。而微型導軌正是體型小、高精度優勢,在精密制造領域得到廣泛應用,它高效支撐著現代工業的生產方式和效率。那么,如何提高微型導軌的生產效率呢&#…

輕量xlsx讀取庫xlsx_drone的編譯與測試

這個庫是在看其他網頁時,作為和功能豐富的xlsxio庫的對比來的,按照xlsx_drone github頁面介紹, 特征 不使用任何外部應用程序來解析它們。注重速度而不是功能。簡單的接口。UTF-8 支持。 安裝 直接將 src 和 ext 文件夾復制并粘貼到項目根文…

Linux/UNIX系統編程手冊筆記:文件I/O、進程和內存分配

文件 I/O 深度解析:掌握通用 I/O 模型的核心邏輯 在 Linux 系統編程中,文件 I/O 是程序與外部設備(文件、設備等 )交互的基礎。從打開文件到讀寫數據,再到關閉資源,一系列系統調用構成了通用 I/O 模型的核心…

C++轉置正方形矩陣

C轉置正方形矩陣&#xff0c;就是正方形矩陣的a[i][j]a[j][i]。輸入31 2 34 5 6 7 8 9輸出1 4 72 5 83 6 9#include<bits/stdc.h> using namespace std; int main(){int n;cin>>n;int arr[n5][n5];for(int i0;i<n;i){for(int j0;j<n;j){cin>>arr[i][j]…

Ztero文獻管理工具插件設置——親測有效

一、Zotero簡介與安裝 Zotero是一款開源文獻管理軟件&#xff0c;能夠幫助我們方便地收集、整理、引用和導出文獻。它作為一個"在你的網頁瀏覽器中工作的個人研究助手"&#xff0c;可以捕獲網頁內容并自動添加引用信息。 安裝步驟&#xff1a; 訪問Zotero官網&…

【gflags】安裝與使用

gflags1. 介紹2. 安裝3. 使用3.1 頭文件3.2 定義參數3.3 訪問參數3.4 不同文件訪問參數3.5 初始化所有參數3.6 運行參數設置3.7 配置文件的使用3.8 特殊參數標識1. 介紹 gflags 是 Google 開發的一個開源庫&#xff0c;用于 C 應用程序中命令行參數的聲明、定義和解析。gflags…

基于MATLAB的三維TDOA定位算法仿真實現

一、算法原理與仿真框架 三維TDOA&#xff08;Time Difference of Arrival&#xff09;定位通過測量信號到達多個基站的時間差&#xff0c;結合幾何關系反演目標位置。其核心步驟包括&#xff1a;幾何建模&#xff1a;建立目標與基站間的距離差方程&#xff0c;形如下式&#x…

Linux-搭建DNS服務器

Linux-搭建DNS服務器1. 安裝軟件bind2.修改配置文件3. 在其他機器上測試DNS服務器4. 配置本地域名解析5. 優化后的zone1. 安裝軟件bind bind是歷史非常悠久&#xff0c;而且性能非常好的dns域名系統的軟件 [rootdns-server ~]# yum install bind bind-utils -y 啟動named服務 …

從全棧開發視角看Java與前端技術融合實踐

從全棧開發視角看Java與前端技術融合實踐 面試場景記錄&#xff1a;一次真實的面試對話 面試官&#xff1a;你好&#xff0c;很高興見到你。我是這次面試的負責人&#xff0c;可以簡單介紹一下你自己嗎&#xff1f; 應聘者&#xff1a;您好&#xff0c;我叫李明&#xff0c;今年…

第二階段WinForm-11:自定義控件

1_繼承鏈 &#xff08;1&#xff09;Form1的繼承鏈&#xff1a;Form1>Form>ContainerControl>ScrollableControl>Control &#xff08;2&#xff09;Button的繼承鏈&#xff1a;Button>ButtonBase>Control>Component 2_自定義控件 &#xff08;1&…

【2025 完美解決】Failed connect to github.com:443; Connection timed out

文章目錄前言1. 生成并上傳 SSH Key2. 寫 SSH 配置&#xff0c;強制走 ssh.github.com:4433. 連通性自檢&#xff08;看是否能握手成功&#xff09;4. 克隆5. 驗證前言 今天和往常一樣&#xff0c;寫完代碼&#xff0c;準備 push 到 github 倉庫中&#xff0c;結果發現一直卡在…