具有類人先驗知識的 Affordance-覺察機器人靈巧抓取

25年8月來自武漢大學、阿里達摩院、湖畔研究中心、浙大和清華的論文“Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors”。

能夠泛化抓取目標的靈巧手是開發通用具身人工智能的基礎。然而，之前的方法僅僅關注低級抓取穩定性指標，而忽略了affordance-覺察的定位和擬人姿態，而這些對于下游操作至關重要。為了突破這些限制，AffordDex，一個采用兩階段訓練的框架，可以學習通用的抓取策略，并固有地理解運動先驗和目標 affordance。在第一階段，軌跡模仿器在大量人類手部動作語料庫上進行預訓練，以灌輸自然運動的強大先驗。在第二階段，訓練殘差模塊，使這些一般的擬人動作適應特定的目標實例。這一改進的關鍵在于兩個組件：負 affordance-覺察分割 (NAA) 模塊，用于識別功能上不合適的接觸區域；以及一個特別的師-生蒸餾過程，用于確保最終基于視覺的策略高度成功。大量實驗表明，AffordDex 不僅實現通用的靈巧抓取，而且在姿勢上保持與人類高度相似的抓取姿勢，并在接觸位置上保持功能上的恰當性。因此，AffordDex 在見過的、未知實例乃至全新類別上的表現均顯著超越最先進的基線模型。

靈巧抓取作為機器人操作的基礎能力，已引起學術界和工業界的廣泛關注 (Zhao et al. 2024b)。與較為簡單的末端執行器（例如平行爪、真空夾持器）相比，五指靈巧手的結構與人手結構更加相似，從而顯著提高了靈活性、精確度和任務適應性 (Zhong et al. 2025)。此外，擬人機器人通過遠程操作加速了豐富的人類演示數據的收集 (Li et al. 2025a)。因此，這種協同效應推動了該領域的快速發展，近期的算法在將抓取泛化至新物體方面取得了很高的成功率 (Fang et al. 2022, 2020; Gou et al. 2021; Wang et al. 2021; Xu et al. 2023; Wan et al. 2023)。

由于靈巧手具有較高的自由度 (DOF)，傳統的基于運動規劃的方法 (Andrews & Kry 2013；Bai & Liu 2014) 難以處理如此復雜的手部關節運動。強化學習 (RL) 的最新進展 (Wan et al. 2023；Mandikal and Grauman 2022；Christen et al. 2022；Nagabandi et al. 2020；Mandikal and Grauman 2021) 已在復雜的靈巧操作中展現出良好的效果。然而，抓取的目標不僅僅是舉起一個物體。它涉及與人類意圖的一致性，并為后續的操作任務做好準備，例如避開刀刃或準備打開瓶蓋。現有方法雖然側重于低級抓握穩定性指標，但在很大程度上忽略了 affordance-覺察定位與類人運動學之間的關鍵結合，從而限制了它們在現實世界多步驟操作場景中的實用性。

本文通過建模負 affordance（需要避開的區域）來關注安全性和功能正確性這一關鍵方面，這些區域提供了清晰明確的負約束，從而簡化學習問題。 AffordDex，可以學習一種通用的抓握策略，該策略既具有類人運動能力，又能夠感知物體 affordance。其通過一個結構化的兩階段訓練范式來實現這一點。在第一階段，基于大量人類手部動作對基礎策略進行預訓練，以灌輸自然運動的強大先驗知識。在第二階段，訓練一個殘差模塊，使預訓練策略中的類人運動適應特定物體。如圖所示，AffordDex 生成的抓取動作不僅成功，而且非常類似于人類，功能正確，例如安全地握住刀柄。

請添加圖片描述

為了生成具有 affordance-覺察定位和類人運動的抓取動作（這對于促進下游操作至關重要），提出一個兩階段框架。第一階段通過在大規模人體運動數據集 (Zhan et al. 2024) 上通過模仿學習預訓練基本策略 π^H 來建立強大的人體運動先驗。這將策略限制為一系列自然的類人運動。在第二階段，凍結 π^H 的權重并通過強化學習 (RL) 訓練輕量級殘差模塊，使這些一般運動適應特定的物體交互。這個 RL 細化階段主要由兩個組件引導：負 affordance-覺察分割 (NAA) 模塊，它對物體不能接觸的位置提供明確的約束；以及一個師-生蒸餾框架，它利用特別狀態信息來顯著提升最終策略的性能。如圖展示該方法的概述：

請添加圖片描述

人手軌跡模仿

在此階段，目標是學習一個基礎策略π^H，該策略能夠捕捉自然人手運動的運動學先驗。將此任務表述為一個強化學習 (RL) 問題，其中策略 π^H (a_t|S^H_t) 學習基于時刻 t 的當前狀態 S^H_t 生成靈巧的手部動作。為了便于后續的微調階段，狀態由機器人狀態 R_t、物體狀態 O_t 和物體的點云表示 P_t組成，即S^H_t = {R_t, O_t, P_t}。

獎勵函數。設計一個獎勵函數r^H，以促進對人手軌跡的精確模仿和運動穩定性。它由兩個項組成：手指模仿獎勵 r^H_finger 和平滑度獎勵 r^H_smooth。

手指模仿獎勵 r^H_finger 鼓勵靈巧手緊密跟蹤人手數據集中的參考手指姿勢。根據 (Li et al. 2025b) 的研究，根據機器人靈巧手和 MANO 手上對應關鍵點 F 之間的距離來定義此獎勵。

平滑度獎勵 r^H_smooth 通過懲罰過度功耗來鼓勵節能運動。它通過關節速度和施加扭矩的元素乘積來計算。

負 affordance-覺察分割

先前研究在抓握合成方面存在一個顯著的局限性 (Xu et al. 2023; Wan et al. 2023; Zhong et al. 2025)，即忽略了交互的語義和功能背景。一個典型的例子是刀：雖然刀刃在幾何上對于抓握來說是穩定的，但任何這樣的抓握在功能上都是不正確且不安全的。為了解決這一局限性，引入負 affordance-覺察分割 (NAA) 模塊，以融入負 affordance——推理物體的哪些部分不應該被觸碰。提出的 NAA 能夠利用視覺-語言模型 (VLM) 中豐富的世界知識 (Radford et al. 2021; Achiam et al. 2023)，以開放詞匯的方式進行操作，并自動受益于未來基礎模型的進展。這確保了生成的抓取不僅在幾何上穩定，而且在語義上連貫且具有任務感知能力。

VLM 難以解釋無紋理的 3D 網格，因為這些模型主要依賴于從圖像中學習的豐富視覺線索。為了彌補這一缺陷，首先對原始網格應用程序化紋理 (Zhang et al. 2024c)，該方法基于幾何分析生成語義上合理的紋理，確保在不同物體形狀上的魯棒性。接下來，從六個基本方向渲染帶紋理的物體，以創建多視圖圖像集 I 作為整體視覺表示。雖然這可能無法捕捉高度復雜物體的所有凹面，但它為基準數據集中物體的 affordance 預測提供了充分的基礎，體現了覆蓋范圍和計算成本之間的實際權衡。然后，本文查詢 GPT-4V (Achiam et al. 2023) 以引出物體 affordance 的詳細描述。

視覺-語言模型 (VLM) (Radford，2021) 和多模態大語言模型 (MLLM) (Achiam，2023) 在圖像級理解方面表現出色，但在分割所需的細粒度空間定位方面卻舉步維艱。為了解決這個問題，不再要求 CLIP (Radford，2021) 從圖像中找出“葉片部件”，而是將分割任務轉變為一個簡單得多的分類任務。生成一組精確的物體-部件掩碼 M_i，并將它們用作視覺提示，讓 CLIP 識別 M_i 中哪個掩碼與文本描述“葉片部件”的語義相似度最高。具體來說，對于每幅圖像 I_i ∈ I，提示“SAM”(Kirillov，2023)，在 I_i 上疊加一個密集的點網格 G，這會提示 SAM 執行詳盡的分割，識別所有潛在的物體和部件。然后使用非最大抑制 (NMS) 對得到的掩碼集合進行細化，以消除重復，從而產生一個干凈的候選掩碼集 M_i。對于每個掩碼 M_i^j ∈ M_i，用高斯濾波器模糊掩碼外部的區域來生成視覺提示圖像 I_i^j (Yang et al. 2023)。然后，將提示圖像集 {I_i^j} 與文本查詢一起傳遞給 CLIP，以計算每個圖像-文本對的相似度得分。選擇相似度得分最高的掩碼作為最終的分割掩碼。然后，將掩碼投影到 3D 空間中，以分割目標點云的相應區域，從而獲得負 affordance N_t，如圖所示。

請添加圖片描述

affordance-覺察的殘差學習

基于提出的NAA預測負 affordance，用殘差模塊 R 來改進預訓練策略π^H。由于視覺姿態估計本質上不如使用特別狀態信息精確，直接訓練有效的基于視覺的策略可能具有挑戰性。因此，首先訓練一個基于狀態的教師策略π^T，它可以訪問環境的真實狀態（例如物體狀態），以學習殘差動作來改進π^H預測的初始動作。教師策略π^T完成訓練后，用模仿學習算法DAgger（Ross、Gordon和Bagnell，2011）將 π^T 蒸餾為基于視覺的學生策略 π^S，該策略可以訪問預言機信息，并讓策略輔助和簡化基于視覺的策略學習。

基于狀態的教師策略。在此階段，輸入為機器人狀態 R_t、物體狀態 O_t、場景點云 P_t 和預測的負 affordance N_t。場景點云由多視角深度攝像頭融合。目標是學習殘差動作 ?_a_t = π^T (S_t^T)，并結合 PPO (Schulman et al. 2017) 預測的負affordance。最終，動作通過逐元素加法計算得出。

獎勵函數。獎勵函數 r^T 定義為：r^T =?r^T_d ?r^T_g +r^T_s ?r_n，其中抓握獎勵 r_d^T 懲罰靈巧手與物體之間的距離，鼓勵手保持與物體表面的接觸，以實現穩固的抓握。目標獎勵 r_g^T 懲罰物體與目標之間的距離，成功獎勵 r^T 在物體成功到達目標時給予獎勵。此外，負 affordance 獎勵 r_n^T 懲罰靈巧手接近預測的負affordance。

基于視覺的學生策略。對于基于視覺的策略，僅允許其訪問現實世界中可用的信息，包括機器人狀態 R_t、場景點云 P_t 和預測的負 affordance N_t。然后，用 DAgger (Ross, Gordon, and Bagnell 2011) 將教師策略 π^T 蒸餾為基于視覺的學生策略 π^S。

實驗情況如下。

數據集

UniDexGrasp (Xu et al. 2023)。該數據集包含 3165 個不同的物體實例，涵蓋 133 個類別。評估基于這 3,200 個可見物體，以及來自見過類別的 140 個未見過物體和來自未見過的 100 個未可見物體。每個環境都隨機初始化一個物體及其初始姿態，該環境由固定攝像頭捕捉的全景 3D 點云 P_t 組成，用于基于視覺的策略學習。

OakInk2 (Zhan et al. 2024)。該數據集記錄人體上半身和物體的姿態和形狀的操作過程。用其中約 2,200 個右手操作序列對 π^T 進行預訓練。還使用 OakInk2 中的物體來評估其在抓取方面的泛化能力。

指標

參照前人的研究（Xu et al. 2023; Wan et al. 2023; Wang et al. 2025），每個物體被隨機旋轉并落到桌面上，以增強其初始姿勢的多樣性。結果報告所有物體和抓取嘗試的抓取成功率 Succ、人像評分 HLS 和 affordance 評分 AS。如果物體在模擬器中 200 步內達到目標，則認為抓取成功。人像評分 HLS 評估抓取的擬人化質量，該質量是通過提示 Gemini 2.5 Pro（Comanici et al. 2025）分析??抓取執行的視覺序列獲得的。該指標專門用于評估靈巧手運動與典型人類運動的相似性，從而定量衡量自然度。相比之下，affordance 評分 (AS) 通過懲罰與不適當物體部位的接觸來評估抓握的功能正確性。該指標使用從 NAA 中采樣的 100 個“負 affordance”點云計算得出。具體來說，每指尖與負 affordance 點集中的任何點保持 2 厘米以上的距離，分數就會加 1，從而獎勵功能良好的抓握。

實施細節

在 Issac Gym (Makoviychuk，2021) 模擬器中進行實驗。訓練期間，在 NVIDIA RTX 4090 GPU 上并行模擬 4096 個環境。對于網絡架構，在基于狀態的設置中使用具有 4 個隱藏層（1024,1024,512,512）的多層感知器 (MLP) 作為策略網絡和價值網絡；在基于視覺的設置中，用一個額外的 PointNet+Transformer（Mu，2021）來編碼 3D 場景點云輸入。

靈巧手配置。用 Shadow Hand，它具有 24 個主動自由度 (DOF)。手腕具有 6 個由力和扭矩控制的自由度，而手指具有 18 個由關節角度控制的主動自由度。具體來說，拇指有 5 個 DOF，小指有 4 個，其余三個手指各有 3 個。此外，除拇指外，每個手指都包括一個被動的、不受控制的 DOF。

最后，AffordDex 算法總結如下：

請添加圖片描述