GraspCorrect:通過視覺-語言模型引導反饋進行機器人抓握矯正

25年3月來自韓國 POSTECH 的論文 “GraspCorrect: Robotic Grasp Correction via Vision-Language Model-Guided Feedback”。

盡管機器人操作技術取得了顯著進步,但實現一致且穩定的抓取仍然是一項根本挑戰,常常限制復雜任務的成功執行。分析表明,即使是最先進的策略模型也經常表現出不穩定的抓取行為,從而導致失敗案例,并在現實世界的機器人應用中造成瓶頸。為了應對這些挑戰,推出 Grasp-Correct,一個即插即用的模塊,旨在通過視覺-語言模型引導的反饋來提升抓取性能。GraspCorrect 采用一個迭代式視覺問答框架,包含兩個關鍵組件:抓取引導提示(包含特定于任務的約束)和目標-覺察采樣(確保選擇物理上可行的抓取候選)。通過迭代生成中間視覺目標并將其轉化為關節-級動作,GraspCorrect 顯著提高抓握穩定性,并持續提高 RLBench 和 CALVIN 數據集中現有策略模型的任務成功率。


考慮機器人操作學習,其中策略模型從演示軌跡 {(o_1, a_1), (o_2, a_2), …} 和文本任務指令 l 中學習。時間步 t 的每個觀測值 o_t 由 RGB-D 圖像組成,每個動作通過三個分量指定末端執行器的姿態:位置 ap_t、旋轉(四元數)ar_t 和二元夾持器狀態 as_t ∈{0,1}。

該策略模型旨在學習一個映射,該映射可以根據當前觀測值 o 預測適當的動作 a。GraspCorrect 可作為現有策略模型的即插即用模塊,在夾持器接觸 l 中指定目標物體的抓取時刻 t(g) 激活。該模塊利用當前抓取對 (o_t(g), a_t(g)) 和時間窗口 W 內的抓取前觀測值 o_t(g)?W,預測正確的末端執行器抓取姿勢 ao,從而提高執行效率。

GraspCorrect 的運行分為三個階段。首先,在(VLM 引導的)抓取檢測階段,它利用 VLM 的洞察識別穩定的抓取位置。在(視覺)目標生成階段,它以圖像形式生成視覺目標。最后,在動作生成階段,它將視覺目標轉化為精確的關節級動作。如圖展示了整個抓取校正過程。

請添加圖片描述

VLM 引導的抓取檢測

此階段將當前觀測值 o_t(g) 和任務描述 l 轉化為面向任務的接觸點 ap_t(g),供機器人夾持器使用,以確保穩定的抓取。利用視覺語言模型 (VLM),這項任務可以定義為空間視覺問答 (VQA),它擴展了傳統的 VQA 任務(例如,識別物體或屬性;“汽車是什么顏色?”),使其包含空間推理,例如確定機器人應該在哪里抓取物體才能穩定地舉起。

預訓練的 VLM 為這項任務提供了豐富的常識性知識庫。然而,將其直接應用于空間推理面臨兩大挑戰。首先,VLM 針對生成文本輸出進行了優化,使其不適合生成坐標或動作等連續值。其次,即使是最先進的 VLM 也難以進行復雜的空間推理(Wang,2024;Chen,2024;Tang,2024b)。

為了克服這些限制,采用一種迭代的 VQA 方法,逐步優化抓取候選點,而不是嘗試直接生成精確的空間坐標。基于 PIVOT (Nasiriany,2024) 的迭代改進策略,引入兩項關鍵改進:(1)抓握引導提示,其中納入特定于任務的約束;(2)目標-覺察采樣,確保生成的抓握候選在物理上是可行的。

該方法始于自上而下的二維觀測 oTop_t(g)?W,即在抓取時刻之前捕獲的 W 幀圖像。由于 t(g) 時刻的近距離抓取姿勢可能僅部分捕捉到物體,因此較早的幀提供了物體幾何形狀的全面視圖。時間窗口大小 W 固定為 10。使用根據任務需求定制的提示,VLM 生成穩定抓取配置的文本描述,作為迭代優化過程的先驗。

為了確保精準定位,用 LangSAM,這是一個零樣本文本-到-分割掩碼的框架,它結合 GroundingDINO(Liu,2025)和 Segment-Anything(Kirillov,2023)。此分割步驟將抓取建議限制在實際物體上,避免了可能針對背景元素的幻覺。

抓取候選點最初沿物體輪廓進行采樣(如圖所示圓圈)。VLM 評估這些點,以識別可能支持穩定抓取的候選點(紅色圓圈)。然后,通過以這些有希望的點為中心的一維高斯分布沿物體輪廓進行采樣,生成新的候選點。迭代次數 T 固定為 4,在最后一次迭代中,選擇一個候選點。

請添加圖片描述

視覺目標生成

此階段基于輸入觀測值{o_t(g), o_t(g)?W}以及抓取檢測階段識別的抓取點,合成目標抓取姿態圖像o^?_t(g),該圖像描繪了機器人抓取器(左和右)、目標物體及其空間關系。

該過程首先使用 LaMa 修復模型(Suvorov,2022)恢復被遮擋的背景區域,以創建完整的背景圖像。然后,通過融合恢復的背景、抓取器和變換后的前景物體來構建合成圖像。物體與抓取器的對齊是通過在抓取檢測階段的接觸點信息引導下進行常規圖像變換(旋轉和平移)來實現的。生成的目標狀態圖像真實地表示所需的抓取姿態,并為后續的動作生成步驟奠定了基礎。

動作生成

為了實現低級關節驅動,采用目標為條件行為克隆 (GCBC) 框架。作為模仿學習的一種形式,行為克隆通過最小化預測和觀察的專家動作之間差異來訓練智體復制專家演示。遵循 (Walke et al., 2023) 的方法,用去噪擴散概率模型 (DDPM) (Ho et al., 2020) 來實現此目標,該模型迭代地將高斯噪聲分布??細化為數據生成分布。

GCBC 策略模型 π_φ 包含一個 ResNet-34 編碼器,隨后是一個三層多層感知器 (MLP),其參數化為權重 φ。由于觀察圖像是從以自我為中心的自上而下視角捕獲的,將當前動作狀態作為條件變量來增強空間感知。這有助于將生成的輸出動作平滑地集成到正在進行的軌跡中。
訓練數據 D 是在每個基準環境中通過系統地擾亂真實抓握姿勢生成的。


VLM 與行為控制的互補作用:

該方法將用于抓握檢測的 VLM 與用于動作生成的 GCBC 相結合,并認識到 VLM 在直接合成精確抓握動作方面的局限性。雖然 VLM 在場景理解和高級規劃方面表現出色,但它們在具身操作所需的細粒度控制方面卻舉步維艱。

在初步實驗中,直接使用基于當前觀察、動作和任務描述的 VLM 進行動作預測 a 常常會導致不切實際且物理上難以信服的輸出。這驗證了劃分操作流程的決定:使用 VLM 進行感知和規劃,同時依賴專門的 GCBC 模塊進行精確控制。

基于圖像中間表示的優勢:

GraspCorrect 使用圖像作為中間目標表示。這一決定基于幾個關鍵優勢。首先,視覺表示能夠捕捉豐富的空間和上下文信息,而這些信息在基于文本的描述中可能會丟失或模糊。圖像能夠自然地以具體、清晰的方式編碼關鍵的操控相關特征,例如空間關系、物體方向和抓取配置。

其次,VLM 已在大規模視覺數據上進行過廣泛的訓練,使其尤其擅長處理和推理基于圖像的信息。這種協同作用使系統能夠充分利用 VLM 先進的視覺理解和推理能力,同時保持清晰易懂的高級決策界面。

第三,近期使用合成目標圖像進行機器人操控的成功案例,例如 SuSIE(Black,2024)和 GR-MG(Li,2025),進一步證明了該方法的有效性。

然而,基于圖像的表示也存在一定的局限性,尤其是在處理遮擋和捕捉動態物理特性方面。未來的研究可以探索融入更多模態,例如 3D 點云或力反饋,以提供更豐富、更全面的目標狀態表征。

替代的視覺目標生成策略:

預期的目標狀態抓握姿勢通常需要對預訓練策略模型提供的當前抓握姿勢進行微調。雖然像快速探索隨機樹 (RRT) (Steven, 1998) 這樣的路徑規劃算法看似適用,但它們并不適用于此情境,因為它們需要精確的目標坐標,而由于以自我為中心的機器人攝像頭與機器人坐標系不匹配,獲取這些坐標非常困難。因此,精確定位 VLM 響應所指示的精確坐標變得具有挑戰性。

另一種方法是使用由 VLM 生成的抓握描述所啟發的圖像編輯或圖像生成擴散模型。在 RLBench 中測試四個這樣的模型:DALL-E(圖像生成)(Ramesh,2021)、SuSIE(Black,2024)、DiffEdit(Couairon,2023)和 Imagic(圖像編輯)(Kawar,2023)。遵循 SuSIE 的方法,采用專門針對操作任務調整的 InstructPix2Pix(Brooks,2023)的微調版。

如圖所示,這些模型通常無法生成準確可靠的結果。例如,DALL-E 往往會生成過于復雜的機械手,與實際的機械手設計存在很大偏差。DiffEdit 和 SuSIE 會錯誤地表示正方形的方向,使其無法與預期的抓取姿勢對齊,而 Imagic 則引入了不切實際的人類手指。

請添加圖片描述

相比之下,簡單的圖像混合技術被證明能夠高效地生成目標狀態的精確逼真的合成圖像。這種方法保留了目標物體的結構完整性,并維持了對成功操作至關重要的空間關系。

動作生成

模型架構:策略網絡架構由一個 ResNet-34(He,2016)和組歸一化(Wu & He,2018)組成,用于處理沿通道維度堆疊的當前和目標觀察圖像。編碼器的輸出隨后通過一個三層多層感知器 (MLP),該感知器包含 256 個隱藏單元,每層都使用 Swish 激活函數(Hendrycks & Gimpel,2016)。該 MLP 輸出高斯動作分布的平均值和標準差。

訓練使用 Adam 優化器(Kingma & Ba,2014)進行,學習率為 5e-4,線性預熱調度超過 2,000 步,批處理大小為 256。在連接之前,當前圖像和目標圖像均經過標準圖像增強處理,包括隨機裁剪以及亮度、對比度、飽和度和色相調整。

數據生成協議:動作生成策略需要由觀察-動作三元組 (o_t(g), a_t(g), o?_t(g), a?_t(g)) 組成的成對數據,其中需要抓取校正的狀態與其對應的穩定抓取配置配對。在 RLBench 環境中實施一個兩階段數據收集協議來生成這些訓練對。

為了收集需要校正的狀態 (o_t(g), a_t(g)),首先初始化一個模擬環境,該環境包含桌面工作空間、目標物體和 Franka Panda 機器人。運動路徑由航點定義,這些航點作為 RLBench 路徑規劃算法的參考點,如圖所示。通過對這些航點的位置和方向引入受控隨機化,生成抓取嘗試的真實變化。在抓取的瞬間,記錄觀察值和執行的動作向量。為了獲得穩定的參考狀態 (o?_t(g), a?_t(g)),在相同條件下重復抓取序列,但不進行航點隨機化。通過這個系統化的過程,為每個操作任務生成 200 個配對示例,為策略學習提供平衡的數據集。請添加圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/909120.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/909120.shtml
英文地址,請注明出處:http://en.pswp.cn/news/909120.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

瀏覽器兼容-polyfill-本地服務-優化

babel和webpack結合 npx babel src --out-dir dist --presetsbabel/preset-env 這是把src下面的東西都用babel轉化一下 webpack可以和babel結合使用,首先下載一個這東西: npm install babel-loader -D webpack配置: const path requir…

組織結構圖軟件:數據驅動的可視化架構管理工具

1. 組織結構圖軟件概述 組織結構圖概念 組織結構圖是一種圖形化工具,用于展示組織內部的層級關系、部門職能和人員分工。它通過清晰的線條和文本框連接,直觀呈現企業或機構的架構,幫助管理者和員工快速理解組織的運作模式。 重要性 在企業…

大數據學習(138)-Hive數據分析3

????🍋🍋大數據學習🍋🍋 🔥系列專欄: 👑哲學語錄: 用力所能及,改變世界。 💖如果覺得博主的文章還不錯的話,請點贊👍收藏??留言&#x1f4…

深度學習環境搭建(pycharm+yolov5)

B站 :道傳科技上位機 觀看教程 一、pycharm的安裝 pycharm windows版本下載地址:Download PyCharm: The Python IDE for data science and web development by JetBrains 下載社區版本(日常學習使用夠用了),專業版…

K8S中應用無法獲取用戶真實ip問題排查

現象 領導反饋生產環境的用戶ip有問題。登陸到這個頁面,發現是所有的用戶ip都是172.30.94.97,這是個內部網絡ip. 排查過程 1 登陸到應用前端nginx, 查看nginx的請求日志 172.30.94.97 - - [17/Jul/2024:02:02:54 0000] "POST /***/n…

2.倒排索引

傳統數據庫mysql使用的是正向索引 詞條是不允許重復的,給詞條創建唯一索引,根據詞條查找的速度就很快了。

【Android Studio】新建項目及問題解決

新建項目 按照《Android 第一行代碼》中 1.3 小節的步驟創建項目。 注意:Minimum API Level 用于設置項目的最低兼容版本。Android 5.0 以上的系統已經占據超過了 99.9% 的 Android 市場份額,因此這里指定為 API 21: Android 5.0 即可。 問題解決 &…

SX1268低功耗sub-1g芯片支持lora和GFSK調制

SX1268 射頻收發器是長距離無線應用的理想設備,支持410-810MHZ。它專為長電池壽命而設計,僅消耗4.2 mA的主動接收電流。SX1268 可以使用高效的集成功率放大器在490 MHz傳輸高達 22 dBm 的信號。在 780 MHZ時,SX1268 在天線端口傳輸10dBm的信號…

C#高級:利用反射讓字符串決定調用哪個方法

一、反射的實現 using System; using System.Reflection; using System.Threading.Tasks;public class Calculator {public int Add(int a, int b){return a b;}public int Subtract(int a, int b){return a - b;}public int Multiply(int a, int b){return a * b;}public do…

圖像二分類任務推薦使用Sigmoid函數?

?圖像二分類任務中可以使用Softmax作為激活函數,但通常更推薦使用Sigmoid函數?。Softmax函數可以將多個類別的輸出轉換成概率分布,適合多分類任務。在二分類任務中,雖然可以使用Softmax,但它會生成兩個輸出值(每個類…

湖北理元理律師事務所:債務優化的法律邏輯與生活平衡術

在債務糾紛數量年均增長19%的背景下(最高人民法院2023年數據),專業法律服務機構的價值不僅在于解決糾紛,更在于重構債務人與生活的平衡關系。湖北理元理律師事務所的實踐顯示,科學的債務優化需同時滿足三個維度&#x…

window 顯示驅動開發-處理視頻幀

Microsoft Direct3D 運行時調用用戶模式顯示驅動程序的 VideoProcessBeginFrame 和 VideoProcessEndFrame 函數,以指示用戶模式顯示驅動程序可以處理視頻幀的這些函數調用之間的時間段。 在用戶模式顯示驅動程序可以處理任何視頻幀之前,Microsoft Direct…

基于 React Native for HarmonyOS5 的跨平臺組件庫開發指南,以及組件示例

基于 React Native for HarmonyOS5 的跨平臺組件庫開發,需融合分層架構設計、鴻蒙原生能力橋接及性能優化技術,核心指南如下: ?一、分層架構設計? 采用 ?模塊化分層結構?,隔離平臺差異邏輯: ├── common_har …

一站式了解單例模式

引言 這是設計模式專欄的第一篇文章,在這個專欄里面會講到我們在開發中經常使用的設計模式,我會用心將它們解析,然后講給你們聽,如果感興趣可以持續關注這個專欄?? 這次我們要講的是單例模式,這個在大廠面試中十分…

Java應用Flink CDC監聽MySQL數據變動內容輸出到控制臺

文章目錄 maven 依賴自定義數據變化處理器flink cdc監聽驗證 maven 依賴 <properties><flink.version>1.14.0</flink.version><flink-cdc.version>2.3.0</flink-cdc.version></properties><dependencies><!-- Flink dependencie…

獵板厚銅PCB工藝能力如何?

在電子產業向高功率、高集成化狂奔的今天&#xff0c;電路板早已不是沉默的配角。當5G基站、新能源汽車、工業電源等領域對電流承載、散熱效率提出嚴苛要求時&#xff0c;一塊能夠“扛得住大電流、耐得住高溫”的厚銅PCB&#xff0c;正成為決定產品性能的關鍵拼圖。而在這條賽道…

業務:資產管理功能

文章目錄 一、項目背景1.1概述1.2編寫目的 二、注意點說明三、頁面效果四、代碼AssetManagementControllerHwinfoAssetManagementHwinfoAssetManagementServiceHwinfoAssetManagementServiceImplHwinfoAssetManagementMapperHwinfoAssetManagementMapper.xmlSfpAssetManagement…

【MySQL進階】MySQL程序

目錄 一.有哪些MySQL程序 二. mysqld —— MySQL服務器 三.mysql——MySQL客戶端 3.1.連接mysql客?端 3.2.mysql客戶端選項 3.2.1.mysql常用選項 3.2.2.在命令?中使?選項 3.3.MySQL 選項&#xff08;配置&#xff09;文件 3.3.1.Linux環境下默認配置文件的路徑 3.…

Docker 運行 Kafka 帶 SASL 認證教程

Docker 運行 Kafka 帶 SASL 認證教程 Docker 運行 Kafka 帶 SASL 認證教程一、說明二、環境準備三、編寫 Docker Compose 和 jaas文件docker-compose.yml代碼說明&#xff1a;server_jaas.conf 四、啟動服務五、驗證服務六、連接kafka服務七、總結 Docker 運行 Kafka 帶 SASL 認…

??CentOS 7.9?? 上配置 ??Fail2ban 自動封禁 IP?? 的完整步驟,整合了多篇權威資料的最佳實踐

&#x1f527; ??一、安裝 Fail2ban?? ??啟用 EPEL 倉庫?? yum install epel-release -y ??安裝 Fail2ban?? yum install fail2ban -y ??啟動并設置開機自啟?? systemctl start fail2ban systemctl enable fail2ban ?? 注意&#xff1a;CentOS 7.9 默認 Py…