TLA:用于接觸-豐富操作的觸覺-語言-動作模型

25年3月來自三星中國研發中心、中科院自動化所和北京智源的論文“TLA: Tactile-Language-Action Model for Contact-Rich Manipulation”。

視覺-語言模型已取得顯著進展。然而,在語言條件下進行機器人操作以應對接觸-密集型任務方面,仍未得到充分探索,尤其是在觸覺感知方面。觸覺-語言-動作 (TLA) 模型,通過跨模態語言基礎有效地處理連續觸覺反饋,從而能夠在接觸-密集型場景中實現穩健的策略生成。此外,構建一個包含 24000 對觸覺動作指令數據的綜合數據集,該數據集針對指尖銷孔裝配進行定制,為 TLA 的訓練和評估提供必要的資源。結果表明,TLA 在有效動作生成和動作準確性方面顯著優于傳統的模仿學習方法(例如擴散策略),同時通過在以前未見過的裝配間隙和銷形上實現超過 85% 的成功率,表現出強大的泛化能力。

觸覺感知對于接觸-密集的機器人操作任務至關重要 [1]。例如,在精細裝配任務中,機器人需要精確感知物體表面的細微變化 [2], [3]。觸覺感知使機器人能夠對其接觸姿態進行細微調整,避免損壞或錯位 [4]。這種精確的接觸感知在許多復雜任務中都必不可少 [5]。先前的研究表明,整合觸覺反饋可以顯著增強操作技能的靈活性和魯棒性 [6], [7],尤其是在處理復雜或不可預見的接觸環境時,從而提高機器人的適應性。然而,當前的方法很大程度上依賴于在特定數據集上訓練的專用模型 [8], [9],這些模型在泛化方面受到限制,無法與通用模型的能力相媲美 [10], [11]。

近年來,大語言模型在類人推理方面取得了重大突破 [12],其中視覺-語言-動作 (VLA) 模型的開發進展迅速 [13],[14]。通過跨模態語言基礎,VLA 模型的表現優于傳統的模仿學習方法,尤其是在跨不同機器人平臺和任務設置的泛化方面。然而,目前大多數 VLA 模型主要側重于視覺任務 [15],缺乏關鍵的觸覺模態,這限制了它們在接觸-豐富操作任務中的適用性 [16]。盡管最近有研究致力于將語言和觸覺結合起來用于感知任務 [17],[18],[19],但這些研究依賴于排除機器人動作或將觸覺作為補充模態的數據集 [20],這限制了它們在策略訓練中的適用性,僅限于僅依賴感知或拾取放置的抓取任務。基于語言的觸覺技能學習,面臨的挑戰包括:1)缺乏針對接觸-密集型操作任務的專門觸覺動作指令數據集;2)缺乏合適的觸覺-語言-動作模型。

為了應對上述挑戰,本文構建一個針對指尖觸覺銷孔裝配場景的觸覺動作指令數據集 [21]。其提出一種用于通才機器人策略學習的微調方法,稱為觸覺-語言-動作 (TLA) 模型,該方法表明跨模態微調能夠通過語言落地獲取泛化的觸覺技能。所提出的 TLA 數據集和模型概覽如圖所示:

請添加圖片描述

建立一個在釘孔裝配過程中收集的觸覺動作指令數據集。在此任務中,配備 GelStereo 2.0 視覺觸覺傳感器 [27] 的機器人,嘗試基于指尖觸覺感知和語言指令將釘子插入相應的孔中。為了高效地收集數據,在 NVIDIA Isaac Gym 中搭建此任務的模擬環境。基于有限元法 (FEM),使用 Flex 物理引擎模擬交互過程中視覺觸覺傳感器的變形。采用 [28] 中提出的觸覺銘刻渲染方法來模擬觸覺圖像。為了縮小模擬與真實的差距,使用從真實傳感器獲取的觸覺圖像進行紋理映射,而不是手動設計的圖案。通過這種方式,可以在插入嘗試過程中獲得高保真度的觸覺圖像。

釘孔任務的流程如下所述。夾持器首先抓住一個具有形狀描述的釘子,并移動到相應孔的頂部,在 x 軸、y 軸和繞 z 軸的旋轉上具有隨機的 3-DOF 錯位(用 rz 表示)。然后,夾持器向下移動嘗試插入。如果在向下移動過程中釘子和孔發生碰撞,則認為此次嘗試失敗,夾持器抬起等待下一次嘗試。碰撞期間的觸覺圖像序列被記錄下來,以推斷調整釘子姿態的機器人動作 (?x, ?y, ?rz)。如果在夾持器向下移動到預定位置時未發生碰撞,則任務被視為成功。最大嘗試次數為 15 次。否則,任務失敗。

在模擬中,對這個釘入孔任務采用隨機插入策略。對于每次嘗試,都會保存觸覺圖像序列和釘孔姿態誤差。然后,根據釘孔姿勢誤差 (e_x, e_y, e_rz) 創建動作標簽 (?x?, ?y?, ?r?z)。

為了方便模型訓練,收集的交互數據被轉換為指令格式。<|im start|> 和 <|im end|> token 標記每輪對話的開始和結束。觸覺圖像則以 <|vision start|> 和 <|vision end|> 輸入,分別表示視覺輸入的開始和結束。文本指令定義任務,闡明掛鉤類型和姿勢要求。機器人在數據收集過程中的動作被保存為真值。如圖展示 TLA 數據的示例:

請添加圖片描述

觸覺-語言-動作模型,如圖所示。TLA 基于 Qwen2-VL [29] 構建,該模型包含用于編碼視覺輸入的視覺transformer (ViT) [30] 和用于理解多模態信息和生成文本的 Qwen2 語言模型 [31]。

請添加圖片描述

觸覺編碼器

如上文所述,視覺觸覺傳感器的觸覺信息以圖像的形式呈現。在機器人操作過程中,觸覺圖像會根據機器人夾持器的接觸狀態不斷變化。因此,觸覺編碼器需要處理兩個時間上對齊的圖像序列。

觸覺編碼器的挑戰在于從輸入的觸覺圖像中提取時間變化。為了解決這個問題,將兩個觸覺圖像序列合成為一個圖像,將時間信息轉換為空間信息,以便于基于視覺觸覺的特征提取。具體而言,輸入圖像集表示為 I = {I_lt, I_rt; t = 0, 1, 2, 3},其中 I_lt 和 I_r^t 分別表示時間戳 t 時左右指尖的觸覺圖像。這八幅圖像排列成 3×3 的網格,最后一個網格用白色圖像填充,并調整為 616×616 的尺寸作為模型輸入。

用 Qwen2-VL 的 ViT 作為觸覺編碼器,如上圖所示。連接后的觸覺圖像經觸覺編碼器處理后,獲得觸覺特征。此外,還使用多層感知器 (MLP) 層將 2×??2 范圍內的觸覺特征進一步壓縮為單個 token。因此,對于輸入的觸覺圖像 I,經過塊大小為 14 的 ViT 后,可以獲得 1936 個觸覺 tokens。

使用語言模型進行動作預測

使用 Qwen2 語言模型預測機器人動作,如上圖所示。語言模型的輸入是觸覺 token 和語言 token,它們分別由觸覺編碼器和 token 化器對原始多模態輸入進行編碼獲得。Qwen2 7B 是 TLA 的骨干模型,并在 TLA 數據集上進行微調。

使用離散標記器對連續數字進行編碼會影響模型在數字敏感任務中的表現 [32]。先前的研究 [13] 只是將最少使用的標記覆蓋為“特殊標記”,并為每個標記分配 bin ID。與之前的方法不同,我們保留了數字編碼方案,以確保在機器人操作任務中有效地利用訓練前獲得的數字知識。
然而,Qwen2 的 token 化器對數字進行單獨編碼。由于機器人動作數據中存在大量小數,這些冗余信息增加模型訓練的難度。為此,通過按比例縮放所有動作并四舍五入為整數來簡化真實動作。具體而言,處理過程計算為 A_gt = A_raw·s,其中 A_gt、A_raw、s 分別為真實動作、原始動作和縮放因子。

訓練與推理

先前的研究表明,在訓練期間凍結視覺編碼器可以使 VLM 獲得更好的性能 [29] [33]。因此,在微調期間凍結觸覺編碼器的參數。此外,使用低秩自適應 (LoRA) [34] 來有效地微調 Qwen2 7B 語言模型。真實動作被用作標簽來計算下一個分詞預測損失。

在推理過程中,TLA 根據輸入的觸覺觀察和指令文本,依次預測機器人動作的概率分布。生成過程通過波束搜索進行,直至生成最終的 token。最后,Action-De-Tokenizer 將所有生成的概率根據詞匯表映射到自然語言文本,并將其轉換為機器人可執行的浮點數。

基線方法和TLA比較試驗:
? 行為克隆 (BC) [35]:采用 ResNet-50 [36] 作為策略網絡。該網絡以觸覺圖像為輸入,輸出機器人動作,并采用監督學習的方式進行訓練。
? 擴散策略 (DP) [37]:[37] 中的擴散策略利用條件去噪擴散過程來學習釘入孔裝配策略。
? 單釘 TLA (SP-TLA):在方形釘插入數據集上訓練的 TLA 模型。
? 多釘 TLA (MP-TLA):在方形和三角形釘插入數據集上訓練的 TLA 模型。

實驗設置。

單釘。從 TLA 數據集中選取 8k 的方形樁插入數據,用于比較 TLA 與基線方法的性能。具體而言,訓練集和測試集分別拆分為 6k 和 2k。每個訓練樣本包含 8 張觸覺圖像,分別對應左右指尖,時長為 4。標簽為機器人動作 (?x, ?y, ?rz),分別表示水平方向的移動和繞 z 軸的旋轉。TLA 模型在 8 塊 Nvidia A6000 GPU 上訓練 20 個 epoch。

多釘。選取 16,000 個方形和三角形樁樣本進行訓練,并進行等分。此外,收集 8,000 個樣本進行評估:方形/三角形樁各 4,000 個,圓形/六邊形樁各 4,000 個。輸入、輸出和指標與單樁任務一致。訓練使用 8 塊 Nvidia A6000 GPU,進行 10 個 epoch。

測試不同模型在兩類銷孔裝配任務中的操作性能。首先,評估不同裝配間隙下的模型性能,包括裝配間隙分別為2.0 mm、1.6 mm和1.0 mm的方形銷孔裝配任務。然后,報告不同模型在方形、三角形、圓形和六邊形銷插入任務中的表現,所有裝配間隙均設置為 2.0 mm。每個任務重復 50 次以計算最終結果。

在每個回合開始時,機器人已經用夾持器抓住釘子,并將末端執行器隨機設置在靠近目標孔的起始位置。然后,機器人嘗試第一次插入并獲取觸覺圖像。隨后,TLA 或其他模型根據觸覺觀察預測機器人的動作,并控制機器人再次插入。機器人持續嘗試,直至插入成功或達到最大嘗試次數 15。成功率和成功回合的平均步數用于評估所有模型的性能。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/901451.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/901451.shtml
英文地址,請注明出處:http://en.pswp.cn/news/901451.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【JavaEE】SpringBoot 統一功能處理

目錄 一、攔截器1.1 使用1.1 定義攔截器1.2 注冊配置攔截器 1.2 攔截器詳解1.2.1 攔截路徑1.2.2 攔截器執?流程 1.3 適配器模式 二、統一數據返回格式2.1 簡單用法2.2 問題及解決 三、統一異常處理 一、攔截器 攔截器&#xff1a;攔截器是Spring框架提供的核?功能之?&#…

【前端實戰】使用 BroadcastChannel API 實現跨標簽頁通信

一、引言 在現代 Web 應用開發中&#xff0c;我們常常會遇到需要在不同瀏覽器標簽頁之間進行通信的需求。例如&#xff0c;在一個電商應用中&#xff0c;用戶在一個標簽頁中添加商品到購物車&#xff0c;希望在其他標簽頁中也能實時顯示購物車的更新信息。傳統的實現方式可能會…

微信小程序 - [渲染層錯誤] Uncaught TypeError: Cannot read property ‘D‘ of undefined

問題&#xff1a;[渲染層錯誤] Uncaught TypeError: Cannot read property D of undefined 解決&#xff1a; 該錯誤可能還是小程序的渲染模式有關系&#xff0c;查看app.json中是否有如下配置&#xff0c;刪除即可&#xff0c;或者降低小程序調試基礎庫版本。

【MySQL高級】事務,存儲引擎,索引(一)

Mysql高級 DQL查詢語句 反引號 模糊查詢避免%出現在開頭,會造成索引失效 order by排序先后 表名列名都需要用${}&#xff0c;他們不能帶’’ 去重統計數量 null的運算 分組函數會自動忽略null&#xff0c;不用對null進行處理 截取子串substr&#xff08;字段&#xff0c;下標…

面試篇 - GPT-1(Generative Pre-Training 1)

GPT-1&#xff08;Generative Pre-Training 1&#xff09; ?模型結構 Transformer only-decoder&#xff1a;GPT-1模型使用了一個12層的Transformer解碼器。具體細節與標準的Transformer相同&#xff0c;但位置編碼是可訓練的。 注意力機制&#xff1a; 原始Transformer的解…

ubuntu24.04 cmake 報錯 libldap-2.5.so.0 解決辦法

apt cmake有毛病 換源重新安裝 wget -O - https://apt.kitware.com/keys/kitware-archive-latest.asc 2>/dev/null | sudo apt-key add - sudo apt-add-repository "deb https://apt.kitware.com/ubuntu/ $(lsb_release -cs) main" sudo apt update sudo apt in…

ScholarCopilot:“學術副駕駛“

這里寫目錄標題 引言&#xff1a;學術寫作的痛點與 AI 的曙光ScholarCopilot 的核心武器庫&#xff1a;智能生成與精準引用智能文本生成&#xff1a;不止于“下一句”智能引用管理&#xff1a;讓引用恰到好處 揭秘背后機制&#xff1a;檢索與生成的動態協同快速上手&#xff1a…

vivo X200 Ultra前瞻系列(2):vivo X200 Ultra影像技術溝通會總結

vivo于今日(2025年4月14日)舉辦的“X系列藍圖影像技術溝通會”中,正式發布了vivo X200 Ultra,展示了其在移動影像領域的多項技術突破。以下是本次溝通會的核心內容總結: 1. 硬件革新:蔡司三焦段鏡頭與雙芯架構 蔡司三大定焦大師鏡頭: X200 Ultra采用14mm超廣角(“鷹眼”…

代碼隨想錄第17天:二叉樹

一、二叉搜索樹的最近公共祖先&#xff08;Leetcode 235&#xff09; 由于是二叉搜索樹&#xff0c;節點的值有嚴格的順序關系&#xff1a;左子樹的節點值都小于父節點&#xff0c;右子樹的節點值都大于父節點。利用這一點&#xff0c;可以在樹中更高效地找到最低公共祖先。 c…

C++中string庫常用函數超詳細解析與深度實踐

目錄 一、引言 二、基礎準備&#xff1a;頭文件與命名空間 三、string對象的創建與初始化(基礎&#xff09; 3.1 直接初始化 3.2 動態初始化&#xff08;空字符串&#xff09; 3.3 基于字符數組初始化 3.4 重復字符初始化 四、核心函數詳解 4.1 字符串長度相關 4.1.1 …

LanDiff:賦能視頻創作,語言與擴散模型的融合力量

自從 Wan 2.1 發布以來&#xff0c;AI 視頻生成領域似乎進入了一個發展瓶頸期&#xff0c;但這也讓人隱隱感到&#xff1a;“DeepSeek 時刻”即將到來&#xff01;就在前幾天&#xff0c;浙江大學與月之暗面聯合推出了一款全新的文本到視頻&#xff08;T2V&#xff09;生成模型…

【本地圖床搭建】寶塔+Docker+MinIO+PicGo+cpolar:打造本地化“黑科技”圖床方案

寫在前面&#xff1a;本博客僅作記錄學習之用&#xff0c;部分圖片來自網絡&#xff0c;如需引用請注明出處&#xff0c;同時如有侵犯您的權益&#xff0c;請聯系刪除&#xff01; 文章目錄 前言寶塔安裝DockerMinIO 安裝與設置cploar內網穿透PicGo下載與安裝typora安裝總結互動…

centos-LLM-生物信息-BioGPT-使用1

參考&#xff1a; GitHub - microsoft/BioGPT https://github.com/microsoft/BioGPT BioGPT&#xff1a;用于生物醫學文本生成和挖掘的生成式預訓練轉換器 |生物信息學簡報 |牛津學術 — BioGPT: generative pre-trained transformer for biomedical text generation and mini…

高效爬蟲:一文掌握 Crawlee 的詳細使用(web高效抓取和瀏覽器自動化庫)

更多內容請見: 爬蟲和逆向教程-專欄介紹和目錄 文章目錄 一、Crawlee概述1.1 Crawlee介紹1.2 為什么 Crawlee 是網頁抓取和爬取的首選?1.3 為什么使用 Crawlee 而不是 Scrapy1.4 Crawlee的安裝二、Crawlee的基本使用2.1 BeautifulSoupCrawler的使用方式2.2 ParselCrawler的使…

架構總覽怎么寫,才算工業級?

??系統架構文檔是整個項目最重要的起點,但很多人第一章就“寫穿了”: 不是寫得太細,就是沒有重點。想要寫出高質量、能協作、能傳承的架構文檔,這一篇會告訴你應該怎么做—— ? 架構總覽的終極目標 明確邊界、定義角色、畫清數據流 別講執行細節,別深入函數調用。 ? 架…

優先級隊列(堆二叉樹)底層的實現:

我們繼續來看我們的優先級隊列&#xff1a; 優先級隊列我們說過&#xff0c;他也是一個容器適配器&#xff0c;要依賴我們的容器來存儲數據&#xff1b; 他的第二個參數就是我們的容器&#xff0c;這個容器的默認的缺省值是vector&#xff0c;然后他的第三個參數&#xff0c;我…

GIC驅動程序分析

今天呢&#xff0c;我們就來具體的講一下GIC的驅動源碼啦&#xff0c;這個才是重點來著&#xff0c;我們來看看&#xff1a; GIC中的重要函數和結構體&#xff1a; 沿著中斷的處理流程&#xff0c;GIC涉及這4個重要部分&#xff1a; CPU從異常向量表中調用handle_arch_irq&am…

java操作redis庫,開箱即用

application.yml spring:application:name: demo#Redis相關配置redis:data:# 地址host: localhost# 端口&#xff0c;默認為6379port: 6379# 數據庫索引database: 0# 密碼password:# 連接超時時間timeout: 10slettuce:pool:# 連接池中的最小空閑連接min-idle: 0# 連接池中的最…

Cribl 通過Splunk search collector 來收集數據

今天利用Spliunk search collector 來收集數據啦:還是要先cribl 的官方文檔: Splunk Search Collector | Cribl Docs Splunk Search Collector Cribl Stream supports collecting search results from Splunk queries. The queries can be both simple and complex, as well a…

What Was the “Game Genie“ Cheat Device, and How Did It Work?

什么是“Game Genie”作弊裝置&#xff0c;它是如何工作的&#xff1f; First released in 1991, the Game Genie let players enter special codes that made video games easier or unlocked other functions. Nintendo didnt like it, but many gamers loved it. Heres wha…