VoxPoser:使用語言模型進行機器人操作的可組合 3D 值圖

語言是一種壓縮媒介,人們通過它來提煉和傳達他們對世界的知識和經驗。大型語言模型(LLMs)已成為一種有前景的方法,通過將世界投影到語言空間中來捕捉這種抽象。雖然這些模型被認為在文本形式中內化了可概括的知識,但如何利用這種可概括的知識使具身代理能夠在現實世界中進行物理行動仍然是一個問題。
該工作研究了將抽象語言指令(例如“擺放桌子”)與機器人行動相結合的問題。之前的研究利用詞匯分析來解析指令,而最近的研究利用語言模型將指令分解為文本序列的步驟。然而,為了能夠與環境進行物理交互,現有方法通常依賴于手動設計或預訓練的運動基元(即技能),這些基元可以由LLM或規劃器調用。由于缺乏大規模的機器人數據,這種依賴于單個技能的獲取常常被認為是系統的一個主要瓶頸。因此,問題就出現了:如何在細粒度的行動層面上利用LLMs內部化的豐富知識,而不需要費力的數據收集或為每個單獨的基元手動設計?
為了解決這個挑戰,該工作首先注意到LLMs直接輸出文本形式的控制動作是不可行的,因為這些動作通常由高維空間中的高頻控制信號驅動。然而,該工作發現LLMs擅長推斷受語言條件約束的可行性和限制,并通過利用它們的編碼能力,可以通過編排感知調用(例如通過CLIP 或開放詞匯檢測器和數組操作(例如通過NumPy )來組合密集的3D體素圖,將它們在視覺空間中進行關聯。例如,給定指令“打開頂層抽屜,注意花瓶”,LLMs可以被提示推斷出:1)應該抓住頂層抽屜的把手,2)把手需要向外移動,3)機器人應該遠離花瓶。雖然這些信息是以文本形式表達的,但LLMs可以生成Python代碼來調用感知API以獲取相關對象或部件(例如“把手”)的空間幾何信息,然后操縱3D體素圖,在觀察空間中的相關位置處為目標位置指定高值,同時為花瓶周圍指定低值。最后,組合的值圖可以作為運動規劃器的目標函數,直接合成實現給定指令的機器人軌跡,而無需為每個任務或LLM進行額外的訓練數據。

相關成果以“VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models ”為題發表。
主要貢獻
該工作的貢獻總結如下:
? 該工作提出了VoxPoser,一種從預訓練的語言模型中提取機器人操作的可行性和約束的方法,無需額外的訓練,并且可以推廣到開放指令。
? 利用VoxPoser來表示任務目標,該工作展示了合成軌跡可以在模擬和真實環境中以閉環方式通過MPC進行魯棒執行的能力,適用于各種操作任務。
? 該工作展示了VoxPoser適用于僅有有限數量的在線交互,通過高效學習動力學模型的應用性,例如,在不到3分鐘內學習使用杠桿把手打開門。
方法簡介
考慮一個給定的操作問題,以自由形式語言指令L來描述(例如,“打開頂層抽屜”)。然而,根據L生成機器人軌跡可能很困難,因為L可能具有任意長的時間跨度或不完全規定(即需要上下文理解)。相反,該工作將重點放在問題的各個階段(子任務)?i上,這些階段明確指定了一個操作任務(例如,“抓住抽屜把手”,“拉開抽屜”),其中分解由高級規劃器(例如LLM或基于搜索的規劃器)給出。本工作中研究的核心問題是為機器人生成運動軌跡。
在這里插入圖片描述

VoxPoser通過合成3D地圖進行運動規劃
該工作將運動軌跡表示為一系列由操作空間控制器執行的密集末端執行器路徑點,其中每個路徑點包括期望的6自由度末端執行器姿態、末端執行器速度和夾爪動作。然而,值得注意的是,也可以使用其他表示軌跡的方式,例如關節空間軌跡。
計算相對于自由形式語言指令的Ftask是極具挑戰性的,不僅因為語言可以傳達的豐富語義空間,還因為缺乏帶有T和?標簽的機器人數據。然而,該工作提供了一個關鍵觀察,即大量的任務可以通過機器人的觀察空間中的體素值圖來表征,它指導場景中的“感興趣實體”(如機器人末端執行器、物體或物體的部分)的運動。例如,在下圖中考慮任務“打開頂層抽屜”及其第一個子任務“抓住頂層抽屜把手”(由LLMs推斷)。這里的“感興趣實體”是機器人末端執行器,體素值圖應該反映對抽屜把手的吸引力。通過進一步指示“注意花瓶”,該圖還可以更新以反映對花瓶的排斥。該工作將“感興趣實體”表示為e,其軌跡表示為τe。
在這里插入圖片描述

VoxPoser主要方法示意圖
值得注意的是,該工作觀察到,通過在互聯網規模的數據上進行預訓練,大型語言模型不僅能夠識別“感興趣實體”,而且可以通過編寫Python程序來組合準確反映任務指令的值圖。具體而言,當指令作為代碼中的注釋給出時,LLMs可以被提示:1)調用感知API(調用視覺語言模型(VLM),如開放詞匯檢測器)以獲取相關對象的空間幾何信息,2)生成NumPy操作以操作3D數組,3)在相關位置上指定精確的值。該工作將這種方法稱為VOXPOSER。具體而言,該工作的目標是通過提示LLM并通過Python解釋器執行代碼來獲得一個體素值圖Vti = VoxPoser(ot, ?i),其中ot是時間t時的RGB-D觀察結果,?i是當前的指令。此外,由于V通常是稀疏的,該工作通過平滑操作使體素值圖變得密集,因為它們可以鼓勵由運動規劃器優化的更平滑的軌跡。
在獲得任務代價之后,使用簡單的零階優化方法,通過隨機采樣軌跡并使用提出的目標對其進行評分。進一步地,優化是在模型預測控制框架中實現的,該框架在每一步迭代地使用當前觀察來重新規劃軌跡,以在動態干擾下穩健地執行軌跡,可以使用學習的模型或基于物理的模型。然而,由于VoxPoser在觀察空間中提供了“密集的獎勵”,而且該工作能夠在每一步重新規劃,令人驚訝的是該工作發現,即使使用基于簡單啟發式模型,整個系統已經能夠完成本工作中考慮的大量操作任務。由于一些值圖是針對“感興趣實體”定義的,而這個實體不一定是機器人,該工作還使用動力學模型找到所需的機器人軌跡來最小化任務代價(即機器人與環境之間的相互作用實現所需的物體運動)。
實驗結果
1)操作任務結果
該工作研究VoxPoser 是否可以零樣本合成機器人軌跡來執行現實世界中的日常操作任務。環境設置的詳細信息可以在附錄A.4 中找到。雖然所提出的方法可以推廣到開放的指令集和開放的對象集,但該工作選擇了 5 個代表性任務來提供表 1 中的定量評估。包括環境推出和價值圖可視化在內的定性結果是 如圖3所示。該工作發現VoxPoser可以有效地合成用于日常操作任務的機器人軌跡,并且平均成功率很高。由于具有快速重新規劃功能,它對外部干擾也具有魯棒性,例如移動目標/障礙物以及機器人關閉抽屜后將其拉開。
在這里插入圖片描述

實驗結果

在這里插入圖片描述

生成3D價值圖可視化結果
該工作進一步與 Code as Policies的變體進行比較,該變體使用 LLM 來參數化簡單基元的預定義列表(例如,移動到姿勢、打開夾具)。該工作發現,與鏈接順序策略邏輯相比,在聯合優化方案下考慮其他約束的同時進行空間組合的能力是一種更靈活的表述,釋放了更多操作任務的可能性并導致更穩健的執行。
2)泛化到新指令或屬性

新任務泛化性能結果
表 2 顯示了每項任務 20 個回合的平均成功率。該工作發現 VoxPoser 在所有場景中都表現出卓越的泛化能力。通過價值圖組合而不是直接指定原始參數,將 LLM 知識扎根于機器人感知中,可以提供更大的靈活性和更好的泛化能力。
總結與展望
這項工作中,該工作提出了VOXPOSER,一個用于提取可供性和約束的通用框架,基于3D感知空間,從LLM和VLM中提取現實世界中的日常操作任務,為開放集指令和對象提供顯著的泛化優勢。盡管取得了引人注目的結果,VoxPoser仍存在一些局限性。首先,它依賴于外部感知模塊,這限制了需要整體視覺推理或理解細粒度物體幾何形狀的任務。其次,雖然適用于高效的動力學學習,但仍然需要通用的動力學模型來實現具有相同泛化水平的接觸豐富的任務。第三,該工作的運動規劃器僅考慮末端執行器軌跡,而全臂規劃也是可行的,并且可能是更好的設計選擇。最后,LLM需要手動提示工程。還看到了未來工作的幾個令人興奮的場所。例如,最近成功的多模態LLM可以直接轉化為VoxPoser以實現直接視覺基礎。為對齊和提示開發的方法可用于減輕臨時工程工作。最后,可以開發更先進的軌跡優化方法,與VoxPoser合成的值圖進行最佳接口。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/210730.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/210730.shtml
英文地址,請注明出處:http://en.pswp.cn/news/210730.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Vulnhub-DC-6 靶機復現完整過程

一、搭建環境 kali充當攻擊機 ip地址是:192.168.200.14 DC-6充當靶機 : IP地址暫時未知 注意:讓兩臺機器的使用同一種網絡適配器 二、信息收集 1.探索同網段存活的主機、 ①第一種方法 arp-scan -l②第二種方法 netdiscover -i eth0 -…

前端知識筆記(二)———Django與Ajax

特點: 異步提交 局部刷新 例子:github注冊 動態獲取用戶名實時的跟后端確認并實時的展示到前端(局部刷新) 朝后端發送請求的方式 1.瀏覽器地址欄直接輸入url回車 -----》get請求 2.a標簽的href屬性 -----》get請求 3…

Python ipaddress模塊介紹

目錄 創建 Address/Network/Interface 對象 關于IP版本的說明 IP主機地址 定義網絡 主機接口 審查 Address/Network/Interface 對象 Network 作為 Address 列表 比較運算 將IP地址與其他模塊一起使用 實例創建失敗時獲取更多詳細信息 概述 本文檔旨在簡要介紹 ipaddr…

【大數據-Hadoop】從入門到源碼編譯-概念篇

【大數據-Hadoop】從入門到源碼編譯-概念篇 Hadoop與大數據生態(一)Hadoop是什么?(二)Hadoop組成1. HDFS1.1 NameNode(nn)1.2 DataNode(dn)1.3 Secondary NameNode&#…

記一次堆內外內存問題的排查和優化

為優化淘寶帶寬成本,我們在網關 SDK(Java)統一使用 ZSTD 替代 GZIP 壓縮以獲取更高的壓縮比,從而得到更小的響應包。具體實現采用官方推薦的 zstd-jni 庫。zstd-jni 會調用 zstd 的 c 庫。 背景 在性能壓測和優化過程中&#xff0…

React和Preact 這樣處理className更優雅

React和Preact寫className,我不太習慣使用模板字符串,不好看,看起來也不直觀,寫了如下兩個庫: react-runtime-clsx 和 preact-runtime-clsx,來輔助開發,可以更方便的處理className的問題&#x…

nodejs微信小程序+python+PHP北京地鐵票務APP-計算機畢業設計推薦 -安卓

目 錄 摘 要 I ABSTRACT II 目 錄 II 第1章 緒論 1 1.1背景及意義 1 1.2 國內外研究概況 1 1.3 研究的內容 1 第2章 相關技術 3 2.1 nodejs簡介 4 2.2 express框架介紹 6 2.4 MySQL數據庫 4 第3章 系統分析 5 3.1 需求分析 5 3.2 系統可行性分析 5 3.2.1技術可行性:…

STM32F103

提示:來源正點原子,參考STM32F103 戰艦開發指南V1.3PDF資料 文章目錄 前言一、pandas是什么?二、使用步驟 1.引入庫2.讀入數據總結 前言 提示:這里可以添加本文要記錄的大概內容: 開發環境硬件普中科技,接…

C++相關閑碎記錄(6)

1、使用shared_ptr #include <iostream> #include <memory> #include <set> #include <deque> #include <algorithm> #include <string>class Item { private:std::string name;float price; public:Item(const std::string& n, floa…

【Centos】

一、Virtualbox安裝Centos 1、Virtualbox 下載地址: Virtualbox 2、Centos 下載地址: Centos 3、Virtualbox安裝Centos教程 Virtualbox安裝Centos教程: Virtualbox安裝Centos教程

光學遙感顯著目標檢測初探筆記總結

目錄 觀看地址介紹什么是顯著性目標檢測根據不同的輸入會有不同的變體(顯著性目標檢測家族)目前這個領域的挑戰 技術方案論文1(2019)論文2(2021)論文3(2022) 未來展望 觀看地址 b站鏈接 介紹 什么是顯著性目標檢測 一張圖片里最吸引注意力的部分就是顯著性物體&#xff0c;…

vue3 vue-router 導航守衛 (五)

在Vue 3中&#xff0c;導航守衛仍然是一個重要的概念&#xff0c;用于在路由切換時執行一些特定的邏輯。Vue Router提供了多個導航守衛&#xff0c;包括全局守衛、路由獨享守衛和組件內守衛。可以在路由切換時執行一些特定的邏輯&#xff0c;例如身份驗證、權限控制、數據加載等…

C++STL詳解+代碼分析+典例講解

vector 的介紹&#xff1a; 1、vector是表示可變大小數組的序列容器。 2、vector就像數組一樣&#xff0c;也采用的連續空間來存儲元素&#xff0c;這也意味著可以采用下標對vector的元素進行訪問。 3、vector與普通數組不同的是&#xff0c;vector的大小是可以動態改變的。 4、…

基于物聯網的智能倉管理系統方案

基于物聯網的智能倉管理系統方案 一、項目背景 隨著企業業務的快速發展&#xff0c;傳統的人工倉庫管理方式已經無法滿足現代企業的需求。倉庫運營效率低下、貨物出入庫錯誤、庫存不準確等問題不斷涌現。因此&#xff0c;我們提出一個基于物聯網技術的智能倉管理系統方案&…

Redis 五大經典業務問題

一 緩存穿透 緩存穿透是指當請求的數據既不在緩存中也不存在于數據庫中時&#xff0c;請求會直接穿透緩存層&#xff0c;到達數據庫層。這通常是由于惡意攻擊或者程序錯誤造成的&#xff0c;比如攻擊者故意請求不存在的大量數據&#xff0c;導致緩存不命中&#xff0c;所有的請…

智能優化算法應用:基于被囊群算法3D無線傳感器網絡(WSN)覆蓋優化 - 附代碼

智能優化算法應用&#xff1a;基于被囊群算法3D無線傳感器網絡(WSN)覆蓋優化 - 附代碼 文章目錄 智能優化算法應用&#xff1a;基于被囊群算法3D無線傳感器網絡(WSN)覆蓋優化 - 附代碼1.無線傳感網絡節點模型2.覆蓋數學模型及分析3.被囊群算法4.實驗參數設定5.算法結果6.參考文…

Moco框架的搭建使用

一、前言   之前一直聽mock&#xff0c;也大致了解mock的作用&#xff0c;但沒有具體去了解過如何用工具或框架實現mock&#xff0c;以及也沒有考慮過落實mock&#xff0c;因為在實際的工作中&#xff0c;很少會考慮用mock。最近在學java&#xff0c;剛好了解到moco框架是用于…

城市基礎設施智慧路燈改造的特點

智慧城市建設穩步有序推進。作為智慧城市的基礎設施&#xff0c;智能照明是智慧城市的重要組成部分&#xff0c;而叁仟智慧路燈是智慧城市理念下的新產品。隨著物聯網和智能控制技術的飛速發展&#xff0c;路燈被賦予了新的任務和角色。除了使道路照明智能化和節能化外&#xf…

安全掃描五項簡介

目錄 安掃五項 1.代碼檢測 2.主機基線 nginx合規檢查 麒麟基線 3.WEB掃描 4.滲透測試 用戶枚舉漏洞 漏洞描述 修復建議 點擊劫持漏洞 漏洞描述 修復建議 XSS漏洞 漏洞描述 修復建議 3.主機漏洞 超高危漏洞 高危漏洞 中危漏洞 低危漏洞 信息漏洞 參考信息…

用電商API接口獲取拼多多的商品詳情數據

pinduoduo.item_get_app_pro-根據ID取商品詳情原數據 公共參數 API請求地址 名稱類型必須描述keyString是調用key&#xff08;必須以GET方式拼接在URL中&#xff09;secretString是調用密鑰api_nameString是API接口名稱&#xff08;包括在請求地址中&#xff09;[item_searc…