語言是一種壓縮媒介,人們通過它來提煉和傳達他們對世界的知識和經驗。大型語言模型(LLMs)已成為一種有前景的方法,通過將世界投影到語言空間中來捕捉這種抽象。雖然這些模型被認為在文本形式中內化了可概括的知識,但如何利用這種可概括的知識使具身代理能夠在現實世界中進行物理行動仍然是一個問題。
該工作研究了將抽象語言指令(例如“擺放桌子”)與機器人行動相結合的問題。之前的研究利用詞匯分析來解析指令,而最近的研究利用語言模型將指令分解為文本序列的步驟。然而,為了能夠與環境進行物理交互,現有方法通常依賴于手動設計或預訓練的運動基元(即技能),這些基元可以由LLM或規劃器調用。由于缺乏大規模的機器人數據,這種依賴于單個技能的獲取常常被認為是系統的一個主要瓶頸。因此,問題就出現了:如何在細粒度的行動層面上利用LLMs內部化的豐富知識,而不需要費力的數據收集或為每個單獨的基元手動設計?
為了解決這個挑戰,該工作首先注意到LLMs直接輸出文本形式的控制動作是不可行的,因為這些動作通常由高維空間中的高頻控制信號驅動。然而,該工作發現LLMs擅長推斷受語言條件約束的可行性和限制,并通過利用它們的編碼能力,可以通過編排感知調用(例如通過CLIP 或開放詞匯檢測器和數組操作(例如通過NumPy )來組合密集的3D體素圖,將它們在視覺空間中進行關聯。例如,給定指令“打開頂層抽屜,注意花瓶”,LLMs可以被提示推斷出:1)應該抓住頂層抽屜的把手,2)把手需要向外移動,3)機器人應該遠離花瓶。雖然這些信息是以文本形式表達的,但LLMs可以生成Python代碼來調用感知API以獲取相關對象或部件(例如“把手”)的空間幾何信息,然后操縱3D體素圖,在觀察空間中的相關位置處為目標位置指定高值,同時為花瓶周圍指定低值。最后,組合的值圖可以作為運動規劃器的目標函數,直接合成實現給定指令的機器人軌跡,而無需為每個任務或LLM進行額外的訓練數據。
相關成果以“VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models ”為題發表。
主要貢獻
該工作的貢獻總結如下:
? 該工作提出了VoxPoser,一種從預訓練的語言模型中提取機器人操作的可行性和約束的方法,無需額外的訓練,并且可以推廣到開放指令。
? 利用VoxPoser來表示任務目標,該工作展示了合成軌跡可以在模擬和真實環境中以閉環方式通過MPC進行魯棒執行的能力,適用于各種操作任務。
? 該工作展示了VoxPoser適用于僅有有限數量的在線交互,通過高效學習動力學模型的應用性,例如,在不到3分鐘內學習使用杠桿把手打開門。
方法簡介
考慮一個給定的操作問題,以自由形式語言指令L來描述(例如,“打開頂層抽屜”)。然而,根據L生成機器人軌跡可能很困難,因為L可能具有任意長的時間跨度或不完全規定(即需要上下文理解)。相反,該工作將重點放在問題的各個階段(子任務)?i上,這些階段明確指定了一個操作任務(例如,“抓住抽屜把手”,“拉開抽屜”),其中分解由高級規劃器(例如LLM或基于搜索的規劃器)給出。本工作中研究的核心問題是為機器人生成運動軌跡。
VoxPoser通過合成3D地圖進行運動規劃
該工作將運動軌跡表示為一系列由操作空間控制器執行的密集末端執行器路徑點,其中每個路徑點包括期望的6自由度末端執行器姿態、末端執行器速度和夾爪動作。然而,值得注意的是,也可以使用其他表示軌跡的方式,例如關節空間軌跡。
計算相對于自由形式語言指令的Ftask是極具挑戰性的,不僅因為語言可以傳達的豐富語義空間,還因為缺乏帶有T和?標簽的機器人數據。然而,該工作提供了一個關鍵觀察,即大量的任務可以通過機器人的觀察空間中的體素值圖來表征,它指導場景中的“感興趣實體”(如機器人末端執行器、物體或物體的部分)的運動。例如,在下圖中考慮任務“打開頂層抽屜”及其第一個子任務“抓住頂層抽屜把手”(由LLMs推斷)。這里的“感興趣實體”是機器人末端執行器,體素值圖應該反映對抽屜把手的吸引力。通過進一步指示“注意花瓶”,該圖還可以更新以反映對花瓶的排斥。該工作將“感興趣實體”表示為e,其軌跡表示為τe。
VoxPoser主要方法示意圖
值得注意的是,該工作觀察到,通過在互聯網規模的數據上進行預訓練,大型語言模型不僅能夠識別“感興趣實體”,而且可以通過編寫Python程序來組合準確反映任務指令的值圖。具體而言,當指令作為代碼中的注釋給出時,LLMs可以被提示:1)調用感知API(調用視覺語言模型(VLM),如開放詞匯檢測器)以獲取相關對象的空間幾何信息,2)生成NumPy操作以操作3D數組,3)在相關位置上指定精確的值。該工作將這種方法稱為VOXPOSER。具體而言,該工作的目標是通過提示LLM并通過Python解釋器執行代碼來獲得一個體素值圖Vti = VoxPoser(ot, ?i),其中ot是時間t時的RGB-D觀察結果,?i是當前的指令。此外,由于V通常是稀疏的,該工作通過平滑操作使體素值圖變得密集,因為它們可以鼓勵由運動規劃器優化的更平滑的軌跡。
在獲得任務代價之后,使用簡單的零階優化方法,通過隨機采樣軌跡并使用提出的目標對其進行評分。進一步地,優化是在模型預測控制框架中實現的,該框架在每一步迭代地使用當前觀察來重新規劃軌跡,以在動態干擾下穩健地執行軌跡,可以使用學習的模型或基于物理的模型。然而,由于VoxPoser在觀察空間中提供了“密集的獎勵”,而且該工作能夠在每一步重新規劃,令人驚訝的是該工作發現,即使使用基于簡單啟發式模型,整個系統已經能夠完成本工作中考慮的大量操作任務。由于一些值圖是針對“感興趣實體”定義的,而這個實體不一定是機器人,該工作還使用動力學模型找到所需的機器人軌跡來最小化任務代價(即機器人與環境之間的相互作用實現所需的物體運動)。
實驗結果
1)操作任務結果
該工作研究VoxPoser 是否可以零樣本合成機器人軌跡來執行現實世界中的日常操作任務。環境設置的詳細信息可以在附錄A.4 中找到。雖然所提出的方法可以推廣到開放的指令集和開放的對象集,但該工作選擇了 5 個代表性任務來提供表 1 中的定量評估。包括環境推出和價值圖可視化在內的定性結果是 如圖3所示。該工作發現VoxPoser可以有效地合成用于日常操作任務的機器人軌跡,并且平均成功率很高。由于具有快速重新規劃功能,它對外部干擾也具有魯棒性,例如移動目標/障礙物以及機器人關閉抽屜后將其拉開。
實驗結果
生成3D價值圖可視化結果
該工作進一步與 Code as Policies的變體進行比較,該變體使用 LLM 來參數化簡單基元的預定義列表(例如,移動到姿勢、打開夾具)。該工作發現,與鏈接順序策略邏輯相比,在聯合優化方案下考慮其他約束的同時進行空間組合的能力是一種更靈活的表述,釋放了更多操作任務的可能性并導致更穩健的執行。
2)泛化到新指令或屬性
新任務泛化性能結果
表 2 顯示了每項任務 20 個回合的平均成功率。該工作發現 VoxPoser 在所有場景中都表現出卓越的泛化能力。通過價值圖組合而不是直接指定原始參數,將 LLM 知識扎根于機器人感知中,可以提供更大的靈活性和更好的泛化能力。
總結與展望
這項工作中,該工作提出了VOXPOSER,一個用于提取可供性和約束的通用框架,基于3D感知空間,從LLM和VLM中提取現實世界中的日常操作任務,為開放集指令和對象提供顯著的泛化優勢。盡管取得了引人注目的結果,VoxPoser仍存在一些局限性。首先,它依賴于外部感知模塊,這限制了需要整體視覺推理或理解細粒度物體幾何形狀的任務。其次,雖然適用于高效的動力學學習,但仍然需要通用的動力學模型來實現具有相同泛化水平的接觸豐富的任務。第三,該工作的運動規劃器僅考慮末端執行器軌跡,而全臂規劃也是可行的,并且可能是更好的設計選擇。最后,LLM需要手動提示工程。還看到了未來工作的幾個令人興奮的場所。例如,最近成功的多模態LLM可以直接轉化為VoxPoser以實現直接視覺基礎。為對齊和提示開發的方法可用于減輕臨時工程工作。最后,可以開發更先進的軌跡優化方法,與VoxPoser合成的值圖進行最佳接口。