使用大語言模型進行機器人規劃(Robot planning with LLMs)

李升偉 編譯

長期規劃在機器人學領域可以從經典控制方法與大型語言模型在現實世界知識能力的結合中獲益。

在20世紀80年代,機器人學和人工智能(AI)領域的專家提出了莫雷奇悖論,觀察到人類看似簡單的涉及移動和感知的任務,如開門或倒咖啡,對機器人來說是計算密集型的挑戰。相比之下,人類認為認知上更復雜的任務,如下棋,對AI來說卻容易得多。盡管幾十年的發展,設計能夠執行真實世界任務和環境的機器人仍然具有挑戰性。在機器人物理能力的持續進步中,更好的傳感器和執行器的可用性,以及基于數據驅動的方法來控制和預測行動結果,已經取得了進展。然而,現實任務通常涉及許多需要同時和依次執行的物理動作,這需要長期規劃。

過去十年,深度學習迅速發展,并在機器人規劃應用中展現出巨大的潛力。以安德魯·巴托(Andrew Barto)和理查德·斯隆(Richard Sutton)為2024年圖靈獎獲獎者之一的強化學習,是AI學習和規劃最成功的框架之一,并廣泛應用于機器人學。2019年,OpenAI利用深度強化學習從頭開始訓練了一個機器人手,使其能夠模擬操作魔方,并將學到的控制能力轉移到實際的機器人手中。Hafner等人最近展示了在這個領域仍然有可能取得令人印象深刻的進展。僅使用視覺信息和復雜長時規劃任務的稀疏獎勵,在視頻游戲中,他們開發了一種名為Dreamer的方法,該方法能夠預測環境潛在行動的結果,而無需針對每個單獨的游戲進行精細調整,范圍從Atari游戲、機器人模擬到視頻游戲Minecraft。

然而,將能力轉移到現實世界的機器人學仍然是一個挑戰。潛在的解決方案之一是利用基礎模型,這些模型通過在不同來源的大量弱標簽數據上預訓練大型深度學習模型來構建。社區項目,如Open X-Embodiment倡議,收集了大量的真實世界機器人數據,旨在訓練機器人視覺語言模型(VLMs,LLMs的擴展)。這種模型的一個早期版本,PaLM-SayCan,通過機器人收集的數據對LLM的強化學習組件進行微調,以增強對實際可行的工具和動作的預測,從而提高了生成運動計劃的成功率。

受PaLM-SayCan模型啟發的后續工作使用了如GPT-4這樣的LLMs,展示了令人印象深刻的演示。然而,將機器人控制權交給LLM存在缺點,包括幻覺和潛在的安全風險。GPT-4等模型發送請求的速度和頻率也有限。如果沒有精心設計的提示和可用的數據,即使是強大的LLMs也可能陷入循環步驟或“過度思考”問題的陷阱。這種效應在Anthropic AI運行的一個實驗中得到了展示,在這個實驗中,一個LLM代理試圖玩Pokemon,并同時表現出似乎令人印象深刻的推理能力,但同時也陷入了簡單的障礙。

采取不同的途徑,本文中提出了一種名為ELLMER的框架,由魯阿迪·蒙-威廉斯等人開發,該框架將由LLM執行的高層規劃與實際控制機器人分離。該方法使靈活和反應式的本體規劃成為可能,將AI和傳感器運動能力結合,以響應復雜甚至模糊的用戶請求來控制機器人操作器。通過用戶的自然語言請求和使用圖像反饋,LLM生成基于示例的Python代碼,這些示例包括對象識別和力反饋傳感工具,以控制機器人下一步的動作。作為示例任務之一,研究人員告訴機器人他們感到疲倦,并要求它制作熱飲并在盤子上裝飾動物。查詢故意不直接或清晰,但GPT-4推斷任務是制作咖啡,并計劃首先找到一個杯子。在演示中,機器人依次打開櫥柜,找到杯子,放下杯子,加入速溶咖啡粉,并將水倒入杯子,而人類在此過程中已經移動了杯子。由于每一步生成的代碼本身并不依賴于與LLM的進一步交互,它允許機器人響應視覺和力信息——例如,當人類輕推機器人時。當機器人需要對意外的新情況作出反應時,如人類發出進一步的命令,LLM可能可以再次被聯系以適應變化的情況。

隨著LLMs和VLMs的快速進步,過去幾年見證了本體AI(embodied AI)的爆炸性興趣。本體AI的有前景的下一步是終生學習,這對機器人來說尤為重要,如果它們打算在現實世界中長時間成功運行。結合LLMs、VLMs與傳統方法可以構建出穩健的本體AI系統。

原文引用:Robot planning with LLMs. Nat Mach Intell 7, 521 (2025). https://doi.org/10.1038/s42256-025-01036-4

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/82411.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/82411.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/82411.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【計算機視覺】OpenCV實戰項目: opencv-text-deskew:實時文本圖像校正

opencv-text-deskew:基于OpenCV的實時文本圖像校正 一、項目概述與技術背景1.1 核心功能與創新點1.2 技術指標對比1.3 技術演進路線 二、環境配置與算法原理2.1 硬件要求2.2 軟件部署2.3 核心算法流程 三、核心算法解析3.1 文本區域定位3.2 角度檢測優化3.3 仿射變換…

可視化圖解算法33:判斷是不是平衡二叉樹

1. 題目 描述 輸入一棵節點數為 n 的二叉樹,判斷該二叉樹是否是平衡二叉樹。 在這里,我們只需要考慮其平衡性,不需要考慮其是不是排序二叉樹 平衡二叉樹(Balanced Binary Tree),具有以下性質&#xff1…

【Linux網絡】應用層自定義協議與序列化

應用層自定義協議與序列化 應用層 我們程序員寫的一個個解決我們實際問題,滿足我們日常需求的網絡程序,都是在應用層. 協議是一種"約定".Socket的接口,在讀寫數據時,都是按"字符串"的方式來發送接收的.如果我們要傳輸一些"結構化的數據"怎么辦…

MySQL + Elasticsearch:為什么要使用ES,使用場景與架構設計詳解

MySQL Elasticsearch:為什么要使用ES,使用場景與架構設計詳解 前言一、MySQL Elasticsearch的背景與需求1.1 為什么要使用Elasticsearch(ES)?1.2 為什么MySQL在某些場景下不足以滿足需求?1.3 MySQL Elas…

PPL困惑度的計算

1. 公式 PPL(Perplexity)困惑度 是自然語言處理(NLP)中常用的評估語言模型(Language Model)性能的指標。PPL 用于衡量語言模型對語言序列的預測能力,數值越小,說明模型的預測能力越…

MegaCLI Raid管理工具

整理在CentOS 7.9和Ubuntu 24.04上,MegaCLI 工具的安裝與常用命令。 1. 參考 下載和安裝MegaCLI工具 MegaCli RAID管理工具 Megacli 批量磁盤巡檢 ubuntu24.04 No such file libncursesw.so.5 dell服務器硬盤的狀態變成外來(foreign)命…

HTML9:頁面結構分析

頁面結構分析 元素名描述header標題頭部區域的內容(用于頁面或頁面中的一塊區域)footer標記腳部區域的內容(用于整個頁面或頁面的一塊區域)sectionWeb頁面的一塊獨立區域article獨立的文章內容aside相關的內容或應用(…

分布式處理架構

分布式處理架構是一種將計算任務分散到多臺計算機或服務器上協同完成的系統設計方法。這種架構通過將工作負載分配到多個節點(可以是物理機、虛擬機或容器)來提高性能、可靠性和可擴展性。下面我將從多個角度詳細解釋這一概念: 分布式架構的…

算法每日一題 | 入門-分支結構-Apples Prologue/蘋果和蟲子

Apples Prologue/蘋果和蟲子 題目描述 小 B 喜歡吃蘋果。她現在有 m m m(1 ≤ m ≤100)個蘋果,吃完一個蘋果需要花費 t t t(0 ≤ t≤ 100)分鐘,吃完一個后立刻開始吃下一個。 現在時間過去了 s s s&a…

RT Thread Studio創建軟件和硬件RTC工程

MCU型號:STM32F103RET6 一.配置軟件模擬RTC 1.生成一個帶串口輸出的工程文件,新建RT-Thread項目工程文件。 2.查看電路圖中的串口輸出管腳,根據STMCubeMx軟件可知此串口為USART1,選擇芯片型號為STM32F103RET6,控制臺…

STC32G12K128-旋轉編碼器-軟件去抖

STC32G12K128-旋轉編碼器-軟件去抖 簡介代碼 簡介 EC11旋轉編碼器是一種可以連續旋轉的器件A,B,C為旋轉編碼引腳,帶按鍵的有D,E引腳。引腳功能: A:編碼器A相;B:編碼器B相;C:公共端-一般接到GN…

配置Jupyter Notebook環境及Token認證(Linux服務器)

配置Jupyter Notebook環境及Token認證(Linux服務器) 背景 在Ubuntu 18.04.6 LTS服務器(IP: 39.105.167.2)上,基于虛擬環境pytorch_env,通過Mac終端(SSH)配置Jupyter Notebook環境&…

從零開始學Flink:開啟實時計算的魔法之旅

在凌晨三點的數據監控大屏前,某電商平臺的技術負責人突然發現一個異常波動:支付成功率驟降15%。傳統的數據倉庫此時還在沉睡,而基于Flink搭建的實時風控系統早已捕捉到這個信號,自動觸發預警機制。當運維團隊趕到時,系…

基于k8s的Jenkins CI/CD平臺部署實踐(三):集成ArgoCD實現持續部署

基于k8s的Jenkins CI/CD平臺部署實踐(三):集成ArgoCD實現持續部署 文章目錄 基于k8s的Jenkins CI/CD平臺部署實踐(三):集成ArgoCD實現持續部署一、Argocd簡介二、安裝Helm三、Helm安裝ArgoCD實戰1. 添加Arg…

[C++類和對象]類和對象的引入

面向過程和面向對象 C語言是面向過程的,關注的是過程,分析出求解問題的步驟,通過函數調用來逐步解決問題 C是基于面向對象的,關注的是對象,將一件事情分成不同的對象,靠對象之間完成交互 類的引入 C語言結構體中只能定義變量,在C中,結構體不僅僅可以定義變量,而且可以定義函…

AWS之存儲服務

目錄 一、傳統存儲術語 二、傳統存儲與云存儲的關系 三、云存儲之AWS 使用場景 文件存儲 數據塊存儲 對象存儲 EBS、EFS、S3對比 EBS塊存儲 S3對象存儲 S3 使用案例 S3 存儲類 EFS文件存儲 一、傳統存儲術語 分類 接口/技術類型 應用場景特點 關系及區別 機械硬…

WPDRRC 模型:構建動態閉環的信息安全防御體系

WPDRRC 模型是一種信息安全整體架構設計模型,由預警(Warning)、保護(Protection)、檢測(Detection)、反應(Reaction)、恢復(Recovery)和反擊&…

Redis 數據類型詳解(二):Hash 類型全解析

文章目錄 一、什么是 Redis 的 Hash 類型?二、Hash為什么在有些時候比String好用三、常見命令1.HSET key field value2.HGET key field3.HMSET4.HMGET5.HGETALL6.HKEYS7.HVALS8.HINCRBY9.HSETNX 四、應用場景五、性能優勢六、注意事項總結 提示:以下是本…

Go Modules 的基本使用

在 Go Modules 項目中,首次運行時下載依賴包的正確流程需要根據項目情況區分處理。以下是詳細步驟和最佳實踐: 一、首次初始化項目的標準流程 1.1 創建項目目錄并初始化模塊 mkdir myproject && cd myproject go mod init github…

RISC-V AIA SPEC學習(五)

第六章 Interrupts for Virtual Machines(VS Level) 核心內容 1.VS級別外部中斷支持:?? ??客戶中斷文件(Guest Interrupt File)??:虛擬機的每個vCPU擁有獨立的IMSIC中斷文件,允許直接接收設備MSI。??vstopi CSR??:類似stopei,用于虛擬機內部處理最高優先級中…