李升偉 編譯
長期規劃在機器人學領域可以從經典控制方法與大型語言模型在現實世界知識能力的結合中獲益。
在20世紀80年代,機器人學和人工智能(AI)領域的專家提出了莫雷奇悖論,觀察到人類看似簡單的涉及移動和感知的任務,如開門或倒咖啡,對機器人來說是計算密集型的挑戰。相比之下,人類認為認知上更復雜的任務,如下棋,對AI來說卻容易得多。盡管幾十年的發展,設計能夠執行真實世界任務和環境的機器人仍然具有挑戰性。在機器人物理能力的持續進步中,更好的傳感器和執行器的可用性,以及基于數據驅動的方法來控制和預測行動結果,已經取得了進展。然而,現實任務通常涉及許多需要同時和依次執行的物理動作,這需要長期規劃。
過去十年,深度學習迅速發展,并在機器人規劃應用中展現出巨大的潛力。以安德魯·巴托(Andrew Barto)和理查德·斯隆(Richard Sutton)為2024年圖靈獎獲獎者之一的強化學習,是AI學習和規劃最成功的框架之一,并廣泛應用于機器人學。2019年,OpenAI利用深度強化學習從頭開始訓練了一個機器人手,使其能夠模擬操作魔方,并將學到的控制能力轉移到實際的機器人手中。Hafner等人最近展示了在這個領域仍然有可能取得令人印象深刻的進展。僅使用視覺信息和復雜長時規劃任務的稀疏獎勵,在視頻游戲中,他們開發了一種名為Dreamer的方法,該方法能夠預測環境潛在行動的結果,而無需針對每個單獨的游戲進行精細調整,范圍從Atari游戲、機器人模擬到視頻游戲Minecraft。
然而,將能力轉移到現實世界的機器人學仍然是一個挑戰。潛在的解決方案之一是利用基礎模型,這些模型通過在不同來源的大量弱標簽數據上預訓練大型深度學習模型來構建。社區項目,如Open X-Embodiment倡議,收集了大量的真實世界機器人數據,旨在訓練機器人視覺語言模型(VLMs,LLMs的擴展)。這種模型的一個早期版本,PaLM-SayCan,通過機器人收集的數據對LLM的強化學習組件進行微調,以增強對實際可行的工具和動作的預測,從而提高了生成運動計劃的成功率。
受PaLM-SayCan模型啟發的后續工作使用了如GPT-4這樣的LLMs,展示了令人印象深刻的演示。然而,將機器人控制權交給LLM存在缺點,包括幻覺和潛在的安全風險。GPT-4等模型發送請求的速度和頻率也有限。如果沒有精心設計的提示和可用的數據,即使是強大的LLMs也可能陷入循環步驟或“過度思考”問題的陷阱。這種效應在Anthropic AI運行的一個實驗中得到了展示,在這個實驗中,一個LLM代理試圖玩Pokemon,并同時表現出似乎令人印象深刻的推理能力,但同時也陷入了簡單的障礙。
采取不同的途徑,本文中提出了一種名為ELLMER的框架,由魯阿迪·蒙-威廉斯等人開發,該框架將由LLM執行的高層規劃與實際控制機器人分離。該方法使靈活和反應式的本體規劃成為可能,將AI和傳感器運動能力結合,以響應復雜甚至模糊的用戶請求來控制機器人操作器。通過用戶的自然語言請求和使用圖像反饋,LLM生成基于示例的Python代碼,這些示例包括對象識別和力反饋傳感工具,以控制機器人下一步的動作。作為示例任務之一,研究人員告訴機器人他們感到疲倦,并要求它制作熱飲并在盤子上裝飾動物。查詢故意不直接或清晰,但GPT-4推斷任務是制作咖啡,并計劃首先找到一個杯子。在演示中,機器人依次打開櫥柜,找到杯子,放下杯子,加入速溶咖啡粉,并將水倒入杯子,而人類在此過程中已經移動了杯子。由于每一步生成的代碼本身并不依賴于與LLM的進一步交互,它允許機器人響應視覺和力信息——例如,當人類輕推機器人時。當機器人需要對意外的新情況作出反應時,如人類發出進一步的命令,LLM可能可以再次被聯系以適應變化的情況。
隨著LLMs和VLMs的快速進步,過去幾年見證了本體AI(embodied AI)的爆炸性興趣。本體AI的有前景的下一步是終生學習,這對機器人來說尤為重要,如果它們打算在現實世界中長時間成功運行。結合LLMs、VLMs與傳統方法可以構建出穩健的本體AI系統。
原文引用:Robot planning with LLMs. Nat Mach Intell 7, 521 (2025). https://doi.org/10.1038/s42256-025-01036-4