南科大適應、協同與規劃的完美融合！P3：邁向多功能的具身智能體

作者：Shengli Zhou $^{1}$ , Xiangchen Wang $^{1}$ , Jinrui Zhang $^{1}$ , Ruozai Tian $^{2}$ , Rongtao Xu $^{2,3}$ , Feng Zheng $^{1,2}$
單位： $^{1}$ 南方科技大學， $^{2}$ 時空智能， $^{3}$ 穆罕默德·本·扎耶德人工智能大學
論文標題：P3: Toward Versatile Embodied Agents
論文鏈接：https://arxiv.org/pdf/2508.07033v1

主要貢獻

提出P3框架，用于構建多功能的具身智能體，能夠實現主動感知、靈活工具使用和復雜多任務規劃。
引入統一的感知模塊，能夠主動檢測環境中的動態變化，包括由自身行為、人類行為、其他智能體活動以及其他上下文變化引起的改變，從而自主識別各種類型的任務，無需依賴被動反饋。
通過靈活的工具集成，消除了對工具反饋的需求，使得智能體能夠與廣泛的設備無縫集成，包括那些沒有標準化接口的設備，極大地增強了智能體在現實世界中的靈活性和兼容性。
提出一種新的任務規劃模塊，能夠聯合處理所有類型的任務（包括主動任務、被動任務和計劃任務），根據任務的優先級和依賴關系動態調整任務順序，有效管理復雜任務調度。
通過在現實世界中的廣泛實驗驗證了該框架的性能，證明了其能夠有效處理動態、現實世界的挑戰，成功彌合了基準測試和實際部署之間的差距。

研究背景

具身智能體的發展需求：
- 具身智能體是能夠通過物理或虛擬身體實時與環境交互的智能系統，其發展旨在彌合感知、推理和行動之間的差距，實現與環境的無縫交互。
- 然而，構建多功能的具身智能體面臨著動態環境感知、開放式工具使用和復雜多任務規劃等關鍵挑戰。
現有研究的局限性：
- 以往的研究大多依賴于工具智能體的反饋來感知環境變化和任務狀態，這限制了智能體對實時動態的適應性，容易導致誤差累積，并限制了工具的靈活性。
- 此外，多任務調度也未得到充分關注，主要是因為管理任務依賴關系和在動態復雜環境中平衡競爭優先級的復雜性。

方法

P3框架概述

P3框架是一個用于構建多功能具身智能體的系統，旨在實現實時的全任務感知、開放式工具插件和多任務規劃。該框架的核心目標是使智能體能夠在動態環境中自主感知任務、靈活使用工具，并高效管理多任務的執行。

感知模塊

感知模塊是P3框架的核心部分，負責主動檢測環境中的動態變化，并將這些變化轉化為任務提案。其主要功能和流程如下：

輸入處理：感知模塊以視頻流作為輸入，實時觀察環境。
場景圖更新：每當新幀到達時，場景圖生成器會更新場景圖，捕捉物體之間的空間關系，并將更新后的場景圖存儲在空間記憶中。
視覺記憶處理：新幀會被發送到視覺記憶模塊，通過上下文工程框架進行處理。該框架利用視覺語言模型（VLM）和精心設計的系統提示，生成與機器人當前操作狀態上下文對齊的任務提案。
任務提案生成：生成的任務提案與機器人的當前狀態結合，確定任務發生的具體位置，并將（任務，情境）對記錄在任務記憶的“待處理”部分，供后續調度使用。
視頻壓縮策略：為解決視頻存儲和處理的開銷問題，采用逐步幀級下采樣策略。當幀在視覺記憶中的時間超過限制時，通過VLM進行場景描述，將關鍵事件以文本形式記錄在事件歷史中，以保留最大信息量。

工具插件

P3框架支持廣泛的工具插件，允許無縫集成各種設備，而無需雙向反饋回路。

基礎工具智能體：導航智能體（VLN模型）和操作智能體（VLA模型）是執行任務的基礎工具，直接控制機器人的運動和操作。
擴展工具集成：除了基礎工具外，P3還支持各種現實世界中的工具，如物聯網設備和網絡智能體。通過上下文工程，如動態場景總結和相關性過濾，智能體可以維護過去觀察的簡潔、高價值記憶。
自定義工具注冊：用戶可以通過指定工具的功能和對應的函數調用接口，將自定義工具注冊到工具包中，進一步擴展智能體的能力。
安全性與可靠性：在將命令發送給操作智能體之前，會進行驗證檢查，以確保命令的安全性。同時，采用層次化記憶緩沖區和即時總結，確保只有最相關的信息占用大模型的提示，保持低延遲和穩健性能。

任務規劃器

任務規劃器是P3框架中負責管理任務執行的模塊，能夠處理被動任務、主動任務和計劃任務。

任務分類：
- 被動任務：由用戶指令或問題觸發，如“打開窗戶”。
- 主動任務：由感知模塊提出，并存儲在任務記憶中，如“整理房間”。
- 計劃任務：由用戶注冊并存儲在任務記憶中，根據用戶指令由定時器觸發，如“下午5點打開空調”。
任務調度：當任何任務被觸發時，所有可以立即執行的任務都會被發送到大模型中進行任務優先級和依賴關系評估。調度器通過檢索場景中的事件歷史，獲得相關的關鍵事件和先前狀態，以便更好地進行判斷。
任務分配：根據任務的優先級和依賴關系，調度器將高優先級且可以執行的任務通過調度器分配給相應的工具智能體執行。

實驗

實驗目標

本實驗旨在全面評估P3框架在現實世界中的表現，重點關注其三個核心能力：主動感知任務相關信息的能力、無縫插拔和使用各種工具的能力以及基于優先級和依賴關系規劃多任務執行的能力。實驗通過在真實環境中部署P3框架，驗證其在動態、復雜場景下的適應性和有效性。

實驗設置

硬件平臺：P3框架部署在Realman和AgiBot的人形雙臂機器人上，這些機器人具備多種傳感器和執行器，能夠執行各種任務。
軟件配置：集成了Moka管道用于操作任務，Woosh底盤用于導航任務，并測試了與小米智能家居設備的物聯網功能。
任務設計：設計了11個現實世界的具身任務，分為獨立任務和競爭任務。獨立任務評估工具集成和執行能力，競爭任務評估多任務規劃和協調能力。

主動感知能力評估

數據集構建：構建了“Active Task Perception Benchmark”，包含272個第一人稱視頻快照，涵蓋家庭場景中的三種任務類別：碎片清理、物品整理和安全檢查，以及作為負樣本的整潔房間。
評估方法：使用不同的視覺語言模型（VLM）在零樣本設置下進行評估，以ChatGPT-3.5-Turbo-1106為評判標準，對模型生成的任務提案進行評分。

結果：QwenVL-max在正樣本和負樣本之間取得了最佳平衡，整體準確度達到77.09%。其他模型如Cosmos-Reason1-7B和RoboBrain在正樣本上表現較好，但在負樣本上生成了過多不必要的提案；而Qwen2.5VL-7B、MM-Eureka-Qwen-7B和RoboBrain2.0則傾向于生成較少的提案。

真實環境部署評估

工具集成和執行能力評估

任務設計：設計了6個獨立任務，涵蓋VLN、VLA、物聯網和網絡模塊等不同類型的任務智能體。
實驗結果：
- 任務1：機器人在實驗室中撿起廢紙，成功展示了框架對主動感知和基本工具集成的能力。
- 任務2：機器人在執行任務時被中斷，轉而執行打開辦公室燈的任務，成功展示了框架對任務中斷和恢復的處理能力。
- 任務3：機器人在辦公室中發現廢紙并清理，中途被中斷去實驗室拍照，同時處理了計劃任務（天氣播報）和用戶指令（關閉加濕器），成功展示了框架對多任務的動態調度能力。
- 任務4：機器人在實驗室中執行任務時被中斷，將包裹放在辦公室桌子上，最后發現并清理了辦公室桌子上的空瓶子，成功展示了框架對復雜任務的處理能力。
- 任務5：機器人在辦公室中被詢問天氣，中途被中斷去實驗室拍照，途中發現了倒下的杯子并撿起，同時處理了計劃任務（天氣播報）和用戶指令（關閉加濕器），成功展示了框架對突發情況的適應能力。

多任務規劃和協調能力評估

任務設計：設計了5個競爭任務，評估框架在有限資源下執行多個任務的能力。
實驗結果：
- 任務7和8：在清潔和簡單的環境中，任務成功率較高，因為這些環境減少了無關任務的檢測。
- 任務9、10和11：引入了中等執行的主動任務，要求機器人實時調整計劃和任務執行。特別是任務11，機器人需要主動撿起倒下的杯子，這要求機器人適應動作并修改計劃，導致性能略有下降。盡管如此，P3框架在整個過程中展示了強大的競爭任務管理能力，其動態調度器和任務記憶允許機器人在中斷和新指令下高效地管理任務執行。

結論與未來工作

結論：
- P3框架為具身智能體在多功能、現實世界應用方面取得了顯著進展。通過主動識別任務的統一感知模塊，消除了對限制性工具反饋的依賴，實現了真正的即插即用能力，能夠與任何可控設備無縫集成。
- 結合動態多任務調度器，能夠智能地規劃、優先級排序和管理并發任務，處理依賴關系和中斷。廣泛的現實世界實驗驗證了P3框架能夠成功彌合基準測試和實際部署之間的差距，為具身智能體提供了一個可擴展的數據收集基礎。
未來工作：
- 盡管P3框架在實驗中表現出色，但仍存在一些挑戰。一方面，由于大模型在感知和規劃模塊中的表現并不完美，導致P3框架無法總是生成最優答案。另一方面，機器人硬件的不穩定性也在實驗中導致了多次失敗，如網絡連接不穩定和過熱保護等。
- 因此，隨著各個模塊的改進，P3框架有望在更復雜的現實世界場景中進一步增強其適應性和有效性。