南科大適應、協同與規劃的完美融合!P3:邁向多功能的具身智能體

  • 作者:Shengli Zhou1^{1}1, Xiangchen Wang1^{1}1, Jinrui Zhang1^{1}1, Ruozai Tian2^{2}2, Rongtao Xu2,3^{2,3}2,3, Feng Zheng1,2^{1,2}1,2
  • 單位:1^{1}1南方科技大學,2^{2}2時空智能,3^{3}3穆罕默德·本·扎耶德人工智能大學
  • 論文標題:P3: Toward Versatile Embodied Agents
  • 論文鏈接:https://arxiv.org/pdf/2508.07033v1

主要貢獻

  • 提出P3框架,用于構建多功能的具身智能體,能夠實現主動感知、靈活工具使用和復雜多任務規劃。
  • 引入統一的感知模塊,能夠主動檢測環境中的動態變化,包括由自身行為、人類行為、其他智能體活動以及其他上下文變化引起的改變,從而自主識別各種類型的任務,無需依賴被動反饋。
  • 通過靈活的工具集成,消除了對工具反饋的需求,使得智能體能夠與廣泛的設備無縫集成,包括那些沒有標準化接口的設備,極大地增強了智能體在現實世界中的靈活性和兼容性。
  • 提出一種新的任務規劃模塊,能夠聯合處理所有類型的任務(包括主動任務、被動任務和計劃任務),根據任務的優先級和依賴關系動態調整任務順序,有效管理復雜任務調度。
  • 通過在現實世界中的廣泛實驗驗證了該框架的性能,證明了其能夠有效處理動態、現實世界的挑戰,成功彌合了基準測試和實際部署之間的差距。

研究背景

  • 具身智能體的發展需求
    • 具身智能體是能夠通過物理或虛擬身體實時與環境交互的智能系統,其發展旨在彌合感知、推理和行動之間的差距,實現與環境的無縫交互。
    • 然而,構建多功能的具身智能體面臨著動態環境感知、開放式工具使用和復雜多任務規劃等關鍵挑戰。
  • 現有研究的局限性
    • 以往的研究大多依賴于工具智能體的反饋來感知環境變化和任務狀態,這限制了智能體對實時動態的適應性,容易導致誤差累積,并限制了工具的靈活性。
    • 此外,多任務調度也未得到充分關注,主要是因為管理任務依賴關系和在動態復雜環境中平衡競爭優先級的復雜性。

方法

P3框架概述

P3框架是一個用于構建多功能具身智能體的系統,旨在實現實時的全任務感知、開放式工具插件和多任務規劃。該框架的核心目標是使智能體能夠在動態環境中自主感知任務、靈活使用工具,并高效管理多任務的執行。

感知模塊

感知模塊是P3框架的核心部分,負責主動檢測環境中的動態變化,并將這些變化轉化為任務提案。其主要功能和流程如下:

  • 輸入處理:感知模塊以視頻流作為輸入,實時觀察環境。
  • 場景圖更新:每當新幀到達時,場景圖生成器會更新場景圖,捕捉物體之間的空間關系,并將更新后的場景圖存儲在空間記憶中。
  • 視覺記憶處理:新幀會被發送到視覺記憶模塊,通過上下文工程框架進行處理。該框架利用視覺語言模型(VLM)和精心設計的系統提示,生成與機器人當前操作狀態上下文對齊的任務提案。
  • 任務提案生成:生成的任務提案與機器人的當前狀態結合,確定任務發生的具體位置,并將(任務,情境)對記錄在任務記憶的“待處理”部分,供后續調度使用。
  • 視頻壓縮策略:為解決視頻存儲和處理的開銷問題,采用逐步幀級下采樣策略。當幀在視覺記憶中的時間超過限制時,通過VLM進行場景描述,將關鍵事件以文本形式記錄在事件歷史中,以保留最大信息量。

工具插件

P3框架支持廣泛的工具插件,允許無縫集成各種設備,而無需雙向反饋回路。

  • 基礎工具智能體:導航智能體(VLN模型)和操作智能體(VLA模型)是執行任務的基礎工具,直接控制機器人的運動和操作。
  • 擴展工具集成:除了基礎工具外,P3還支持各種現實世界中的工具,如物聯網設備和網絡智能體。通過上下文工程,如動態場景總結和相關性過濾,智能體可以維護過去觀察的簡潔、高價值記憶。
  • 自定義工具注冊:用戶可以通過指定工具的功能和對應的函數調用接口,將自定義工具注冊到工具包中,進一步擴展智能體的能力。
  • 安全性與可靠性:在將命令發送給操作智能體之前,會進行驗證檢查,以確保命令的安全性。同時,采用層次化記憶緩沖區和即時總結,確保只有最相關的信息占用大模型的提示,保持低延遲和穩健性能。

任務規劃器

任務規劃器是P3框架中負責管理任務執行的模塊,能夠處理被動任務、主動任務和計劃任務。

  • 任務分類
    • 被動任務:由用戶指令或問題觸發,如“打開窗戶”。
    • 主動任務:由感知模塊提出,并存儲在任務記憶中,如“整理房間”。
    • 計劃任務:由用戶注冊并存儲在任務記憶中,根據用戶指令由定時器觸發,如“下午5點打開空調”。
  • 任務調度:當任何任務被觸發時,所有可以立即執行的任務都會被發送到大模型中進行任務優先級和依賴關系評估。調度器通過檢索場景中的事件歷史,獲得相關的關鍵事件和先前狀態,以便更好地進行判斷。
  • 任務分配:根據任務的優先級和依賴關系,調度器將高優先級且可以執行的任務通過調度器分配給相應的工具智能體執行。

實驗

實驗目標

本實驗旨在全面評估P3框架在現實世界中的表現,重點關注其三個核心能力:主動感知任務相關信息的能力、無縫插拔和使用各種工具的能力以及基于優先級和依賴關系規劃多任務執行的能力。實驗通過在真實環境中部署P3框架,驗證其在動態、復雜場景下的適應性和有效性。

實驗設置

  • 硬件平臺:P3框架部署在Realman和AgiBot的人形雙臂機器人上,這些機器人具備多種傳感器和執行器,能夠執行各種任務。
  • 軟件配置:集成了Moka管道用于操作任務,Woosh底盤用于導航任務,并測試了與小米智能家居設備的物聯網功能。
  • 任務設計:設計了11個現實世界的具身任務,分為獨立任務和競爭任務。獨立任務評估工具集成和執行能力,競爭任務評估多任務規劃和協調能力。

主動感知能力評估

  • 數據集構建:構建了“Active Task Perception Benchmark”,包含272個第一人稱視頻快照,涵蓋家庭場景中的三種任務類別:碎片清理、物品整理和安全檢查,以及作為負樣本的整潔房間。
  • 評估方法:使用不同的視覺語言模型(VLM)在零樣本設置下進行評估,以ChatGPT-3.5-Turbo-1106為評判標準,對模型生成的任務提案進行評分。

  • 結果:QwenVL-max在正樣本和負樣本之間取得了最佳平衡,整體準確度達到77.09%。其他模型如Cosmos-Reason1-7B和RoboBrain在正樣本上表現較好,但在負樣本上生成了過多不必要的提案;而Qwen2.5VL-7B、MM-Eureka-Qwen-7B和RoboBrain2.0則傾向于生成較少的提案。

真實環境部署評估

工具集成和執行能力評估
  • 任務設計:設計了6個獨立任務,涵蓋VLN、VLA、物聯網和網絡模塊等不同類型的任務智能體。

  • 實驗結果

    • 任務1:機器人在實驗室中撿起廢紙,成功展示了框架對主動感知和基本工具集成的能力。
    • 任務2:機器人在執行任務時被中斷,轉而執行打開辦公室燈的任務,成功展示了框架對任務中斷和恢復的處理能力。
    • 任務3:機器人在辦公室中發現廢紙并清理,中途被中斷去實驗室拍照,同時處理了計劃任務(天氣播報)和用戶指令(關閉加濕器),成功展示了框架對多任務的動態調度能力。
    • 任務4:機器人在實驗室中執行任務時被中斷,將包裹放在辦公室桌子上,最后發現并清理了辦公室桌子上的空瓶子,成功展示了框架對復雜任務的處理能力。
    • 任務5:機器人在辦公室中被詢問天氣,中途被中斷去實驗室拍照,途中發現了倒下的杯子并撿起,同時處理了計劃任務(天氣播報)和用戶指令(關閉加濕器),成功展示了框架對突發情況的適應能力。

多任務規劃和協調能力評估
  • 任務設計:設計了5個競爭任務,評估框架在有限資源下執行多個任務的能力。
  • 實驗結果
    • 任務7和8:在清潔和簡單的環境中,任務成功率較高,因為這些環境減少了無關任務的檢測。
    • 任務9、10和11:引入了中等執行的主動任務,要求機器人實時調整計劃和任務執行。特別是任務11,機器人需要主動撿起倒下的杯子,這要求機器人適應動作并修改計劃,導致性能略有下降。盡管如此,P3框架在整個過程中展示了強大的競爭任務管理能力,其動態調度器和任務記憶允許機器人在中斷和新指令下高效地管理任務執行。

結論與未來工作

  • 結論
    • P3框架為具身智能體在多功能、現實世界應用方面取得了顯著進展。通過主動識別任務的統一感知模塊,消除了對限制性工具反饋的依賴,實現了真正的即插即用能力,能夠與任何可控設備無縫集成。
    • 結合動態多任務調度器,能夠智能地規劃、優先級排序和管理并發任務,處理依賴關系和中斷。廣泛的現實世界實驗驗證了P3框架能夠成功彌合基準測試和實際部署之間的差距,為具身智能體提供了一個可擴展的數據收集基礎。
  • 未來工作
    • 盡管P3框架在實驗中表現出色,但仍存在一些挑戰。一方面,由于大模型在感知和規劃模塊中的表現并不完美,導致P3框架無法總是生成最優答案。另一方面,機器人硬件的不穩定性也在實驗中導致了多次失敗,如網絡連接不穩定和過熱保護等。
    • 因此,隨著各個模塊的改進,P3框架有望在更復雜的現實世界場景中進一步增強其適應性和有效性。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/921452.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/921452.shtml
英文地址,請注明出處:http://en.pswp.cn/news/921452.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

自動化流水線

import React, { useState, useEffect } from ‘react’; import { ChevronRight, CheckCircle, Circle, AlertCircle, Clock, Play, Pause, Settings, Code, Server, Shield, Database, Globe, Zap, FileText, Users, GitBranch, Package, Monitor, ChevronDown } from ‘luci…

【高等數學】第十一章 曲線積分與曲面積分——第三節 格林公式及其應用

上一節:【高等數學】第十一章 曲線積分與曲面積分——第二節 對坐標的曲線積分 總目錄:【高等數學】 目錄 文章目錄1. 格林公式2. 平面上曲線積分與路徑無關的條件3. 二元函數的全微分求積4. 曲線積分的基本定理1. 格林公式 單連通與復連通區域 設 DDD …

Boost電路:平均狀態空間建模

電路特征介紹如圖所示是一個非理想情況下的boost電路,其中L1L_{1}L1?和RL1R_{L1}RL1?是分別是電感和串聯電阻;C1C_{1}C1?和RC1R_{C1}RC1?是輸出電容和串聯電阻;Q1Q_{1}Q1?是MOS管,其導通電阻是RonR_{on}Ron?;D1D…

免費網站模板/網站模板建站的優勢/如何下載網站模板搭建網站?

在網站建設領域,“網站模板” 是降低技術門檻、提升建站效率的核心工具,尤其適合非專業開發者或追求低成本、快上線的需求場景。下面從定義、核心優勢兩方面展開詳細解析,幫助你全面理解其價值。 一、什么是網站模板? 網站模板&am…

【MATLAB例程】平面上的組合導航例程,使用EKF融合IMU和GNSS數據,8維狀態量和2維觀測量,附代碼下載鏈接

文章目錄程序詳解概述系統架構核心數學模型性能評估算法特點運行結果MATLAB源代碼程序詳解 概述 本代碼實現基于擴展卡爾曼濾波器(EKF)的二維組合導航系統,融合IMU(慣性測量單元)和GNSS(全球導航衛星系統…

react生命周期,詳細版本

React 組件的生命周期分為三個階段:掛載(Mounting)、更新(Updating) 和 卸載(Unmounting)。以下是類組件生命周期的詳細說明(基于 React 16.3+ 版本): 一、掛載階段(Mounting) 組件實例被創建并插入 DOM 時的流程: constructor(props) ○ 用途:初始化狀態(this…

騰訊最新開源HunyuanVideo-Foley本地部署教程:端到端TV2A框架,REPA策略+MMDiT架構,重新定義視頻音效新SOTA!

一、模型介紹HunyuanVideo-Foley 是騰訊混元團隊在2025年8月底開源的一款端到端視頻音效生成模型。它旨在解決AI生成視頻“有畫無聲”的痛點,通過輸入視頻和文本描述,就能自動生成電影級別的同步音效,顯著提升視頻的沉浸感。它是專為視頻內容…

計算機原理(二)

計算機原理系列 歡迎大家關注「海拉魯知識大陸」 多交流不迷路 計算機原理(一) 繼續上一篇計算機原理(一)深入了解程序執行部分,進一步說說程序在馮諾依曼模型上如何執行。如果沒有了解的童鞋可以查看我上一篇文章。…

【設計模式】 工廠方法模式

系列文章目錄 文章目錄系列文章目錄需要了解工廠制造細節嗎?簡單工廠模式實現工廠方法模式的實現簡單方法? 工廠方法?總結需要了解工廠制造細節嗎? 我們在前面的文章中為大家介紹了簡單工廠模式,我們知道 簡單工廠模式…

詳解 Java 中的 CopyOnWriteArrayList

目錄 【1】CopyOnWriteArrayList 簡介 【2】核心原理 1.底層數據結構 2.寫時復制機制 【3】CopyOnWriteArrayList常用方法及實例 1.添加元素方法 add () 2.獲取元素方法 get () 3.刪除元素方法remove() 【4】優缺點分析 【5】適用場景 【6】總結 【1】CopyOnWriteAr…

新手SEO優化快速起步教程

本教程專為SEO新手設計,幫助您快速上手優化工作。我們將一步步帶您了解基礎概念,包括高效挖掘關鍵詞的方法、內容優化的核心技巧,以及網站基礎設置的關鍵步驟。后續還會講解提升排名的實用策略、如何監控效果并進行調整,確保您能系…

Minecraft圖片搜索技巧

以下是更多專注 Minecraft 內容的高質量社區平臺,涵蓋建筑展示、模組/材質分享、實機截圖、藝術創作等方向,按類型分類整理:---一、國際知名綜合社區平臺 特點 鏈接 CurseForge 模組/材質/數據包第一倉庫,作者更新快,支…

數學建模-非線性規劃(NLP)

1-理論知識介紹應用2-基于matlab實現非線性規劃1)例1% 清除工作臺和命令行 clear;clc; x0[0 0 0]; A [-1 1 -1]; b 0; [x,value] fmincon(f1,x0,A,b,[],[],[],[],nonlfun1) function f f1(x)f x(1)^2x(2)^2x(3)^28; end function [c,ceq] nonlfun1(x)c [x(1)…

人工智能學習:什么是seq2seq模型

一、seq2seq模型 Seq2Seq(Sequence-to-Sequence)模型是一種用于處理序列轉換問題的深度學習模型,廣泛應用于機器翻譯、文本摘要、對話系統、語音識別等領域。Seq2Seq模型的核心思想是通過一個編碼器(Encoder)將輸入序列編碼為一個固定長度的上下文向量(Context Vector),…

生態 | 華院計算與深至科技達成戰略合作,攜手推動AI+醫學影像算法升級迭代

8月25日,華院計算技術(上海)股份有限公司(以下簡稱“華院計算”)與上海深至信息科技有限公司(以下簡稱“深至科技”)正式簽署戰略合作協議。雙方將秉持“優勢互補、資源共享、戰略協同、共同發展…

詳解MySQL環境變量配置及其在備份中的應用

正確配置MySQL環境變量是保障數據庫穩定運行和高效管理的基礎。這些變量涵蓋了從內存分配、連接設置到日志行為等方方面面,直接決定了數據庫的性能表現和功能特性。對于數據庫管理員而言,熟練掌握環境變量的配置,是進行性能調優和故障排查的必…

scikit-learn零基礎配置(含python、anaconda)

一、Anaconda環境搭建 1、關于Anaconda Anaconda 是一個非常 popular 的 Python 發行版,它不僅包含了 Python 語言本身,還預裝了眾多常用的科學計算庫,如 NumPy、Pandas、Matplotlib 等,能夠極大地方便用戶的開發和數據分析工作。…

RAG提示詞(日本語版)

RAG提示詞(日本語版) System Message # 知能型質問応答アシスタント(RAGシステムプロンプト)## 役割定義 あなたは「知能型質問応答アシスタント」として、提供されたコンテキスト情報に基づいてユーザーの質問に回答する専門的な…

qData 數據中臺【開源版】發布 1.0.5 版本,全面提升規則治理、非結構化數據處理與部署體驗

2025年9月3日 —— 企業級開源數據中臺 qData 開源版 正式發布 1.0.5 版本。本次更新聚焦 規則治理一體化、非結構化數據支持、以及開源版的體驗與部署優化,進一步提升規則復用能力、數據接入廣度與運維效率,幫助企業和開發者更輕松地構建高質量數據治理…

RecSys:用戶行為序列建模以及DIN、SIM模型

引言 在推薦系統中,用戶歷史行為序列是極其重要的信息源。用戶最近的點擊、點贊、收藏、轉發等行為能夠有效反映其即時興趣,無論是在召回、粗排還是精排階段,合理利用這些行為序列都能顯著提升推薦效果。本文將系統介紹用戶行為序列建模的幾…