論文閱讀筆記——π0.5: a Vision-Language-Action Model with Open-World Generalization

π0.5 論文
通過異構數據協同訓練與分層推理,用中等規模的目標數據(400小時)實現了大規模泛化能力,為現實世界機器人學習提供了新范式。
在這里插入圖片描述
在這里插入圖片描述
高層推理(high-level) 根據當前觀測和任務指令預測子任務(如“打開抽屜”)。低層推理(low-level) 基于當前觀測和子任務生成具體動作序列。低級推理動作能夠受益于其他機器人收集的數據;高級推理能從網絡上的語義示例,高級注釋預測中受益。

  • 輸入:多攝像頭圖像、語言指令、機器人本體狀態(關節位姿)。
  • 輸出:高層語義子任務(文本 token)和底層動作序列(連續向量)。
  • 模態交互:圖像通過視覺編碼器嵌入,文本和動作通過獨立編碼器處理,通過雙向注意力機制(不同于 LLM 的因果注意力)交互。
  • 動作專家(Action Expert:專用于 flow matching 的小型 Transformer,生成高精度連續動作。
  • 注意力掩碼:限制動作 token 與文本/圖像 token 的單向信息流,避免信息泄露。
    在這里插入圖片描述

模型的核心分布為 π θ ( a t : t + H , ? ^ ∣ o t , ? ) \pi_{\theta}(\mathbf{a}_{t:t+H},\hat{\ell}|\mathbf{o}_{t},\ell) πθ?(at:t+H?,?^ot?,?) 其中 ? \ell ? 是整體任務提示, ? ^ \hat{\ell} ?^ 是各個子任務的提示。
將聯合分布拆解為高層次和低層次兩個子任務:
π θ ( a t : t + H , ? ^ ∣ o t , ? ) = π θ ( a t : t + H ∣ o t , ? ^ ) π θ ( ? ^ ∣ o t , ? ) \pi_\theta(\mathbf{a}_{t:t+H},\hat{\ell}\left|\mathbf{o}_t,\ell\right)=\pi_\theta(\mathbf{a}_{t:t+H}\left|\mathbf{o}_t,\hat{\ell}\right.)\pi_\theta(\hat{\ell}\left|\mathbf{o}_t,\ell\right) πθ?(at:t+H?,?^ot?,?)=πθ?(at:t+H? ?ot?,?^)πθ?(?^ot?,?)
動作的 token 采用 π 0 ? f a s t \pi_0-fast π0??fast 的 token,但這種離散化表示不適合實時推理,因為需要昂貴的自回歸解碼推理,故而提出了一個結合 FAST 分詞器和迭代整合流場來預測動作:
min ? θ E D , τ , ω [ H ( x 1 : M , f θ l ( o t , l ) ) ? 文本token交叉熵損失 + α ∥ ω ? a t : t + H ? f θ a ( a t : t + H τ , ω , o t , l ) ∥ 2 ? 流匹配MSE損失 ] \min_{\theta}\mathbb{E}_{D,\tau,\omega}\left[\underbrace{\mathcal{H}(x_{1:M},f_{\theta}^{l}(o_{t},l))}_{\text{文本token交叉熵損失}}+\alpha\underbrace{\|\omega-a_{t:t+H}-f_{\theta}^{a}(a_{t:t+H}^{\tau,\omega},o_{t},l)\|^{2}}_{\text{流匹配MSE損失}}\right] θmin?ED,τ,ω? ?文本token交叉熵損失 H(x1:M?,fθl?(ot?,l))??+α流匹配MSE損失 ω?at:t+H??fθa?(at:t+Hτ,ω?,ot?,l)2?? ?
階段一:預訓練(VLM模式)

  • 僅使用文本token損失(α=0)
  • 將動作視為特殊文本 token(FAST編碼),繼承語言模型強語義能力
  • 采用 <control mode> joint/end effector 區分末端執行器和關節
  • 各數據集動作維度單獨歸一化至 [-1,1](采用1%與99%分位數)
數據類型符號數據量關鍵特性作用
移動機械臂家庭數據MM400小時100+真實家庭環境,清潔/整理任務(圖7)目標場景直接適配
多環境靜態機械臂數據ME跨200+家庭輕量化單/雙機械臂,安裝于固定平臺增強物體操作多樣性
跨本體實驗室數據CE含OXE數據集桌面任務(疊衣/餐具收納等)+移動/固定基座機器人遷移無關場景技能(如咖啡研磨)
高層子任務標注數據HL全數據集標注人工標注原子子任務(如"拾取枕頭")+關聯定位框實現分層推理能力
多模態網絡數據WD百萬級樣本圖像描述(COCO)、問答(VQAv2)、室內場景物體檢測(擴展標注)注入語義先驗知識

階段二:微調(混合模式

  • 引入動作專家分支,逐步提升α
  • 流匹配分支從文本 token 條件生成動作,建立語言-動作關聯

推理流程

  1. 自回歸解碼:生成語義子任務 ? ^ \hat{\ell} ?^(如“拿起盤子”)
  2. 條件去噪:基于 ? ^ \hat{\ell} ?^ 執行10步流匹配去噪,輸出連續動作 a t : t + H a_{t:t+H} at:t+H?

實驗結果

Q1: π 0.5 \pi_{0.5} π0.5? 能否有效泛化到全新環境中的復雜多階段任務?
在三個未曾見過的真實環境中,使用兩種類型的機器人,每個機器人被指示執行臥室和廚房的清潔任務。比較了大致對應于每個任務成功完成的步驟百分比。
在這里插入圖片描述
A!: 能夠在各種家庭任務中持續取得成功。泛化水平超過了以往的 VLA 模型。

Q2: π 0.5 \pi_{0.5} π0.5? 泛化能力隨訓練數據中不同環境的數量如何變化?
在這里插入圖片描述
在這里插入圖片描述
A2:隨著訓練位置的增加,任務之間的平均表現通常會有所提高。隨著訓練數據中地點數量的增加,語言跟隨表現和成功率都有所提高。

Q3: π 0.5 \pi_{0.5} π0.5? 各個共同訓練成分對最終性能的貢獻如何?
在這里插入圖片描述
在這里插入圖片描述
A3: π 0.5 \pi_{0.5} π0.5? 從跨剛體(ME和CE)轉移中獲得了相當大的好處。移除網絡數據(WD)會導致模型在處理異常分布(OOD)對象時表現顯著變差。

Q4: π 0.5 \pi_{0.5} π0.5? π 0 V L A \pi_0 VLA π0?VLA 相比?
在這里插入圖片描述
A4: π 0.5 \pi_{0.5} π0.5? 顯著優于 π 0 \pi_0 π0? 以及增強版本 p i 0 ? pi_0- pi0??-FAST+FLOW。 π 0 \pi_0 π0?-FAST+FLOW 是按照混合訓練設置的,但僅用包含機器人動作的數據進行訓練,因此無法執行高層次推理。

Q5: π 0.5 \pi_{0.5} π0.5? 的高層推理組件有多重要?與單一的低層次推理以及顯式的高層基線相比如何?
在這里插入圖片描述

不足之處

  • π 0.5 \pi_{0.5} π0.5? 雖然展示了廣泛的泛化能力,但在某些環境中仍存在挑戰,如不熟悉的抽屜把手或機器人難以打開的櫥柜。
  • 一些行為在部分可觀測性方面存在挑戰,比如:機器人手臂遮擋了應該擦拭的溢出物。
  • 在某些情況下,高層子任務推理容易分心,比如:在收拾物品時多次關閉和打開抽屜。
    目前僅能處理的是相對簡單的提示。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/78344.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/78344.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/78344.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

記錄搭建自己應用中心

記錄搭建自己應用中心 應用架構主應用-管理中心系統文件系統子應用 日志系統日志系統前端日志系統后端 用戶系統接入使用暫未完成 研發管理需求面板消息推送任務分配應用發布 應用架構 一直想做個試試&#xff0c;這是一個簡易版的&#xff0c;主要是整合下知識的&#xff0c;…

【網工第6版】第5章 網絡互聯⑦

目錄 ▲ 路由協議OSPF ◎ OSPF簡介 ◎ OSPF特點 本章重要程度&#xff1a;☆☆☆☆☆ ▲ 路由協議OSPF ◎ OSPF簡介 OSPF(Open Shortest Path First,開放式最短路徑優先協議)是目前應用最廣泛的路由協議。 OSPF是一種內部網關協議IGP&#xff0c;也是鏈路狀態路由協議&am…

5.3 Dify:低代碼平臺,適用于企業快速部署合規AI應用

Dify作為一款開源低代碼平臺&#xff0c;已成為企業快速構建和部署合規AI應用的首選工具。Dify通過整合后端即服務&#xff08;Backend-as-a-Service, BaaS&#xff09;、大型語言模型操作&#xff08;LLMOps&#xff09;以及直觀的視覺化界面&#xff0c;顯著降低了AI應用開發…

AI 編程工具:Augment Code

Meet Augment Agent: Your AI pair programmer that deeply understands your codebase, and learns as you work Augment 是開發人員AI平臺&#xff0c;它可以幫助您理解代碼、調試問題&#xff0c;并更快地發布&#xff0c;因為它了解您的代碼庫。使用聊天、Next Edit和Augme…

vc++ 如何調用poco庫

1. 下載并安裝 Poco 庫 你可以從 Poco 的官方網站&#xff08;POCO C Libraries - Simplify C Development &#xff09;下載其源代碼壓縮包。下載完成后&#xff0c;按照下面的步驟進行編譯和安裝&#xff1a; 解壓源代碼&#xff1a;把下載的壓縮包解壓到指定目錄。配置編譯…

淺談OpenAIClaude LLM Tools的額外配置

前言 https://platform.openai.com/docs/guides/function-calling?api-modechat&strict-modedisabled#additional-configurationshttps://docs.anthropic.com/en/docs/build-with-claude/tool-use/overview#forcing-tool-use tool_choice “none” 就是不用tools&#x…

SystemWeaver詳解:從入門到精通的深度實戰指南

SystemWeaver詳解&#xff1a;從入門到精通的深度實戰指南 文章目錄 SystemWeaver詳解&#xff1a;從入門到精通的深度實戰指南一、SystemWeaver環境搭建與基礎配置1.1 多平臺安裝全流程 二、新手必學的十大核心操作2.1 項目創建全流程2.2 建模工具箱深度解析 三、需求工程與系…

力扣DAY68 | 熱100 | 尋找兩個正序數組的中位數

前言 困難 ○ 這題搞了3天實在太難了&#xff0c;本質就是每次排除k/2個數&#xff0c;直到找到第k個數。 題目 給定兩個大小分別為 m 和 n 的正序&#xff08;從小到大&#xff09;數組 nums1 和 nums2。請你找出并返回這兩個正序數組的 中位數 。 算法的時間復雜度應該為…

Linux常見故障:排查思路與錯誤分析指南

引言 當Linux系統"生病"時&#xff0c;它不會說話但卻會通過各種癥狀"求救"&#x1f198;&#xff01;本文將帶你建立系統化的故障排查思維&#xff0c;從磁盤到內存&#xff0c;從網絡到服務&#xff0c;全方位掌握Linux系統的"把脈問診"技巧。…

深度解析:從12306看混合云架構下的高并發系統設計

作為曾參與12306余票查詢系統高并發升級的技術從業者&#xff0c;筆者注意到公眾對于12306底層技術常存在認知盲區。為破解這一迷思&#xff0c;特此分享十年前的架構解密文獻&#xff08;該技術之前名叫 gemfire 現已晉升為Apache頂級項目Geode&#xff0c;代碼庫詳見&#xf…

華為Pura X的智控鍵:讓折疊機體驗更上一層樓的設計

還記得Mate 70系列剛出那會&#xff0c;我體驗了下智控鍵&#xff0c;那時候就覺得這個“把快捷方式做進電源鍵”的交互方式非常驚艷&#xff0c;沒想到在Pura X上&#xff0c;這種便捷體驗感更上了一層樓。 智控鍵&#xff1a;折疊屏手機的天選快捷方式&#xff1f; 傳統折疊…

springboot如何管理多數據源?

靜態多數據源管理 配置多個數據源 :創建多個數據源的配置類,通常使用 @ConfigurationProperties 注解來綁定配置文件中的數據源屬性,并通過 @Bean 注解定義多個 DataSource Bean 。例如: 配置類: @Configuration public class DataSourceConfig {@Bean(name = "prima…

谷歌終止新冠疫情時期結構化數據支持:SEO影響與應對策略

2025年4月&#xff0c;谷歌悄然宣布將于7月31日起停止支持新冠疫情時期的“特殊公告”&#xff08;SpecialAnnouncement&#xff09;結構化數據。這一舉措標志著谷歌正式結束一項在疫情期間推出的實驗性功能&#xff0c;對依賴該結構化數據的網站管理員和SEO從業者來說&#xf…

常見游戲引擎介紹與對比

Unreal Engine (UE4/UE5) 主語言&#xff1a;C Unreal Engine 主要使用 C 作為開發語言。C 提供了高性能的底層控制&#xff0c;適用于需要精細調優的 AAA 級游戲。C 在 Unreal 中用于開發核心游戲邏輯、物理引擎等性能要求較高的部分。 腳本語言&#xff1a;藍圖&#xff08;B…

【C++】繼承----下篇

文章目錄 前言一、實現一個不能繼承的類二、友元與繼承三、繼承與靜態成員四、多繼承以及菱形繼承問題1.繼承模型&#xff1a;2.菱形繼承的問題3.虛擬繼承解決數據冗余和二義性的原理4.虛擬繼承的原理 五、繼承的總結和反思1.繼承和組合 總結 前言 各位好呀!今天呢我們接著講繼…

洛谷 B3647:【模板】Floyd 算法

【題目來源】 https://www.luogu.com.cn/problem/B3647 【題目描述】 給出一張由 n 個點 m 條邊組成的無向圖。 求出所有點對 (i,j) 之間的最短路徑。 【輸入格式】 第一行為兩個整數 n&#xff0c;m&#xff0c;分別代表點的個數和邊的條數。 接下來 m 行&#xff0c;每行三…

netlist

在電子設計自動化&#xff08;EDA&#xff09;中&#xff0c;網表&#xff08;Netlist&#xff09; 是描述電路設計連接關系的核心數據結構&#xff0c;本質上是電路元件&#xff08;如邏輯門、晶體管、模塊&#xff09;及其互連關系的 文本化或結構化表示。它是從抽象設計&…

Cadence學習筆記之---原理圖設計基本操作

目錄 01 | 引 言 02 | 環境描述 03 | 原理圖工具介紹 04 | 原理圖設計基本操作 05 | 生成頁間引用 06 | 元件自動編號 07 | 結 尾 01 | 引 言 書接上回&#xff0c;在前文中講述了怎樣制作常用的庫元件&#xff0c;如電阻、二極管&#xff0c;IC器件&#xff0c;以及怎…

【華為HCIP | 華為數通工程師】821—多選解析—第十七頁

多選835、IS-IS協議所使用的NSAP地址主要由哪幾個部分構成? A、AREA ID B、SEL C、DSCp D、SYSTEM ID 解析:NSAP地址:網絡服務訪問點(Network Service Access Point)是 OSI 協議中用于定位資源的地址。NSAP 的地址結構如圖所示,它由 IDP(Initial Domain …

Linux系統中命令設定臨時IP

1.查看ip ---ifconfig 進入指定的網絡接口 ifconfig ens160 建立服務器臨時IP ifconfig ens160 ip地址 network 系統進行重啟后&#xff0c;臨時IP將會消失 ip address add ip地址 dev 服務器 ---添加臨時ip ip address delete ip地址 dev 服務器 ---刪除臨時ip 設置ip&a…