vla學習富

# 基于diffusion
# π0
## 架構
其核心思想是在預訓練好的視覺語言模型（VLM）基礎上添加一個“動作專家”（action expert），通過流匹配（flow matching）的方式生成連續的高頻控制指令。整個架構可以概括為：

?- 預訓練VLM Backbone
利用 PaliGemma 等大規模預訓練的 VLM，將圖像和文本信息嵌入統一的表示空間，繼承了互聯網規模的語義知識和視覺信息提取能力。
?- 跨機器人平臺數據
論文中使用了來自 7 種不同機器人配置、68 個任務的大規模數據（總計約 10,000 小時），實現跨平臺、跨任務的聯合訓練，從而提升模型的泛化能力。
?- 動作生成 via Flow Matching
針對連續動作生成的挑戰，論文采用了一種基于擴散思想的流匹配方法（flow matching），使得模型能夠生成高頻（例如 50Hz）且精細的動作序列。與傳統 autoregressive 離散生成方法相比，流匹配可以更好地處理連續控制信號和復雜動作分布。
?- 混合專家（Mixture of Experts）設計
模型內部將輸入分為兩大部分：一部分（圖像和文本）走 VLM backbone；另一部分（機器人狀態和動作）通過專門設計的“動作專家”處理，這種設計有助于更好地融合預訓練知識和機器人特定的控制需求。

## 訓練流程：預訓練 + 后訓練
類似大語言模型的訓練流程，π0 模型的訓練分為兩個階段：

?1. 預訓練階段：利用海量、但可能質量參差不齊的多任務、多平臺數據，使模型具備廣泛的基礎能力和恢復錯誤的能力。
?2. 后訓練（微調）階段：使用高質量、任務特定的數據對模型進行微調，從而獲得更高效、流暢和魯棒的動作執行策略。后訓練階段能夠顯著提升模型在復雜、多階段任務（如疊衣服、組裝盒子等）上的表現。

[添加鏈接描述](https://zhuanlan.zhihu.com/p/19518316721)
這篇博客講的更詳細一些，輸入輸出，
# 其他
π0.5
hi Robot

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/908877.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/908877.shtml
英文地址，請注明出處：http://en.pswp.cn/news/908877.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！