# 基于diffusion
# π0
## 架構
其核心思想是在預訓練好的視覺語言模型(VLM)基礎上添加一個“動作專家”(action expert),通過流匹配(flow matching)的方式生成連續的高頻控制指令。整個架構可以概括為:
?- 預訓練VLM Backbone
利用 PaliGemma 等大規模預訓練的 VLM,將圖像和文本信息嵌入統一的表示空間,繼承了互聯網規模的語義知識和視覺信息提取能力。
?- 跨機器人平臺數據
論文中使用了來自 7 種不同機器人配置、68 個任務的大規模數據(總計約 10,000 小時),實現跨平臺、跨任務的聯合訓練,從而提升模型的泛化能力。
?- 動作生成 via Flow Matching
針對連續動作生成的挑戰,論文采用了一種基于擴散思想的流匹配方法(flow matching),使得模型能夠生成高頻(例如 50Hz)且精細的動作序列。與傳統 autoregressive 離散生成方法相比,流匹配可以更好地處理連續控制信號和復雜動作分布。
?- 混合專家(Mixture of Experts)設計
模型內部將輸入分為兩大部分:一部分(圖像和文本)走 VLM backbone;另一部分(機器人狀態和動作)通過專門設計的“動作專家”處理,這種設計有助于更好地融合預訓練知識和機器人特定的控制需求。
## 訓練流程:預訓練 + 后訓練
類似大語言模型的訓練流程,π0 模型的訓練分為兩個階段:
?1. 預訓練階段:利用海量、但可能質量參差不齊的多任務、多平臺數據,使模型具備廣泛的基礎能力和恢復錯誤的能力。
?2. 后訓練(微調)階段:使用高質量、任務特定的數據對模型進行微調,從而獲得更高效、流暢和魯棒的動作執行策略。后訓練階段能夠顯著提升模型在復雜、多階段任務(如疊衣服、組裝盒子等)上的表現。
[添加鏈接描述](https://zhuanlan.zhihu.com/p/19518316721)
這篇博客講的更詳細一些,輸入輸出,
# 其他
π0.5
hi Robot