Aether 是一個的世界模型,整合幾何重建與生成建模的統一框架,實現類人空間推理能力。
來自ICCV 2025,該框架具有三大核心功能:
(1) 4D動態重建,(2) 動作條件視頻預測,?(3) 目標條件視覺規劃。
代碼地址:https://github.com/OpenRobotLab/Aether
論文地址:Aether: Geometric-Aware Unified World Modeling
論文復現:參考我這篇博客
??下面是一個動作條件預測的示例:
?
?
1、核心能力:三位一體的世界建模
Aether核心價值在于將傳統上獨立的三個計算機視覺任務統一到單一框架中,形成閉環的空間推理能力:
4D 動態重建
- 從視頻序列中同時估計深度和相機姿態,還原場景的時空動態(3D 空間 + 時間維度)。
- ??例如,對一段運動視頻,AETHER 可輸出每幀的深度圖和相機運動軌跡,構建完整的 4D場景結構。
動作條件視頻預測??
- 基于初始觀測圖像和相機軌跡(作為動作輸入),預測未來的視頻序列。
- 在導航任務中,相機軌跡直接對應路徑,模型可據此生成沿路徑移動的未來視圖;
- 在機器人操作中,可預測機械臂末端相機運動帶來的視覺變化。
目標條件視覺規劃?
- 給定初始觀測圖像和目標圖像,規劃出從初始狀態到目標狀態的 動作序列,并生成對應的中間視頻。
- 例如,從辦公室入口圖像到會議室圖像,模型可規劃出最優移動路徑并生成沿途視圖。
2、模型框架
看一下Aether模型框架,說實話這個圖有點不直觀:
如下圖所示,是 AETHER 多任務世界模型的流程,核心圍繞4D 重建、視頻預測、視覺規劃三大任務,通過多模態隱變量(latent)的處理與交互實現功能。
??
- 先驗注入:4D 重建為模型提供幾何先驗(深度、相機軌跡),讓模型 “理解空間結構”
- 任務分化:根據 “是否有動作指令”“是否有目標狀態”,分化出視頻預測(側重未來生成)和視覺規劃(側重路徑推導)
- 隱變量交互:
Image/Action/Depth
隱變量在不同任務中靈活組合,通過 “輸入缺失部分→模型預測補全” 的方式,實現多任務適配
??用統一的隱空間框架,讓模型同時具備 “理解過去(4D 重建)、預測未來(視頻預測)、規劃路徑(視覺規劃)” 的能力,模擬類人空間推理邏輯。
Aether本質是一個:多模態融合的擴散模型框架
基于主流“視頻擴散模型”構建,保留其 “前向加噪 - 反向去噪” 的核心機制,同時擴展為多模態融合的結構:?
- 前向過程:向干凈的 latent 樣本(包含顏色、深度、動作信息)逐步添加高斯噪聲;
- 反向過程:通過學習的去噪模型,從含噪 latent 中恢復原始信息,目標是最小化預測噪聲與真實噪聲的差異。
- 條件控制:顏色視頻條件、動作條件,通過不同的條件組合實現多任務切換。
- 重建任務:輸入視頻 latent,模型從完整視頻中恢復深度和相機軌跡;
- 視頻預測:輸入初始觀測幀的 latent,其余幀用零掩碼,可額外輸入相機軌跡作為動作條件;
- 目標條件視覺規劃:輸入初始和目標圖像,中間用零填充,模型生成從初始到目標的路徑視頻。
3、4D 動態重建
4D 動態重建的思路流程,如下圖所示:
通過 “1、輸入RGB-D視頻→ 2、動態掩碼→ 3、視頻切片→ 4、相機參數粗估 + 5、精修→ 6、點云融合” 的步驟,實現對場景的3D重建與相機運動估計。
本質是 “從 2D 觀測恢復 3D 結構” 的經典計算機視覺任務,結合了動態掩碼的智能過濾與兩階段相機參數優化,提升重建精度與效率。
Dynamic Masking(動態掩碼處理)
- 作用:對輸入的 RGB - D 視頻施加動態掩碼,保留關鍵區域(如人物、前景物體),屏蔽背景或干擾信息,為后續處理聚焦有效內容。
相機參數估計:粗估→精修的兩階段優化
-
首先:Coarse Camera Estimation(相機參數粗估)
輸入:視頻切片 + 深度信息(來自 RGB - D 視頻)。
邏輯:基于切片的視覺與深度數據,初步計算相機的內外參數(如位置、姿態、焦距等),得到 “粗相機參數”。
特點:速度快,但精度有限,為后續精修提供初始值。 -
然后:Camera Refinement(相機參數精修)
輸入:粗相機參數 + 切片的詳細視覺信息。
邏輯:結合更精細的圖像特征(如邊緣、紋理),對粗估參數進行優化,得到 “精修相機參數”。
作用:提升相機參數精度,確保 3D 重建的空間一致性。
4、視頻預測 與?視覺規劃
Video Prediction(視頻預測)
- 目標:給定 “初始觀測”(或 + 動作指令),生成符合物理規律的未來視頻,驗證模型 “預判動態演化” 的能力。
- 子任務:
- Action Free(無動作條件):僅用首幀圖像,自主預測后續幀;
- Action Conditioned(有動作條件):結合首幀 + 動作指令(如相機軌跡),約束生成過程。
Visual Planning(視覺規劃)
- 目標:給定 “初始狀態” 和 “目標狀態”,生成合理的中間過渡視頻,驗證模型 “推導空間路徑” 的能力。
- 子任務:
- Action Free(無動作條件):僅用初始 / 目標圖像,自主規劃路徑;
- Action Conditioned(有動作條件):結合初始 / 目標圖像 + 動作指令,約束規劃過程。
輸入處理(下面的latent是指
Aether模型框架中一個一個格子,)
- 模態編碼:
- 圖像:用預訓練 VAE 編碼為
Image latent
(黃色); - 動作:相機軌跡轉射線圖后編碼為
Action latent
(藍色); - 目標:目標圖像編碼為
Image latent
(黃色,用于規劃任務)。
- 圖像:用預訓練 VAE 編碼為
- 掩碼策略:
- 視頻預測(Action Free):僅保留首幀
Image latent
,后續幀用Zero - padding
(白色); - 視覺規劃(Action Free):保留首幀 + 目標幀
Image latent
,中間幀用Zero - padding
(白色); - 帶動作條件任務:額外拼接
Action latent
,約束生成方向。
- 視頻預測(Action Free):僅保留首幀
模型推理
- 擴散去噪:基于 DiT 框架,模型學習從 “含噪 latent” 反向去噪,生成
Image prediction
(淺黃色)和Action prediction
(淺藍色,如有動作條件); - 多模態融合:深度預測(紅色)與圖像、動作隱變量協同,確保生成內容的幾何合理性(如深度一致、運動符合物理規律)。
輸出解碼
- 生成的
Image prediction
經 VAE 解碼為 RGB 視頻,Action prediction
解碼為相機軌跡,驗證生成內容的真實性與一致性。
5、模型訓練
采用兩階段訓練:
- 基于預訓練的 CogVideoX - 5b - I2V 權重初始化,新增深度、動作相關投影層設為零,利用已有視頻生成能力,降低訓練難度,快速遷移知識。
- 先在 latent 空間用 MSE 損失訓去噪模型,學習基礎模態重建;
- 再解碼到圖像空間,加MS - SSIM(顏色視頻)、尺度平移不變(深度)、點云損失(射線圖),強化跨模態一致性,提升輸出質量。
- 訓練與推理均用空文本嵌入,擺脫文本依賴,專注視覺 - 幾何模態交互,適配多任務場景。
分布式訓練:(看了一下,這個訓練資源太高了,告辭~)
- 用 FSDP + DDP 策略,80 張 A100 - 80GB GPU 加速,兩周訓練周期,批大小 32,
- AdamW 優化器 + OneCycle 調度,保障大規模訓練高效穩定
分享完成~
??相關文章推薦:
UniGoal 具身導航 | 通用零樣本目標導航 CVPR 2025-CSDN博客
【機器人】具身導航 VLN 最新論文匯總 | Vision-and-Language Navigation-CSDN博客
【機器人】復現 UniGoal 具身導航 | 通用零樣本目標導航 CVPR 2025-CSDN博客
【機器人】復現 WMNav 具身導航 | 將VLM集成到世界模型中-CSDN博客
【機器人】復現 ECoT 具身思維鏈推理-CSDN博客
【機器人】復現 SG-Nav 具身導航 | 零樣本對象導航的 在線3D場景圖提示-CSDN博客
?【機器人】復現 3D-Mem 具身探索和推理 | 3D場景記憶 CVPR 2025 -CSDN博客
【機器人】復現 Embodied-Reasoner 具身推理 | 具身任務 深度推理模型 多模態場景 長遠決策 多輪互動_embodied reasoner-CSDN博客
【機器人】DualMap 具身導航 | 動態場景 開放詞匯語義建圖 導航系統-CSDN博客
【機器人】ForesightNav | 高效探索 動態場景 CVPR2025_pointnav中的指標介紹-CSDN博客
【機器人】復現 HOV-SG 機器人導航 | 分層 開放詞匯 | 3D 場景圖-CSDN博客
【機器人】復現 DOV-SG 機器人導航 | 動態開放詞匯 | 3D 場景圖-CSDN博客
【機器人】復現 Aether 世界模型 | 幾何感知統一 ICCV 2025-CSDN博客