【機器人】Aether 多任務世界模型 | 4D動態重建 | 視頻預測 | 視覺規劃

Aether 是一個世界模型,整合幾何重建生成建模的統一框架,實現類人空間推理能力。

來自ICCV 2025,該框架具有三大核心功能:

(1) 4D動態重建,(2) 動作條件視頻預測,?(3) 目標條件視覺規劃

代碼地址:https://github.com/OpenRobotLab/Aether

論文地址:Aether: Geometric-Aware Unified World Modeling

論文復現:參考我這篇博客

??下面是一個動作條件預測的示例:

?

?

1、核心能力:三位一體的世界建模

Aether核心價值在于將傳統上獨立的三個計算機視覺任務統一到單一框架中,形成閉環的空間推理能力:

4D 動態重建

  • 從視頻序列中同時估計深度和相機姿態,還原場景的時空動態(3D 空間 + 時間維度)
  • ??例如,對一段運動視頻,AETHER 可輸出每幀的深度圖和相機運動軌跡,構建完整的 4D場景結構。

動作條件視頻預測??

  • 基于初始觀測圖像相機軌跡(作為動作輸入),預測未來的視頻序列
  • 在導航任務中,相機軌跡直接對應路徑,模型可據此生成沿路徑移動的未來視圖;
  • 在機器人操作中,可預測機械臂末端相機運動帶來的視覺變化。

目標條件視覺規劃?

  • 給定初始觀測圖像目標圖像,規劃出從初始狀態到目標狀態的 動作序列,并生成對應的中間視頻。
  • 例如,從辦公室入口圖像到會議室圖像,模型可規劃出最優移動路徑并生成沿途視圖。

2、模型框架

看一下Aether模型框架,說實話這個圖有點不直觀:

如下圖所示,是 AETHER 多任務世界模型的流程,核心圍繞4D 重建、視頻預測、視覺規劃三大任務,通過多模態隱變量(latent)的處理與交互實現功能。

??

  • 先驗注入:4D 重建為模型提供幾何先驗(深度、相機軌跡),讓模型 “理解空間結構”
  • 任務分化:根據 “是否有動作指令”“是否有目標狀態”,分化出視頻預測(側重未來生成)和視覺規劃(側重路徑推導)
  • 隱變量交互Image/Action/Depth隱變量在不同任務中靈活組合,通過 “輸入缺失部分→模型預測補全” 的方式,實現多任務適配

??用統一的隱空間框架,讓模型同時具備 “理解過去(4D 重建)、預測未來(視頻預測)、規劃路徑(視覺規劃)” 的能力,模擬類人空間推理邏輯。

Aether本質是一個:多模態融合的擴散模型框架

基于主流視頻擴散模型構建,保留其 “前向加噪 - 反向去噪” 的核心機制,同時擴展為多模態融合的結構:?

  • 前向過程:向干凈的 latent 樣本(包含顏色、深度、動作信息)逐步添加高斯噪聲;
  • 反向過程:通過學習的去噪模型,從含噪 latent 中恢復原始信息,目標是最小化預測噪聲與真實噪聲的差異。
  • 條件控制:顏色視頻條件、動作條件,通過不同的條件組合實現多任務切換。
  • 重建任務:輸入視頻 latent,模型從完整視頻中恢復深度和相機軌跡;
  • 視頻預測:輸入初始觀測幀的 latent,其余幀用零掩碼,可額外輸入相機軌跡作為動作條件;
  • 目標條件視覺規劃:輸入初始和目標圖像,中間用零填充,模型生成從初始到目標的路徑視頻。

3、4D 動態重建

4D 動態重建的思路流程,如下圖所示:

通過 “1、輸入RGB-D視頻→ 2、動態掩碼→ 3、視頻切片→ 4、相機參數粗估 + 5、精修→ 6、點云融合” 的步驟,實現對場景的3D重建與相機運動估計。

本質是 “從 2D 觀測恢復 3D 結構” 的經典計算機視覺任務,結合了動態掩碼的智能過濾兩階段相機參數優化,提升重建精度與效率。

Dynamic Masking(動態掩碼處理)

  • 作用:對輸入的 RGB - D 視頻施加動態掩碼,保留關鍵區域(如人物、前景物體),屏蔽背景或干擾信息,為后續處理聚焦有效內容。

相機參數估計:粗估→精修的兩階段優化

  • 首先:Coarse Camera Estimation(相機參數粗估)
    輸入:視頻切片 + 深度信息(來自 RGB - D 視頻)。
    邏輯:基于切片的視覺與深度數據,初步計算相機的內外參數(如位置、姿態、焦距等),得到 “粗相機參數”。
    特點:速度快,但精度有限,為后續精修提供初始值。

  • 然后:Camera Refinement(相機參數精修)
    輸入:粗相機參數 + 切片的詳細視覺信息。
    邏輯:結合更精細的圖像特征(如邊緣、紋理),對粗估參數進行優化,得到 “精修相機參數”。
    作用:提升相機參數精度,確保 3D 重建的空間一致性。

4、視頻預測 與?視覺規劃

Video Prediction(視頻預測)

  • 目標:給定 “初始觀測”(或 + 動作指令),生成符合物理規律的未來視頻,驗證模型 “預判動態演化” 的能力。
  • 子任務:
    • Action Free(無動作條件):僅用首幀圖像,自主預測后續幀;
    • Action Conditioned(有動作條件):結合首幀 + 動作指令(如相機軌跡),約束生成過程。

Visual Planning(視覺規劃)

  • 目標:給定 “初始狀態” 和 “目標狀態”,生成合理的中間過渡視頻,驗證模型 “推導空間路徑” 的能力。
  • 子任務:
    • Action Free(無動作條件):僅用初始 / 目標圖像,自主規劃路徑;
    • Action Conditioned(有動作條件):結合初始 / 目標圖像 + 動作指令,約束規劃過程。

輸入處理(下面的latent是指Aether模型框架中一個一個格子,

  • 模態編碼
    • 圖像:用預訓練 VAE 編碼為Image latent(黃色);
    • 動作:相機軌跡轉射線圖后編碼為Action latent(藍色);
    • 目標:目標圖像編碼為Image latent(黃色,用于規劃任務)。
  • 掩碼策略
    • 視頻預測(Action Free):僅保留首幀Image latent,后續幀用Zero - padding(白色);
    • 視覺規劃(Action Free):保留首幀 + 目標幀Image latent,中間幀用Zero - padding(白色);
    • 帶動作條件任務:額外拼接Action latent,約束生成方向。

模型推理

  • 擴散去噪:基于 DiT 框架,模型學習從 “含噪 latent” 反向去噪,生成Image prediction(淺黃色)和Action prediction(淺藍色,如有動作條件);
  • 多模態融合:深度預測(紅色)與圖像、動作隱變量協同,確保生成內容的幾何合理性(如深度一致、運動符合物理規律)。

輸出解碼

  • 生成的Image prediction經 VAE 解碼為 RGB 視頻,Action prediction解碼為相機軌跡,驗證生成內容的真實性與一致性。

5、模型訓練

采用兩階段訓練

  • 基于預訓練的 CogVideoX - 5b - I2V 權重初始化,新增深度、動作相關投影層設為零,利用已有視頻生成能力,降低訓練難度,快速遷移知識。
  • 先在 latent 空間用 MSE 損失訓去噪模型,學習基礎模態重建;
  • 再解碼到圖像空間,加MS - SSIM(顏色視頻)、尺度平移不變(深度)、點云損失(射線圖),強化跨模態一致性,提升輸出質量。
  • 訓練與推理均用空文本嵌入,擺脫文本依賴,專注視覺 - 幾何模態交互,適配多任務場景。

分布式訓練(看了一下,這個訓練資源太高了,告辭~)

  • 用 FSDP + DDP 策略,80 張 A100 - 80GB GPU 加速,兩周訓練周期,批大小 32,
  • AdamW 優化器 + OneCycle 調度,保障大規模訓練高效穩定

    分享完成~

    ??相關文章推薦:

    UniGoal 具身導航 | 通用零樣本目標導航 CVPR 2025-CSDN博客

    【機器人】具身導航 VLN 最新論文匯總 | Vision-and-Language Navigation-CSDN博客

    【機器人】復現 UniGoal 具身導航 | 通用零樣本目標導航 CVPR 2025-CSDN博客

    【機器人】復現 WMNav 具身導航 | 將VLM集成到世界模型中-CSDN博客

    【機器人】復現 ECoT 具身思維鏈推理-CSDN博客

    【機器人】復現 SG-Nav 具身導航 | 零樣本對象導航的 在線3D場景圖提示-CSDN博客

    ?【機器人】復現 3D-Mem 具身探索和推理 | 3D場景記憶 CVPR 2025 -CSDN博客

    【機器人】復現 Embodied-Reasoner 具身推理 | 具身任務 深度推理模型 多模態場景 長遠決策 多輪互動_embodied reasoner-CSDN博客

    【機器人】DualMap 具身導航 | 動態場景 開放詞匯語義建圖 導航系統-CSDN博客

    【機器人】ForesightNav | 高效探索 動態場景 CVPR2025_pointnav中的指標介紹-CSDN博客

    【機器人】復現 HOV-SG 機器人導航 | 分層 開放詞匯 | 3D 場景圖-CSDN博客

    【機器人】復現 DOV-SG 機器人導航 | 動態開放詞匯 | 3D 場景圖-CSDN博客

    【機器人】復現 Aether 世界模型 | 幾何感知統一 ICCV 2025-CSDN博客

    本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
    如若轉載,請注明出處:http://www.pswp.cn/pingmian/88168.shtml
    繁體地址,請注明出處:http://hk.pswp.cn/pingmian/88168.shtml
    英文地址,請注明出處:http://en.pswp.cn/pingmian/88168.shtml

    如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

    相關文章

    MiniMind:3小時訓練26MB微型語言模型,開源項目助力AI初學者快速入門

    開發|界面|引擎|交付|副駕——重寫全棧法則:AI原生的倍速造應用流來自全棧程序員 nine 的探索與實踐,持續迭代中。 歡迎關注評論私信交流~ 在大型語言模型(LLaMA、GPT等)日益流行的今天,一個名為…

    相機Camera日志實例分析之五:相機Camx【萌拍閃光燈后置拍照】單幀流程日志詳解

    【關注我,后續持續新增專題博文,謝謝!!!】 上一篇我們講了: 這一篇我們開始講: 目錄 一、場景操作步驟 二、日志基礎關鍵字分級如下 三、場景日志如下: 一、場景操作步驟 操作步…

    [2-02-02].第03節:環境搭建 - Win10搭建ES集群環境

    ElasticSearch學習大綱 基于ElasticSearch7.8版本 一、ElasticStack下載: 1.Elasticsearch 的官方地址 2.Elasticsearch 下載地址: 二、集群搭建: 第1步:創建es目錄: 1.創建 elasticsearch-cluster 文件夾,在內部…

    操作系統核心技術剖析:從Android驅動模型到鴻蒙微內核的國產化實踐

    目錄 一、移動端操作系統技術細節 1. Android 內核版本 核心模塊 驅動架構 國內定制案例 2. iOS XNU內核關鍵模塊 安全機制 3. HarmonyOS 多內核架構 驅動隔離 二、PC端操作系統技術細節 1. Windows NT內核 模塊分層 驅動模型 國內適配 2. macOS(X…

    整合Spring、Spring MVC與MyBatis:構建高效Java Web應用

    本文將詳細講解如何整合Spring、Spring MVC和MyBatis(SSM框架),通過一個人員信息查詢案例展示完整開發流程。所有代碼基于提供的文件實現。一、項目結構src/ ├── main/ │ ├── java/ │ │ └── com/ │ │ └── qcb…

    視頻插幀技術:從流暢觀影到AI創作的革命

    一、起源:為什么需要視頻插幀? 視頻的本質是連續播放的靜態幀序列,幀率(FPS) 決定了流暢度。早期電影受限于拍攝技術和存儲成本,普遍采用24FPS,而現代顯示設備(如120Hz屏幕&#xf…

    【一起來學AI大模型】PyTorch 實戰示例:使用 BatchNorm 處理張量(Tensor)

    PyTorch 實戰示例 演示如何在神經網絡中使用 BatchNorm 處理張量(Tensor),涵蓋關鍵實現細節和常見陷阱。示例包含數據準備、模型構建、訓練/推理模式切換及結果分析。示例場景:在 CIFAR-10 數據集上實現帶 BatchNorm 的 CNNimport…

    第8章:應用層協議HTTP、SDN軟件定義網絡、組播技術、QoS

    應用層協議HTTP 應用層協議概述 應用層協議非常多,我們重點熟悉以下常見協議功能即可。 Telnet:遠程登錄協議,基于TCP 23端口,用于遠程管理設備,采用明文傳輸。安全外殼協議 (SecureShell,SSH) ,基于TCP 22端口,用于…

    uniapp頁面間通信

    uniapp中通過eventChannel實現頁面間通信的方法,這是一種官方推薦的高效傳參方式。我來解釋下這種方式的完整實現和注意事項:?發送頁面(父頁面)?:uni.navigateTo({url: /pages/detail/detail,success: (res) > {/…

    Android ViewModel機制與底層原理詳解

    Android 的 ViewModel 是 Jetpack 架構組件庫的核心部分,旨在以生命周期感知的方式存儲和管理與 UI 相關的數據。它的核心目標是解決兩大痛點: 數據持久化: 在配置變更(如屏幕旋轉、語言切換、多窗口模式切換)時保留數…

    雙倍硬件=雙倍性能?TDengine線性擴展能力深度實測驗證!

    軟件擴展能力是軟件架構設計中的一個關鍵要素,具有良好擴展能力的軟件能夠充分利用新增的硬件資源。當軟件性能與硬件增加保持同步比例增長時,我們稱這種現象為軟件具有線性擴展能力。要實現這種線性擴展并不簡單,它要求軟件架構精心設計&…

    頻繁迭代下完成iOS App應用上架App Store:一次快速交付項目的完整回顧

    在一次面向商戶的會員系統App開發中,客戶要求每周至少更新一次版本,涉及功能迭代、UI微調和部分支付方案的更新。團隊使用Flutter進行跨平臺開發,但大部分成員日常都在Windows或Linux環境,只有一臺云Mac用于打包。如何在高頻率發布…

    springsecurity03--異常攔截處理(認證異常、權限異常)

    目錄 Spingsecurity異常攔截處理 認證異常攔截 權限異常攔截 注冊異常攔截器 設置跨域訪問 Spingsecurity異常攔截處理 認證異常攔截 /*自定義認證異常處理器類*/ Component public class MyAuthenticationExceptionHandler implements AuthenticationEntryPoint {Overr…

    企業如何制作網站?網站制作的步驟與流程?

    以下是2025年網站制作的綜合指南,涵蓋核心概念、主流技術及實施流程: 一、定義與范疇 網站制作是通過頁面結構設計、程序設計、數據庫開發等技術,將視覺設計轉化為可交互網頁的過程,包含前端展示與后臺功能實現。其核心目標是為企…

    Rust+Blender:打造高性能游戲引擎

    基于Rust和Blender的游戲引擎 以下是基于Rust和Blender的游戲引擎開發實例,涵蓋不同應用場景和技術方向的實際案例。案例分為工具鏈整合、渲染技術、物理模擬等類別,每個案例附核心代碼片段或實現邏輯。 工具鏈整合案例 案例1:Blender模型導出到Bevy引擎 使用blender-bev…

    Git基本操作1

    Git 是一款分布式版本控制系統,主要用于高效管理代碼版本和團隊協作開發。它能精確記錄每次代碼修改,支持版本回溯和分支管理,讓開發者可以并行工作而互不干擾。通過本地提交和遠程倉庫同步,Git 既保障了代碼安全,又實…

    React Native 組件間通信方式詳解

    React Native 組件間通信方式詳解 在 React Native 開發中,組件間通信是核心概念之一。以下是幾種主要的組件通信方式及其適用場景: 簡單父子通信:使用 props 和回調函數兄弟組件通信:提升狀態到共同父組件跨多級組件:…

    TCP的可靠傳輸機制

    TCP通過校驗和、序列號、確認應答、重發控制、連接管理以及窗口控制等機制實現可靠性的傳輸。 先來看第一個可靠性傳輸的方法。 通過序列號和可靠性提供可靠性 TCP是面向字節的。TCP把應用層交下來的報文(可能要劃分為許多較短的報文段)看成一個一個字節…

    沒有DBA的敏捷開發管理

    前言一家人除了我都去旅游了,我這項請假,請不動啊。既然在家了,閑著也是閑著,就復盤下最近的工作,今天就復盤表結構管理吧,隨系統啟動的,不是flyway,而是另一個liquibase&#xff0c…

    go-carbon v2.6.10發布,輕量級、語義化、對開發者友好的 golang 時間處理庫

    carbon 是一個輕量級、語義化、對開發者友好的 Golang 時間處理庫,提供了對時間穿越、時間差值、時間極值、時間判斷、星座、星座、農歷、儒略日 / 簡化儒略日、波斯歷 / 伊朗歷的支持。 carbon 目前已捐贈給 dromara 開源組織,已被 awesome-go 收錄&am…