GeoDrive:基于三維幾何信息有精確動作控制的駕駛世界模型

25年5月來自北大、理想汽車和 UC Berkeley 的論文“GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control”。

世界模型的最新進展徹底改變動態環境模擬,使系統能夠預見未來狀態并評估潛在行動。在自動駕駛中,這些功能可幫助車輛預測其他道路使用者的行為、執行風險意識規劃、加速模擬訓練并適應新場景,從而提高安全性和可靠性。當前的方法在保持強大的 3D 幾何一致性或在遮擋處理期間累積偽影方面表現出不足,這兩者對于自動導航任務中的可靠安全評估都至關重要。為了解決這個問題,GeoDrive 將強大的 3D 幾何條件明確地集成到駕駛世界模型中,以增強空間理解和動作可控性。具體而言,首先從輸入幀中提取 3D 表示,然后根據用戶指定的自車軌跡獲取其 2D 渲染。為了實現動態建模,提出一個訓練期間的動態編輯模塊,通過編輯車輛的位置來增強渲染。大量實驗表明,該方法在動作精度和 3D 空間-覺察方面均顯著優于現有模型,從而能夠構建更逼真、適應性更強、更可靠的場景建模,從而實現更安全的自動駕駛。此外,該模型可以泛化到新軌跡,并提供交互式場景編輯功能,例如目標編輯和目標軌跡控制。

GeoDrive 如圖所示:

請添加圖片描述

給定初始參考圖像 I_0 和自車軌跡 {C_t},框架合成遵循輸入軌跡的真實未來幀。利用參考圖像中的 3D 幾何信息來指導世界建模。首先,重建 3D 表示,然后沿著用戶指定的軌跡渲染視頻序列,并進行動態物體處理。渲染后的視頻為生成遵循輸入軌跡的時空一致視頻提供幾何指導。其訓練流水線如圖所示:

請添加圖片描述

從參考圖像中提取 3D 表示

為了利用 3D 信息進行 3D 一致性生成,首先從單幅輸入圖像 I_0 構建 3D 表示。采用 MonST3R [81],這是一個現成的密集立體視覺模型,可以同時預測 3D 幾何形狀和相機姿態,這與訓練范式一致。在推理過程中,復制參考圖像以滿足 MonST3R 的跨視圖匹配要求。

給定 RGB 幀 {I_t},MonST3R 通過跨幀跨視圖特征匹配來預測每像素 3D 坐標 {O_t} 和置信度得分 {D_t}。

將 D_0 設置為 τ(通常 τ = 0.65),第 t 個參考幀的彩色點云結果如下:

請添加圖片描述

為了抵消序列中有效匹配和無效匹配之間的不平衡,用焦點損失來訓練置信度圖 D_0。此外,為了將靜態場景幾何與運動目標分離,MonST3R 采用基于 Transformer 的解耦器。該模塊處理參考幀的初始特征(跨視圖上下文進行豐富),并將其分離為靜態和動態部分。解耦器使用可學習的提示 token 來劃分注意圖:靜態 token 關注較大的平面,動態 token 關注緊湊且運動豐富的區域。通過排除動態對應關系,獲得穩健的相機姿態估計:

請添加圖片描述

利用動態編輯渲染 3D 視頻

為了實現精確的輸入軌跡跟蹤,模型會渲染一段視頻,作為生成過程的視覺引導。用標準射影幾何技術,通過用戶提供的每個相機配置 C_t = (R_t, T_t, f_t) 將參考點云 P_0 投影。每個 3D 點 Pw_i ∈ P_0 經過剛性變換到相機坐標系 Pc_i = R_tPw_i +T_t,然后使用相機的內參矩陣 K_t 進行透視投影,得到圖像坐標 p_i。僅考慮 P_ic_z ∈ [0.1, 100.0 m] 深度范圍內的有效投影,并使用 z-緩沖處理遮擋,最終為每個相機位置生成渲染視圖 I ?_t。

靜態渲染的局限性。由于僅使用第一幀點云,渲染場景在整個序列中保持靜態。這與現實世界的自動駕駛環境存在顯著差異,因為在現實世界中,車輛和其他動態物體處于持續運動狀態。渲染的靜態特性未能捕捉到區分自動駕駛數據集和傳統靜態場景的動態本質。

動態編輯。為了解決這一局限性,提出動態編輯來生成具有靜態背景和移動車輛的渲染圖 R。具體而言,當用戶為場景中的移動車輛提供一系列二維邊框信息時,會動態調整它們的位置,從而在渲染圖中營造出運動的視覺效果。這種方法不僅可以在生成過程中引導自身車輛的軌跡,還可以引導場景中其他車輛的移動。如圖展示此過程。這種設計顯著縮小靜態渲染與動態現實世界場景之間的差異,同時實現對其他車輛的靈活控制——這是 Vista [13] 和 GAIA [23] 等現有方法無法實現的功能。

請添加圖片描述

雙-分支控制實現時空一致性

雖然基于點云的渲染能夠準確地保留視圖之間的幾何關系,但它存在一些視覺質量問題。渲染后的視圖通常包含大量遮擋、由于傳感器覆蓋范圍有限而導致的區域缺失,并且與真實相機圖像相比視覺保真度較低。為了提升質量,調整潛在視頻擴散模型 [5],以優化投影視圖,同時通過專門的調節來保持 3D 結構保真度。

在此基礎上,進一步改進將上下文特征集成到預訓練擴散Transformer (DiT) 中的方案,這借鑒 VideoPainter [2] 提出的方法。然而,根據自身特定需求引入關鍵的區別。采用動態渲染來捕捉時間和上下文的細微差別,從而為生成過程提供更具自適應性的表示。令 δ_φ(z_t, t, C) 表示修改后的 DiT 主干網絡 δ_φ 第 i 層的特征輸出,其中 z_R 表示通過 VAE 編碼器 E 的動態渲染潛特征,z_t 是時間步長 t 的噪聲潛特征。

這些渲染圖通過輕量級條件編碼器進行處理,該編碼器提取必要的背景線索,而無需復制主干架構的大量部分。將條件編碼器的特征集成到凍結的 DiT 中,其公式如下:

請添加圖片描述

其中 γenc_φ 表示處理噪聲潛變量 z_t 的連接輸入和渲染潛變量 z_R 的條件編碼器,M 表示 DiT 主干網中的總層數。W 是一個可學習的線性變換,初始化為零,以防止早期訓練中的噪聲崩潰。提取的特征以結構化的方式選擇性地融合到凍結的 DiT 中,確保只有相關的上下文信息引導生成過程。最終的視頻序列通過凍結的 VAE 解碼器 D 解碼為 I?_t = D(z(0)_t)。

通過將訓練限制在條件編碼器 g_φ(占總參數的 6%),保持預訓練模型的照片級真實感,并獲得精確的相機控制。時間相干性自然地源于視頻 Transformer 的動態建模以及跨幀 {I ?_t} 特征的幾何一致性,從而實現忠實軌跡的視頻合成。

訓練配置。僅在 nuScenes [7] 上進行訓練,通過 MonST3R 處理每個片段,以獲得公制尺度的 3D 重建和攝像機軌跡。初始幀 P_0 的 3D 重建通過可微分光柵化器沿估計的軌跡進行投影渲染,其中動態編輯利用 2D 邊框注釋來編輯車輛位置。整理 25,109 個視頻-條件對用于訓練。凍結基礎擴散模型 (CogVideo-5B-I2V [22]),同時以 1 × 10?5 的學習率對條件編碼器進行 28,000 步訓練,持續 4 天。

基準和基線方法。將 GeoDrive 與兩個最相關的基線模型(Vista[13]、Terra[1])以及其他幾個駕駛世界模型進行了比較,這幾個基線模型以單幅圖像和自我動作為條件。遵循 Vista 的協議,從跨越 25 幀剪輯的傳感器和標定數據中計算軌跡,作為它們的條件輸入。通過在 GT 視頻上運行 MonST3R 來估計條件相機姿勢。雖然以不同的模態為條件,但所有方法的軌跡都是從同一個真值視頻剪輯中提取的,以確保動作條件一致。在 NuScenes 驗證集上評估所有方法。為了評估軌跡控制精度,從 1087 個具有平衡駕駛軌跡的視頻子集進行采樣。視覺質量通過 PSNR、SSIM[63]、LPIPS[29]、FID[20]和 FVD[57]進行量化。而軌跡保真度指標采用平均位移誤差(ADE)和最終位移誤差(FDE)。

將 GeoDrive 與場景重建方法 StreetGaussians [73] 進行比較。在 Waymo 驗證集上進行評估,并篩選出 5 個場景進行測試。新軌跡是通過水平移動前置攝像頭的原始軌跡生成的。由于新軌跡沒有真實值,用 FID 和 FVD 來評估生成質量。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/84265.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/84265.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/84265.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java高頻面試之并發編程-25

hello啊,各位觀眾姥爺們!!!本baby今天又來報道了!哈哈哈哈哈嗝🐶 面試官:CAS都有哪些問題?如何解決? CAS 的問題及解決方案 CAS(Compare and Swap&#xff0…

從碳基羊駝到硅基LLaMA:開源大模型家族的生物隱喻與技術進化全景

在人工智能的廣袤版圖上,一場從生物學羊駝到數字智能體的奇妙轉變正在上演。Meta推出的LLaMA(Large Language Model Meta AI)系列模型,不僅名字源自美洲駝(llama),更以其開源特性和強大性能,引領了開源大模型社區的“駝類大爆發”…

可下載舊版app屏蔽更新的app市場

軟件介紹 手機用久了,app越來越臃腫,老手機卡頓成常態。這里給大家推薦個改善老手機使用體驗的方法,還能幫我們卸載不需要的app。 手機現狀 如今的app不斷更新,看似在優化,實則內存占用越來越大,對手機性…

Python_day47

作業:對比不同卷積層熱圖可視化的結果 一、不同卷積層的特征特性 卷積層類型特征類型特征抽象程度對輸入的依賴程度低層卷積層(如第 1 - 3 層)邊緣、紋理、顏色、簡單形狀等基礎特征低高,直接與輸入像素關聯中層卷積層&#xff08…

比較數據遷移后MySQL數據庫和達夢數據庫中的表

設計一個MySQL數據庫和達夢數據庫的表數據比較的詳細程序流程,兩張表是相同的結構,都有整型主鍵id字段,需要每次從數據庫分批取得2000條數據,用于比較,比較操作的同時可以再取2000條數據,等上一次比較完成之…

GC1808高性能24位立體聲音頻ADC芯片解析

1. 芯片概述 GC1808是一款24位立體聲音頻模數轉換器(ADC),支持8kHz~96kHz采樣率,集成Δ-Σ調制器、數字抗混疊濾波器和高通濾波器,適用于高保真音頻采集場景。 2. 核心特性 高精度:24位分辨率&#xff0c…

Linux 文本比較與處理工具:comm、uniq、diff、patch、sort 全解析

在類 UNIX 操作系統,特別是 Linux 系統中,命令行提供了一整套強大的文本處理工具,這些工具對于文件差異對比、內容篩選、文本排序以及源代碼管理尤為重要。今天,我們將結合真實示例,深入介紹并實戰演示 comm、uniq、di…

6月6日day46打卡

通道注意力(SE注意力) 知識點回顧: 不同CNN層的特征圖:不同通道的特征圖什么是注意力:注意力家族,類似于動物園,都是不同的模塊,好不好試了才知道。通道注意力:模型的定義和插入的位置通道注意力…

前端技能包

ES6 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title> </head> <body><script>// 變量定義var a1;let b5; // 現在使用let 定義變量// 對象解構let person{&quo…

大數據(1) 大數據概述

一、大數據時代 1.三次信息化浪潮 二、什么是大數據 1.四個特點 4V&#xff1a;數據量&#xff08;Volume&#xff09;大、數據類型&#xff08;Variety&#xff09;繁多、處理速度&#xff08;Velocity&#xff09;快、價值密度&#xff08;Value&#xff09;低 三、大數據…

element-plus 單選組件 el-radio,選不上,又沒報錯,直接復制官網也不行解決方案

在使用 Vue 框架開發項目時&#xff0c;Element UI 是常用的組件庫。最近在開發中遇到了 Element 單選框組件el-radio的雙向綁定問題&#xff0c;直接復制element官網上的的案例下來也是不得&#xff0c;經過調試和探索&#xff0c;終于找到了解決方案&#xff0c;特此記錄分享…

使用 Amazon Q Developer CLI 快速搭建各種場景的 Flink 數據同步管道

在 AI 和大數據時代&#xff0c;企業通常需要構建各種數據同步管道。例如&#xff0c;實時數倉實現從數據庫到數據倉庫或者數據湖的實時復制&#xff0c;為業務部門和決策團隊分析提供數據結果和見解&#xff1b;再比如&#xff0c;NoSQL 游戲玩家數據&#xff0c;需要轉換為 S…

開疆智能Ethernet/IP轉Modbus網關連接質量流量計配置案例

首先設置modbus從站的485參數&#xff0c;確保網關和從站的485參數保持一致。 設置完成后打開網關配置軟件并新建項目 先設置網關在Ethernet一側的IP地址以及數據轉換長度。 設置網關的Modbus參數如波特率9600無校驗8數據位&#xff08;無校驗選8&#xff0c;有校驗選9&#xf…

多智能體MPE環境遇到的若干問題

最近學習MADDPG算法&#xff0c;用MPE環境來測試算法性能。于是便下載了pettingzoo包&#xff0c;運行了simple_tag_v3環境&#xff0c;此環境中有獵人、逃亡者和障礙物。 問題1: MPE中的simple_tag_v3環境&#xff0c;在渲染時看似移動的問題 由于相機視角跟隨導致的視覺錯覺…

[特殊字符] FFmpeg 學習筆記

一、FFmpeg 簡介 FFmpeg 是一個開源跨平臺的視頻和音頻處理工具&#xff0c;支持錄制、轉換、流處理等功能。 官網&#xff1a;https://ffmpeg.org 安裝命令&#xff08;macOS&#xff09;&#xff1a; brew install ffmpeg二、基本命令結構 ffmpeg -i 輸入文件 [參數] 輸出…

leetcode Top100 238. 除自身以外數組的乘積|數組系列

題目鏈接&#xff1a;238. 除自身以外數組的乘積 - 力扣&#xff08;LeetCode&#xff09; 238. 除自身以外數組的乘積|數組系列 給你一個整數數組 nums&#xff0c;返回 數組 answer &#xff0c;其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘積 。 題目數據 …

【Liunx專欄_6】Linux線程概念與控制

目錄 1、線程是什么&#xff1f;通過一個圖來理解……2、Linux進程和線程&#xff1f;2.1、之間的關系和區別2.2、線程的優缺點&#xff1f; 3、線程的創建3.1、POSIX線程庫3.2、創建線程3.3、PS查看運行的線程 4、線程的終止5、線程的等待6、線程分離7、線程封裝 1、線程是什么…

「Java基本語法」標識符、關鍵字與常量

知識點解析 1&#xff0e;標識符&#xff08;Identifiers&#xff09;&#xff1a;用于命名類、方法、變量等。 標識符命名規則&#xff1a; 標識符由字母&#xff08;A-Z&#xff0c;a-z&#xff09;、數字&#xff08;0-9&#xff09;、下劃線“_”或美元符號“$”組成。標…

Nginx Stream 層連接數限流實戰ngx_stream_limit_conn_module

1.為什么需要連接數限流&#xff1f; 數據庫/Redis/MQ 連接耗資源&#xff1a;惡意腳本或誤配可能瞬間占滿連接池&#xff0c;拖垮后端。防御慢速攻擊&#xff1a;層疊式限速&#xff08;連接數&#xff0b;帶寬&#xff09;可阻擋「Slow Loris」之類的 TCP 低速洪水。公平接入…

LLMs之Structured Output:vLLM 結構化輸出指南—從約束生成到自動解析與高效實現

LLMs之Structured Output&#xff1a;vLLM 結構化輸出指南—從約束生成到自動解析與高效實現 導讀&#xff1a;隨著大語言模型&#xff08;LLM&#xff09;在各類任務中的廣泛應用&#xff0c;如何使其輸出具備可控性、結構化與可解析性&#xff0c;成為實際部署中的關鍵問題。…