51c自動駕駛~合集9

自己的原文哦~? ? ? ? ??https://blog.51cto.com/whaosoft/11627386

#端到端1

說起端到端,每個從業者可能都覺得會是下一代自動駕駛量產方案繞不開的點!特斯拉率先吹響了方案更新的號角,無論是完全端到端,還是專注于planner的模型,各家公司基本都投入較大人力去研發,小鵬、蔚來、理想、華為都對外展示了其端到端自動駕駛方案,效果著實不錯,非常有研究價值。?

為什么需要端到端?

首先我們聊一下當前的主流自動駕駛方案,主要核心部分包括:感知模塊、預測模塊、規控模塊。每個模塊相對獨立,感知模塊給預測模塊提供動靜態障礙物信息;預測模塊為規控模塊提供規劃的參考,規劃再轉換為控制指令。從傳感器端到控制端,需要多個功能支持,這就不可避免導致了累積誤差,一旦碰到問題,需要整個pipeline做分析。而且每個模塊的優化,并不能保證整個系統達成最優解。

這個時候,就希望有一種模型能夠完成感知信息的無損傳遞,即從傳感器端到輸出控制策略端,這也是端到端自動駕駛提出的原因。傳統定義上感知和規劃模塊的對接一般是通過白名單(比如機動車、行人、甚至occ輸出的非通用幾何障礙物)的檢測與預測來完成,是人為定義的規則和抽象。隨著產品的迭代,每一次都需要添加各類case,設計各種博弈的策略,從模型訓練到工程部署再到邏輯設計,時間和人力成本高昂。

而且這種方式無法羅列所有情況,那么是否可以通過對整個場景的學習抽象,無損的將所有信息傳遞給PnC部分?這就是我們期望的端到端。端到端核心是優化最終目標且全局可導,作為一個完整的優化任務來看,直接求最優解,而不是先求感知再求規控的最優解。?

端到端效果怎么樣?

今年各大自動駕駛公司都在預研和落地相關端到端方案,小鵬、蔚來、華為、理想也都對外展示了其端到端方案。由于端到端模型的優勢明顯,各大自動駕駛公司都在拼命布局攬人,對應崗位薪資水漲船高,某想甚至開出了七位數給到該崗位。

那么各家的端到端自動駕駛效果怎么樣呢?先來看看國外的特斯拉:

再來看看國內的UniAD效果:

不得不說,端到端是一個更簡約的方法,更具有全場景的優化能力。?

端到端有哪些技術棧?

行業里面的端到端主要分為完全端到端方案、專注于planner的端到端方案(包括某鵬的XPlanner)。顧名思義,完全端到端是從傳感器直接到規控;而專注于planner的端到端以感知模塊的輸出作為先驗,替換原來以規則作為主要形式的PnC模塊。

從傳感器到控制策略的(如果把條件再放松下也可以到軌跡輸出)完全端到端方案更為簡約,但同樣面臨一個問題,可解釋性差。UniAD用分階段監督的方法逐步提高了可解釋性,但訓練仍然是個難題。在足夠體量和質量的數據群下,效果能夠得到保證,泛化性能也不錯。

而專注于planner的端到端方案,如果深究的話,只能算狹義上的端到端,但更貼合當下的量產方案和任務,而且可解釋性也較高,是目前主機廠和自動駕駛公司優先推行和落地的。

如果從信息輸入的角度上來看,又可以分為純視覺方案(UAD、UniAD這類)和多模態方案(FusionAD這類),傳感器成本不斷在下降,多模態方案也一直是行業里面都在關注的點。

#3DGS

3DGS的發展已經勢不可擋,目前已經成為3D表示的主流方法。它可以通過高效的訓練將多視圖圖像有效地轉換為顯式的3D高斯表示,并實現新穎視圖的實時渲染。本次調查旨在從多個交叉的角度分析現有的3DGS相關作品,包括相關任務、技術、挑戰和機遇。主要目標是讓新來者快速了解該領域,并協助研究人員有條不紊地組織現有技術和挑戰。具體來說,我們深入研究了3DGS的優化、應用和擴展,并根據其重點或動機對其進行了分類。此外,我們總結并分類了現有工作中確定的九種技術模塊和相應的改進。基于這些分析,我們進一步研究了各種任務中的共同挑戰和技術,提出了潛在的研究機會。

匯總鏈接:https://github.com/qqqqqqy0227/awesome-3DGS

總結來說,本文的主要貢獻如下:

  • 1)本調查討論了3DGS及其各種衍生任務,包括3DGS的優化、應用和擴展。與現有的綜述不同,我們根據重點或動機提供了更詳細的分類,使讀者能夠更全面地了解任務和既定的研究方向。
  • 2)更重要的是,我們全面分析了現有文獻中3DGS中各種技術的增強,提供了詳細的分類和深入的討論。這使讀者能夠發現各種改進技術中的社區,從而幫助他們將其應用于定制任務。
  • 3)基于對現有工作和技術的分析,我們確定了3DGS相關任務之間的共性和關聯,并總結了核心挑戰。
  • 4)在應對共同挑戰時,本調查闡明了潛在的機遇,并提供了有見地的分析。

預備知識

Neural Implicit Field

Neural implicit field表示在最近的研究中引起了極大的關注。這些方法將2D或3D信號概念化為相應歐幾里德空間內的場,使用離散樣本訓練近似這些場的神經網絡。這種方法有助于對原始離散樣本進行重建、插值和外推,從而實現2D圖像的超分辨率和3D場景的新穎視圖合成等應用。在3D重建和新穎視圖合成的特定背景下,神經輻射場(NeRF)利用神經網絡將3D場景的幾何形狀和外觀建模為密度場和輻射場。NeRF采用體積渲染來建立從3D場到2D圖像的映射,從而能夠從多個2D圖像重建3D信號,并促進新穎的視圖渲染。在該領域當前最先進的方法中,Mip NeRF 360[8]因其卓越的渲染質量而脫穎而出,而Instant NGP則因其出色的訓練效率而聞名。

然而,神經隱式場方法在很大程度上依賴于體積渲染過程來獲得渲染像素。這個過程需要沿每條射線采樣數十到數百個點,并將它們輸入神經網絡以產生最終的成像結果。因此,渲染單個1080p圖像需要大約108次神經網絡前向傳遞,這通常需要幾秒鐘的時間。盡管一些作品采用顯式、離散化的結構來存儲連續的3D場,從而最大限度地減少了對神經網絡的依賴,并加速了場表示的查詢過程,但固定數量的采樣點仍然會帶來極高的渲染成本。這種基于體繪制的方法無法實現實時繪制,因此限制了它們在下游任務中的適用性。

Point-based Rendering

由于連續的3D場無法區分場景中的已占用空間和未占用空間,因此在體積渲染過程中,大量采樣點位于未占用空間中。這些采樣點對最終渲染結果的貢獻最小,導致渲染效率低。相比之下,離散點云表示只記錄了3D場景中真正被占用的部分,提供了一種更高效、更精確的表示場景的方法。基于點云的渲染依賴于光柵化而不是隨機采樣,允許使用現代GPU進行實時渲染。

然而,現有的基于點云的高質量差分渲染方法通常依賴于預先構建的點云或需要密集的點云重建。這些方法在訓練過程中沒有進一步優化點云結構,導致渲染質量高度依賴于初始點云質量,并使最終圖像容易出現偽影或不正確的外觀。

3D Gaussian Splatting

3D GS結合了神經隱式場和基于點的渲染方法的優點,實現了前者的高保真渲染質量,同時保持了后者的實時渲染能力,如圖3所示。?

3DGS的優化

Efficiency

效率是評估3D重建的核心指標之一。在本節中,我們將從三個角度對其進行描述:存儲、訓練和渲染效率。

存儲效率

3DGS需要數百萬不同的高斯基元來適應場景中的幾何形狀和外觀,從而導致高存儲開銷:室外場景的典型重建通常需要數百兆字節到數千兆字節的顯式存儲空間。鑒于不同高斯基元的幾何和外觀屬性可能高度相似,每個基元的干擾屬性可能會導致潛在的冗余。

因此,現有的工作主要集中在應用矢量量化(VQ)技術來壓縮大量高斯基元。

Compact3D應用VQ將不同屬性壓縮到四個相應的碼本中,并將每個高斯的索引存儲在這些碼本中以減少存儲開銷。在建立碼本之后,訓練梯度被復制并通過碼本反向傳播到原始的非量化高斯參數,更新量化和非量化參數,并在訓練完成時丟棄非量化參數。此外,Compact3D采用游程編碼來進一步壓縮排序后的索引值,從而提高了存儲效率。同樣,Niedermayr等人的工作提出了一種基于靈敏度感知k-means的靈敏度感知矢量量化技術來構建碼本,并使用DEFLATE壓縮算法來進一步壓縮訓練好的碼本。經過訓練,它提出了一種量化感知微調策略,以恢復由于VQ而丟失的信息。

此外,一些工作旨在開發修剪策略或壓縮SH參數。

LightGaussian介紹了一種基于全局顯著性得分的高斯修剪策略和一種用于高階球諧參數的蒸餾策略。

此外,還有一些工作專注于改進高效的高斯表示。

Scaffold GS設計錨點和其他屬性以實現高效表示,這些屬性能夠轉換為3DGS。基于這種表示,Scaffold GS提出了一套在多分辨率體素網格上生長和修剪錨點的策略。

訓練效率

提高訓練效率對3DGS也很重要。DISTWAR介紹了一種先進的技術,旨在加速基于光柵的差分渲染應用程序中的原子操作,由于大量的原子更新,這些應用程序在梯度計算過程中通常會遇到嚴重的瓶頸。通過在原子更新中利用扭曲內局部性并解決扭曲之間原子流量的可變性,DISTWAR使用寄存器在SM子核上實現了線程扭曲級別的降低。此外,它在SM和L2原子單元之間動態分配原子計算。該軟件實現僅使用現有的扭曲級原語,以盡量減少指向L2的原子操作數量,從而顯著提高吞吐量。

渲染效率

實時渲染是基于高斯方法的核心優勢之一。一些提高存儲效率的工作可以同時提高渲染性能,例如,通過減少高斯基元的數量。在這里,我們討論有助于這些進步的其他工作。

在訓練3DGS之后,[29]的工作涉及通過基于空間接近度和對最終渲染的2D圖像的潛在影響的離線聚類來預先識別和排除不必要的高斯基元。此外,這項工作引入了一種專門的硬件架構來支持這項技術,與GPU相比,速度提高了10.7倍。

GSCore提出了一種硬件加速單元,用于優化輻射場渲染中3DGS的渲染流水線。在分析高斯排序和光柵化性能瓶頸的基礎上,GSCore引入了高斯形狀感知交集測試、分層排序和微妙跳過等優化技術。在GSCore中實現這些技術,與移動GPU相比,平均速度提高了15.86倍。

真實性

真實性也是一個值得關注的話題。3DGS有望在各種場景中實現逼真的渲染。一些工作專注于在原始設置中進行優化。

為了確保對SfM初始化的依賴性,GaussianPro引入了一種創新的2D-3D聯合訓練范式。基于3D平面定義和補丁匹配技術,它提出了一種漸進的高斯傳播策略,該策略利用3D視圖和投影關系的一致性來細化渲染的2D深度圖和法線圖。在幾何濾波和選擇過程之后,采用優化的深度和法線圖進行加密和額外的監督,最終實現精確的幾何表示。

多尺度渲染性能的急劇下降也是一個值得關注的話題。

這項工作首先分析了低分辨率和遠距離渲染中頻域混疊的原因,使用多尺度高斯來解決這個問題。然后,定義像素覆蓋率以反映與當前像素大小相比的高斯大小。基于這一概念,它識別小高斯分布并將其聚合為較大的高斯分布,以進行多尺度訓練和選擇性渲染。

其他作品試圖重建具有挑戰性的場景,如反射表面和Relightable。

GaussiansShader通過采用混合顏色表示并集成鏡面GGX和法線估計模塊來重建反射表面,該模塊包括漫反射顏色、直接鏡面反射和考慮散射和間接光反射等現象的殘余顏色分量。此外,GaussiansShader在訓練過程中在3DGS中引入了著色屬性和法線幾何一致性約束。

泛化性和稀疏視角

稀疏視圖環境下的泛化和重建挑戰長期以來一直受到學術界的廣泛關注。由于需要對每個場景進行重新訓練以及對樣本輸入的高要求,隱式表示(如NeRF)和顯式表示(如3DGS)在實際應用中都面臨著巨大的障礙。在本節中,我們將討論他們的實驗設置,并對現有作品進行更詳細的了解。

Generalizable 3D Gaussian Splatting

現有的可泛化的3D重建或新穎的視圖合成任務的目標是利用廣泛的輔助數據集來學習場景無關的表示。在NeRF的研究中,這個過程通常涉及輸入少量(1-10)具有相鄰姿勢的參考圖像來推斷目標圖像。輻射場起著中間體的作用,有效地消除了對顯式場景重建的需要,并將任務轉化為與場景無關的新穎視圖合成問題。

相比之下,3DGS的顯式表示導致了大量工作,這些工作側重于使用參考圖像在每個像素的基礎上直接降低相應的高斯基元,隨后用于從目標視圖渲染圖像。為了實現這一點,Splatter Image等早期作品提出了一種將圖像轉換為高斯屬性圖像的新范式,然后預測與每個像素對應的高斯基元。然后將此范式擴展到多個參考圖像,以獲得更好的渲染性能。

此外,基于多視圖立體(MVS)的方法在場景重建和新穎的視圖合成方面一直取得了重大成功,特別是在引入成本量的情況下,這增強了網絡的空間理解。與MVSNeRF中的方法類似,MVSplat提出使用3D空間中的平面掃描來表示成本體積,并預測稀疏參考輸入中的深度,精確定位高斯基元的中心。這種方法為新穎的視圖合成提供了有價值的幾何線索。

此外,一些研究側重于引入triplane以實現泛化能力。

AGG引入了一種基于偽標簽的初始化方法和多階段訓練策略。該策略包括粗略的高斯生成,然后使用參考圖像特征進行超分辨率,從而產生詳細的輸出。

Sparse Views Setting

從稀疏輸入進行重建帶來了重大挑戰,其中3DGS的方法與NeRF的方法基本相似,后者旨在開發新的正則化策略并整合補充信息,如深度數據。

Chung等人提出采用單目深度估計模型來預測深度圖,隨后使用SfM對深度圖進行細化,以獲得精確的深度范圍。此外,他們的工作結合了深度平滑度損失和兩種針對有限樣本場景量身定制的改進技術。

此外,DNGaussian從正則化的角度探討了這個問題,提出了兩種不同的正則化:硬深度和軟深度,以解決場景幾何的退化問題。

一些研究集中在啟蒙和訓練策略上。GaussianObject介紹了一種基于Visual Hull的初始化策略和一種使用距離統計數據消除浮點數的優化方法。?

3DGS的應用

3DGS因其高效和逼真的渲染而在各個應用領域表現出色,其中包括數字人體重建、人工智能生成內容(AIGC)和自動駕駛等。基于先前的探索,3DGS可以直接作為核心技術應用于各個研究領域,有效地取代傳統的3D表示。

Human Reconstruction

3DGS在數字人類相關任務中的應用,包括人類重建、動畫和人類生成,在研究界引起了極大的關注。最近的作品可以根據重建的部分進行分類。

  • Body Reconstruction:身體重建主要側重于從多視圖或單眼視頻中重建可變形的人類化身,并提供實時渲染。我們在表1中列出了最近作品的比較。大多數作品更傾向于使用SMPL或SMPL-X等預先構建好的人類模型作為強先驗知識。從來沒有,SMPL僅限于引入有關人體本身的先驗知識,從而對服裝和頭發等外部特征的重建和變形提出了挑戰。為了重建外觀,HUGS僅在初始階段使用SMPL和LBS,允許高斯基元偏離初始網格以準確表示服裝和頭發。一些研究將問題空間從3D投影到2D,從而降低了復雜性,并能夠利用成熟的2D網絡進行參數學習。
  • Head Reconstruction:在人類頭部重建領域,與大多數使用SMPL作為強先驗的管道一樣,GaussianAvatars的工作將FLAME網格與3DGS相結合,提供先驗知識,以實現卓越的渲染質量。此方法補償了FLAME網格無法準確描繪或跟蹤的精細細節和元素。然而,Gaussian Head Avatar批評了使用FLAME網格和線性混合蒙皮(LBS)進行面部變形,并指出這些相對簡單的線性操作很難捕捉到復雜面部表情的細微差別。相反,它建議使用MLP來直接預測高斯從中性表達式過渡到目標表達式時的位移。這種方法有助于渲染高分辨率的頭部圖像,分辨率高達2K。

AIGC

AIGC利用人工智能技術自主制作內容。最近,基于3DGS生成3D(X Y Z)表示的方法激增。在本章中,我們根據提示的類型及其生成的對象對當代算法進行了系統的分類。類別包括圖像到3D對象生成、文本到3D對象生成器、多對象和場景生成以及4D生成(X Y Z?T),如圖4所示。下面,我們概述了這些類別中的相關作品。

自動駕駛

在自動駕駛領域,3DGS主要應用于大規模駕駛場景的動態重建和SLAM的組合應用。

  • 自動駕駛場景重建:重建駕駛場景是一項具有挑戰性的任務,涉及多個技術領域,如大規模場景重建、動態對象重建、靜態對象重建和高斯混合重建。大量的作品將重建過程分為靜態背景重建和動態目標重建。像StreetGaussians、DrivingGaussian等。此外,3DGS已被應用于多模態時空校準任務,比如3DGS-Calib。
  • SLAM:SLAM是機器人和計算機視覺中的一個基本問題,其中設備構建未知環境的地圖,同時確定其在該環境中的位置。SLAM的技術方法可大致分為傳統方法、涉及NeRF的技術和與3DGS相關的方法。其中,3DGS方法因其提供連續表面建模、降低內存要求、改進噪聲和異常值處理、增強孔洞填充和場景修復以及3D網格重建中靈活分辨率的能力而脫穎而出。一些研究保留了傳統的SLAM輸入,并從兩個角度進行了研究:在線跟蹤和增量映射。語義很重要,因為它們不僅提供場景理解,而且穩定訓練過程。此外,還有幾部作品關注相關問題,如定位和導航。

3DGS的擴展動態3DGS

動態3DGS的研究最近引起了研究人員的極大關注。動態場景的重建超越了靜態場景重建的局限性,可以有效地應用于人體運動捕捉和自動駕駛仿真等領域。與靜態3DGS不同,動態3DGS不僅必須考慮空間維度的一致性,還必須考慮時間維度的一致,確保隨時間的連續性和平滑性。在這里,我們根據不同的重建輸入將它們分為多視圖視頻和單眼視頻。

  • Multi-view Videos:一些作品試圖逐幀直接構建動態3DGS。其他工作旨在通過預測變形來實現這種性能。
  • Monocular Video:一些單目動態3DGS工作往往分為兩個階段:規范重建和變形預測。探索時間上連續的運動可以促進時間維度的平滑,而不是離散的偏移。最近的工作旨在將3DGS擴展到4D空間,用于動態3D場景表示。

表面表示

盡管3DGS能夠實現高度逼真的渲染,但提取曲面表示仍然具有挑戰性。在優化過程之后,得到的表示通常會渲染有序的結構,與實際表面不太對應。然而,基于網格的表示仍然是許多工作流程中的首選,因為它們允許使用強大的工具進行編輯、雕刻、動畫和重新照明。當涉及到曲面重建時,符號距離函數(SDF)是一個不可或缺的課題。其他研究旨在通過增強3DGS的內在屬性來解決這個問題。

Editable 3D Gaussian Splatting

3DGS以其實時渲染、復雜場景表示和顯式表示的優點,自然引起了專注于3DGS編輯的研究人員的關注。遺憾的是,目前可編輯的3DGS作品往往缺乏精確的訓練監督,這給編輯帶來了重大挑戰。在本節中,我們根據不同的任務對現有作品進行分類。

  • Manipulation by Text
  • Manipulation by Other Conditions
  • Stylization
  • Animation

語義理解

賦予3DGS語義理解能力,可以將2D語義模型擴展到3D空間,從而增強模型在3D環境中的集成。這可以應用于各種任務,如3D檢測、分割和編輯。許多工作試圖利用預先訓練的2D語義感知模型對語義屬性進行額外的監督。其他則專注于將文本視覺對齊功能融入到開放世界的理解中。

物理仿真

最近的努力旨在將3DGS擴展到仿真任務。

基于“你所看到的就是你所模擬的”的理念,PhysGausian將靜態3DGS重建為要模擬的場景的離散化,然后將連續體力學理論與材料點法(MPM)求解器相結合,賦予3DGS物理特性。為了穩定基于旋轉的不同外觀并將粒子填充到空隙內部區域,PhysGausian提出了一種進化的方向和內部填充策略。?

技術分類

DGS一般可分為以下階段,如圖3所示:初始化、屬性優化、splatting、正則化、訓練策略、自適應控制和后處理。此外,一些競爭作品旨在納入補充信息和表示,從而增強3DGS的能力。這些技術改進不僅提高了原始3DGS的渲染性能,還解決了衍生作品中的特定任務。因此,本節深入探討了3DGS的技術進步,旨在為相關領域的研究人員提供有價值的見解。

初始化

正確的初始化已被證明是至關重要的,因為它直接影響優化過程。3DGS的初始化通常使用從運動結構(SfM)導出的稀疏點或通過隨機生成來執行。然而,這些方法往往不可靠,特別是在弱監督信號下,如稀疏視圖設置和生成任務。

組合預訓練模型是一種可選方法。

在有限數量的3D樣本上預訓練3D模型并將其用作初始化先驗是一種可行的策略。這種方法可以在一定程度上提高初始化的性能,盡管其有效性取決于所使用的數據。為了解決這一局限性,還引入了預訓練的3D生成模型或單目深度估計模型用于初始化。

改進初始化策略也很重要。

基于對SfM在捕獲頻譜內低頻信號中的作用的分析,設計了稀疏大方差(SLV)初始化,以有效地關注SfM識別的低頻分布。

使用其他表示方式也可以增強初始化能力。通過從粗略的參數點模型確定局部體積,在每個體積內初始化少量高斯分布,從而避免對目標做出過多假設。因此,提出了一種基于Visual Hull的初始化策略,能夠從四幅圖像中獲取結構先驗。

討論:精確初始化有可能通過提高性能和確保穩定的訓練過程,使3DGS的各種衍生作品受益。

屬性擴展

3DGS的原始屬性包括位置、比例、旋轉、球面諧波(SH)系數和不透明度值。一些作品擴展了這些屬性,使其更適合下游任務。它可以分為改進現有屬性或引入新屬性,如圖6所示。

Splatting

Splatting的作用是有效地將3D高斯數據轉換為高質量的2D圖像,確保平滑、連續的投影,并顯著提高渲染效率。作為傳統計算機圖形學的核心技術,也有人從效率和性能的角度對其進行改進。

TRIP介紹了3DGS中用于實時渲染的ADOP,它使用屏幕空間圖像金字塔進行點光柵化,并使用員工三線性寫入來渲染大點。這種方法結合了前后阿爾法混合和用于細節重建的輕量級神經網絡,確保了清晰、完整和無混疊的圖像。

Regularization

正則化對于3D重建至關重要。然而,由于缺乏3D數據的直接監督,原始3DGS通過將渲染圖像與真實圖像進行比較來監督其訓練。這種形式的監督可能會導致訓練不穩定,特別是在不確定的場景中,例如視圖設置稀疏的場景。在本節中,我們將正則化項分為2D和3D正則化項,如圖8所示。

訓練策略

訓練策略也是一個重要課題。在本節中,我們將其分為多階段訓練策略和端到端訓練策略,它們可以應用于不同的任務。

Adaptive Control

3DGS的自適應控制是調節高斯基元數量的重要過程,包括克隆、分割和修剪。在接下來的部分中,我們將從致密化(克隆和分裂)和修剪的角度總結現有技術。

后處理

預訓練高斯的后處理策略很重要,因為它們可以提高3DGS的原始效率和性能。常見的后處理通常通過不同的優化策略來改進高斯表示。

表示轉換:通過在采樣的3D點上引入泊松重建,預訓練的3DGS可以直接轉換為網格。同樣,高斯不透明度場(GOF)引入了3D邊界框,將預訓練的3DGS轉換為四面體網格表示,然后使用水平集的二分搜索從中提取三角形網格。此外,LGM首先將預訓練的3DGS轉換為NeRF表示,然后使用NeRF2Mesh將其轉換為Mesh。

性能和效率:一些工作旨在通過后處理(如多尺度渲染)提高3DGS在某些任務中的性能。基于預訓練的3DGS,SA-GS引入了一種二維尺度自適應濾波器,該濾波器根據測試頻率動態調整尺度,以提高縮小時的抗混疊性能。在效率方面,從預訓練的3DGS中刪除冗余的高斯基元或引入高斯緩存機制可以有效地提高渲染效率。

與其他表示的結合

  • Point Clouds
  • Mesh
  • Triplane
  • Grid
  • Implicit Representation
  • GaussianVolumes

Guidance by Additional Prior

  • Pre-trained Models
  • More Sensors
  • Task-specific Priors

相互關系和挑戰

大量的研究集中在3DGS的優化、應用和擴展上。然而,這些討論往往使問題過于復雜。在本節中,我們的目標是總結不同任務中的社區,并提出四個核心挑戰及其相應的技術討論,如表2所示。認識到這些共同的挑戰和解決方案可以簡化研究工作,促進跨學科進步。

Suboptimal Data Challenges

在現實世界中,收集大量高質量的訓練數據往往不切實際。一方面,如果無法訪問3D數據和足夠的多視圖圖像,僅依靠有限數量的2D圖像監控不足以進行精確的3DGS重建。例如,只有目標的正面圖像,推斷背部的外觀就極具挑戰性。另一方面,數據質量同樣至關重要;準確的姿態和清晰的圖像直接影響重建性能。

Generalization Challenges

盡管與NeRF相比訓練效率有所提高,但特定場景的訓練范式仍然是3DGS應用的主要瓶頸。很難想象必須為每個目標或場景單獨訓練,特別是在多目標重建和文本到場景生成中。

物理挑戰

傳統的3DGS只考慮靜態渲染,忽略了物理運動定律,這在仿真中很重要。此外,基于物理的渲染是應用3DGS仿真物理世界的重要一步。得益于顯式表示,可以構建符合物理定律的3DGS。

真實和效率挑戰

真實和效率挑戰是根本問題。它們在各種著作中得到了研究。在本節中,我們討論了一些典型的相關任務,并總結了它們的常見技術。

關于現實挑戰,現有作品不僅討論了照片真實、表面重建和語義理解,還討論了AIGC相關(和自動駕駛研究中的這個問題。提到的大多數技術都有助于提高渲染性能。不同的任務采用不同的方法。例如,AIGC相關工作通常側重于改進訓練策略和正則化,而表面重建工作與后處理步驟有關。

關于效率挑戰,它們在一些衍生任務中有所提及,例如與自動駕駛和語義理解相關的任務。現有的改進通常側重于引入額外的屬性或后處理,以及改進自適應控制和splatting策略。

此外,不同的域之間還有一些未提及的關系。例如,表面重建技術經常在可編輯3DGS等背景下被引用。?

潛在機遇

3DGS最近經歷了重大發展,許多作品展示了其在相關任務中的潛力。在本節中,我們討論了上述核心挑戰中尚未解決的問題,并為未來的研究提出了潛在的方向。此外,我們還討論了應用程序和技術的一些擴展。

Suboptimal Training Data

理想的3DGS訓練過程需要足夠的高質量數據,但在實際應用中,這往往極具挑戰性。盡管專注于引入先驗可以在一定程度上緩解這個問題,但在欠約束條件下優化大量高斯分布仍然存在固有的困難。因此,一種潛在的解決方案是根據高斯基元的不確定性減少其數量,同時增加單個基元的代表能力。這涉及到在高斯數和渲染性能之間找到一個折衷方案,從而提高使用稀疏樣本的效率。

然后,還應考慮質量較差的數據。野生圖像中的非結構化是一個典型的情況,包括瞬態遮擋和動態外觀變化,如變化的天空、天氣和照明,這在NeRF中得到了廣泛的討論。為了提高效率,現有的工作也在3DGS的背景下討論了這個問題,3DGS試圖對外觀變化進行建模并處理瞬態對象。然而,他們的表現很掙扎,尤其是在光線變化復雜、遮擋頻繁的場景中。由于3DGS的顯式表示特性,解耦幾何表示并在不同場景中引入幾何一致性約束是一種有前景的方法,可以減輕訓練過程中的不穩定性。

泛化性

盡管現有的泛化相關作品可以通過正向推理直接獲得場景表示,但它們的性能往往不令人滿意,并受到場景類型的限制。我們假設這是由于前饋網絡在執行3DGS自適應控制方面的困難,正如[47]中提到的那樣。在未來的研究中,設計一種基于參考特征的前饋自適應控制策略是一種潛在的解決方案,它可以通過參考特征預測需要自適應控制的位置,并可插入到現有的泛化相關工作中。此外,現有的與泛化相關的工作依賴于精確的姿態,這在實際應用中往往很難獲得。因此,在位姿缺失條件下討論可推廣的3DGS也是有前景的。

物理問題

  • 基于物理的運動:確保3DGS的運動符合物理定律對于統一模擬和渲染至關重要。引入了與剛性相關的正則化項,但大多數現有工作都專注于3DGS的動畫制作,而忽略了高斯基元本身的物理屬性。一些開創性的工作試圖引入屬性速度和牛頓動力學規則,但這不足以完全描述3DGS在空間中的物理運動。一種潛在的解決方案是在高斯基元中引入更多的物理屬性,如材料、加速度和力分布,這些屬性可能受到某些仿真工具和物理知識先驗的約束。
  • 基于物理的渲染:基于物理的渲染也是一個值得關注的方向,因為它使3DGS能夠處理重新照明和材質編輯,從而產生出色的反向渲染結果。未來的工作可以探索3DGS中的解耦幾何和外觀,從正常重建以及照明和材料建模的角度進行研究。

真實與效率

  • 表面重建:重建清晰曲面的困難一直是影響渲染真實感的一個重大挑戰。一些作品已經解決了這個問題,試圖用平面高斯表示曲面。然而,這可能會導致渲染性能下降,可能是由于平面高斯基元的代表性容量降低或訓練過程的不穩定性。因此,設計更適合曲面表示的高斯基元,并引入多階段訓練范式和正則化項是潛在的解決方案。
  • 效率:存儲效率是3DGS的關鍵瓶頸之一。現有工作側重于引入VQ技術和壓縮SH參數,然而,這些方法不可避免地會影響渲染性能。因此,探索如何基于3DGS設計更高效的表示是提高效率的一種潛在方法,同時保持性能。

應用

  • Large-scale Gaussian Splatting:盡管最近的方法能夠在小規模和以對象為中心的場景中進行有效的重建,但由于視頻內存有限、長度優化時間和顯著的外觀變化,將這種能力擴展到大規模場景仍然具有挑戰性。最近的一些作品試圖解決這些問題。例如,VastGaussian直觀地使用基于相機位置的區域劃分機制將大型場景劃分為多個小塊,并根據空間感知可見性標準引入額外的輔助相機位置,從而實現每個小區域的精確重建。同樣,Fed3DGS在大規模3DGS中引入了聯邦學習框架,以減少中央服務器上的數據負載,并實現了高斯合并策略,實現了數百萬客戶端和分布式計算資源之間的分散重建。遵循這些方法,仍有很大的研究空間。
  • AIGC:現有的AIGC相關工作大多集中在單個靜態對象的生成上。然而,在實際應用中,生成多個對象和動態對象更為重要。此外,在構建具有多個運動對象的場景時,表征對象交互也是一項值得研究的任務。
  • 應用擴展:由于3DGS的高效和強大的重建能力,許多應用在各個領域都引起了人們的關注,如醫學、工業缺陷檢測、圖像壓縮和航空。未來,3DGS可能會在機器人和生物學等其他領域取代NeRF進行3D重建。

技術改進

  • 初始化:越來越多的研究和工程項目發現,初始化在3DGS中很重要。傳統的SfM初始化不適合許多受約束的場景,如稀疏視圖設置、AIGC和低光重建。因此,應該設計更穩健的初始化方法來取代這些受限場景中的隨機初始化。
  • splatting:splatting在3DGS中也起著重要作用,但在現有作品中很少提及。在預訓練的3DGS上設計高效的并行splatting策略有可能影響渲染性能和效率。

結論

對3DGS領域的興趣日益濃厚,催生了無數相關的下游任務和技術,從而導致該領域的復雜性和混亂性日益增加,表現為各種形式,包括不同作品中的相似動機;在不同的任務中整合類似的技術;以及各種技術之間的細微差別和相互聯系。在這項調查中,我們努力根據現有作品的潛在動機對其進行系統分類,并批判性地討論相關技術。我們的目標是闡明不同任務和技術之間的共同挑戰,從而為理解這一快速發展的領域提供一個連貫的框架。這項調查旨在為新手和經驗豐富的從業者提供寶貴的資源,促進導航和有效參與最新進展。此外,我們確定并強調了未來研究的潛在途徑,旨在激發3DGS的持續創新和探索。

#GOLMAP

全局SfM比COLMAP快幾個數量級??

重新審視全局式SfM

運動恢復結構(Structure-from-Motion, SfM)多年來已經形成了兩種主要的解決范式:增量式全局式。這兩者都以基于圖像的特征提取和匹配開始,然后通過兩視圖幾何估計構建輸入圖像的初始視圖圖。增量方法從兩個視圖開始重建,并通過逐步注冊附加的相機圖像和相關的三維結構來擴展重建。這一過程交替進行絕對相機姿態估計、三角測量和捆綁調整,盡管實現了高精度和魯棒性,但由于重復的捆綁調整的高成本,限制了其可擴展性。相反,全局方法通過在視圖圖中聯合考慮所有兩視圖幾何,一次性恢復所有輸入圖像的相機幾何。通常,全球估計的相機幾何用作三維結構三角測量的初始化,然后進行最終的全局捆綁調整步驟。開發板商城 天皓智聯

本文介紹的GLOMAP[1]是能夠在準確性和魯棒性方面達到或超過最先進的增量SfM水平的綜合系統(例如圖1a),同時保持全局方法的效率和可擴展性。

增量SfM與全局SfM之間的準確性和魯棒性差距的主要原因在于全局平移平均步驟。平移平均描述了從視圖圖中的相對姿態集合中估計全局相機位置的問題,此前通過旋轉平均恢復相機方向。在實踐中,這一過程面臨三個主要挑戰:

  1. 尺度歧義:從估計的兩視圖幾何中得出的相對平移只能確定到尺度。因此,為了準確估計全局相機位置,需要三元相對方向。然而,當這些三元形成歪斜的三角形時,估計的尺度特別容易受到觀測中的噪聲影響。
  2. 準確分解相對兩視圖幾何為旋轉和平移分量需要準確的相機內部參數的先驗知識。如果沒有這些信息,估計的平移方向通常會出現較大誤差。
  3. 在幾乎共線運動時,會導致退化的重建問題。這種運動模式在順序數據集中尤其常見。這些問題共同導致相機位置估計的不穩定性,嚴重影響了現有全局SfM系統的整體準確性和魯棒性。

受平移平均困難的啟發,許多研究致力于解決這一問題。許多最近的方法具有一個共同特點,即在問題公式中引入了圖像點。基于這一見解,該全局SfM系統直接將相機位置和三維結構的估計結合在一個全局定位步驟中。

GLOMAP與以前的全局SfM系統相比,其核心區別在于全局定位步驟。不是先執行不適定的平移平均然后進行全局三角測量,而是進行聯合相機和點位置估計。GLOMAP在魯棒性和準確性方面達到與最先進的增量SfM系統相當的水平,同時保持全局SfM管道的效率。與大多數以前的全局SfM系統不同,我們的方法可以處理未知的相機內參(例如,網絡照片中常見的情況)并能魯棒地處理順序圖像數據。

  • 項目主頁:https://lpanaf.github.io/eccv24_glomap/
  • 論文鏈接:https://demuc.de/papers/pan2024glomap.pdf
  • 代碼地址:https://lpanaf.github.io/eccv24_glomap/

技術貢獻

圖2是該方法為改進全局 SfM 的最新技術并在穩健性和準確性方面縮小與增量 SfM 的差距而做出的關鍵技術貢獻。

特征軌跡構建

為了實現準確的重建,特征軌跡必須被精心構建。首先只考慮通過兩視圖幾何驗證產生的內點特征對應。在這一步,區分兩視圖幾何的初始分類:如果單應性矩陣??最能描述兩視圖幾何,使用??來驗證內點。同樣的原則也適用于基本矩陣??和基礎矩陣?。進一步通過執行正負性測試來過濾掉外點。匹配點如果接近任一極點或具有小三角測量角度,也會被移除,以避免由于大的不確定性導致的奇點。在所有視圖圖邊進行成對過濾后,通過連接所有剩余的匹配點來形成特征軌跡。

全局相機和點定位

此步驟旨在聯合恢復點和相機位置(見圖3)。不進行平移平均再進行全局三角測量,而是直接執行聯合全局三角測量和相機位置估計。與大多數以前的工作不同,目標函數無需初始化,并在實踐中始終收斂到一個良好的解決方案。在標準的增量和全局SfM系統中,特征軌跡通過重投影誤差進行驗證和優化,以確保可靠和準確的三角測量。然而,跨多個視圖的重投影誤差高度非凸,需要仔細的初始化。此外,誤差是無界的,因此對外點不魯棒。

為克服這些挑戰,使用歸一化方向差異作為誤差度量。原始公式是針對相對平移提出的,我們舍棄了相對平移約束,只包括相機射線約束。具體來說,問題被建模和優化為:

圖片

其中,??是觀察點??的全局旋轉相機射線,來自相機?,而??是一個歸一化因子。使用Huber作為魯棒化函數?ρ?,并使用Ceres中的Levenberg–Marquardt作為優化器。所有點和相機變量通過在 [-1, 1] 范圍內的均勻隨機分布初始化,而歸一化因子初始化為?。將涉及未知內部參數的相機的權重減半,以減少它們的影響。

與重投影誤差相比,這有幾個優點。首先是魯棒性。雖然重投影誤差是無界的,上述誤差嚴格限制在 [0, 1] 范圍內。因此,外點不會嚴重偏向結果。其次,正如我們在實驗中所展示的,由于其雙線性形式,目標函數在隨機初始化下可靠地收斂。

與經典的平移平均相比,在優化中舍棄相對平移項有兩個關鍵優勢。首先,我們的方法適用于相機內部參數不準確或未知的數據集以及不遵循預期針孔模型的退化相機(例如,處理任意互聯網照片時)。這是因為解決相對平移問題需要準確的內部參數知識。當它們偏離預期值時,估計的兩視圖平移誤差很大。由于平移平均固有的不適定性,未知尺度使得從噪聲和外點污染的觀測中恢復相機位置具有挑戰性,特別是在較長基線時相對平移誤差加劇。我們的提出的框架依賴于仔細過濾的兩視圖幾何,并根據相機射線定義誤差。因此,差的相機內部參數只會偏向單個相機的估計,而不會偏向其他重疊的相機。其次,我們的方法在共線運動場景中的適用性,這是平移平均的已知退化情況。與成對相對平移相比,特征軌跡約束多個重疊的相機。因此,提出的框架在常見的前向或側向運動場景中更可靠

全局捆綁調整

全局定位步驟為相機和點提供了魯棒的估計。然而,準確性有限,尤其是在相機內參未知的情況下。作為進一步的精煉,使用Levenberg-Marquardt和Huber損失作為魯棒器進行多輪全局捆綁調整。在每輪調整中,首先固定相機旋轉,然后與內參和點共同優化。這樣的設計對于重建序列數據特別重要。在構建第一個捆綁調整問題之前,基于角度誤差對三維點觀測進行預過濾,同時允許未校準相機有更大的誤差。隨后,基于圖像空間中的重投影誤差對軌跡進行過濾。當過濾軌跡的比例低于0.1%時,迭代停止。

相機聚類

對于從互聯網收集的圖像,非重疊圖像可能會錯誤地匹配在一起,從而導致不同的重建結果混合成一個。為了解決這個問題,通過執行相機聚類來對重建結果進行后處理。首先,通過計算每對圖像之間的可見點數來構建共視圖圖?。對于少于5個可見點的圖像對將被丟棄,因為在這種情況下無法可靠地確定相對姿態,并使用剩余對的中值來設定內點閾值?τ。然后,通過在??中找到強連通分量來找到受約束良好的相機集群。這些分量僅通過連接具有超過?τ?個可見點的圖像對來定義。之后,如果兩個強分量之間至少有兩個邊具有超過?τ

方法流程

流程由兩個主要部分組成:對應搜索全局估計

  1. 在對應搜索方面,它從特征提取和匹配開始。從匹配中估計兩視圖幾何,包括基本矩陣、基本矩陣和單應性矩陣,幾何上不可行的匹配會被排除。然后,對幾何驗證的圖像對進行視圖圖校準。更新相機內參后,估計相對相機姿態。
  2. 對于全局估計,全局旋轉通過平均化進行估計,不一致的相對姿態通過閾值化角距離來過濾。然后,通過全局定位聯合估計相機和點的位置,隨后進行全局捆綁調整。可選地,可以通過結構細化進一步提高重建的準確性。在此步驟中,使用估計的相機姿態重新三角測量點,并進行多輪全局捆綁調整。還可以應用相機聚類以實現一致的重建。

實驗效果總結一下

GLOMAP是一種新的全局SfM框架。以前的全局SfM系統被認為更高效但魯棒性較差,關鍵在于在優化中使用點。將相機位置的估計與不適定的平移平均和單獨的三維結構點三角測量合并到一個全局定位步驟中。該系統在準確性和魯棒性方面與最先進的增量方法相當或更優,同時速度快了幾個數量級。該代碼已作為開源項目在商用友好的許可證下發布。

限制:仍然存在一些失敗的情況,主要原因是旋轉平均失敗,例如由于對稱結構。在這種情況下,可以與現有方法如Doppelganger結合使用。此外,由于我們依賴傳統的對應搜索,錯誤估計的兩視圖幾何或無法匹配圖像對(例如由于劇烈的外觀或視點變化)將導致結果惡化,最壞情況下會導致災難性失敗。

#雜文

2024的我們應該如何看待xx智能

最近看了記錄短片《斯坦福AI六十年》。從1962年到2022年,機器人或者xx智能的研究從第一天起就貫穿了人工智能的發展。2024年,這六十年中提出的大多數問題,從象棋,視覺,語音識別都獲得了解決——除了機器人。而如何創造通用機器人便是我日思夜想的問題。做科研自然是令人疲乏的,然而思考這個問題卻是令人興奮的。

23年可謂是xx智能在中文圈被知曉的元年。這種爆紅是我不必再和每個VC解釋我們的究極理想并不是制造一個機械軀殼,而是未來能徹底解放人類勞動力的“人”。縱觀歷史,每一件新興事物的爆紅都伴隨著機遇和泡沫。作為麻省理工xx智能實驗室的一名博士生學者,我希望通過這篇隨筆讓世界各地的從業者更好更理性地了解xx智能的機遇與挑戰,為領域帶來可持續性的發展。

以ChatGPT為代表的大模型讓我們瞥見了未來的一隅。機器人大模型在過去一年里出現在了幾乎每一個機器人公司的PPT里。PaLM-E,RT1,RT2等論文也拋磚引玉式的向大家展現了可以讓大模型直接輸出控制信號這個愿景。那么大語言模型的思路會給我們帶通用機器人么?要解答這個問題,我愿意把“大模型”這個詞展開為“大模型與大數據”。大語言模型不光需要十億級別的神經網絡參數,還需要在大量的網絡數據上進行預訓練。例如Llama3這樣的開源大語言模型光預訓練就使用了15萬億個token。相比之下,機器人的數據采集就難得多。人們每天都在網絡上拍照片,發文字,自然而然地產生著這兩個模態的數據。你會拿著排隊買到的網紅奶茶拍照發朋友圈,但是永遠不會在配字里寫上“我的大拇指關節分別轉動了30度,20度,45度來抓住這杯奶茶”。我認為只要有足夠多的高質量機器人數據,機器人大模型絕對能帶來接近通用的泛化性,但是機器人的動作數據哪里來是一個不容樂觀的問題——這些直接輸出動作模態的大模型的泛化性也因此非常有限。這個問題即便是在文字-圖像這樣較為成熟的多模態模型里仍然存在——我在Google Deepmind實習期間的論文SpatialVLM發現最好的多模態大模型都常常左右不分,因此可以推測目前很多有動作模態輸出的“機器人大模型”之所以能操縱機械手正確地往左往右,很可能只是在有限的動作數據上過擬合了而已,并不是魔法般地因為結合了文字-圖像基礎模型而泛化。因此,問題的答案取決于我們能否在動作模態的數據上達到GPT的量級。

好消息是工業界和學術界大家都在著手解決機器人數據缺乏的問題。我與很多學者愿意將其中的努力概括為兩個維度,靈巧性(dexterity) 與泛化性(generalization)。靈巧性主要反映在在單一場景和任務比較固定情況下能讓機器人做成多難的任務,例如在同一張桌子上用同一臺卷筆刀削放在差不多同一個位置的同一支鉛筆。泛化性則研究讓機器人能去新的場景下執行新的任務,哪怕這些任務看起來很簡單很蠢,例如在任何房間的任何桌子上能用手把任何指定的鉛筆推到指定的地方。讓機器人兼具靈巧性與泛化性是xx智能的終極目標。目前在靈巧性維度上最火的方向是模仿學習中的行為克隆——依靠人工采集關節動作數據,再用監督學習的方法訓練機器人。在硬件層面,ALOHA式的關節到關節mapping,VR眼鏡的手部動作捕捉,特斯拉的動捕手套,RT-X數據集都是學術界和工業界進行更高效數據采集的嘗試。這些方法中的大多數需要給每個數據采集員配一臺昂貴的機器人,但特斯拉擎天柱,figure AI到斯坦福炒蝦機器人已經讓我們看到了行為克隆的潛力。行為克隆讓一些特別驚艷且泛化需求有限的任務能用簡單的算法完成。但與此同時,因為人工采集動作數據的效率低,所有demo中展現的泛化性都是極其有限的——如果把香蕉換成橙子并移動個半米,換一張花紋不一樣的桌子,這些視頻里的機器人用他們發布時在有限數據上訓練的模型就無能為力了,更不用提跨任務了。當然,你也可以收集多任務的數據,例如香蕉和橙子的數據混起來,并采集很多不同初始位置的demo,但是除非你的任務數量多到大語言模型那種程度,剝香蕉和剝橙子上訓練的動作模型還是不能解決剝芒果的問題。很多通用人形機器人公司也采用了行為克隆作為切入點,因為它最容易出好看的視頻——沒人能把你視頻里的場景換成從沒見過的任務來測試你模型的泛化性。公眾也更喜歡看機器人做日常家務的視頻而不是在實驗室桌子上推方塊——哪怕做家務的視頻背后需要雇一個人在背后手動操作。對此我的看法是,目前行為克隆路線解決的主要是靈巧性而不是泛化性問題,難以帶來通用機器人但也很重要。目前很多流水線上的任務就符合模仿學習的適用條件,且具有極高商業價值,從業者并不一定要刻意追求通用機器人。[水印,原文出自https://boyuan.space/]

如果算一筆賬,通用機器人公司投入大量金錢去用模仿學習的思路采集機器人大模型的數據,確實用上一段落提到的方法有可能采集到指令微調所需要的數據規模的一部分 (Llama3的指令微調用了一千萬條人工標注的數據,這里類比為一千萬個不同任務的機器人數據),但也千萬別忽略了用于預訓練的數據可能是指令微調的千千萬萬倍。

因此也有很多學者認為行為克隆本身無法帶來通用機器人,并以泛化性為核心進行研究。當我在談論機器人缺乏數據的時候,我指代的是我們缺乏包含動作模態的數據。然而我們可以退而求其次通過大量其他模態的數據去獲得動作。舉個例子,雖然SORA這樣的視頻模型不直接輸出手指頭每個關節轉了多少度這樣的信息,但它生成的視頻仍然包含了大量人類動作的信息,可以被人體姿態估計提取。如果你進入到一個新的場景中去,假設視頻預測模型足夠好,它就能根據新場景的圖片和文字的任務描述去生成帶有技能的視頻,例如MIT和Google的UniPi。不光如此,當視頻模型與文字模型結合的時候,我們就擁有了一個(不嚴謹意義上的)世界模型,可以和大語言模型一樣用搜索(search)產生數據自我提升自我學習,而不只是單步策略policy。世界模型甚至可以與基于模型的強化學習(model based reinforcement learning) 結合。正是因為視頻數據取之不竭,我作為一個xx智能學者在過去一年里也短暫地放下硬件把自己的科研方向轉移到對視頻的探索上,讓視頻模型不光能生成好看的藝術視頻還能在機器人需要的物理規律和任務上有好的表現。[水印,原文出自https://boyuan.space/]

除了視頻世界模型,大規模強化學習也是有可能帶來泛化性的路線。作為曾經的強化學習研究者,我曾經很長一段時間都對強化學習的兩大問題感到絕望——需要人工設計的場景模擬和需要人工設計的獎勵函數。如果要讓機器人在一個房間里學會一個任務,我就需要手動給這個房間建模輸入到模擬器里,并且設計一個好的獎勵函數告訴機器人它在某一次嘗試中做的有多好。這兩者曾經都需要極其大量的人工參與,根本不能大規模鋪開到泛化所需要的場景和任務數量。但是生成式人工智能改變了這一切——我們現在可以很容易地生成大量3D物體,也逐步能夠生成大量場景。多模態模型雖然還很孱弱,但是在一些任務上已經標記任務的成功與否,或者把大任務拆分成小任務讓智能體學習動作,甚至和我之前論文里那樣標注更加細節的設計到距離等的非稀疏獎勵函數。GenSim已經展示了生成簡單的機器人任務,而當3D場景生成成熟時,VLM足夠便宜時,我們將看到真正讓人驚艷的大規模強化學習。模仿學習也很容易與強化學習增強其效果。

在此之外,傳統的機器人動作規劃(motion planning)對解決通用機器人的數據問題也至關重要。雖然很很多靈巧任務必須通過人產生的數據(關節到關節演示或視頻)學習,這些靈巧任務中很大一部分子任務確實花在非常基礎的接近物體(reach), 接觸物體(contact),移動物體和躲避障礙上。這些子任務的數據完全可以靠動作規劃生成進行預訓練,節約人工的時間。例如,波士頓動力的spot機器狗可以非常可靠地自動撿起放在不同環境里的奇形怪狀的物體,且不會撞到障礙物,這種泛化性如果要用行為克隆達到會需要極其夸張的人工數據采集。上一段講大規模強化學習時已經提到了未來生成式AI生成場景的潛力,而有了這些場景之后把強化學習替換為動作規劃可能會達起到更高的效率。記得在我申請PhD時,一位教授曾在面試中問我怎么看待end2end(端到端)的方法在機器人中的應用。我給出的解答是,數據足夠的情況下端到端會做的很好,然而我們需要先花數十年用模塊化的方法去分析實踐形成足夠好的數據閉環。這個思路在特斯拉的自動駕駛中獲得了很好的驗證——在數據不夠的時候,規劃算法視覺網絡模塊化地結合可以先讓車跑起來,在一定時間后用產生的數據與用戶數據混合在一起訓練端到端自動駕駛,孕育了FSD12。我相信在通用機器人中動作規劃也會在前期起到相同重要的作用。

我可以負責任地告訴大家xx智能一定是下一個一百年最令人激動的技術,并且我們在有生之年很有希望見證通用機器人的誕生。但也正因為我太熱愛這個領域了,我也更愿意看到社會細水長流地投入通用機器人的發展——看科研工作者如我導師Russ所說的那樣,“可以以結果為導向的科研,但不可以網紅視頻為導向”;看到政府和投資人在長線看好xx智能的同時,不因為硬件公司的融資需要而盲目相信機器人大模型;看到創業者勇往直前,用細分領域的成功和硬件的進步為真正的通用機器人鋪路。而我自己也愿意用自己的一生給世界帶來真正的通用機器人。

#Mask2Map

爆拉MapTRv2 近10個點~

高精地圖(HD Map)一直以來被認為是是保證自動駕駛車輛安全有效導航的關鍵要素。它們通過提供地圖實例的詳細位置和語義信息,促進精確的規劃和障礙物避讓。傳統上,利用基于SLAM的方法離線構建的高精地圖,涉及復雜的過程,需要大量的勞動力和經濟成本。而且,這種方法在響應道路條件變化并提供及時更新方面存在局限性。所以,最近越來越多的論文開始研究如何基于學習來在線構造高精地圖構建,專注于生成自車周圍的局部地圖。

論文地址:https://arxiv.org/pdf/2407.13517

早期的工作將地圖構建視為一種語義分割任務,基于從各種傳感器獲得的BEV特征。它們預測了柵格格式中每個像素的類別標簽,避免了生成精確矢量輪廓的復雜性。雖然這種方法提供了語義地圖信息,但在捕捉不同類別的地圖組件的精確關鍵位置及其結構關系方面存在不足。因此,其輸出并不適合直接應用于下游任務,如運動預測和規劃。為了解決這個問題,越來越多的研究者將 HD map 矢量化,能夠直接生成矢量化的地圖實體。常見的方法如下圖1所示。

圖片

之前的工作主要分為三種思路:

  • 圖1(a): 基于分割的解碼方法,該方法涉及語義分割,然后使用啟發式后處理算法生成矢量化地圖。然而,這種方法需要大量的處理時間。
  • 圖1(b): 基于檢測的解碼方法識別對應于各種實例的關鍵點,然后按順序生成矢量化地圖組件。但是,僅依賴關鍵點可能無法充分捕捉實例的多樣化形狀,從而阻礙了生成準確的高精地圖。
  • 圖1(c): 各種基于可學習查詢的解碼方法,這些方法通過并行從BEV特征中解碼可學習查詢,直接預測矢量化地圖組件。由于初始可學習查詢與給定場景無關,它們限制了同時捕獲復雜場景中地圖實例的語義和幾何信息的能力。

在這篇論文中,作者介紹了一種新的端到端高精地圖構建框架,稱為Mask2Map。如圖1(d)所示,Mask2Map通過利用分割掩碼來區分BEV領域中不同類別的實例。所提出的Mask2Map架構包括兩個網絡:實例級掩碼預測網絡(Instance Level Mask Prediction Network,IMPNet)和掩碼驅動地圖預測網絡(Mask-Driven Map Prediction Network,MMPNet)。最初,IMPNet從傳感器數據構建多尺度BEV特征,并生成掩碼感知查詢,從全局角度捕獲實例的語義特征。遵循實例分割模型Mask2Former的框架,作者設計了掩碼感知查詢,能夠生成與BEV范圍中不同類別的實例相關聯的BEV分割掩碼。隨后,基于IMPNet提供的掩碼感知查詢,MMPNet動態地從BEV范圍的局部角度預測地圖實例的有序點集。?

相關工作

BEV分割方法

BEV分割任務指的是利用傳感器數據收集有關車輛周圍靜態環境信息的任務。該類分割方法通常從傳感器數據中提取BEV特征,并使用靜態場景的柵格化圖像作為GT,在BEV領域執行語義分割。例如,Lift-Splat-Shoot (LSS) 將從多視圖相機提取的特征轉換為3D特征,使用預測的深度信息,然后通過聚合這些特征生成BEV表示。CVT 使用交叉視圖注意力從透視圖到BEV領域學習幾何變換,使用相機感知的位置編碼。BEVFormer 通過與空間和時間信息交互,通過預定義的網格狀BEV查詢統一BEV表示。BEVSegFormer 通過使用可變形交叉注意力模塊,從不依賴于相機內參和外參的多視圖相機特征中生成密集的語義查詢,執行BEV語義分割。

矢量化高精地圖構建方法

在線高精地圖構建方法因其潛力而受到廣泛關注,有可能取代自動駕駛中的高精地圖,并為規劃和定位提供有用信息。這些方法使用傳感器數據實時預測自車周圍的詳細地圖實例。例如,HDMapNet 使用帶有BEV特征的語義分割模型和后處理方法來生成矢量化高精地圖。然而,這種方法需要大量的計算時間。為了提高處理效率,引入了基于查詢的方法,利用Transformer注意力解碼場景并直接預測地圖實例的有序點序列。VectorMapNet 引入了一個兩階段框架,首先檢測地圖實例的邊界框,然后使用自回歸解碼器依次預測每個實例的點。MapTR 利用DETR的架構將地圖實例表示為有序點集,并使用層次化查詢對Transformer解碼器進行編碼。MapTRv2 進一步擴展了其能力,使用深度監督學習3D幾何信息,并在透視視圖和BEV上進行語義分割。MapVR 為每個地圖實例生成矢量化地圖,然后使用可微分光柵化器將其轉換為光柵化地圖,提供實例級分割監督。PivotNet 通過生成關鍵點的有序列表預測地圖實例,這些關鍵點對于捕獲地圖組件的整體形狀至關重要。

去噪訓練策略

基于DETR架構的感知模型已經采用了基于Transformer架構的查詢預測,通過二分匹配將GT標簽分配給預測,以確保適當的監督。然而,這種分配有時會導致跨時期或層之間的匹配不一致。例如,不同的GT標簽可能在不同的時期分配給相同的查詢,從而導致收斂速度變慢和性能下降。為了解決這個挑戰,DN-DETR 引入了去噪訓練策略。該策略將從嘈雜的GT邊界框派生的查詢集成到DETR解碼器的現有查詢中,將預測這些GT邊界框的任務分配給這些GT查詢。這種方法已被證明在穩定跨訓練時期的二分匹配中是有效的。MP-Former 解決了連續解碼器層之間不一致的掩碼預測問題。MP-Former 采用了掩碼引導訓練方法,使用故意加入噪聲的GT查詢和GT掩碼,以減輕不準確掩碼預測的負面影響。Mask DINO 引入了一個統一的去噪訓練框架,增強了多任務學習在目標檢測和分割任務中的穩定性。?

方法論

創新點

作者引入了幾種創新方法來提高預測高精地圖的準確性:

  • 設計了位置查詢生成器(Positional Query Generator,PQG),它生成捕獲全面位置信息的實例級位置查詢,以增強掩碼感知查詢。
  • 大多數現有方法在構建高精地圖時沒有考慮每個地圖實例的點級信息,但是作者引入了幾何特征提取器(Geometric Feature Extractor,GFE)來捕獲每個實例的幾何結構。GFE處理BEV分割掩碼,從BEV特征中提取地圖實例的點級幾何特征。
  • 作者觀察到由于IMPNet和MMPNet的查詢與不同實例的GT相關聯,Mask2Map的性能受到限制。為了解決這個問題,作者提出了一種網絡間去噪訓練策略(Inter-network Denoising Training )。這種方法使用嘈雜的GT查詢和擾動的GT分割掩碼作為IMPNet的輸入,并引導模型對抗噪聲,從而確保網絡間的一致性并提高高精地圖構建的性能。

模型結構

Mask2Map的整體架構如下圖2所示。Mask2Map架構包括兩個網絡:IMPNet和MMPNet。首先,IMPNet生成從全局視角捕獲全面語義信息的掩碼感知查詢。隨后,MMPNet利用通過PQG和GFE獲得的幾何信息,從局部視角構建更詳細的矢量化地圖。

圖片

實例級掩碼預測網絡(IMPNet)

IMPNet由BEV編碼器掩碼感知查詢生成器組成。BEV編碼器從傳感器數據中提取多尺度BEV特征,掩碼感知查詢生成器產生掩碼感知查詢,隨后用于生成BEV分割掩碼。

BEV編碼器:?IMPNet通過處理多視圖相機圖像、激光雷達點云或兩者的融合,生成BEV特征。多視圖相機圖像通過LSS操作轉換為BEV表示。激光雷達點云通過體素編碼轉換為BEV表示。當集成相機和激光雷達傳感器進行融合時,從兩種模態提取的BEV特征被連接并通過額外的卷積層。

接下來,BEV編碼器通過下采樣層產生多尺度BEV特征。這些多尺度特征然后通過 Deformable Transformer Encoder 聯合編碼,來編碼多尺度BEV特征之間的關系。這個過程產生多尺度BEV特征?,其中l表示尺度索引,S表示尺度總數。尺度索引l = 1代表最小尺度,而l = S表示最大尺度。作者用H和W表示最大尺度的BEV特征??的高度和寬度。

掩碼感知查詢生成器:?掩碼感知查詢生成器使用Mask2Former中提出的掩碼變換器從多尺度BEV特征中提取掩碼感知查詢。掩碼感知查詢以可學習向量初始化,并通過變換器解碼器的M層進行解碼。給定多尺度BEV特征FBEV和第(m-1)解碼層獲得的BEV分割掩碼?,掩碼感知查詢?更新如下:

其中?τ?表示閾值,表示掩碼感知查詢的數量,、和是可學習的權重矩陣。最后,通過將最大尺度的BEV特征與掩碼感知查詢沿通道軸進行點積,獲得BEV分割掩碼。然后應用sigmoid函數將BEV分割掩碼歸一化。這些BEV分割掩碼隨后反饋到下一個解碼層進行進一步細化。經過M個解碼層后,IMPNet最終得到最終的掩碼感知查詢和BEV分割掩碼,這些將傳遞給后續的MMPNet。

掩碼驅動地圖預測網絡(MMPNet)

MMPNet包括三個主要組成部分:位置查詢生成器(Positional Query Generator)、幾何特征提取器(Geometric Feature Extractor)和掩碼引導地圖解碼器(Mask-Guided Map Decoder)。位置查詢生成器注入位置信息以增強掩碼感知查詢,而幾何特征提取器處理BEV分割掩碼以從BEV特征中提取幾何特征。最后,掩碼引導地圖解碼器使用位置查詢生成器和幾何特征提取器提供的特征,預測地圖實例的類別和有序點集的坐標。

位置查詢生成器:?雖然掩碼感知查詢攜帶有關地圖實例的語義信息,但它們缺乏位置信息。為了使MMPNet能夠為地圖實例生成點的坐標,將BEV域中的位置信息整合到掩碼感知查詢中是必要的。PQG初始從BEV分割掩碼MBEV中派生出稀疏的BEV掩碼,

PQG將2D位置編碼PE注入到稀疏的BEV掩碼中,其中PE由正弦函數生成。然后,通過在x和y域中應用平均池化,獲得位置查詢,

其中?,表示中非零像素的數量,表示逐元素乘積。位置查詢與掩碼感知查詢?連接,生成組合位置查詢。接下來,使用組合位置查詢生成第i個地圖實例的個點級特征。為此,PQG將復制次,并將其與個可學習點查詢, ...,?相加,生成PQG查詢特征,

其中和。注意,可學習查詢到為掩碼感知查詢提供了生成第i個地圖實例點的順序。結果的PQG查詢特征傳遞給掩碼引導地圖解碼器。

幾何特征提取器:?GFE生成捕獲地圖實例幾何結構的逐點特征。初始化,使用閾值τ,GFE從BEV分割掩碼生成稀疏的BEV掩碼。為了生成逐點幾何特征,GFE從稀疏的BEV掩碼中采樣個關鍵像素。首先,作者采用最大存活(Max Survival)方法,選擇在大小為G×G的不重疊窗口上滑動時最強的像素,并將其余像素設置為零。接下來,作者應用最遠點采樣(Farthest Point Sampling, FPS)方法,迭代選擇最大存活方法的輸出,并識別個關鍵點。最后,根據個關鍵點的位置,從最大尺度的BEV特征中池化個特征。同時,使用MLP編碼這些個關鍵點的(x, y)坐標。這兩個特征被連接起來,形成GFE特征,表示為。

掩碼引導地圖解碼器:?掩碼引導地圖解碼器基于PQG查詢特征和GFE特征預測矢量化地圖組件的類別和有序點序列。通過使用作為查詢,作為鍵和值,交叉注意力模塊產生掩碼感知混合查詢。這些查詢隨后使用多尺度BEV特征作為值,通過 Deformable Transformer 解碼。最后,預測頭通過分類和回歸頭分別預測每個地圖實例的實例分類分數和標準化BEV坐標。

網絡間去噪訓練

Mask2Map通過IMPNet傳遞掩碼感知查詢給MMPNet,以進行實例特征的層次化細化。為了確保有效的訓練,作者為IMPNet分配了實例分割損失,為MMPNet分配了地圖構建損失。IMPNet和MMPNet使用的查詢應該通過二分匹配與它們各自的GT進行匹配。然而,當IMPNet和MMPNet的查詢與不同實例的GT相關聯時,匹配過程中可能會出現不一致性。作者觀察到這種網絡間的不一致性往往會引發收斂速度變慢和性能下降。

為了解決這個問題,作者采用了去噪訓練策略。關鍵思想是將從每個GT實例派生的嘈雜GT查詢,合并到IMPNet內的可學習查詢中(見圖2)。作者的模型被訓練以去噪這些查詢,通過直接將它們與相應的GT匹配。這與通過二分匹配將可學習查詢與GT匹配的方式形成對比。因此,這種策略被稱為網絡間去噪訓練。這個過程引導模型在IMPNet和MMPNet使用的查詢之間建立對應關系,有效減輕了網絡間的不一致性。此外,除了GT查詢,作者還生成了擾動的GT分割掩碼,以替代IMPNet的BEV分割掩碼。

圖片

作者通過為每個實例的GT類別分配所有類別嵌入向量之一來生成GT查詢。作者通過以概率λ隨機替換類嵌入向量與其他類別之一來添加翻轉噪聲。同時,作者還通過將地圖噪聲添加到每個實例的有序點序列中,并將其光柵化,生成擾動的GT分割掩碼,如圖3(c)所示。

嘈雜GT查詢和可學習查詢的組合被稱為可學習實例查詢。與使用BEV分割掩碼不同,作者專門使用擾動的GT分割掩碼進行嘈雜GT查詢。嘈雜GT查詢通過IMPNet和MMPNet傳遞,其預測結果與相應的GT匹配,而不進行二分匹配。

訓練損失

用于訓練Mask2Map的總損失L由下式給出:

其中是訓練IMPNet進行BEV分割任務的損失項,是訓練MMPNet進行地圖構建任務的損失項,是輔助損失項,是網絡間去噪訓練的損失項。

作者使用匈牙利算法的二分匹配來為IMPNet和MMPNet使用的查詢分配它們各自的GT。基于分配,作者計算和。作者采用[6]的方法獲得損失項。損失項包括用于矢量化地圖實例回歸的L1損失,用于實例分類的焦點損失,以及計算從GT和預測中相鄰點的方向的余弦相似度損失。輔助損失項計算在相機透視視圖特征上進行的深度估計和2D地圖語義分割任務的誤差。損失項是兩個項的總和,每個項分別對應于在沒有GT和預測之間的二分匹配的情況下,在IMPNet和MMPNet中使用的嘈雜GT查詢的損失。?

實驗

實驗設置

數據集。?作者在nuScenes 和 Argoverse2 兩個公開數據集上做了測試。

評估指標。?作者定義了感知范圍為橫向方向 [-15.0m, 15.0m] 和縱向方向 [-30.0m, 30.0m]。作者將地圖實例分為三類用于高精地圖構建:人行橫道、車道分隔線和道路邊界。作者采用兩種評估指標:基于 Chamfer 距離提出的平均精度 (AP) 和基于光柵化的 AP 。作者主要使用 Chamfer 距離度量,使用 0.5、1.0 和 1.5 米的閾值計算平均精度 (mAP)。對于基于光柵化的平均精度 (mAP?),作者測量每個地圖實例的交并比,閾值設置為 {0.50, 0.55, ..., 0.75} 用于人行橫道和 {0.25, 0.30, ..., 0.50} 用于線形元素。為了進一步評估網絡間匹配一致性比率,作者使用了查詢利用率 (Query Utilization, Util) 指標,該指標計算 MMPNet 的第一解碼器層與 IMPNet 的最后一層匹配的一致性比率。

實現細節。?作者采用了 ResNet50 作為圖像骨干網絡。對于 nuScenes,尺寸為 1600×900 的圖像通過 0.5 的比例進行縮放。在 Argoverse2 的情況下,前視圖的七個圖像尺寸為 1550×2048,其他圖像尺寸為 2048×1550,在縮放前被填充到 2048×2048,然后通過 0.3 的比例進行縮放。激光雷達點云被體素化,體素大小為 0.1、0.1 和 0.2。體素特征通過 SECOND 提取。作者在 IMPNet 中采用了六個 BEV 編碼器層和三個掩碼變換器層。在 MMPNet 中,作者采用了六個變換器解碼器層。BEV 分割掩碼、τ、τ?和?τ?的閾值分別設置為 0.5、0.3 和 0.8。作者將實例查詢的數量配置為 50,點查詢的數量為 20。在 GFE 中,作者將 Max Survival 方法的窗口大小 (G) 設置為 4,采樣點數 () 設置為 20。翻轉噪聲概率 λ 設置為 0.2。對于優化,作者采用了 AdamW,權重衰減為 0.01,并使用余弦退火作為調度器。初始學習率設置為 6e-4。作者的模型在 4 個 RTX3090 GPU 上訓練,每個 GPU 的批量大小為 4。

性能比較

nuScenes 上的結果。?表1展示了 Mask2Map 在 nuScenes 驗證集上的全面性能分析,使用 Chamfer 距離度量。Mask2Map 建立了新的最先進性能,顯著優于現有方法。當僅使用相機輸入時,Mask2Map 在 24 個周期內取得了 71.6% mAP 的顯著結果,在 110 個周期內取得了 74.6% mAP,分別比之前的最先進模型 MapTRv2 高出 10.1% mAP 和 5.9% mAP。當使用相機-激光雷達融合時,Mask2Map 比 MapTRv2 提高了 9.4% mAP 的性能。表2基于光柵化度量評估了 Mask2Map 的性能。值得注意的是,作者的 Mask2Map 方法比 MapTRv2 提高了 18.0 mAP 的顯著性能。

Argoverse2 上的結果。?表3展示了幾種高精地圖構建方法在 Argoverse2 驗證集上的性能評估。所提出的 Mask2Map 與現有模型相比顯示出顯著的性能提升。Mask2Map 超過了當前領先的方法 MapTRv2,提高了 4.1% mAP,表明作者的模型在不同場景中實現了一致的性能。

圖片

消融研究

作者進行了消融研究,以評估 Mask2Map 核心思想的貢獻。在這些實驗中,使用了僅相機輸入和 ResNet50 骨干網絡。訓練在 nuScenes 訓練數據集的 1/4 上進行了 24 個周期。評估在完整驗證集上執行。

主要組件的貢獻:?表4展示了 Mask2Map 每個組件的影響。作者通過逐個添加每個組件來評估性能。第一行代表一個基線模型,使用基于 LSS 的 BEV 編碼器提取 BEV 特征,并使用可變形注意力預測矢量化地圖實例。將 IMPNet 添加到基線模型時,作者注意到 mAP 顯著增加了 5.9%,表明包含掩碼感知查詢(能夠生成實例分割結果)顯著提升了高精地圖構建的性能。此外,添加 MMPNet 使 mAP 進一步提高了 3.8%,強調了通過 BEV 分割掩碼注入地圖實例的位置和幾何信息的重要性。最后,作者的網絡間去噪訓練提供了額外的 6.5% mAP 增加,強調了其在提升性能中的有效性。

MMPNet 子模塊的貢獻:?作者在表5中詳細研究了 PQG 和 GFE 的貢獻。僅 GFE 就比基線貢獻了顯著的 3.1% mAP 增加,而僅 PQG 則產生了 3.4% mAP 的改進。PQG 和 GFE 的組合通過 4.8% mAP 進一步提高了性能,展示了它們的互補效應。

網絡間去噪訓練對匹配一致性的影響:?作者進一步研究了網絡間去噪訓練的影響。如表6所示,網絡間去噪訓練將匹配比率 Util 從 24.7% 顯著提高到 74.7%,這轉化為整體 mAP 性能的 6.5% 顯著增加。這表明作者的網絡間去噪訓練有效地減輕了 IMPNet 和 MMPNet 之間查詢到 GT 匹配的不一致性。

網絡間去噪訓練中噪聲的影響:?在表7中,作者探索了在網絡間去噪訓練中使用的地圖噪聲的影響。作者將方法與不使用地圖噪聲的 GT 分割掩碼的基線進行了比較。結果表明,在 GT 中添加地圖噪聲比基線提高了 0.8% mAP。

圖片

定性分析

定性結果。?圖4展示了所提出的 Mask2Map 產生的定性結果。作者與當前的最先進方法 MapTRv2 進行了比較。注意,Mask2Map 產生了比 MapTRv2 更好的地圖構建結果。

圖片

總結

作者介紹了一種名為Mask2Map的端到端在線高精地圖構建方法。Mask2Map利用IMPNet生成掩碼感知查詢和BEV分割掩碼,從全局視角捕獲語義場景上下文。隨后,MMPNet通過PQG和GFE增強掩碼感知查詢,整合語義和幾何信息。最后,掩碼引導地圖解碼器預測地圖實例的類別和有序點集。此外,作者提出了網絡間去噪訓練,以減輕IMPNet和MMPNet之間由于不同的二分匹配結果導致的網絡間不一致性。作者在nuScenes和Argoverse2基準測試上的評估表明,所提出的想法比基線帶來了顯著的性能提升,以相當大的優勢超越了現有的高精地圖構建方法。

#如何簡單理解視覺語言模型以及它們的架構、訓練過程?

關于視覺語言模型(VLMs),以及它們的架構、訓練過程和如何通過VLM改進圖像搜索和文本處理的多模態神經網絡。可以參考這篇文章:https://towardsdatascience.com/an-introduction-to-vlms-the-future-of-computer-vision-models-5f5aeaafb282

這篇文章介紹了視覺語言模型(VLMs),它們是未來的復合AI系統。文章詳細描述了VLMs的基本原理、訓練過程以及如何開發一個多模態神經網絡,用于圖像搜索。作者通過實例展示了這些模型如何解決各種任務,如圖像描述、圖像解釋和數學問題求解。此外,文章還討論了VLMs的架構、訓練過程以及如何評估其質量。總的來說,文章具有較高的創新性和實用性,為未來計算機視覺模型的發展指明了方向。值得關注的是,VLMs通過融合圖像和文本信息,可以在多種任務中提供卓越的性能,尤其在處理復雜的多模態數據時。?

文章全文解讀

直到最近,AI模型都是專門針對特定類型的數據,比如文本或圖像。然而,隨著通用語言模型(如GPTs)的發展,它們不僅變得更加通用,而且更加強大。然而,即使在語言模型取得了巨大進展的情況下,它們仍然與計算機視覺領域保持獨立。VLMs(視覺語言模型)則是將語言處理和視覺處理結合起來的復合AI系統,它們可以理解和處理多種數據類型,包括文本、圖像、視頻和音頻。

VLMs的核心是三個主要組件:語言模型(LLM)、圖像編碼器和適配器。圖像編碼器負責處理圖像,將其轉換成模型可以理解的形式。適配器作為中介,使圖像編碼器和語言模型能夠協同工作。這種架構通過適配器將圖像信息融入到語言模型中,從而實現多模態的理解和處理。

訓練VLMs的過程分為預訓練和對齊兩個階段。預訓練階段的目標是將文本和圖像模態聯系在一起,并加載世界知識。預訓練數據可以來自多種來源,如網頁文檔、圖像-文本對和指令-答案對。對齊階段則專注于高質量的數據,確保模型能夠理解圖像并生成準確的響應。

評估VLMs的質量主要通過兩種方法:在公開基準上的度量計算和人機對比評估。這些評估方法可以幫助我們了解模型在不同任務中的表現,并進行改進。此外,文章還討論了如何將VLMs應用于實際場景,如圖像搜索,通過將傳統的單模態處理方式轉變為多模態處理,顯著提高了系統的性能和用戶體驗。?

核心要點

  1. VLMs的基本概念
    VLMs是結合了文本和圖像處理能力的復合AI系統,可以處理多種數據類型,包括文本、圖像、視頻和音頻。它們通過融合不同模態的信息來提高處理復雜數據的能力。
  2. VLMs的架構
    VLMs由三個主要組件構成:語言模型(LLM)、圖像編碼器和適配器。圖像編碼器負責處理圖像,適配器將圖像編碼器的輸出轉換為語言模型可以理解的形式,從而實現多模態處理。
  3. 訓練過程
    訓練VLMs分為預訓練和對齊兩個階段。預訓練階段使用多模態數據來加載世界知識,并將文本和圖像模態聯系在一起。對齊階段則專注于高質量的數據,確保模型能夠理解圖像并生成準確的響應。
  4. 評估方法
    VLMs的質量可以通過在公開基準上的度量計算和人機對比評估來評估。這兩種方法可以幫助我們了解模型在不同任務中的表現,并進行改進。
  5. 應用實例VLMs可以應用于實際場景,如圖像搜索。通過將傳統的單模態處理方式轉變為多模態處理,VLMs顯著提高了系統的性能和用戶體驗。

#LVI-GS

港大最新LVI-GS:結合3DGS的實時LiDAR-視覺-慣性緊耦合SLAM3DGS SLAM的難點?

傳統的 SLAM 系統使用地標、點云、占據柵格、符號距離函數(SDF)體素網格或網格來表示環境。其中,點云是由攝像頭和 LiDAR 等傳感器直接獲取的簡單場景表示。基于點云的 SLAM 系統能夠實現精確定位,并可以構建稀疏或稠密的地圖,但這些地圖通常缺乏豐富的視覺細節。

NeRF?使用輻射場隱式地表示場景,通過優化連續的體積場景函數來實現,這種方式所需的存儲量極少。然而,由于這些系統涉及大量的優化過程,難以實現實時性能。此外,將地圖存儲在多層感知器(MLP)中帶來了災難性遺忘和邊界限制等問題,這些問題會阻礙場景重建。

3D 高斯分布(3DGS)提供了一種令人興奮的替代方案,通過可微的 3D 高斯形狀的原語來連續且適應性地表示 3D 場景。作為一種半隱式的建圖方法,它在犧牲部分新視圖合成功能的情況下,顯著加快了優化和渲染速度。盡管基于優化,3DGS 的特性與點云和表面元素云類似,因而繼承了其高效性、本地化和適應性等優點——這些特性對 SLAM 建圖非常有利。在 1080p 分辨率下,3DGS 渲染速度可達 200 幀每秒,并且可以使用點云進行初始化,從而能夠利用傳統 SLAM 系統生成的稀疏或稠密點云來生成高保真圖像。

一些集成了 3D 高斯的 SLAM 方法顯示出了良好的效果。例如,SplaTAM、MonoGS、GS-SLAM和 Photo-SLAM使用序列的 RGB-D 或 RGB 數據來構建完整的 SLAM 系統。然而,這些技術在具有挑戰性的光照條件、復雜背景和快速運動的非受控戶外大規模環境中遇到了困難。盡管 LiDAR 為 3D 高斯提供了高質量的幾何初始化,在戶外環境中通常比攝像頭更為穩健,但將其集成到 SLAM 系統中帶來了獨特的挑戰。LIV-Gaussianmap和 LetsGo使用 LiDAR 初始化 3D 高斯,而 Gaussian-LIC結合了 LiDAR-慣性-攝像頭的設置來實現綜合的 3D 高斯構建。然而,LIV-Gaussianmap和 LetsGo等系統僅限于離線處理,而 Gaussian-LIC則需要復雜的前端里程計和大量的關鍵幀維護。

LVI-GS[1]的項目鏈接: https://kwanwaipang.github.io/LVI-GS/

主要貢獻

  1. 開發并實現了一個復雜的實時 LVI-GS 系統,能夠維護一個動態的超原語模塊。該系統利用 3D 高斯分布在三維空間中執行高質量、實時的渲染,從而確保了復雜環境的高效準確表示。
  2. 為了進一步提升系統的性能和可擴展性,采用了粗到細的地圖構建方法。此方法利用 RGB 圖像和深度圖像的金字塔結構,在不同細節層次上逐步優化地圖。此外,實施了一種先進的線程管理技術,以優化計算效率,從而確保在處理大型數據集時的實時操作順暢。
  3. 為了改善地圖表示和渲染質量,設計了一個穩健的關鍵幀管理策略,能夠有效地選擇和處理關鍵幀。此外,通過將深度損失納入系統,增強了 3D 高斯地圖的準確性,實現了更精確的重建和視覺上更優的渲染效果。

具體方法?

框架通過兩個并行線程來實現完整的系統功能:

  • 一個線程處理里程計
  • 另一個線程進行 3D 高斯的實時優化。

這兩個線程協同維護一個共享的超原語模塊。在這兩個線程之間,交換的數據包括 3D 點云、相機姿態、相機圖像和深度信息。?

超原語

我們維護一個超原語模塊,其中包括 3D 點云、體素和 3D 高斯分布。為了高效訪問用于 3D 高斯初始化的 3D 點云,地圖點被組織為固定大小的體素(例如,0.1 米 x 0.1 米 x 0.1 米)。體素的激活狀態取決于最近添加的點的存在(例如,過去一秒內)。激活的體素表示最近有活動,而非激活的體素則表示沒有近期更新。

此外,在視覺-慣性里程計 (VIO) 模塊中,如果點的投影或光度誤差超過指定閾值,則該點會被移除。對于點云中的每個點,我們識別其在網格中的位置;如果該位置已有點存在,則該點會被丟棄。我們還會控制每個體素中的點數以維持密度的穩定性。通過這種初始過濾過程,在里程計進行過程中,所獲得的點云避免了 3D 高斯的冗余添加。?

3D 高斯分布投影

我們的場景表示采用 3D 高斯分布,通過一組各向異性的高斯體??來進行建圖。每個高斯體包含不透明度?、中心位置?、RGB 顏色?、半徑??和 3D 協方差矩陣?。給定中心位置??和 3D 協方差矩陣?,高斯分布定義為:

圖片

由于每個高斯體的形狀為橢球體,我們將 3D 高斯的協方差參數化為:

其中,?為描述 3D 尺度的向量,?表示旋轉矩陣。不同于沿相機光線進行的遍歷,3D 高斯分布投影通過迭代 3D 高斯體進行光柵化,從而在渲染過程中忽略空白區域。由于 3DGS 采用體積渲染,因此無需直接導出表面,而是通過投影和混合多個 3D 高斯體的疊加,得到像素的顏色?:

圖片

同樣地,我們可以使用相同的方法獲得深度?:

圖片

我們還渲染出一個可見性圖像,用于確定當前像素的可見性:

圖片

其中,最終的不透明度??是學習到的不透明度?

圖片

其中坐標??和?

我們的最終目標是將 3D 高斯體投影到二維平面上進行渲染,以獲得高保真圖像,這一過程通常被稱為“投影”。當我們獲得傳感器的位姿變換 ([Q_{iw}, T_{iw}])(從圖像到世界的轉換)后,3D 高斯體()可以被投影為二維高斯體():

圖片

其中,?為投影變換的雅可比矩陣的線性近似,?和??

關鍵幀管理

我們通過超原語模塊獲取點云,將每?

圖片

此外,對于每一個新添加的關鍵幀,我們評估其與先前關鍵幀的視覺重疊。如果重疊超過指定閾值,表明相似度較高,則該幀被視為冗余,不會加入序列。此外,我們還為高斯體的添加設定了過濾標準。我們從當前關鍵幀的視點計算累計不透明度,選擇滿足透明度要求的 3D 高斯體。如果?,則過濾掉該點。

在使用所有關鍵幀的帶顏色 LiDAR 點進行 3D 高斯體初始化之前,我們引入一個緩沖容器來延遲關鍵幀序列的整合到地圖中。此延遲可防止由前一幀初始化的高斯體的不透明度快速降至可剔除的閾值,從而確保 3D 高斯體可以從后續幀的視點被觀察到,從多個角度進行訓練。?

基于金字塔的訓練

在我們的大規模 3D 高斯場景表示中,我們采用漸進訓練方法來優化 3D 高斯場的訓練效率,同時保持渲染質量。通過在不同分辨率下使用顏色和深度圖像,我們構建了顏色和深度圖像的金字塔,從而通過逐步細化的細節層次來改進訓練過程。具體來說,我們將高斯地圖劃分為多尺度表示,以捕獲不同層次的細節。輸入的顏色和深度圖像經過多次下采樣,使我們能夠從粗到細逐步訓練 3D 高斯體。

在訓練過程中,我們優先使用低分辨率數據來優化粗略細節。在一定數量的迭代后,我們逐漸減少下采樣級別,最終使用原始輸入分辨率來完成訓練。該方法確保了訓練的高效性,同時在各個細節層次上保持了 3D 高斯場景的高質量表示。

圖片

在此公式中,?表示金字塔的層級,?表示渲染的顏色圖像,?表示渲染的深度圖像,?表示顏色圖像的金字塔,?

高斯建圖

在接收每一個關鍵幀后,我們初始化 3D 高斯體。對于第一個幀,我們處理整個點云,將點的 3D 坐標作為 3D 高斯體的中心。我們計算每個點到原點的平方歐氏距離,以確保最小值,防止距離為零。使用反 Sigmoid 函數初始化不透明度參數。對于顏色信息,我們初始化一個張量來存儲從點云顏色數據中提取的特征,其中 RGB 通道對應于球諧系數。盡管我們采用了球諧函數 (SH),但初始的 SH 階數設置為 0。隨著優化迭代次數和關鍵幀數量的增加,SH 階數逐步提升,以更好地適應多個視角,最大不超過 3。

我們將每個接收到的關鍵幀作為子地圖進行一次優化。隨后,在管理關鍵幀序列時,每接收一個新幀,我們會隨機打亂所有關鍵幀,并隨機選擇一個幀進行優化。為了確保每個關鍵幀在優化時的一致性并保持地圖的完整性,我們為每個關鍵幀設置了優化迭代次數的上限。達到該上限的關鍵幀會從關鍵幀序列中移除。

我們通過最小化圖像損失??和幾何損失?

圖像損失包含亮度誤差和圖像結構相似性(SSIM)誤差:

圖片

幾何損失定義為渲染深度??與 LiDAR 測量的深度??之間的??

實驗效果

總結一下

LVI-GS是一種利用 3D 高斯分布 (3DGS) 的 LiDAR-視覺-慣性緊耦合 SLAM 系統,用于實時的高保真場景重建和渲染。我們的方法結合了 LiDAR 和圖像數據,使其能夠捕捉精確的幾何結構和細致的視覺信息,即使在具有挑戰性的戶外環境中也表現出色。通過有效集成高斯地圖擴展、關鍵幀管理、線程管理和基于 CUDA 的加速策略,我們的系統在保持高質量建圖的同時實現了顯著的計算效率。

大量實驗表明,LVI-GS 在各種復雜場景中,在渲染質量和效率方面都優于現有的 RGB 或 RGB-D 基于 3DGS 的 SLAM 系統。我們的消融實驗進一步驗證了基于金字塔的訓練和深度損失對提升地圖表示準確性的優勢。

未來工作:將探索集成更多傳感器類型,并進一步優化該框架,以更廣泛地應用于實時機器人和 AR/VR 環境中。

#自動駕駛中一直說的BEV+Transformer

在很多車企的自動駕駛介紹中,都會聽到一個關鍵技術,那就是BEV+Transformer,那BEV+Transformer到底是個啥?為什么很多車企在自動駕駛技術中都十分追捧這項技術?

其實“BEV(Bird’s Eye View)+Transformer”是兩個方向的技術,BEV是一種全新的3D坐標系,而Transformer則是一種深度學習神經網絡模型,BEV+Transformer的組合方案在感知、理解和預測方面表現得更為強大,徹底終結了2D直視圖+CNN時代。BEV+Transformer通過鳥瞰視角與Transformer模型的結合,顯著提升了自動駕駛系統的環境感知與決策支持能力。

BEV+Transformer的首次亮相是由特斯提出,高效解決了其純視覺方案下多個攝像頭的數據融合的問題,隨后國內的小鵬、理想、蔚來等車企以及毫末智行、百度Apollo、商湯、地平線等Tier 1也紛紛跟進,提出了自己的BEV+Transformer方案。

Tier 1智能駕駛集感知模型應用,來源:億歐智庫

BEV(鳥瞰視角)的概念

1.BEV的定義和背景

BEV即“Bird’s Eye View”(鳥瞰視角),顧名思義,它能夠將視覺信息立體化,如同一只鳥兒在車輛正上方俯瞰,周圍的環境信息以自上而下的方式展示在坐標系中,可以生成是以車輛為中心、從高空俯視車輛周圍環境的視角。與攝像頭獲取的前視圖相比,BEV視角能夠顯示更多的車輛周圍信息。這種視角在自動駕駛中十分重要,因為它為感知系統提供了更廣闊的空間視野,有助于系統更好地理解復雜交通場景中的多方位環境。

2.BEV視角的生成過程

獲取BEV視角通常依賴于多種傳感器的數據融合,如攝像頭、激光雷達和毫米波雷達。這些傳感器以不同角度捕獲環境數據,然后通過深度估計、幾何投影(尤其是透視投影變換)和坐標轉換等步驟,將各視角的圖像或點云數據整合為一個鳥瞰圖。特別是在攝像頭生成BEV視角的過程中,這種投影轉換需要考慮到圖像的畸變和透視效果,以確保視角的準確性。

3.BEV視角的實際應用

BEV視角在自動駕駛中的應用主要體現在復雜交通場景下的環境理解,如多車道并行、十字路口和環形交叉路口等。通過BEV視角,系統不僅可以識別前方物體,還能準確檢測車輛四周的障礙物、行人、非機動車和建筑物,從而為安全行駛提供更全面的環境信息。

Transformer的基本概念與作用

1.Transformer模型的起源

Transformer模型最早由谷歌在2017年的“Attention is all you need”一文中提出,最初用于自然語言處理(NLP)領域的翻譯和文本生成任務。與傳統的RNN、LSTM模型不同,Transformer的自注意力機制(Self-Attention)允許其處理任意長度的輸入序列,且并行計算性能強,因此在大規模數據處理和高效計算方面有顯著優勢。隨著AI深度學習的興起,Transformer被應用在BEV空間轉換、時間序列上,形成了一個端到端的模型。

2.Transformer在視覺任務中的擴展

Transformer模型逐步被應用于計算機視覺(CV)任務,如目標檢測、語義分割和物體跟蹤等。其自注意力機制能夠在圖像上捕捉全局信息并分析不同位置特征之間的關系,幫助系統建立物體之間的空間關系。這在復雜場景下尤其重要,例如城市道路中需要理解不同車輛、行人之間的動態交互。

3.Transformer在BEV視角中的作用

在BEV+Transformer架構中,Transformer模型負責將BEV視角中的特征圖信息轉化為高層次的語義信息。通過自注意力機制,Transformer能夠在特征圖上找到重要物體之間的相對位置關系,并分析它們的行為趨勢。例如,Transformer可以識別車道內外車輛的距離和速度關系,有助于預測其他車輛的運動軌跡。

BEV+Transformer的技術原理

1.多傳感器數據融合與轉換

BEV+Transformer的核心在于將來自不同傳感器的數據統一轉換為BEV視角的特征圖,再利用Transformer進行深度分析。首先,通過卷積神經網絡(CNN)對攝像頭和雷達數據提取特征,并進行投影轉換生成BEV視角的特征圖。這樣就能在車身上方生成完整的俯視圖,為Transformer模型提供豐富的環境信息。

2.自注意力機制的全局關系分析

Transformer模型利用自注意力機制分析BEV特征圖中的不同位置特征,建立物體與物體之間的相關性。例如,系統可以分析道路上的車輛、行人、障礙物的分布及其相對速度,預測他們的行為變化趨勢。這種全局關系的分析使得系統對復雜場景的環境理解更加深刻和準確。

3.高層次語義信息的輸出與決策支持

Transformer處理完BEV視角特征后,生成的輸出包含環境的高層次語義信息,包括物體類別、位置、運動趨勢等。這些信息不僅可以用于路徑規劃,還能輔助車輛進行避障和動態調整。在自動駕駛決策模塊中,這些高層信息與其他預測結果結合,生成更加智能的駕駛策略。

BEV+Transformer的實際應用案例

1.障礙物檢測與識別

BEV+Transformer架構可在復雜交通場景中識別各類障礙物,包括車輛、行人和道路設施等。通過自注意力機制,系統能夠在特征圖中捕捉到環境中關鍵物體的位置和運動方向,并對潛在的障礙物進行跟蹤檢測,有助于及時生成避障方案。

2.路徑預測與動態規劃

在路徑預測方面,BEV+Transformer架構通過學習環境中各參與者的運動特征,預測車輛和行人等的行駛軌跡。這種全局化預測在車流密集的場景中尤為重要,能夠幫助自動駕駛系統提前分析其他交通參與者的行為趨勢,從而制定更安全、順暢的行駛路徑。

3.車道線識別與輔助駕駛

在高速公路或復雜路口,車輛需要精準識別車道線以保持在車道內行駛。傳統攝像頭的識別易受光線和視角影響,而BEV+Transformer結合了全方位的鳥瞰圖,確保了在惡劣條件下也能穩定識別車道線,使車輛在變道或急轉彎時更安全。

BEV+Transformer的優勢

1.全局視角與空間理解能力

BEV視角帶來了全局性的環境感知能力,能夠減少車輛周圍盲區。Transformer的自注意力機制則增強了系統的空間理解能力,在BEV特征圖中識別出場景內物體的長距離關系,使得自動駕駛系統對復雜環境的認知更全面。

2.多模態數據的統一融合

BEV+Transformer架構能夠在統一的特征圖中處理多傳感器信息,提升了感知的精度。例如,圖像與點云數據經過前期融合后,再經由Transformer分析,大大減少了因多傳感器不一致而產生的誤差,從而提升了模型的魯棒性。

3.有效的預測能力

Transformer在視覺任務中展現出的強大預測能力,使BEV+Transformer架構可以更準確地預測其他車輛、行人的行為。尤其在動態交通場景中,Transformer結合BEV信息能提供精細的路徑預測,幫助自動駕駛系統提前識別潛在風險。

BEV+Transformer的局限性與挑戰

1.計算資源需求與實時性挑戰

Transformer的自注意力機制對計算資源需求較大,尤其是在處理多傳感器融合數據時,可能會導致推理延遲問題。自動駕駛系統需要達到毫秒級響應速度,這對計算資源提出了高要求。一些優化技術(如分塊自注意力)可以減小負擔,但實現高效實時推理仍是挑戰。

2.傳感器精度和同步性依賴

BEV+Transformer的表現高度依賴傳感器的精度與同步性。在復雜環境中,天氣、遮擋、反射等因素可能導致傳感器獲取的信息出現偏差,從而影響BEV視角的準確性。傳感器誤差會使Transformer的分析結果不可靠,影響系統的整體表現。

3.復雜交通場景的魯棒性

BEV+Transformer在高動態交通場景下(如城市密集路段)可能受到影響,因為這些場景包含大量動態物體及不確定因素。在應對惡劣天氣、光線變化及不同國家的道路標志差異時,BEV+Transformer的魯棒性仍需進一步驗證和優化,以保證系統能適應多樣化的場景。

結語

BEV+Transformer架構為自動駕駛領域帶來了新的技術突破。通過結合鳥瞰視角的全局信息和Transformer的自注意力機制,該架構顯著提升了感知精度和決策支持能力。然而,要在實際道路場景中實現其廣泛應用,還需克服計算資源、傳感器同步性等方面的挑戰。未來,隨著硬件技術的進步和算法優化,BEV+Transformer有望成為自動駕駛系統的重要組成部分,為完全自動駕駛奠定堅實的技術基礎。

#GenXD

通用場景拉滿了!生成任何3D&4D場景(新加坡國立&微軟最新)

近年來,利用擴散和自回歸建模生成2D視覺內容已經取得了顯著成功,并已在實際應用中進行廣泛使用。除了 2D 生成之外,3D 內容生成也至關重要,可應用于視頻游戲、視覺效果和可穿戴混合現實設備。然而,由于 3D 建模的復雜性和 3D 數據的局限性,3D 內容生成仍然遠遠不能令人滿意,并且正在引起學術界和工業界越來越多的關注。

之前大多數的研究工作主要聚焦于使用合成的目標數據實現3D和4D內容的生成。合成的目標數據通常是網格,從而允許研究人員從任何的視角來渲染圖像和其他的3D信息。然而,目標生成對領域專家的益處遠遠大于大眾。相比之下,場景級的生成可以幫助每個人用更加豐富的內容來增強他們的圖像以及視頻。因此,最近的研究探索了單一模型中的一般 3D 生成,并取得了令人印象深刻的生成性能。盡管如此,這些研究工作僅關注靜態 3D 生成,而沒有解決動態的問題。

考慮到 4D 生成面臨的首要挑戰是缺乏通用 4D 數據。在這項工作中,我們提出了 CamVid-30K數據集,其中包含大約 30K 個 4D 數據樣本。4D 數據需要多視圖空間信息和時間動態,因此我們轉向視頻數據來獲取必要的 4D 數據。

此外,我們也提出了一個統一的框架 GenXD,用于在單個模型中處理 3D 和 4D 生成,能夠從不同視角和時戳生成任意數量的條件圖像,其生成的部分內容如下圖所示。

此外,我們對各種現實世界和合成數據集進行了廣泛的實驗和評估,證明了與之前的 3D 和 4D 生成方法相比,我們提出的GenXD算法模型具有更好的有效性和多功能性。

論文鏈接:https://arxiv.org/pdf/2411.02319?

GenXD網絡結構&技術細節梳理

生成模型

由于大多數的場景級3D和4D數據通過視頻獲得,因此這些數據缺少明確的表示。所以,我們采用一種生成與空間相機姿勢和時間戳步長對齊的圖像的方法。具體而言,我們將擴散模型納入到我們的框架當中,引入額外的多視圖時域層,包括多視圖時序ResBlocks和多視圖時序Transformer,以解耦和融合3D和時序信息,下面是我們提出的GenXD的整體網絡結構圖。

Mask Latent Conditioned Diffusion Model

GenXD利用LDM來同時生成不同相機視點和時間的圖像。LDM首次使用VAE將圖像/視頻編碼為latent code,記作,然后利用高斯噪聲擴散latent code得到。然后利用去噪模型來估計噪聲并逆轉擴散過程,其條件如下:

圖片

GenXD 生成具有相機姿勢和參考圖像的多視圖圖像和視頻,因此它需要相機和圖像條件。相機條件對于每幅圖像都是獨立的,無論是 條件性的還是有針對性的。因此,很容易將其附加到每個潛在圖像中。在這里,我們選擇Plucker射線作為相機條件

圖片

Plucker 射線是一種密集嵌入編碼,不僅編碼了像素信息,還編碼了相機位姿和內在信息,相比于全局相機而言更具有優勢。參考圖像條件更為復雜。GenXD 旨在通過單視圖和多視圖輸入進行 3D 和 4D 生成。單視圖生成要求較低,而多視圖生成結果更一致。因此,將單視圖和多視圖生成結合起來將帶來更好的實際應用。

然而,之前的相關研究工作通過將潛在條件連接到目標潛在條件,并通過交叉注意力合并CLIP模型的圖像嵌入來生成圖像。連接方式的改變需要更改模型的通道,無法處理任意輸入視圖。CLIP嵌入可以支持多種條件。然而,這兩種方式都無法對多種條件的位置信息進行建模,也無法對輸入視圖之間的信息進行建模。鑒于這種局限性,我們利用掩碼作為潛在條件來處理圖像條件。如上圖所示,我們使用VAE編碼器之后,對目標幀應用前向擴散過程,使用條件保持原樣。然后通過去噪模型估計兩幀上的噪聲,并通過后向過程進行去除。

掩碼潛在條件有三個主要優點。首先,模型可以支持任何輸入視圖而無需修改參數。其次,對于序列生成(多視圖圖像或視頻),我們不需要限制條件幀的位置,因為條件幀在序列中保持其位置。相反,許多工作要求條件圖像在序列中的固定位置(通常是第一幀)。第三,如果沒有來自其他模型的條件嵌入,可以刪除用于集成條件嵌入的交叉注意層,這將大大減少模型參數的數量。為此,我們在GenXD算法模型中利用掩碼潛在條件方法。

MultiView-Temporal Modules

由于GenXD旨在在單個模型中生成 3D 和 4D 樣本,因此我們需要將多視圖信息與時間信息區分開來。我們在不同的層中對這兩種類型的信息進行建模:多視圖層和時間層。對于 3D 生成,不考慮時間信息,而 4D 生成則需要多視圖和時間信息。因此,在我們提出的GenXD算法框架當中,我們提出了一種用于4D生成的融合策略。具體而言,我們為 4D 生成引入了一種可學習的融合權重。對于 3D 生成而言,設置為0。使用融合策略,GenXD算法模型可以在多視圖層中為 3D 數據保留多視圖信息,同時從 4D 數據中學習時間信息。

融合可以有效地解開多視圖和時間信息。然而,沒有任何提示,運動的控制性較差。視頻生成模型使用 FPS 或運動 ID 來控制運動的幅度,而不考慮相機的運動。得益于 CamVid-30K 數據集中的運動強度,我們可以有效地表示物體的運動。由于運動強度是一個常數,我們將其與擴散時間步長相結合并將其添加到時間 Resblock 層。借助多視圖時間模塊,GenXD 可以有效地進行 3D 和 4D 生成。

3D表達生成

GenXD 可以使用一個或多個條件圖像生成具有不同視點和時間步長的圖像。但是,為了呈現任意的 3D 一致視圖,我們需要將生成的樣本提升為 3D 表示。以前的工作通常通過從生成模型中提取知識來優化 3D 表示。由于 GenXD 可以生成高質量且一致的結果,我們直接使用生成的圖像來優化 3D 表示。具體來說,我們利用 3D Gaussian Splatting 和 Zip-NeRF 進行 3D 生成,利用 4D Gaussian Splatting (4D-GS) 進行 4D 生成。?

CAMVID-30K數據集介紹

由于缺乏大規模 4D 場景數據限制了動態 3D 任務的發展,包括但不限于 4D 生成、動態相機姿勢估計和可控視頻生成。為了解決這個問題,我們在本文中引入了一個高質量的 4D 數據集。首先,我們使用基于結構運動 (SfM) 的方法估計相機姿勢,然后使用所提出的運動強度過濾掉沒有物體運動的數據,整個流程如下圖所示。

相機位姿估計

相機姿態估計基于SfM,它從一系列圖像中的投影重建 3D 結構。SfM 涉及三個主要步驟:(1) 特征檢測和提取,(2) 特征匹配和幾何驗證,(3) 3D 重建和相機姿態估計。在第二步中,匹配的特征必須位于場景的靜態部分。否則,在特征匹配期間,物體移動將被解釋為相機移動,這會損害相機姿態估計的準確性。為了獲得準確的相機姿勢,必須分割所有移動像素。在這種情況下,假陽性錯誤比假陰性更容易接受。為了實現這一點,我們使用實例分割模型來貪婪地分割所有可能移動的像素。在分割出可能移動的像素后,我們使用 Particle-SfM估計相機姿態,以獲得相機信息和稀疏點云。

目標運動估計

雖然實例分割可以準確地將物體與背景分開,但它無法確定物體本身是否在移動,而靜態物體會對運動學習產生負面影響。因此,我們引入了運動強度來識別真正的物體運動,并過濾掉只有靜態物體的視頻。

由于攝像機運動和物體運動都存在于視頻中,因此基于 2D 的運動估計方法無法準確表示真實的物體運動。有兩種方法可以捕捉真實的物體運動:通過測量 3D 空間中的運動或通過將視頻中的運動投影到同一臺攝像機。這兩種方法都需要與攝像機姿勢比例對齊的深度圖。稀疏深度圖可以通過投影 3D 點云到相機視角來獲得

圖片

由于在 3D 重建過程中僅匹配靜態部分的特征,因此我們只能獲得靜態區域的稀疏點云。然而,動態部分的深度信息對于估計運動至關重要。為了解決這個問題,我們利用預先訓練的相對單目深度估計模型來預測每幀的相對深度,然后我們應用比例因子和移位來使其與 SfM 稀疏深度對齊

圖片

有了對齊的深度,我們可以將幀中的動態目標投影到 3D 空間中,從而提供一種直接測量目標運動的方法。如上圖 (b) 所示,如果目標(例如,穿綠色襯衫的人)正在移動,則投影的 3D 點云中將發生位移。但是,由于 SfM 的運行范圍很廣,因此直接在 3D 空間中測量運動可能會導致幅度問題。因此,我們將動態目標投影到相鄰視圖中并估計目標運動場。

具體來說,我們首先需要在 2D 視頻中找到匹配點。我們不使用光流等密集表示,而是為每個目標實例采樣關鍵點,并在 2D 視頻中使用視頻目標分割和關鍵點跟蹤來建立匹配關系。然后將每個關鍵點投影到相鄰幀中。首先將第幀中的關鍵點反向投影到世界空間,以獲得 3D 關鍵點。

圖片

有了每個物體的運動場,我們可以通過平均運動場的絕對幅度來估計物體的全局運動。對于每個視頻,運動強度由所有物體中的最大運動值表示。如下圖所示,當相機移動而物體保持靜止時(第二個示例),與有物體運動的視頻相比,運動強度明顯較小。使用運動強度,我們進一步過濾掉缺乏明顯物體運動的數據。?

實驗結果&評價指標

4D生成實驗結果

我們將 GenXD 與開源相機條件視頻生成方法進行了比較,我們使用Stable Video Diffusion作為baseline模型,并利用攝像機軌跡和第一幀條件生成視頻,相關的實驗結果如下表所示。

以第一視圖為條件,GenXD 在兩個指標上均明顯優于 CameraCtrl 和 MotionCtrl。此外,以 3 個視圖(第一幀、中間幀和最后一幀)為條件,GenXD 的表現遠遠優于之前的作品。這些結果證明了 GenXD 在 4D 生成上的強大泛化能力。

此外,為了直觀的展現出GenXD算法模型的性能,我們將相關的生成結果展示在下圖中。我們比較了三種方法的定性結果。在這個例子中,MotionCtrl 無法生成明顯的物體運動,而 CameraCtrl 生成的視頻既不是 3D 的也不是時間一致的。相反,我們的單視圖條件模型可以生成流暢且一致的 4D 視頻。通過 3 個條件視圖,GenXD 可以生成非常逼真的結果。

3D生成實驗結果

對于少視圖 3D 重建設置,我們在分布內和分布外數據集上評估 GenXD。我們從 Re10K 中選擇了 10 個場景,在 LLFF 中選擇了所有 8 個場景,每個場景中的 3 個視圖用于訓練。使用渲染測試視圖上的 PSNR、SSIM 和 LPIPS 指標評估性能。作為生成模型,GenXD 可以從稀疏輸入視圖中生成附加視圖,并提高任何重建方法的性能。在這個實驗中,我們利用了兩種基線方法:Zip-NeRF 和 3D-GS。這兩個基線是多視圖重建的方法,因此我們調整超參數以實現更好的少視圖重建。如下表所示,Zip-NeRF 和 3D-GS 都可以使用 GenXD 生成的圖像進行改進,并且 Zip-NeRF 基線的改進更為顯著。具體來說,Re10K(分布內)和 LLFF(分布外)上的 PSNR 分別提高了 4.82 和 5.13。

更加直觀的展示結果如下圖所示,使用生成的視圖,重建場景中的浮動物和模糊減少了。?

結論

在本文中,我們提出了GenXD算法模型來處理一般的 3D 和 4D 內容生成。GenXD 可以利用多視圖時間模塊來解開相機和物體的移動,并且能夠通過掩碼潛在條件來支持任意數量的輸入條件視圖。提出的GenXD算法模型可以處理多種應用,并且可以通過一個模型在所有設置中實現相當或更好的性能。

#FiM

二段式端到端新SOTA!港科大FiM:從Planning的角度重新思考軌跡預測

預測行駛中的交通參與者的軌跡運動,對于確保自動駕駛系統的安全性而言,既是一項重大挑戰,也是一項至關重要的需求。與大多數現有的、直接預測未來軌跡的數據驅動方法不同,我們從規劃(planning)的視角重新思考這一任務,提出一種“先推理,后預測(First Reasoning, Then Forecasting)”的策略,該策略顯式地將行為意圖作為軌跡預測的空間引導。為實現這一目標,進一步引入了一種可解釋的、基于獎勵的意圖推理器(intention reasoner),其建立在一種新穎的以查詢為中心的逆強化學習(query-centric Inverse Reinforcement Learning, IRL)框架之上。我們的方法首先將交通參與者和場景元素編碼為統一的向量化表示,然后通過以查詢為中心的范式聚合上下文特征。進而推導出一個獎勵分布(reward distribution)——一種緊湊但信息豐富的表示,用于刻畫目標參與者在給定場景上下文中的行為。在該獎勵啟發式(reward heuristic)的引導下,我們進行策略 rollout,以推理多種可能的意圖,從而為后續的軌跡生成提供有價值的先驗信息。最后開發了一種集成雙向選擇性狀態空間模型(bidirectional selective state space models)的分層DETR-like解碼器,以生成精確的未來軌跡及其對應的概率。在大規模的Argoverse和nuScenes運動預測數據集上進行的大量實驗表明,我們的方法顯著提升了軌跡預測的置信度,在性能上達到了與當前最先進方法相當甚至更優的水平。

  • 論文鏈接:https://arxiv.org/abs/2507.12083?

簡介

軌跡預測是自動駕駛系統的關鍵組成部分,它連接了上游的感知模塊和下游的規劃模塊。準確預測周圍交通參與者未來的運動,需要對未知的意圖進行推理,因為駕駛行為本質上具有不確定性和多模態特性。

大多數現有的數據驅動運動預測模型采用模仿學習(imitative)方法,要么直接回歸軌跡,要么基于訓練數據集中的數據分布對終點進行分類。然而,這些方法通常對駕駛行為的考慮不足,限制了其可解釋性和可靠性。盡管許多方法在基準測試指標上表現出色,但很少有方法能顯式地對未來的意圖進行推理,這在現實應用中生成可解釋且魯棒的多模態預測時,形成了一個關鍵瓶頸。

相比之下,人類駕駛員通常以分層的方式操控車輛,先做出高層次決策(例如變道或超車),再執行具體的運動策略。我們可以將自車(ego vehicle)的預測模塊視為在為其他參與者進行規劃,前提是假設道路使用者的行為是理性的。盡管軌跡預測與規劃之間存在內在聯系,但很少有研究探索來自規劃領域的洞見。受這些觀察的啟發,我們提出了一個關鍵問題:能否從規劃的視角來處理軌跡預測任務,并通過引入意圖推理能力來加以增強?

為此,我們提出一種“先推理,后預測(First Reasoning, Then Forecasting)”的策略,其中行為意圖推理為準確且可信的多模態運動預測提供了關鍵的先驗指導。以超車場景為例:一個能夠提前顯式推理出“超車”和“保持車道”兩種意圖的模型,相比沒有進行推理而直接預測的模型,能夠生成更可靠的預測結果,如圖1所示。

圖片

此外,結合更長期的意圖推理可以進一步提升預測的置信度(見表2)。

然而,由于駕駛場景固有的復雜性,僅依賴手工設計的規則或預定義的規劃器來進行未來意圖推理仍然具有挑戰性。一種有前景的替代方案是利用大型推理模型(Large Reasoning Models, LRMs)(如OpenAI-o1)在軌跡預測器中實現意圖推理。然而,它們巨大的計算需求使其在車載駕駛系統中不切實際。幸運的是,LRMs的最新進展表明,強化學習(RL)技術在數學和編程等領域展現了卓越的推理能力,這引發了一個有趣的問題:能否利用基于RL的范式來推理軌跡預測中參與者的未來意圖?

在這方面,我們探索了將RL范式應用于建模自動駕駛場景中參與者行為推理的可行性。我們將任務形式化為一個馬爾可夫決策過程(Markov Decision Process, MDP),并據此定義目標參與者的行為意圖。為了在性能和計算效率之間取得平衡,我們構建了一個網格級圖(grid-level graph)來表示場景布局,其中意圖被定義為在離散網格世界中的一系列決策,類似于傳統RL語境中的“規劃”。本文將這種意圖序列稱為基于網格的推理遍歷(Grid-based Reasoning Traversal, GRT)

然而,將RL應用于軌跡預測的一個根本性挑戰在于如何建模獎勵(reward),因為參與者的意圖是未知的。

為克服這一挑戰,我們提出了一種基于最大熵逆強化學習(Maximum Entropy Inverse Reinforcement Learning, MaxEnt IRL)的獎勵驅動意圖推理器。該框架首先通過IRL,從專家示范(demonstrations)和相關駕駛上下文中學習參與者特定的獎勵分布。所學習到的獎勵作為一種緊湊的表示,捕捉了參與者的可觀測行為及其潛在意圖。利用這些推斷出的獎勵作為啟發式信息,我們隨后進行策略rollout,以采樣多種可能的GRT,并提取其對應的、以意圖為指導的特征,從而為軌跡預測提供先驗指導,進而提高預測的準確性和置信度。

此外,為了進一步增強從場景上下文中提取特征的能力,提出了一種新穎的以查詢為中心的IRL框架(Query-centric IRL, QIRL),該框架將IRL與一種基于查詢的編碼機制相結合。QIRL能夠高效且靈活地將向量化場景上下文特征聚合到類似空間網格的token中,便于進行結構化推理。

通過這種密集的網格表示,我們在模型中增加了一個輔助的占用網格圖(Occupancy Grid Map, OGM)預測頭,該模塊能夠對場景中每個參與者未來的時空占用進行密集預測。這一輔助任務通過捕捉參與者之間的未來交互,有效增強了特征融合過程,從而提升了整體預測性能(見表7)。

最后為了充分利用意圖推理器提供的特征,開發了一種分層的DETR-like軌跡解碼器。一個無錨點(anchor-free)的軌跡token首先基于GRT推導出的特征生成初始提議(proposals),這些提議隨后作為最終軌跡解碼的初始化錨點。考慮到軌跡狀態固有的序列性質,以及選擇性狀態空間模型(Mamba)在長時程、結構化動態建模方面的最新進展,引入了一種雙向變體——Bi-Mamba,以有效捕捉軌跡狀態的序列依賴關系。這一增強顯著提升了預測的準確性和置信度(見表6)。

總結來說,本文的主要貢獻如下:

  1. 提出了一種“先推理,后預測”的策略,從規劃的視角重新思考軌跡預測任務。
  2. 為運動預測提出了一種全新的獎勵驅動意圖推理器,其中QIRL模塊在以查詢為中心的框架下,集成了MaxEnt IRL范式和向量化上下文表示。
  3. 開發了一種集成雙向選擇性狀態空間模型(Bi-Mamba)的分層DETR-like解碼器,以提高預測的準確性和置信度。
  4. 的方法顯著提升了預測置信度,并在Argoverse和nuScenes運動預測基準測試上取得了極具競爭力的性能,超越了其他最先進的模型。?

相關工作回顧?

自動駕駛軌跡預測

自動駕駛的軌跡預測已研究數十年。該領域的早期工作主要依賴于手工設計的基于規則或基于物理的方法,這些方法難以處理復雜場景,且缺乏進行長期預測的能力。近年來,研究方法已轉向基于學習的框架,該框架利用深度神經網絡來編碼交通參與者的運動歷史,同時整合高精地圖(HD maps)的拓撲和語義信息。這些地圖通常以光柵化(rasterized)或向量化(vectorized)格式表示。光柵化表示通常使用鳥瞰圖(Bird’s-Eye-View, BEV)圖像作為輸入,而向量化表示則依賴于參與者和地圖的折線(polylines)作為輸入。卷積神經網絡(CNNs)和圖神經網絡(GNNs)被廣泛用作這些格式的特征提取器,在編碼場景上下文方面發揮著關鍵作用。最近,基于Transformer的架構因其能夠提升整體預測性能而受到廣泛關注。順應這一趨勢,我們的工作采用了向量化表示,并利用基于查詢的Transformer編碼器-解碼器結構來進行特征聚合和軌跡生成。

盡管取得了這些進展,但在使軌跡預測對分布外(out-of-distribution)場景具有魯棒性,以及對未見過的環境具有可泛化性方面,挑戰依然存在。我們的工作通過從規劃的視角重新思考軌跡預測任務,引入了一種基于獎勵的意圖推理器,以提供行為指導和上下文豐富的先驗信息,從而推進軌跡預測,來解決這些不足。?

獎勵(Reward)

獎勵是規劃(planning)和強化學習(RL)中的一個基礎概念,它作為一種引導信號,塑造了智能體的行為和決策過程。在規劃中,獎勵通常被設計為與高層目標對齊,例如在避開障礙物的同時到達目標點。通常,獎勵函數是手工設計的,或通過分層框架進行塑造,其中高層規劃器為低層控制器提供策略指導。關于獎勵塑造(reward shaping)的研究表明,通過修改獎勵結構來強調特定行為或里程碑,可以加速學習過程并提高策略的魯棒性。

在強化學習(RL)中,獎勵函數扮演著核心角色,它定義了智能體的目標,并引導其執行能夠隨時間最大化累積獎勵的動作。獎勵函數的設計在規劃和RL中都至關重要;然而,為復雜任務(如自動駕駛)設計有效的獎勵函數極具挑戰性。為了解決這一挑戰,逆強化學習(Inverse RL, IRL)被提出。IRL專注于從觀察到的專家示范(expert demonstrations)中推斷出獎勵函數,這在直接定義獎勵函數不可行的場景中尤其有價值。例如,最大熵逆強化學習(MaxEnt IRL)已被廣泛應用于學習能夠捕捉專家行為潛在意圖的獎勵函數,從而使智能體能夠在規劃任務中復制細致入微、類似人類的決策。

盡管IRL非常有用,但現有的高效IRL算法通常針對結構化和網格狀環境進行定制,這限制了它們在更復雜領域中的靈活性。為了克服這一局限性,我們提出了一種新穎的以查詢為中心的框架(query-centric framework),該框架增強了MaxEnt IRL在我們基于獎勵的意圖推理器中的適用性和靈活性。通過利用這一范式,我們的方法提供了有價值的獎勵啟發式信息,能夠有效推理未來行為的意圖,為解決運動預測任務固有的復雜性提供了信息豐富的先驗。?

算法詳解?

問題定義

標準軌跡預測任務的目標是,在給定駕駛上下文的情況下,預測目標參與者在未來時間范圍??內的位置。我們采用向量化表示作為場景輸入,包括歷史觀測狀態?,其中??表示場景中的參與者數量,?表示過去的時間戳數量,?捕捉位置、速度、航向等運動特征,以及高精地圖(HD map)信息?,其中??和??分別對應車道中心線和車道段的數量,?表示相關的車道屬性。

我們的方法采用以目標為中心的坐標系,通過平移和旋轉操作,將所有輸入元素歸一化到目標參與者當前的狀態。鑒于運動意圖的內在不確定性,預測器的任務是提供??條未來的軌跡?,以及對應的概率?。?

框架概述

如圖2所示,我們的運動預測方法采用了一種編碼器-解碼器結構,該結構包含一個以查詢為中心的場景上下文編碼器、一個由Mamba增強的分層軌跡解碼器,以及一個獎勵驅動的意圖推理器。

圖片

首先以向量化格式表示駕駛上下文,并利用參與者和地圖編碼器提取場景特征。然后,通過交叉注意力機制將這些融合后的特征聚合到空間網格token中。接著,在QIRL模塊中,利用一種基于網格的MaxEnt IRL算法推斷獎勵分布,從而通過策略rollout在2D網格地圖上推理出多種可能的意圖序列(即GRTs)。此外,我們引入了一個用于時空占用網格圖(S-T OGM)的密集預測頭,以建模參與者之間的未來交互。最后,我們引入了一種分層的DETR-like軌跡解碼器,該解碼器生成軌跡提議,這些提議經過進一步的聚類和優化,最終生成由Bi-Mamba架構增強的多模態未來軌跡。?

以查詢為中心的上下文編碼

給定向量化的參與者表示??和地圖表示?,我們首先將它們分別標記化為獨立的特征集。具體來說,我們使用一個參與者編碼器——一個簡單的1D CNN模型——來獲得參與者特征?。對于地圖編碼器,我們采用類似PointNet的網絡來提取靜態地圖特征?。

然后,將得到的參與者和地圖特征連接起來,形成上下文token?,并隨后通過一個自注意力塊來增強特征融合。

由于推理過程依賴于網格級圖表示,我們引入了可學習的網格狀查詢??來整合場景特征,其中??和??定義了鳥瞰圖(BEV)平面的空間維度。每個位于網格位置??的查詢??對應現實世界中的一個特定區域,分辨率為?。然后,我們使用帶有2D空間可學習相對位置編碼的展平網格查詢,通過交叉注意力機制來聚合上下文token。?

獎勵驅動的意圖推理

在用上下文特征更新了網格token之后,我們首先通過我們的QIRL框架生成獎勵分布,該框架在以查詢為中心的范式下,調整了傳統的基于網格的MaxEnt IRL算法。MaxEnt IRL通常被定義為一個有限的馬爾可夫決策過程(MDP)模型,包含狀態空間、動作空間和轉移模型。其目標是恢復環境的獎勵分布,以生成一種策略,該策略通過最大化示范數據的對數似然,同時遵循最大熵原則,來模仿專家示范。示范由離散狀態序列組成,獎勵通常被公式化為環境特征的組合。學習過程涉及在每次獎勵迭代內進行內循環的前向RL過程,直到損失??收斂。

QIRL。?在我們的QIRL框架中,每個網格??充當一個狀態,其對應的查詢??表示上下文特征。我們使用1×1 CNN層的堆疊從網格token中聚合特征,以建立從駕駛上下文到獎勵??的非線性映射。未來的軌跡被量化到分辨率??以形成專家示范狀態,如果可用,還可以包含路徑以捕捉長期信息。隨后,應用MaxEnt IRL算法來推導出收斂的獎勵分布以及一個最優策略。

然后基于由獎勵啟發式誘導的策略執行rollout。我們在網格地圖上并行執行??次rollout,產生多個可能的GRTs作為意圖序列,,其中??表示規劃范圍。為了更好地捕捉多模態未來分布,我們設置?。然后根據采樣的GRT提取網格token:對于采樣GRT中與網格單元狀態??關聯的每個位置?,在??步中依次選擇對應的網格token?。這些網格token構成了推理token?。GRT位置??及其相關的推理token??作為有價值的行為意圖先驗,用于指導后續的運動預測。

輔助的S-T OGM預測頭。?利用網格狀的密集表示,我們引入了一個輔助的S-T OGM預測頭來建模參與者之間的未來交互,從而增強場景上下文特征的融合和聚合。我們將占用圖以二進制形式表示,其中在未來的??個時間戳上鳥瞰圖(BEV)中被占據的網格單元被設為1,未被占據的單元被設為0。我們的OGM生成器以融合后的網格token??和獎勵??作為輸入,并使用類似U-Net的架構生成??個未來時間戳上的OGM。?

Mamba增強的軌跡解碼

給定??個可能的推理先驗,我們首先使用一個DETR-like的軌跡生成器生成??條軌跡作為提議。我們分別通過簡單的MLP塊對GRT位置??和推理token??進行編碼,然后通過基于MLP的特征融合網絡進行連接和處理,形成最終的推理token?。

接下來,我們引入一個anchor-free的可學習軌跡提議查詢?,使其通過交叉注意力機制關注來自意圖推理器的先驗特征?。然后,該提議查詢通過一個由MLP塊組成的回歸頭被解碼為??個軌跡提議。我們應用K-means算法將這些提議聚類為??個多模態軌跡提議?。隨后,我們使用一種基于錨點的軌跡優化方法(如許多現有的運動預測器中所用),以進一步提升軌跡查詢的預測性能。每個軌跡提議作為顯式的錨點先驗,被重新編碼為軌跡查詢?,該查詢通過類似DETR的架構檢索原始上下文特征,該架構與軌跡提議生成中使用的架構類似。這種分層的無錨點提議生成與基于錨點的優化過程相結合,最終得到一個軌跡查詢,該查詢集成了獎勵驅動的意圖和詳細的場景上下文。

Bi-Mamba解碼器。?由于軌跡token??在時間和空間域都具有顯著的序列特性,我們采用一種選擇性狀態空間模型來捕捉軌跡查詢序列內的耦合關系,這受到Mamba架構在序列建模方面近期成功的啟發。具體來說,我們采用一個Bi-Mamba模型來處理軌跡token,利用其雙向掃描機制來實現更全面的信息捕獲。在這個由Bi-Mamba增強的解碼過程中,我們預測軌跡偏移量??和每個假設的概率?。

圖片

為了更好地利用Bi-Mamba結構的雙向能力,我們設計了一個可學習的雙模態查詢?,其中包含兩個分類(CLS)token。如圖3所示,這兩個token(CLS1和CLS2)分別被附加在軌跡查詢??的前面和后面。這兩個token分別聚合了后向和前向特征,與使用單個分類token的單向Mamba相比,實現了更全面的融合,這一點在我們的消融實驗結果中得到了驗證(見表7)。在Bi-Mamba處理之后,兩個CLS token通過逐元素相加進行特征融合。然后,一個模態自注意力模塊使不同模態之間能夠交互,進一步增強了預測的多模態性。最后,模態token通過softmax函數進行分類以生成概率,而序列軌跡token則通過回歸頭解碼以生成軌跡偏移量。

最終的預測軌跡??通過將軌跡提議??與其對應的偏移量??相加得到,如下所示:?

訓練目標

我們的整個流程包含多個訓練目標。獎勵驅動的意圖推理器包括兩個子任務目標:QIRL和OGM生成器。QIRL目標采用?,而OGM生成器(記為?)則使用focal BCE損失。

對于軌跡解碼器,訓練目標包括回歸損失??和分類損失?。為了優化軌跡回歸,我們對軌跡提議和優化后的軌跡都應用Huber損失。此外,為了解決模態坍塌(mode collapse)問題,我們采用了一種“勝者通吃”(winner-takes-all)策略(在類似工作中常用),其中僅選擇位移誤差最小的候選者進行反向傳播。對于模態分類,我們采用最大間隔損失(max-margin loss),遵循的方法。

整體損失??集成了這些組件,可以進行端到端的優化:

其中?、?和??是用于平衡每個訓練目標的超參數。?

實驗結果分析

數據集(Datasets:Argoverse 1、Argoverse 2和nuScenes。?

與SOTA對比

我們在Argoverse 1、Argoverse 2和nuScenes運動預測數據集上,對我們的方法與最先進的方法進行了全面的比較。為簡潔起見,我們將我們的方法簡稱為FiM(Foresight in Motion)。

Argoverse 1。表1展示了在Argoverse 1測試集上的定量結果。我們將我們的FiM與在此具有挑戰性的基準上評估的幾個代表性已發表方法進行了比較。根據單模型結果(上半部分),FiM相較于強大的基線方法(包括直接軌跡預測模型如HiVT和SceneTransformer,以及基于目標的模型如DSP和DenseTNT)都取得了極具競爭力的性能。FiM在Brier分數、brier-minFDE6和MR6方面表現尤為出色,突顯了其強大的預測能力。

圖片

我們還應用了模型集成技術來進一步提升整體性能。集成結果(下半部分)顯示出顯著的性能提升,表明了我們所提出框架的巨大潛力和上限能力。與HPNet和Wayformer等其他領先的已發表方法相比,FiM在各項評估指標上均保持了有競爭力的性能,尤其是在Brier分數上表現突出。這一結果強調了我們通過推理增強的預測器能夠有效地生成更可靠、更自信的預測。

Argoverse 2。為了進一步驗證我們意圖推理策略的有效性,我們基于Argoverse 2的驗證集構建了一個定制的評估基準。具體來說,任務要求預測前30個未來位置,而在訓練期間,模型可以將后續的30個位置專門用作輔助的意圖監督信號。值得注意的是,所有模型在訓練軌跡生成時,其監督信號都嚴格限定在前30個未來位置。這種設置模擬了實際應用中長期路徑可用于意圖學習的場景。鑒于我們提出的QIRL模塊對監督格式(無論是軌跡還是路徑)是無感的,我們開發了三個模型變體,它們在GRT訓練中引入了不同時間范圍的未來監督。這些變體分別記為GRT-S、GRT-M和GRT-L,對應的推理模塊分別使用30、45和60個未來時間戳進行訓練。

我們將我們的FiM與Argoverse 2排行榜上表現最好的兩個開源模型DeMo和QCNet進行了比較。如表2所示,所有FiM變體都超越了這兩個強大的基線模型,證明了意圖推理模塊帶來的顯著增益。此外,結果進一步表明,更長期的意圖監督能顯著增強預測置信度,從而促進更可靠的軌跡預測。

圖片

nuScenes。我們還在nuScenes數據集上評估了FiM,結果如表3所示。我們的模型在此預測基準上表現出頂級性能,超越了排行榜上所有當前的條目,進一步驗證了我們所提出框架在應對復雜運動預測挑戰方面的魯棒性和先進能力。?

消融實驗

我們在Argoverse驗證集上進行了深入的消融研究,以評估我們方法中關鍵組件的有效性,所有實驗設置保持一致以確保公平比較。

獎勵啟發式的效果(Effects of Reward Heuristics)。我們首先通過從流程中移除推理分支來檢驗獎勵驅動意圖推理器的有效性。如表4所示,與我們的完整模型相比,基礎架構(Vanilla)的性能顯著下降,這突顯了推理過程對整體性能的關鍵貢獻。此外,我們通過用交叉注意力塊替換QIRL模塊來探究其特定影響。表4的結果顯示,我們的QIRL模塊遠優于這種替代方案,證明了QIRL能夠有效收集關鍵的意圖先驗,并為后續的運動預測提供有益的指導。

圖片

OGM與優化模塊的效果(Effects of the OGM & Refinement)。我們進一步通過分別消融輔助的時空占用網格圖(S-T OGM)模塊和優化模塊來評估其影響,如表5所示。這兩個模塊都對最終性能做出了顯著貢獻。特別是,OGM帶來的性能提升證實了建模未來交互能夠增強預測質量,突顯了意圖推理對于改進軌跡預測的重要性。

圖片

Mamba解碼器組件的效果(Effects of Components in Mamba-Based Decoder)。我們對各種解碼器組件進行了消融分析,以檢驗Mamba-like結構相對于傳統方法的優勢。此分析有助于確定該設計是否為軌跡解碼帶來了有意義的特征提取增強,還是構成了過度設計。表6的結果突顯了這一設計的優勢。與使用MLP作為回歸和分類頭相比,Bi-Mamba架構和不同模態間的自注意力機制都顯著提升了預測性能和置信度。此外,我們研究了為分類提出的雙模態token的效果,并將其與一個使用單個模態token來聚合軌跡查詢特征的單向Mamba模型進行比較。如表7所示,Bi-Mamba模型表現更優,得益于其前向-后向掃描機制,該機制能有效地將軌跡特征融合到兩個分類(CLS)token中,驗證了該設計的好處。我們還考察了不同Mamba層數深度的影響,如表8所示。結果表明,更深的層數可能會引入不必要的計算開銷,并且由于過擬合也可能導致性能下降,這凸顯了選擇最優層數配置以實現強大性能的重要性。?

定性結果

我們在Argoverse驗證集的多種交通場景中展示了我們所提出方法的可視化結果,如圖4所示。這些定性結果強調了我們的模型在各種條件下(包括復雜路口和長距離預測場景)生成準確、可行且多模態的未來軌跡的強大能力,這些軌跡與場景布局保持了良好的對齊。

圖片

結論

在本研究中,我們從規劃的視角重新構想了軌跡預測任務,并提出了一種“先推理,后預測”的策略。我們提出了一種新穎且可解釋的獎勵驅動意圖推理器,該推理器設計于一個以查詢為中心的逆強化學習(QIRL)框架之內。該框架通過以查詢為中心的流程,將最大熵逆強化學習(MaxEnt IRL)范式與向量化上下文表示相結合,從而為后續的軌跡生成有效地提供了信息豐富的意圖先驗。

此外,我們引入了一種集成了雙向選擇性狀態空間模型(Bi-Mamba)的分層DETR-like軌跡解碼器。該解碼器能夠捕捉軌跡狀態的序列依賴關系,顯著提升了預測的準確性和置信度。實驗結果表明,我們的推理增強型預測器具備強大的能力,能夠生成與場景布局高度吻合的、自信且可靠的未來軌跡,并在性能上達到了與現有最先進模型相當甚至更優的水平。此外,我們的工作強調了意圖推理在運動預測中的關鍵作用,證實了強化學習(RL)范式在建模駕駛行為方面的可行性,并為未來在軌跡預測領域的研究建立了一個極具前景的基線模型。

#CRUISE

清華等提出:用高斯潑濺打造可編輯的V2X數字孿生世界

車路協同(V2X)是實現高級別自動駕駛的關鍵技術,它通過車輛與路側基礎設施的通信,為車輛提供超越自身傳感范圍的“上帝視角”。然而,如何高效地生成海量的、多樣化的、且包含車路協同視角的仿真數據,以訓練和測試自動駕駛算法,一直是該領域的一大挑戰。

近日,一篇被機器人頂會IROS 2025接收的論文《CRUISE: Cooperative Reconstruction and Editing in V2X Scenarios using Gaussian Splatting》為此提供了一個強大的解決方案。該研究由清華大學、北京理工大學、南洋理工大學、中國人民大學、北京工業大學、百度、北京大學、上海人工智能實驗室、西湖大學、北京智源人工智能研究院等眾多頂尖機構聯合完成。他們提出了一個名為CRUISE的綜合性框架,首次利用分解式高斯潑濺(decomposed Gaussian Splatting)技術,不僅能高保真地重建真實世界的V2X場景,還能對其進行靈活的編輯和增強,為V2X感知算法的開發打開了新思路。

  • 論文標題:?CRUISE: Cooperative Reconstruction and Editing in V2X Scenarios using Gaussian Splatting
  • 作者團隊:?Haoran Xu, Saining Zhang, Peishuo Li, Baijun Ye, Xiaoxue Chen, Huan-ang Gao, Jv Zheng, Xiaowei Song, Ziqiao Peng, Run Miao, Jinrang Jia, Yifeng Shi, Guangqi Yi, Hang Zhao, Hao Tang, Hongyang Li, Kaicheng Yu, Hao Zhao
  • 所屬機構:?清華大學、北京理工大學、南洋理工大學、中國人民大學、北京工業大學、百度、北京大學、上海人工智能實驗室、西湖大學、北京智源人工智能研究院
  • 論文地址:???https://arxiv.org/pdf/2507.18473v1??
  • 項目地址:???https://github.com/SainingZhang/CRUISE??
  • 錄用會議:?IROS 2025

研究背景與意義

高質量的數據是驅動自動駕駛技術發展的燃料。尤其是在V2X場景中,算法需要同時處理來自車輛自身(ego-vehicle)和路側單元(infrastructure)的多種數據,這對數據的規模和多樣性提出了極高的要求。傳統的仿真方法或者數據采集方式,在生成可編輯、高保真且視角協同的V2X數據方面存在諸多局限。

CRUISE框架的提出,旨在填補這一空白。它不僅僅是一個場景重建工具,更是一個功能強大的“世界編輯器”和“數據生成器”,能夠以極高的效率和靈活性,為V2X研究創造近乎無限的可能。

圖片

如上圖所示,編輯后的重建場景可同時從主車與路側視角渲染,生成高保真V2X數據集以供下游任務使用。

核心方法:CRUISE框架

CRUISE的核心工作流可以分為重建、編輯和生成三個主要階段。

圖片

CRUISE工作流詳解

1. 分解式高斯潑濺重建 (Decomposed Gaussian Splatting Reconstruction)

CRUISE的基石是近年來在三維重建領域大放異彩的高斯潑濺(Gaussian Splatting, GS)技術。但與標準的GS不同,CRUISE采用一種分解式的策略。它將動態的交通參與者(如車輛)從靜態的背景(如道路、建筑)中分離出來,用各自獨立的高斯模型來表示。

這種分解的好處是巨大的:它使得場景中的每一個動態元素都成為了一個獨立的、可編輯的“資產(asset)”,為后續的場景編輯和合成奠定了基礎。

2. GPT-4o驅動的場景編輯 (Scene Editing Powered by GPT-4o)

這是CRUISE最令人興奮的功能之一。在重建出可分解的場景后,用戶可以像玩游戲一樣編輯這個數字孿生世界。

圖片

場景編輯流程:利用GPT-4o生成新軌跡,并將車輛高斯資產置入場景

具體流程是:

  • 建立車輛資產庫:?首先,從網絡或其他數據源收集車輛的多視圖圖像,生成一系列3D高斯車輛資產。
  • 生成新軌跡:?將場景的矢量地圖、自車軌跡等信息輸入到GPT-4o中,讓大語言模型根據交通規則和場景邏輯,生成新的、合理的車輛行駛軌跡。
  • 無縫植入:?將車輛資產按照新生成的軌跡,無縫地放置到重建好的靜態背景場景中。

通過這種方式,研究者可以輕松地增加交通流密度,或者創造出真實世界中難以采集到的、危險的極端情況(corner cases),如車輛突然切入、鬼探頭等。

圖片

利用CRUISE生成具有挑戰性的車輛遮擋corner case

3. V2X數據合成與增強 (V2X Data Synthesis and Augmentation)

完成場景編輯后,CRUISE可以從任意視角渲染出照片級的圖像,并自動生成對應的3D檢測框、跟蹤軌跡等標注信息。至關重要的是,它可以同時渲染自車視角和路側單元視角的圖像,生成大規模、成對的V2X數據集。

圖片

由CRUISE生成的協同數據:上排為路側視角,下排為對應的自車視角

實驗結果與分析

實驗結果有力地證明了CRUISE的有效性。

首先,在重建質量上,CRUISE能夠高保真地還原真實世界的V2X駕駛場景。

其次,也是最重要的,使用CRUISE生成的數據進行模型訓練,能夠顯著提升下游3D感知任務的性能。在V2X-Seq基準上,無論是僅使用自車數據、路側數據,還是進行協同感知,3D檢測和跟蹤的精度都得到了明顯提高。

V2X-SEQ重建結果

V2X-SEQ重建結果

V2X-SEQ車輛視圖三維檢測的定量結果

V2X-SEQ車輛視圖三維檢測的定量結果

V2X-SEQ基礎設施視圖三維檢測的定量結果

V2X-SEQ基礎設施視圖三維檢測的定量結果

V2X-SEQ協同視圖三維檢測/跟蹤的定量結果

V2X-SEQ協同視圖三維檢測/跟蹤的定量結果

定性結果也同樣令人信服,經過增強數據訓練的模型,能夠更準確、更魯棒地檢測出場景中的車輛。

V2X-Seq數據集協同3D檢測定性結果

V2X-Seq數據集協同3D檢測定性結果

結果表明,采用增強數據訓練可提升檢測精度與車輛識別能力。

論文貢獻與價值

CRUISE的問世,為V2X自動駕駛研究帶來了多方面的深遠價值:

  1. 范式革新:首次為V2X場景提供了一個集高保真重建、靈活編輯和大規模數據合成于一體的綜合性框架。
  2. 技術突破:?巧妙地運用分解式高斯潑濺和大型語言模型,實現了對動態交通場景的精細化、語義化編輯。
  3. 解決數據瓶頸:?提供了一條高效、低成本的數據增強途徑,尤其是在生成稀有但至關重要的corner case方面,具有不可替代的優勢。
  4. 推動算法發展:?生成的高質量協同數據集將極大地推動V2X感知、預測和規劃算法的進步。
  5. 開源社區:項目代碼已經開源,將賦能更多研究者和開發者,共同探索V2X技術的未來。

總而言之,CRUISE不僅僅是一項技術創新,它更像是一個為自動駕駛研究者打造的“V2X元宇宙”引擎,讓探索更安全、更智能的自動駕駛系統變得前所未有的高效和便捷。

#自駕場景重建色彩渲染和幾何渲染

OmniRe全新升級

在自動駕駛場景的三維重建中,神經渲染技術(如高斯濺射)正扮演日益重要的角色。然而,真實世界中光照、相機參數和視角的不斷變化,導致了圖像間的“色彩不一致性”,這嚴重挑戰了重建的真實感與幾何精度。為解決此問題,作者們提出了一個創新的多尺度雙邊網格框架。該框架巧妙地統一了外觀編碼(Appearance Codes)和雙邊網格(Bilateral Grids),實現了對駕駛場景中復雜光影變化的精確建模,從而顯著提升了動態場景重建的幾何精度和視覺真實感。

  • 論文鏈接:https://arxiv.org/abs/2506.05280
  • 代碼倉庫(Github):https://github.com/BigCiLeng/bilateral-driving
  • 項目主頁:https://bigcileng.github.io/bilateral-driving/

圖片

圖注:(a)外觀編碼進行全局變換,但建模能力有限。(b)雙邊網格支持像素級變換,能提升色彩一致性,但優化難度大。(c)本文提出的多尺度雙邊網格統一了前兩者,實現了高效且強大的區塊級變換。?

動機:

憑借其高真實感的重建能力,神經渲染技術對于自動駕駛系統的開發與測試至關重要。然而,這些技術高度依賴于多視角圖像間的色彩一致性(photometric consistency)。在復雜的真實駕駛場景中,光照條件、天氣變化以及不同攝像頭的內在參數差異,都會引入顯著的色彩不一致,導致重建出錯誤的幾何(如“浮空片”偽影)和失真的紋理。

現有的解決方案主要分為兩類:

  1. 外觀編碼(Appearance Codes):該方法為每張圖學習一個全局編碼來校正色彩,但它只能進行整體調整,無法處理場景內的局部光影變化(如物體投下的陰影)。
  2. 雙邊網格(Bilateral Grids):該方法能夠實現像素級的精細色彩調整,更靈活。但其優化過程非常復雜,在大型場景中容易出現不穩定、效果不佳等問題。

為了克服上述方法的局限性,本文提出了一個能同時擁有兩者優點的全新框架。

核心貢獻:

  1. 本文提出了一個新穎的多尺度雙邊網格(multi-scale bilateral grid),它無縫統一了全局的外觀編碼和局部的雙邊網格,能夠根據尺度變化自適應地進行從粗到細的色彩校正。
  2. 通過有效解決色彩不一致性問題,本文的方法顯著提升了動態駕駛場景重建的幾何精度,有效抑制了“浮空片”等偽影,使重建結果更可靠。
  3. 本文在Waymo、NuScenes、Argoverse和PandaSet等四個主流自動駕駛數據集上進行了廣泛的基準測試,結果表明本文的方法在各項指標上均優于現有方案。
  4. 本文的方法具有良好的通用性和兼容性。將其集成到現有的SOTA模型(如ChatSim、StreetGS)中,能一致地帶來顯著的性能提升

圖片

方法簡述

為解決真實駕駛場景中復雜的光度不一致性(photometric inconsistency),本文提出了一種新穎、高效的真實感渲染管線。該管線的核心是一個精心設計的多尺度雙邊網格(Multi-Scale Bilateral Grid),它巧妙地將全局調整與局部細節增強相結合,實現了對渲染圖像由粗到細的層次化色彩校正。

圖片

整個流程可以分解為以下幾個關鍵步驟:

1)場景表示與初始渲染
首先,我們采用高斯濺射(Gaussian Splatting)技術對復雜的駕駛場景進行建模。參考最新的重建方法,場景被分解為一個混合場景圖(hybrid scene graph),包含獨立建模的天空、靜態背景和動態物體(如車輛、行人)。通過對這個場景圖進行渲染,我們得到一幅初步的圖像。這幅圖像雖然在幾何上是準確的,但由于多攝像頭、多光照環境的影響,通常帶有明顯的光度不一致問題,為后續的校正提供了輸入。

2)多尺度雙邊網格校正
初步渲染的圖像將被送入一個層次化的多尺度雙邊網格中進行處理,最終輸出一幅色彩一致、觀感真實的高質量圖像。該過程具體如下:

  1. 亮度引導(Guidance Map):校正的第一步是根據輸入的渲染圖像生成一張單通道的亮度圖(luminance-based guidance map)。這張圖編碼了場景中的光照分布(如陰影和高光),它將作為“向導”,指導后續網格在不同空間位置應用恰當的色彩變換。
  2. 層次化網格結構(Hierarchical Grid Structure):我們的框架包含一個由三個不同尺度的雙邊網格組成的“金字塔”:
    a. 粗糙層(Coarse Grid):一個極小的網格(例如2×2×1×12),負責捕捉并校正場景級的整體光照和色調偏差。它的作用類似于一個全局的外觀編碼(Appearance Code),進行區塊級(Patch-wise)的初步調整。
    b. 中間層(Intermediate Grid):一個中等尺寸的網格(例如4×4×2×12),在前一層的基礎上,進一步處理區域性的光影變化,例如大塊的陰影或光斑。
    c. 精細層(Fine Grid):一個尺寸較大的網格(例如8×8×4×12),進行像素級的精細微調,精確恢復物體的局部細節和材質。它的行為逼近于傳統的雙邊網格,但優化過程更穩定。每個網格張量的最后一個維度為12,代表一個3x4的仿射顏色變換矩陣(affine color transformation matrix),用于執行色彩變換。

對于圖像中的每個像素,我們通過“切片”(Slice)操作從每個層級的網格中提取一個局部的仿射變換矩陣?。該過程通過三線性插值實現,確保了變換的平滑性:

  1. 由粗到細的融合校正(Coarse-to-Fine Fusion):我們的框架并非孤立地使用這三個網格,而是通過一種函數式復合(hierarchical function composition)的方式將它們串聯起來。具體來說,亮度圖會引導粗糙層網格先對圖像進行全局校正;然后,其輸出結果將作為中間層網格的輸入,進行區域性修正;最后,再由精細層網格進行最終的局部細節完善:

這種逐級傳遞、殘差式優化的策略,使得模型能夠靈活且穩定地統一兩種主流方法的優點,從而還原出色彩一致、幾何精確的高質量3D場景。

3)優化策略與真實世界適應性

為了確保模型訓練的穩定高效及其在真實世界中的應用效果,我們設計了專門的優化和渲染策略。

  1. 訓練策略: 我們采用由粗到細的優化策略,為粗糙層網格分配較高的學習率,為精細層網格分配較低的學習率。這確保了模型首先學習全局的色彩基調,再逐步優化局部細節,增強了訓練的穩定性。
  2. 優化目標:復合損失函數

為了穩定地訓練整個模型,我們設計了一個復合損失函數,它不僅要求重建結果在外觀和幾何上與真值對齊,還引入了正則化項來保證學習到的色彩變換是平滑且合理的。總損失函數定義為:

λλλ

其中是核心的重建損失,結合了L1損失和結構相似性指數,共同衡量渲染圖像與真值圖像之間的差異;幾何損失計算渲染深度圖與激光雷達(LiDAR)提供的真實深度數據之間的損失,以保證幾何形狀的準確性;而和是為了提升圖像質量和模型魯棒性引入的正則化項。循環正則化損失() 鼓勵學到的色彩變換是可逆的,從而有效約束了變換空間,防止產生偽影,保證了高質量的視覺效果:

而自適應總變分正則化()懲罰網格內部特征的劇烈變化, 使我們多尺度網格學習到的顏色變換更加平滑,并減少噪聲偽影。

  1. 動態渲染與ISP適配: 自動駕駛系統在真實世界中會遇到動態變化的圖像信號處理器(ISP)參數。為了適配這種變化,在渲染新視角圖像時,我們提出了一種動態插值策略。對于一個新時間戳的圖像,我們首先找到temporally closest的兩個訓練時間戳t1和t2。然后,對兩者的粗糙和中等尺度網格進行線性插值,生成用于新圖像渲染的網格,使得我們的模型能夠有效適應真實世界動態變化的相機特性,顯著增強了方法的實用性和魯棒性。?

實驗結果

本文在Waymo、NuScenes、Argoverse和PandaSet這四個大規模自動駕駛數據集上對所提出的框架進行了全面評估。實驗結果在定量和定性上都雄辯地證明了方法的先進性。

(1)定量評估:幾何與外觀的同時改進

在定量分析中,本文的方法在衡量三維幾何形狀準確性的幾何度量和衡量渲染圖像真實感的外觀度量上,均取得了業界領先的成果。

幾何精度顯著提升:幾何精度對于自動駕駛的安全至關重要。實驗表明,本文的方法在所有測試數據集上都穩定地優于所有基線模型。以最關鍵的幾何誤差指標之一——倒角距離(Chamfer Distance, CD)為例,在Waymo數據集上,基線模型的CD為1.378,而本文的方法將其大幅降低至0.989,精度提升顯著。這一優勢得益于本文的模型能有效處理由色彩不一致性引起的“浮空片”(floater)等偽影。

圖片

圖注:在Waymo、NuScenes等四個極具挑戰性的主流數據集上,將本文的方法(Ours)與三種基線方法(包含單獨使用外觀編碼或雙邊網格的方案)進行了全面對比。評估指標覆蓋了幾何精度(CD、RMSE)和外觀真實感(PSNR、SSIM)。表格數據清晰顯示,本文的方法在幾乎所有數據集的所有指標上都取得了最佳成績。以幾何精度為例,在Waymo數據集上,本文的倒角距離(CD)僅為0.989,遠低于基線模型的1.378。這證明了本文的方法在生成高精度三維模型方面的卓越能力。

外觀真實感刷新SOTA:在外觀保真度上,本文的方法在PSNR(峰值信噪比)和SSIM(結構相似性)指標上同樣表現出色,在所有數據集的全圖像重建中均取得了最高分。特別是在處理場景中的動態物體時,優勢更為明顯。例如,在NuScenes數據集上,針對“車輛”類別的渲染,模型的PSNR達到了27.31,超越了基線模型的最佳結果26.52。

對現有SOTA模型的增強能力:為了驗證方法的通用性,本文將其核心模塊集成到了兩種先進的基線方法ChatSim和StreetGS中。結果顯示,本文的方法能作為即插即用的增強模塊,帶來巨大提升。例如,它將ChatSim的重建PSNR從25.10提升至27.04;同時將StreetGS的重建PSNR從25.74提升至27.90,并將其幾何誤差(CD)從1.604降低到1.272。

圖片

圖注:驗證了本文方法的通用性和即插即用的價值。將核心模塊集成到ChatSim和StreetGS這兩個先進模型后,它們的性能均獲得巨大提升。例如,StreetGS的重建PSNR從25.74提升至27.90,同時幾何誤差(CD)從1.604大幅降低至1.272。

(2)定性評估:無懼復雜真實場景

定性對比結果更直觀地展示了本文方法的魯棒性。

下圖提供了直觀的視覺對比,展示了本文的方法在處理真實世界復雜情況時的魯棒性。通過對比真實圖像(Ground Truth)、我們的結果(Baseline + Ours)和基線結果(Baseline),可以觀察到:

  • 有效抑制視覺偽影:如下圖所示,與依賴單一外觀編碼或雙邊網格的基線方法相比,本文的統一框架能生成更清晰、更完整的幾何結構。它能有效減少由光影突變導致的幾何錯誤,并顯著抑制“漂浮物”偽影,使得重建的場景更加干凈、真實。
  • 駕馭多樣化挑戰:真實駕駛場景充滿了挑戰。本文的方法被證實能夠穩健地處理各種極端情況,包括:
  • 物體表面的高光反射(Specular highlights)
  • 快速移動車輛造成的運動模糊(Motion Blur)-夜晚或隧道中的低光照環境(Low-Light)
  • 由遮擋或視角限制導致的不完整幾何(Incomplete Geometry)

在這些困難的場景下,基線方法往往會出現明顯的失真、偽影或模型坍塌,而本文的方法則能保持高質量和高穩定性的輸出。

圖片

圖注:通過視覺對比,展示了本文的方法在處理真實世界復雜情況時的魯棒性。通過對比真實圖像(Ground Truth)、我們的結果(Baseline + Ours)和基線結果(Baseline),可以觀察到:(a)高光區域:基線方法在車身反光處出現過曝和細節丟失,而本文的方法能有效抑制高光,還原出下方紋理。(b)運動模糊:本文的方法能生成比基線更清晰的動態物體邊緣,有效減輕運動模糊帶來的影響。(c)和(d)不完整幾何與偽影:基線方法在重建遠處或被遮擋的物體時,容易產生不完整的、破碎的幾何結構,而本文的方法能生成更連貫、更完整的場景。(e)低光照:在光線不足的場景下,本文的方法能更好地提亮暗部細節,同時避免噪點,還原出更真實的夜間場景。

?,時長00:04

圖片

圖片

下圖則更進一步,直觀地證明了本文方法在幾何精度上的優越性。圖中用顏色標示了幾何重建與真實激光雷達數據之間的誤差,黃色代表高誤差,紫色代表低誤差。可以清晰地看到,無論是對比(a)外觀編碼還是(b)單尺度雙邊網格,(c)本文的方法所生成的場景中黃色區域都顯著減少,表明其重建的幾何模型與真實世界更為貼合,有效減少了“浮空片”(floaters)等錯誤。

圖片

下圖則深入剖析了本文的方法為何有效。它通過直方圖的形式,可視化了不同方法所“學習”到的色彩校正策略。

  1. 下排(Bilateral Grid):代表傳統的單尺度雙邊網格。可以觀察到,其學習到的變換分布通常呈現出兩個尖銳的峰值(即“雙峰分布”)。這表明它只學會了少數幾種固定的、缺乏彈性的校正模式,難以適應真實世界中多樣化的光照變化。
  2. 上三排(Multi-scale Bilateral Grid):代表本文的多尺度方法。其最終聚合后的變換分布直方圖(最右側疊加圖)顯得平滑和分散。這證明本文的方法學習到了一個極其豐富和多樣化的色彩變換集合,能夠從全局、區域到像素級別進行平滑過渡和精細調整。正是這種強大的適應性和表示能力,使其能夠在各種復雜場景中取得魯棒的、高質量的渲染結果。

圖片

#CoopTrack

清華提出:端到端協同跟蹤新方案

協同感知旨在通過多智能體間的信息交換來克服單智能體自動駕駛系統的固有局限。以往研究主要集中在單幀感知任務上,而更具挑戰性的協同序列感知任務(如協同3D多目標跟蹤)尚未得到充分探索。為此,清華、香港理工等團隊提出了CoopTrack,一個全新的、面向實例級別的端到端協同跟蹤框架。該框架的核心特點是可學習的實例關聯 (learnable instance association),這使其與現有方法有根本區別。CoopTrack 傳輸稀疏的實例級特征,在顯著提升感知能力的同時,保持了較低的通信開銷。該框架包含兩個關鍵組件:多維特征提取 (Multi-Dimensional Feature Extraction, MDFE)?和 跨智能體關聯與聚合 (Cross-Agent Association and Aggregation)。前者能夠結合語義和運動特征,實現全面的實例表征;后者則基于特征圖,實現自適應的跨智能體關聯與融合。在 V2X-Seq 和 Griffin 數據集上的實驗表明,CoopTrack 取得了卓越的性能,特別是在 V2X-Seq 上達到了 SOTA 水平,mAP 和 AMOTA 分別達到 39.0% 和 32.8%。

論文鏈接:https://arxiv.org/abs/2507.19239

圖片

核心創新點 (Innovations)

  1. 全新的端到端框架:提出了首個面向協同3D多目標跟蹤(3D MOT)的全實例級端到端框架 CoopTrack,將協同感知與序列跟蹤任務統一建模,避免了傳統“檢測后跟蹤”(tracking-by-cooperative-detection)范式中的信息割裂問題。
  2. 可學習的實例關聯模塊:摒棄了依賴于參考點歐氏距離等先驗規則的關聯方法,引入了基于圖注意力機制的可學習關聯模塊(Graph-Based Association, GBA)。該模塊通過學習跨智能體實例特征間的相似性來生成親和力矩陣,實現了更魯棒、自適應的關聯。
  3. 新穎的“解碼后融合” (Fusion-After-Decoding) 管道:與主流的“融合前解碼”或“融合后解碼”不同,CoopTrack 采用“先解碼,后關聯,再融合”的新范式。具體流程為:各智能體先獨立解碼生成初步的查詢(queries),然后通過可學習模塊進行跨智能體關聯,最后對齊并聚合特征。這種設計避免了在特征融合階段引入的歧義和沖突。
  4. 多維特征提取 (MDFE):設計了 MDFE 模塊,將實例表征解耦為語義特征 (Semantic Features)?和**運動特征 (Motion Features)**。語義特征由查詢特征通過MLP提取;運動特征通過PointNet從3D邊界框的角點坐標中提取。這種解耦并結合時序Transformer塊進行增強的特征,為后續的精確關聯提供了更全面的信息。

圖片

算法核心概述

圖片

CoopTrack 的核心流程如下:

  1. 多維特征提取 (MDFE):
  • 每個智能體(車輛和路側單元)在時間戳??時,利用其圖像特征??和查詢?,通過Transformer解碼器生成粗略的3D框和更新的查詢。
  • 從更新的查詢??中,使用MLP提取語義特征
  • 從粗略3D框的8個角點??中,計算每個角點相對于中心的相對坐標,經扁平化后輸入PointNet網絡,提取運動特征
  • 將??和??與歷史特征(?到?)通過一個時序Transformer塊進行交互,以增強時序感知。
  1. 跨智能體對齊 (Cross-Agent Alignment, CAA):
  • 為了解決不同智能體間因傳感器、視角和空間位置差異導致的特征域鴻溝,引入CAA模塊。
  • 該模塊將顯式空間變換(旋轉??和平移?)映射為隱空間的線性變換,即學習一個隱旋轉矩陣??和隱平移向量?。其變換公式為:
  • 其中??是路側單元的運動特征,?是對齊后的特征,?是其3D參考點。

  1. 圖注意力關聯 (Graph-Based Association, GBA):
  • 構建一個全連接的關聯圖?,節點??和??由對齊后的多維特征和參考點通過MLP生成。
  • 邊特征??由所有車輛-路側節點對之間的參考點距離??通過MLP生成。
  • 使用圖注意力機制計算親和力矩陣?:
  • 其中??是可學習的投影權重。
  • 通過一個FFN和Sigmoid函數,將??映射為最終的親和力矩陣,其元素??表示第??個車輛實例與第??個路側實例的匹配相似度。

  1. 特征聚合與解碼
  • 使用匈牙利算法(Hungarian algorithm)根據成本矩陣??獲得最優匹配對。
  • 根據匹配結果,將對齊后的特征??進行聚合,得到融合后的特征?。
  • 使用兩個FFN分別從運動特征??解碼出物體的位置、尺寸和運動狀態,從語義特征??解碼出類別,形成最終輸出。
  • 選擇活躍實例,將其語義特征作為下一幀??的查詢特征,并基于恒定速度假設預測其參考點,實現跨幀的連續跟蹤。

主要實驗結果

圖片

圖片

圖片

圖片

圖片

圖片

#xxx

#xxx

#xxx

#xxx

#xxx

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/90960.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/90960.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/90960.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

時間長了忘記jupyter的環境是哪個了

有這些但是忘記是哪個了jupyter kernelspec list查看內核路徑,這個內核是用來告訴jupyter 去哪找內核配置的到這個路徑下打開json文件查看使用的python環境從而確定是哪個conda環境為jupyter使用的python環境jupyter的工作原理:在創建conda環境后會安裝j…

PYTHON從入門到實踐-15數據可視化

數據可視化是數據分析中不可或缺的一環,它能夠將抽象的數據轉化為直觀的圖形,幫助我們更好地理解數據特征和發現潛在規律。本文將介紹如何使用Python中的Matplotlib和Plotly庫進行數據可視化,并通過擲骰子的概率模擬案例展示可視化的實際應用…

Spring IOC 容器 **默認注冊 Bean** 的 8 條規則

Spring IOC 容器 默認注冊 Bean 的 8 條規則 (Spring Framework 6.x 源碼級總結)閱讀提示:把下面 8 條規則背下來,再讀 Spring 源碼時,你會在任何一行代碼里立刻知道「這個 BeanDefinition 是從哪兒來的」。1?? 環境…

29.【.NET8 實戰--孢子記賬--從單體到微服務--轉向微服務】--單體轉微服務--用戶配置服務

用戶配置服務是孢子記賬中最簡單的部分。簡單說,用戶配置服務就是用戶自定義的配置項存儲服務,用于我們的APP根據用戶的配置實現指定的功能。它提供了一個簡單的接口,允許用戶存儲和檢索他們的配置數據。就目前來說,用戶配置只有一…

Python實現PDF按頁分割:靈活拆分文檔的技術指南

Python實現PDF按頁分割:靈活拆分文檔的技術指南 PDF文件處理是日常工作中的常見需求,特別是當我們需要將大型PDF文檔拆分為多個部分時。本文將介紹如何使用Python創建一個靈活的PDF分割工具,能夠根據用戶指定的頁數范圍任意分割文檔。 需求分…

「iOS」——GCD其他方法詳解

GCD學習GCD其他方法dispatch_semaphore (信號量)**什么是信號量**dispatch_semaphore主要作用dispatch_semaphore主要作用異步轉同步設置一個最大開辟的線程數加鎖機制dispatch_time_t 兩種形式GCD一次性代碼(只執行一次)dispatch_barrier_async/sync柵欄…

【圖像處理基石】如何實現一個車輛檢測算法?

基于AI的車牌檢測和識別算法 問題描述、應用場景與難點 問題描述 車牌檢測和識別是計算機視覺領域的一個特定任務,主要包含兩個核心步驟: 車牌檢測:從圖像中準確定位車牌的位置和區域車牌識別:對檢測到的車牌區域進行字符識別&…

計算機學報 2025年 區塊鏈論文 錄用匯總 附pdf下載

計算機學報 Year:2025 2024請看 1 Title: 基于區塊鏈的動態多云多副本數據完整性審計方法研究 Authors: Key words: 區塊鏈;云存儲;多云多副本存儲;數據完整性審計 Abstract: 隨著云計算技術的快速發展和云存儲服務的日益…

計算機網絡-UDP協議

UDP(用戶數據報協議)是傳輸層的一種無連接、不可靠、輕量級的協議,適用于對實時性要求高、能容忍少量數據丟失的場景(如視頻流、DNS查詢等)。以下是UDP的詳細解析:1. UDP的核心特點特性說明無連接通信前無需…

子域名收集和c段查詢

子域名收集方法一、sitesite: 要查詢的域名可以查到相關網站二、oneforall (子域名查找工具)下載后解壓的文件夾在當前文件夾打開終端然后運行命令 python oneforall.py --target xxxxxxxx(這里放你要查的網址) run最…

計網-TCP擁塞控制

TCP的擁塞控制(Congestion Control)是核心機制之一,用于動態調整發送方的數據傳輸速率,避免網絡因過載而出現性能急劇下降(如丟包、延遲激增)。其核心思想是探測網絡可用帶寬,并在擁塞發生時主動…

依賴倒置原則 Dependency Inversion Principle - DIP

基本知識 1.依賴倒置原則(DIP)是面向對象設計(OOD)中的五個基本原則之一,通常被稱為 SOLID 原則中的 D 2.核心思想: 高層模塊不應該依賴低層模塊,兩者都應該依賴抽象。 (High-level modules sho…

原生input添加刪除圖標類似vue里面移入顯示刪除[jquery]

<input type"text" id"servicer-search" class"form-control" autocomplete"off" />上面是剛開始的input <div class"servicer-search-box"><input type"text" id"servicer-search" cla…

整理分享 | Photoshop 2025 (v26.5) 安裝記錄

導語&#xff1a; 最近整理資源時&#xff0c;發現有朋友在找新版 Photoshop。正好手邊有 Photoshop 2025年7月的版本&#xff08;v26.5&#xff09;&#xff0c;就記錄下來分享給大家&#xff0c;供有需要的朋友參考。關于這個版本&#xff1a;這個 Photoshop v26.5 安裝包&am…

【Redis】Redis 數據存儲原理和結構

一、Redis 存儲結構 1.1 KV結構 Redis 本質上是一個 Key-Value&#xff08;鍵值對&#xff0c;KV&#xff09;數據庫&#xff0c;在它豐富多樣的數據結構底層&#xff0c;都基于一種統一的鍵值對存儲結構來進行數據的管理和操作 Redis 使用一個全局的哈希表來管理所有的鍵值對…

【RAG優化】深度剖析OCR錯誤,從根源修復RAG應用的識別問題

1. 引言:OCR——RAG系統中的關鍵問題 當我們將一個包含掃描頁面的PDF或一張報告截圖扔給RAG系統時,我們期望它能“讀懂”里面的內容。這個“讀懂”的第一步,就是OCR。然而,OCR過程并非100%準確,它受到圖像質量、文字布局、字體、語言等多種因素的影響。 一個看似微不足道…

【第六節】方法與事件處理器

方法與事件處理器 方法處理器 可以用 v-on 指令監聽 DOM 事件: <div id="example"> <button v-on:click="greet">Greet</button></div>綁定一個單擊事件處理器到一個方法 greet 。下面在 Vue 實例中定義這個方法 var vm=new V…

大語言模型Claude 4簡介

Anthropic公司成立于2021年&#xff0c;由一群OpenAI前員工組成。他們最新發布的大語言模型(Large Language Model, LLM) Claude 4系列包括兩個版本&#xff1a;Claude Opus 4和Claude Sonnet 4&#xff1a;(1).Claude Sonnet 4&#xff1a;是Claude Sonnet 3.7的升級&#xff…

國產化PDF處理控件Spire.PDF教程:Python 將 PDF 轉換為 Markdown (含批量轉換示例)

PDF 是數字文檔管理的普遍格式&#xff0c;但其固定布局特性限制了在需要靈活編輯、更新或現代工作流集成場景下的應用。相比之下&#xff0c;Markdown&#xff08;.md&#xff09;語法輕量、易讀&#xff0c;非常適合網頁發布、文檔編寫和版本控制。 E-iceblue旗下Spire系列產…

PDF轉Markdown - Python 實現方案與代碼

PDF作為廣泛使用的文檔格式&#xff0c;轉換為輕量級標記語言Markdown后&#xff0c;可無縫集成到技術文檔、博客平臺和版本控制系統中&#xff0c;提高內容的可編輯性和可訪問性。本文將詳細介紹如何使用國產Spire.PDF for Python 庫將 PDF 文檔轉換為 Markdown 格式。 技術優…