51c自動駕駛~合集52

我自己的原文哦~? ??https://blog.51cto.com/whaosoft/13383340

#世界模型如何推演未來的千萬種可能

駕駛世界模型(DWM),專注于預測駕駛過程中的場景演變,已經成為追求自動駕駛的一種有前景的范式。這些方法使自動駕駛系統能夠更好地感知、理解和與動態駕駛環境互動。在這篇綜述中,我們提供了DWM最新進展的全面概述。我們根據預測場景的模式對現有方法進行分類,并總結了它們對自動駕駛的具體貢獻。此外,還回顧了高影響力的數據庫和針對DWM研究范圍內不同任務的各種指標。最后,我們討論了當前研究的潛在局限性并提出了未來方向。本綜述為DWM的發展和應用提供了寶貴的見解,促進了其在自動駕駛中的更廣泛應用。

  • ?倉庫鏈接:??https://github.com/LMD0311/Awesome-World-Model???

簡介

世界模型旨在基于過去的觀察和動作預測未來的觀察結果。在自動駕駛中,大視野和現實世界駕駛場景的高度動態特性帶來了獨特的挑戰。然而,駕駛世界模型(DWM)通過促進準確的場景演變預測,在應對復雜環境中發揮了關鍵作用。最近,由于其在確保安全可靠的自動駕駛方面的重要作用,DWM受到了越來越多的關注。

圖片

如圖1所示,DWM通常涉及預測場景演變,即根據歷史觀察生成未來場景。在此基礎上,大多數方法可以進一步控制場景演變以符合給定條件或輸出基于觀察和預測的響應。由于自動駕駛需要處理多種數據類型,DWM已經產生了預測不同模式場景的變體。一些方法利用2D圖像中的語義信息,而其他方法則學習3D點云或占用率中的空間幾何和精確動力學。此外,一些方法,我們系統地將其歸類為無場景范式,優先考慮潛在狀態或多智能體行為,而不是詳細場景。

實現自動駕駛的道路將面臨諸如高數據獲取成本、動態環境的復雜性以及管理罕見案例等挑戰。DWM可能通過改進未來狀態預測的規劃、用多樣化的合成數據豐富訓練數據集,以及通過可擴展的預訓練增強下游任務,為這些問題提供實用的解決方案。這些發展突顯了DWM在該領域的多功能性和有效性。

本文全面調查了相關工作。具體而言,本文的貢獻可以總結如下:

  • 我們全面回顧了DWM的最新進展,按預測場景的模式對方法進行分類,并概述了DWM在自動駕駛中的應用。
  • 我們對當前的局限性進行了批判性分析,并概述了有前景的未來研究方向,為研究社區提供了寶貴的見解,并促進了DWM的持續發展。

我們注意到,最近出現了與DWM相關的綜述,其中一些主要關注通用世界模型,而其余的未能提供DWM應用的詳細分類。相比之下,本文不僅介紹了近期方法的系統分類,還提供了DWM多樣化應用的全面總結,旨在理解當前進展并探索未來方向。

駕駛世界模型

駕駛世界模型(Driving World Models, DWM)所預測的場景涵蓋多種模態,包括圖像、點云和占據柵格(occupancy),這既帶來了獨特優勢,也帶來了挑戰。最近的進展越來越側重于利用互補的多傳感器數據,以發揮各個模態的優勢,同時減輕其固有局限性。此外,無場景范式(scene-free paradigms)探索在潛在空間內進行預測,或專注于對復雜的多智能體交互進行建模。表1概述了近期的方法。本節從各種預測模態的角度介紹DWM的最新進展。

圖片

2D場景演化

駕駛世界模型(DWM)利用先進的生成技術(如自回歸Transformer和擴散模型)來預測真實的二維場景演化,同時確保符合物理規律。

GAIA-1率先將場景演化預測表述為下一個標記預測任務,并使用擴散解碼器,系統地捕捉駕駛場景中的時空動態和高級結構。相比之下,DriveDreamer推進了用于多模態控制的條件擴散框架,并將DWM范式擴展到合成數據生成。在這些基礎方法之上,后續的DWM研究主要集中在提高場景演化預測的保真度、一致性和可控性。

生成場景的保真度對于確保真實世界駕駛場景的物理合理模擬至關重要。Vista采用穩定的視頻擴散技術,并引入新穎的損失函數來捕捉動態行為,同時保持結構完整性,實現高分辨率和高保真度的場景生成。此外,它通過納入多個參考幀來確保動力學合理。

DWM預測的場景演化應準確反映三維世界,確保每個物體都有合理的三維位置和空間關系,同時整個場景表現出空間連續性。通過分解聯合建模,以相鄰視圖為條件預測中間視圖,Drive-WM顯著提高了視圖之間的一致性。此外,DrivePhysica引入3D框作為條件輸入,以增強對空間關系的理解,加強空間一致性,并改善對遮擋結構的理解。另一方面,WoVoGen預測明確的世界體(world volumes)以指導多視圖視頻生成,確保世界內和傳感器間的一致性。類似地,NeMo和GEM將三維預測任務納入其框架,而BEVWorld通過整合多傳感器數據輸入進一步拓展了這些工作。

時間一致性在使DWM能夠有效捕捉場景的演化動態方面起著關鍵作用。確保預測序列中幀之間的連貫過渡對于反映現實場景演化至關重要。最近的進展通過架構創新來應對這一挑戰。例如,InfinityDrive引入了一種多分辨率時空建模框架,在訓練過程中逐步擴大時間感受野。通過集成旨在保留長程時間依賴關系的記憶機制,這一方法得到了進一步增強。與此同時,DrivingWorld通過提出一系列技術,包括時間感知標記化、下一狀態預測、隨機標記丟棄和平衡注意力策略,解決了自回歸方法中的時間一致性問題。這些創新共同顯著提高了在動態場景理解中對時間一致性進行建模的能力。

一個合理的DWM在生成未來場景時應適應特定要求。如表1所示,控制條件大致分為兩類:1)低級條件,如動作(自車信息)、軌跡(坐標或位移)和布局(物體放置),為自車運動和物體定位設定精確規范。2)高級條件,如文本(指令或描述)和目的地(車輛到達位置),不僅要求實現指定目標,還需要創建邏輯中間步驟。一些工作有效地整合了低級或高級控制條件來生成未來場景,產生合理的輸出響應,如駕駛動作、未來軌跡和文本。其中,GEM平衡兩種條件類型方面表現出色,生成的駕駛視頻嚴格遵循指定軌跡,同時實現向期望位置的自然移動。相反,DriveDreamer-2利用大型語言模型從高級文本輸入中導出各種低級條件,顯著增強了生成圖像的多樣性,并提供了用戶友好的生成過程。請注意,控制條件和輸出響應也廣泛應用于3D和無場景范式中。

總之,DWM利用生成技術合成具有時空一致性和物理合理性的逼真二維駕駛場景。這些框架有效地提高了真實感、可控性和穩定性,實現了對場景演化的可靠預測。

3D場景演進

三維數據表示本質上保留了結構一致性、詳細的幾何信息和精確的空間關系,使得三維場景演化預測成為駕駛世界模型(DWM)的一項重要任務。在實踐中,通常使用兩種主要類型的三維數據,即占據柵格和點云。

占據柵格場景演進

占據柵格提供了幾何一致的體素建模和結構化的空間編碼,這使得占據柵格特別適合于場景演化建模,并在各種方法中得到廣泛應用。

OccWorld使用時空變換器從歷史觀測中生成未來場景和自車姿態標記,并通過空間混合實現全局一致的場景預測。隨后,OccLLaMA集成了多模態大語言模型作為核心架構,而RenderWorld分別對空氣網格和非空氣網格進行標記化,以進行細粒度的三維場景建模。基于擴散的方法進一步提高了可控性和生成質量。OccSora能夠根據任意軌跡預測四維占據柵格場景演化。DOME采用連續的類似變分自動編碼器(VAE)的標記器來保留復雜的空間信息。考慮到占據柵格的高計算需求,最近的方法試圖提高效率。DFIT-OccWorld僅預測動態體素流,同時通過姿態變換計算靜態體素。類似地,GaussianWorld在高斯空間中明確地對場景演化進行建模,專注于變化而不是重建整個場景。

由于占據柵格不能直接從傳感器獲取,從圖像重建占據柵格至關重要。DWM將這一三維預測任務擴展到四維,即時空預測。一種直接的方法是集成Img2Occ模塊,但這可能會導致誤差累積。然而,最近的進展旨在直接從二維輸入推斷三維世界的時空演化,實現語義、三維結構和時間動態的協同學習。DriveWorld在預測場景動態時間變化的同時傳播靜態空間上下文。通過從多視圖視頻中學習時空表示,它實現了精確的占據柵格預測。此外,Drive-OccWorld將規劃器與DWM相結合,利用基于運動感知的鳥瞰圖(BEV)序列作為中介,直接從多視圖圖像預測占據柵格和流。這種集成為規劃器提供了豐富的先驗信息,從而提高了規劃過程的安全性和準確性。

除了從圖像重建占據柵格外,一些方法還從點云導出占據柵格偽標簽,實現自監督訓練。例如,UnO通過從未來激光雷達掃描中采樣正負例來生成連續的占據場,實現對 點云的自監督學習。類似地,UniWorld和NeMo通過對點云進行體素化生成占據柵格偽標簽。UniWorld融合多幀點云生成偽標簽并學習時空動態,而NeMo進一步集成圖像預測和運動流模塊以增強體素表示,提高規劃性能。

點云場景演化

點云通常由激光雷達傳感器捕獲,提供了三維環境的精確幾何表示。然而,其稀疏和無結構的性質給生成任務帶來了重大挑戰,使得有效利用點云進行場景建模和預測變得復雜。Copilot4D采用矢量量化變分自編碼器(VQ-VAE)標記器來處理復雜的觀測,并通過利用改進的離散擴散采用并行推理加速方法。此外,LidarDM通過結合靜態場景和移動物體提供基于布局感知的點云視頻生成。

視覺點云預測(visual point cloud forecasting)不是直接輸入點云,而是試圖僅使用歷史視覺圖像預測未來點云演化。ViDAR提出將視覺點云預測作為一種可擴展的預訓練任務,并探索語義、三維結構和時間動態的融合。最近,HERMES出現,將視覺點云預測與語言任務相結合,以增強生成和場景理解能力。盡管ViDAR使用了更長的歷史視野和先進的潛在渲染模塊,但HERMES的性能仍顯著優于它。

多傳感器數據融合已成為自動駕駛系統發展的關鍵趨勢,因為它能夠將二維數據的高分辨率細節與三維數據的精確空間幾何信息相結合。MUVO將多模態數據組合成一種與傳感器無關的幾何表示,通過圖像、占據柵格和點云實現準確的場景建模和演化預測。類似地,BEVWorld將圖像和點云合并為統一的鳥瞰圖(BEV)表示,并通過擴散預測未來表示,隨后使用基于渲染的方法重建多傳感器數據,實現自監督學習。相比之下,HoloDrive采用兩個單獨的模型并對齊它們,以聯合生成多相機數據和激光雷達數據,確保二維和三維空間之間的一致性。

總體而言,DWM將生成技術擴展到三維場景演化,利用占據柵格和結構化表示來確保空間一致性,同時集成生成技術進行動態預測。它們通過多傳感器融合增強了場景理解能力,能夠更準確、更穩健地預測復雜場景的演化。

無場景范式

除了常用的圖像、點云和占據柵格預測外,一些方法還探索了無需詳細場景的預測。例如,實時自動駕駛系統優先考慮潛在世界狀態轉換,而行為模擬框架則強調以智能體為中心的運動動力學。我們將這些方法系統地歸類為無場景范式。

潛在狀態

與原始感官數據相比,潛在狀態提供了一種高效的表示,能夠無縫集成到決策過程中,并增強在各種駕駛環境中的泛化能力。基于強化學習的規劃器通常利用潛在DWM,它能提供準確而密集的獎勵、高效的并行訓練和可解釋的輸出。監督學習也受益于對潛在狀態的預測。例如,LatentDriver將預測的潛在狀態和可能的行動建模為混合分布,捕捉決策的隨機性,而LAW利用自監督潛在特征來增強端到端駕駛能力并提高效率。

多智能體行為

多智能體行為預測專注于預測場景內所有智能體的運動。TrafficBots探索了虛擬智能體(bot agents)行為的真實性。每個智能體根據其相應的目的地學習獨特的 “個性”,并從鳥瞰圖(BEV)視角預測行動。類似地,CarFormer將每個對象建模為自監督的槽表示(slot representation),其中隱含了駕駛所需的必要信息。相比之下,AdaptiveDriver預測周圍智能體的獨特行為模式,隨后展開相應的DWM來模擬它們的行為。

無場景范式超越了二維和三維表示。潛在狀態提高了效率和泛化能力,而基于多智能體行為的模型捕捉了交互以降低風險。這些方法共同提高了自動駕駛系統的通用性。

應用

駕駛世界模型(Driving World Model, DWM)是一種自監督、數據驅動的方法,通過訓練來預測未來場景的演變,部分方法僅需極少的注釋數據。

圖片

對生成任務的廣泛研究使DWM能夠用作模擬器并生成數據。此外,DWM可以直接為決策過程和訓練流程提供支持,從而增強自動駕駛系統的能力。在本節中,我們將總結DWM的應用,重點闡述世界模型對推動自動駕駛發展的貢獻。?

仿真模擬

自自動駕駛研究初期以來,仿真模擬就一直是訓練和評估駕駛模型的關鍵工具,并且已經取得了顯著成果 。然而,傳統模擬器面臨著諸多挑戰,比如場景多樣性有限,以及模擬環境與現實世界之間存在差距。DWM憑借其數據驅動的生成式模擬能力,有望解決這些問題。如圖2(a) 所示,DWM能夠基于各種輸入形式模擬駕駛過程,嚴格遵循給定指令。這些條件包括但不限于車輛動作和場景描述,這不僅讓模擬器使用起來更加便捷,還使其能夠自主生成更精細的結構和多樣化的場景細節。

DWM在逼真度、一致性和可控性方面取得了顯著進展,這些對于可靠的現實世界模擬至關重要。Vista 能夠提供高逼真度且高度可控的視頻模擬,有助于進行動作評估。與之相關的,GEM 進一步提升了模擬質量,可以精確控制物體動力學、軌跡和人體姿態。同樣,多項研究嘗試在3D空間中模擬駕駛場景的演變 ,并展現出良好的前景。除了視覺上的真實感,近期的工作還強調對動作逼真度的評估,新提出的評估框架ACT-Bench 就是一個例證,它引入了強大的基線框架,顯示出與動作指令的高度契合。此外,TrafficBots 對虛擬智能體行為的真實性進行了研究,進一步豐富了模擬場景。

基于強化學習的方法尤其受益于基于DWM的模擬的靈活性。Think2Drive 通過在潛在狀態空間中進行推演,實現了高效的并行訓練,避免了與復雜物理模擬器的交互。隨后,Imagine2-Drive 利用高逼真度的DWM來模擬和評估多步軌跡,顯著提升了規劃性能。

DWM將高逼真度的生成能力與精準的可控性相結合,不僅縮小了模擬環境與現實世界的差距,增加了模擬場景的多樣性,還實現了并行交互。這些進展極大地推動了自動駕駛領域的仿真模擬發展。?

數據生成

與注重條真實的仿真不同,數據生成強調數據的多樣性和保真度,旨在實現更廣泛、更全面的場景覆蓋,同時縮小與真實世界數據的差距。圖2(b) 表明,DWM可以使用相同的注釋生成多樣化的駕駛視頻,這顯著提高了數據標注的多樣性。

事實證明,DWM在利用合成數據擴充數據集方面非常有效 。例如,DrivePhysica 可以合成無限數量的高保真且多樣化的駕駛視頻,而LidarDM 能夠生成高質量的激光雷達數據。值得注意的是,HoloDrive 展示了合成對齊的多模態數據的潛力。這些合成數據對下游任務(如3D檢測)有促進作用,體現了DWM的可控性和高生成質量。雖然這些方法通常依賴于真實世界的注釋來合成數據,但近期的進展 也在合成具有新穎軌跡的駕駛視頻,緩解了真實世界數據集中的分布不均衡問題。

鑒于目前高質量自動駕駛數據集在規模上的局限性,DWM顯示出利用合成技術獲取大量高質量駕駛數據的潛力,為自動駕駛研究的推進提供了支持。?

前瞻性駕駛

預瞻性駕駛強調通過對未來狀態的準確預測來提升車輛的規劃能力。通過預測周圍智能體的行為和環境動態,自車可以主動探索不同行動的結果,從而在復雜駕駛場景中提高安全性和適應性。

如圖2(c) 所示,典型的預瞻性駕駛方法是利用DWM預測多種潛在行動的結果,然后對這些預測進行評估,以優化最終行動決策。例如,DriveWM 將DWM的預測結果與獎勵函數相結合,以選擇最佳軌跡,而Drive-OccWorld 則將鳥瞰圖(BEV)嵌入引入規劃器,進一步優化規劃。同時,ADriver-I 將多模態大語言模型和視頻擴散模型相結合,聯合預測視覺 - 行動(描述自車信息的圖像和文本)對,展現出長時規劃的潛力。一些方法還將預測和規劃集成到一個統一的模型中,在實現出色性能的同時提供了更大的靈活性 。

準確的預測有助于提升駕駛性能,另一方面,使預測結果與未來觀測保持一致也被證明是有效的 。此外,AdaWM 利用預測狀態與未來狀態之間的差異來指導微調,提高了對陌生環境的適應性。

預瞻性駕駛的成功表明,DWM不僅可以通過仿真模擬和數據生成間接促進自動駕駛,還能積極參與決策和優化過程,實現預測與規劃的協同效應。?

4D預訓練

預訓練已在多種方法中得到了實證驗證。然而,傳統的預訓練方法往往忽略了4D動態因素,而這對于自動駕駛至關重要。DWM旨在預測場景演變,這一目標天然適合自監督學習和大規模預訓練。如圖2(d) 所示,DWM利用大量未標記的多模態數據進行4D預訓練,提升了一系列下游駕駛任務的性能。

現有的大多數任務都強調以視覺為中心的預訓練,旨在通過從多視圖圖像數據中學習4D場景演變來捕捉空間和動態感知。為了利用大規模未標記的圖像 - 點云對,UniWorld 從點云生成占據柵格偽標簽,用于4D預訓練。為了消除對偽標簽的依賴,ViDAR 引入了一種基于視覺點云預測的新方法。通過提出潛在渲染算子,該方法保留了所學鳥瞰圖(BEV)表示的判別性3D幾何信息,確保了與下游任務的無縫集成。此外,NeMo 將RGB重建和占據柵格預測相結合,學習能夠同時保留3D幾何和語義信息的4D體素表示。為了捕捉時空動態,DriveWorld 分別處理時間動態和靜態場景,并采用任務提示以適應各種下游任務。

近期的方法也在探索以點云為中心的預訓練。UnO 通過預測由未來點云生成的連續4D占據場,學習幾何結構、動力學和語義信息。相比之下,AD-L-JEPA 通過重建掩碼嵌入進行預訓練,實現更簡單,且學習到的表示更強大。最后,BEVWorld 探索對多傳感器數據進行預訓練,將圖像和點云編碼為統一的鳥瞰圖(BEV)表示。

總體而言,DWM通常通過自監督學習進行4D預訓練,捕捉時空動態,減少對注釋的依賴,并在廣泛的任務中提升性能,為自動駕駛的發展鋪平了道路。

評估

由于駕駛世界模型(DWM)缺乏標準化的基準測試,全面了解現有資源和評估方法對于推動該領域的發展至關重要。在本節中,我們將總結自動駕駛領域的主要數據集,尤其是針對DWM提出的數據集,并討論為各種基準測試設計的評估指標。?

數據集

自動駕駛的發展在很大程度上依賴于高質量的數據集,這些數據集需要涵蓋多樣化和全面的場景。在表2中,我們回顧了自動駕駛研究中最具影響力的數據集,重點關注其規模和多樣性。值得注意的是,DrivingDojo是專門為訓練具有復雜駕駛動力學的駕駛世界模型而設計的。

圖片

評估指標

在自動駕駛領域,駕駛世界模型(DWM)主要通過基于視頻生成的方法進行訓練,并應用于各種與駕駛相關的任務。這些任務的多樣性使得單一指標難以全面評估所有研究中的模型性能。因此,該領域的研究人員會根據具體的任務和研究領域選擇專門的評估指標。表3概述了廣泛使用的評估指標及其相應含義。

圖片

這些評估指標對不同的DWM進行了深入評估,為進一步的研究提供了指導。然而,某些方面,如一致性和可控性,仍有待深入研究。為了解決這些局限性,一些研究提出了新的評估指標。例如,為了評估可控性,一種廣泛采用的方法是比較訓練好的檢測器在生成數據上的輸出與相應條件,或者與同一檢測器在真實數據上的預測結果。此外,關鍵點匹配(KPM)和平均點到平面能量被引入,分別用于評估多攝像頭視頻和激光雷達視頻的一致性。

局限性與未來工作

盡管駕駛世界模型(DWM)的研究取得了顯著進展,但仍存在一些局限性,可能會阻礙其充分發揮潛力。此外,使DWM適用于各種自動駕駛應用仍是一項持續的挑戰。在本節中,我們將深入討論當前的局限性,并概述未來研究和發展的潛在方向。?

數據稀缺

收集駕駛數據成本高昂,尤其是對于長尾但對安全至關重要的場景,這導致數據集有限且分布不均。近期的研究在擴展和多樣化駕駛視頻數據集方面取得了進展。然而,獲取高質量的3D數據和對齊的多傳感器數據集仍然具有挑戰性。雖然DWM在合成數據以改進下游任務方面顯示出了潛力,但如何擴充數據以提升DWM本身仍是一個未解決的問題。?

效率

生成任務對DWM的推理效率提出了挑戰,增加了計算成本和延遲,這阻礙了其在實時駕駛應用中的使用。詳細的4D場景表示進一步加大了對計算和內存的需求。近期的研究強調,將場景解耦是一種有效的策略。此外,探索更高效的表示形式是一個切實可行的研究方向。?

可靠的仿真

一個關鍵問題是如何確保在復雜模擬(例如長時推演和劇烈視角變化)和多變的駕駛情況(例如多樣化的交通和天氣)下,DWM的性能不會顯著下降。這對模型的魯棒性和泛化能力提出了重大挑戰。為了解決這些問題,一些研究提出了部分解決方案。例如,DrivingDojo提供了多樣化的駕駛視頻數據集,AdaptiveDrive開發了適應不同環境的DWM,InfinityDrive專注于提高長期性能。盡管取得了這些進展,但這仍然是一個極具挑戰性和影響力的研究領域,未來需要進一步探索和創新。

另一個挑戰是模型產生的幻覺和不符合物理規律的情況(例如車輛突然出現和速度估計錯誤),即使在正常情況下也可能導致危險的決策。DrivePhysica通過引入額外條件來解決這個問題,而具有跨模態驗證的多模態場景輸出則是另一種可行的解決方案。?

統一任務

現有的DWM主要支持預測任務,通過預測場景演變來隱含地理解場景,而不是通過對這一關鍵能力的明確監督。結合語言任務為解決這些局限性提供了一個有前景的方向。例如,圖像字幕和問答(QA)等任務促進了全面的理解,而因果推理則有助于學習支配現實世界演變的基本原理。此外,預測和規劃的無縫集成,即端到端的DWM,可以充分發揮框架的潛力。?

多傳感器建模

自動駕駛系統主要依賴多傳感器配置,不同模態的數據相互補充。因此,基于單模態場景的DWM不太適合這類系統。盡管一些研究在多模態數據集成方面取得了進展,但該領域仍有很大的探索空間。此外,考慮到對齊的多傳感器數據成本高昂,利用廣泛可用的未對齊甚至未配對的多傳感器數據是一個有價值的研究方向。?

攻擊與防御

對抗攻擊很容易導致嚴重的事故,對駕駛安全構成重大威脅。這些攻擊涉及精心制作的對人類不可察覺的對抗補丁,使得檢測和緩解變得尤為困難。盡管其潛在影響巨大,但目前針對DWM的對抗攻擊研究仍然不足。因此,研究此類攻擊并開發有效的防御策略具有至關重要的實際意義。這些努力對于推動DWM在現實世界自動駕駛應用中的安全可靠部署至關重要。

結論

駕駛世界模型(DWM)日益被視為自動駕駛系統架構中的一個基本組成部分,旨在通過預測未來演變來改進決策。在本文中,我們探討了DWM的具體貢獻,不僅按預測場景模態進行了系統的概述,還總結了DWM的應用及其對自動駕駛的影響,并回顧了常見的數據集和評估指標。我們進一步深入研究了當前的局限性,并指出了一些有前景的未來研究方向,以克服這些挑戰并推動該領域的未來探索。我們相信,這項綜述將為早期研究人員提供DWM領域關鍵進展的快速概述。?

參考

[1] The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey

#Topo2Seq

通過拓撲序列學習增強拓撲推理

論文鏈接:https://arxiv.org/pdf/2502.08974
?

摘要

從透視圖(PV)中提取車道拓撲對于自動駕駛的規劃和控制至關重要。這種方法無需依賴高精度(HD)地圖即可為自動駕駛車輛提取潛在的可行駛軌跡。然而,DETR框架檢測的無序性質和較弱的遠程感知可能導致車道段端點錯位和拓撲預測能力受限。受語言模型學習上下文關系的啟發,道路連接關系可以被顯式建模為拓撲序列。我們介紹了Topo2Seq,一種通過拓撲序列學習來增強拓撲推理的新方法。Topo2Seq的核心部分是在車道段解碼器和拓撲序列解碼器之間的隨機順序提示到序列(prompt-to-sequence)學習。雙解編碼器分支同時學習從有向無環圖(DAG)和包含地理元信息的車道圖中提取的車道拓撲序列。隨機順序提示-序列學習從車道段解碼器預測的車道圖中提取無序關鍵點,然后將其輸入拓撲序列解碼器的提示設計中以重建有序和完整的車道圖。通過這種方式,車道段解碼器能夠從拓撲序列解碼器中學習強大的遠距離感知和精確的拓撲推理。值得注意的是,拓撲序列解碼器只在訓練過程中引入,而不影響推理的效率。在OpenLane-V2數據集上的實驗評估表明,Topo2Seq在拓撲推理方面具有最先進的性能。
?

介紹

近年來,自動駕駛中的車道拓撲推理受到越來越多的關注。這是因為自動駕駛傳統上依賴于離線高清地圖來提供道路信息。然而,道路狀況可能是不確定的和具有挑戰性的,過時的離線高清地圖對自動駕駛汽車來說可能是災難性的。單純依賴這些地圖并不足以滿足高級別自動駕駛的高級需求。

為了解決這些問題,自動駕駛車輛需要進行車道拓撲推理,這涉及從環視圖像中實時感知周圍道路并提取道路中心線的幾何位置和拓撲關系。因此,車道拓撲推理對于端到端自動駕駛中的軌跡預測和規劃至關重要。

最近關于車道拓撲推理的研究已經將中心線拓撲轉化為車道圖。這些端到端網絡被設計用來預測以有序點集為表征的線段和由鄰接矩陣表示的拓撲關系。然而,這些方法并沒有顯式地建模每個車道段之間的關系,而是依賴于MLP來確定每個查詢之間的連接概率。由于DETR框架中的弱感知和無序檢測特性,簡單的MLP難以有效地學習車道之間的連通性。因此現有的方法存在多個弱點,如圖1(a)所示。

圖片

圖1:以往方法(a)和Topo2Seq(b)的比較:由于Deformable-DETR每個查詢的采樣位置有限并且檢測的無序性,現有方法表現出嚴重的弱點。(b) Topo2Seq采用了一種隨機提示-序列學習策略,通過拓撲序列學習增強了車道段感知和拓撲推理。

在語言模型中,序列學習可以在保持正確順序的同時捕獲長文本中的上下文關系。因此,受語言模型的啟發,將車道圖表示為序列,可以顯式地捕獲車道的幾何位置和拓撲關系。然而,在序列到序列(sequence-to-sequence)的學習方法中,自回歸模型依賴于先前的預測來產生后續輸出,由于需要重復推理,導致相當低的推理效率(約0.1FPS)。 在本文中,我們提出了Topo2Seq,一種通過拓撲序列學習來增強拓撲推理的新方法。Topo2Seq采用了一種雙解碼器結構,包括一個車道段解碼器和拓撲序列解碼器。拓撲序列解碼器預測從有向無環圖(DAG)中提取車道拓撲序列,而車道段解碼器提取包含幾何信息的車道圖。然后隨機提示-序列學習用于從車道段解碼器預測的車道圖中提取無序的關鍵點。這些關鍵點被輸入拓撲序列解碼器的提示設計中,從而能夠重建一個有序和完整的車道圖。在這種情況下,車道段解碼器通過共享的編碼器從拓撲序列解碼器中獲得了強大的遠程感知和精確的拓撲推理能力,如圖1(b)所示。值得注意的是,拓撲序列只在訓練中引入,并不影響推理效率。

本文的貢獻可以概括為以下:

  • 我們提出了Topo2 Seq,一個新的雙解碼器訓練框架,通過利用拓撲序列學習來增強拓撲推理。
  • 我們顯式地將車道圖建模為序列來捕獲車道的遠距離幾何位置和拓撲關系。
  • 我們引入了一種隨機順序提示-序列學習機制,使車道段解碼器從拓撲序列解碼器中獲得魯棒的遠程感知和準確的拓撲推理能力。
  • 在基準數據集 OpenLane-V2上進行的大量實驗證明了Topo2Seq的優秀性能。

方法詳解

圖片

圖2:Topo2Seq的框架。

Topo2Seq由三個主要組件組成。首先,通過圖像主干、FPN和BEVFormer對環視圖像進行處理,生成鳥瞰圖(BEV)特征。然后,車道段解碼器預測車道圖。從預測的車道圖中提取的首尾點被輸入拓撲序列解碼器以構造關鍵點提示,這些提示隨后并與邊緣序列連接。拓撲序列解碼器推斷離散關鍵點之間的關系,并將其重構為一個連貫的車道圖。通過這樣,拓撲序列解碼器增強了BEV特征,改進了遠距離感知能力,從而幫助車道段解碼器進行拓撲推理。

1. 車道段解碼器

我們將一組實例級的查詢表示為?,其中是預設的查詢數,通常大于車道圖中的中心線數。這些查詢被輸入車道段解碼器以獲得更新后的查詢:

圖片

其中LaneDec表示車道段解碼器。在每個車道段解碼器層內,車道查詢通過自注意模塊、車道注意模塊和前饋網絡依次進行更新。

2. 預測頭

我們使用MLPs(多層感知機)來生成3D車道坐標和拓撲矩陣A。車道間的拓撲關系預測為:

圖片

其中MLP是相互獨立的。為了提供更詳細的車道圖表示,我們不僅預測拓撲結構,同時預測了左右車道邊界偏移量,邊界類型以及人行橫道。

3. 拓撲序列解碼器

我們參考Pix2Seq設計了拓撲序列解碼器。每個解碼器層包括自注意模塊、交叉注意模塊和前饋網絡。自注意模塊中的因果掩模保持自回歸特性。整個結構在提取和細化BEV特征方面具有幾個優勢: (1)增強型特征細化:該模型可以根據序列中的關鍵點,有選擇性地關注BEV特征的相關領域。這種有針對性的注意力通過強調對準確重建車道圖或理解場景至關重要的區域,有助于細化BEV特征。(2)改進遠程依賴:拓撲序列解碼器增強了對序列中遙遠關鍵點與BEV特征中相應區域之間的遠程依賴性的捕獲。這對于像車道拓撲推理這樣的任務尤其重要,在這些任務中,理解廣泛分離的點之間的關系是至關重要的。(3)上下文集成:通過關注特定的關鍵點提示,模型可以減少BEV特征中不相關或冗余信息的影響。這導致了更高效的特征提取,并可能減少最終預測結果中的噪聲。訓練拓撲序列解碼器的輸出可以表示為:

圖片

其中TopoSeqDec表示拓撲序列解碼器,表示預測的邊緣序列。

4. 序列結構

根據RoadNet,我們將有向無環圖(DAG)轉換為邊序列。車道上的每個關鍵點都可以作為起點或終點,每條邊都可以用6個整數表示:

圖片

其中,前兩個整數int(),int()表示關鍵點的離散坐標。cls表示關鍵點的類別,可以是祖先、直系、分支或克隆節點。con表示關鍵點之間的連接。如果cls是祖先或直系的,則con被設置為0。否則,con將被設置為父關鍵點的索引。由于貝塞爾曲線可以有效地表征關鍵點之間的車道軌跡,最后兩個整數int(),int()表示貝塞爾曲線的中間控制點。為了確定關鍵點的唯一順序,我們選擇BEV透視圖中右前方的位置作為起點,并使用深度優先搜索來執行排序。

圖片

圖3:輸入序列和輸出序列示意圖

在訓練過程中,我們構建了如圖所示的兩種類型的序列:輸入序列和用于監督的目標序列。輸入序列從< Start >標記開始,然后是關鍵點提示,然后是GT邊,剩余的長度填充噪聲邊。關鍵點提示包括所有預測邊的關鍵點以及噪聲邊。值得注意的是,關鍵點提示是無序的,不對應于邊序列中的坐標的順序。最后,關鍵點提示以< EOK >標記結束。在目標序列中,關鍵點提示的位置用< pad >標記填充,然后是地面真實邊和噪聲邊,最后以< EOS >結束。為了幫助拓撲序列解碼器識別哪些邊是噪聲邊,有監督的噪聲邊在其類別位置用噪聲類< ncls >標記,而其他位置則用< pad >標記填充。< pad >標記不計入損失計算。

5. 隨機順序提示到序列學習

由車道段解碼器預測的車道通常有錯位的端點,需要四個點來代表兩條車道線,并可能產生顯著的幾何間隙。相比之下,邊緣序列只使用了三個點來完美對齊的兩條車道線,增強了對自動駕駛軌跡的理解。為了利用序列到序列學習的遠距離理解和序列化關系能力,我們在關鍵點提示處促進了車道段解碼器和序列拓撲解碼器之間的交互。 基于來自車道段解碼器的預測,我們根據置信度從高到低對預測的車道線進行排序,并使用預測的鄰接矩陣過濾掉任何重復的首尾點:

圖片

其中,關鍵點的坐標被離散化了。隨機順序提示到序列學習的目標可以表示為:

圖片

圖片

6. 損失函數

Topo2Seq中的總體損失函數定義如下:

圖片

其中,表示L1損失。表示車道分類的焦點損失(Focal Loss)。包括交叉熵損失和dice損失。表示分類左右車道類型的交叉熵損失(例如,不可見、實心、虛線)。是一個用于監督預測的鄰接矩陣A真實鄰接矩陣之間的關系信息的焦點損失。表示在預測標記時監督拓撲序列解碼器的最大似然損失。每個損失的權重用,,,,和表示。

實驗結果&評價指標

表1:模型定量性能比較(OpenLane-V2 數據集-車道段感知任務)

圖片

表1展示了不同模型在真實場景數據集OpenLane-V2上的定量結果,可以看到Topo2Seq在該數據集上取得了優秀的性能。我們首先比較了Topo2Seq與最先進的車道段檢測方法在OpenLane-V2基準測試上的性能。關于OpenLane-V2子集A的結果如表1所示。當訓練24個階段(12個預訓練階段和12個解碼器交互階段)時,Topo2Seq性能在指標上比LaneSegNet高1.8%,在上高1.5%。使用ResNet-50進行了總共48個階段的兩階段訓練過程,Topo2Seq實現了37.7%的mAP和29.9%的。在相同的配置下,Topo2Seq在上超過LaneSegNet 2.0%,在上超過2.6%。

表2:模型定量性能比較(OpenLane-V2數據集-中心線感知任務)

圖片

表2展示了不同模型在OpenLane-V2數據集的中心線感知任務上的定量結果。在相同的24epochs訓練中,Topo2Seq在OLS?比LaneSegNet好2.0%,在高出2.4%,在高出1.7%。與同樣經過484epochs的TopoMLP相比,Topo2Seq在上的表現比TopoMLP高出4.2%,在OLS?中表現高出2.5%,在上高出2.4%,在為則高出2.7%。這些結果表明,在訓練過程中引入一個額外的序列解碼器交互,使得網絡在拓撲推理方面取得顯著改進。

消融研究

表3:對openlane-V2基準的消融研究: OP、RP、RPL分別為順序GT關鍵點提示、隨機順序GT關鍵點提示和隨機順序提示到順序學習。

圖片

我們研究了Topo2Seq中的每一個重要設計。消融研究見表3。在序列學習中引入有序GT關鍵點提示時,網絡只能學習關鍵點之間的軌跡,而不必推斷它們之間的關系。這解釋了為什么Index 2的結果優于Index 1的結果,了提高了2.7%。將Index 2和Index 3的結果進行比較,可以發現,由于車道段解碼器輸出的不準確和不穩定,序列拓撲解碼器與之交互過早導致性能不如使用隨機順序的GT關鍵點作為提示。然而,與Index 1中的結果相比,這種方法在拓撲推理方面仍然有了輕微的改進。從Index 2和Index 4的結果中可以看出,當車道段解碼器預測的關鍵點被引入關鍵點提示,并在兩個解碼器間進行了24個階段額外的交互訓練時,mAP提高了2.8%,TOP增加了2.1%。這一結果表明,序列學習可以進一步增強車道分割解碼器對關注區域的BEV特征的提取,特別是增強遠程感知和拓撲推理。

圖片

圖4:模型定性結果比較

如圖4所示,我們可視化了由LaneSegNet和Topo2Seq生成的車道圖。相比之下,Topo2Seq可以生成了具有對齊的端點的高質量的車道圖,并且具有更可靠的遠距離感知和準確的拓撲關系。這被歸因于與序列拓撲的交互所帶來的優勢。

結論

我們介紹了Topo2Seq,一種基于拓撲序列學習的車道拓撲推理方法。受到語言模型的啟發,我們通過序列到序列的學習,解決了基于DETR的拓撲推理框架的局限性。通過隨機順序提示到序列學習,我們增強了拓撲序列解碼器和車道段解碼器之間的交互。該方法能夠使Topo2seq生成端點對齊以及拓撲關系更加準確的車道圖。在OpenLane-V2數據集上的實驗結果表明,Topo2Seq在拓撲推理方面實現了最先進的性能。

#稀疏注意力、視覺語言新突破

各位AI愛好者,本周Hugging Face Daily Papers又帶來了一波前沿研究成果!從長上下文建模到多模態視覺語言模型,再到AI研究Agent的新框架,TOP 10論文亮點滿滿,投票數火爆,值得一讀!以下是簡要介紹,快來一起看看吧~

1. Native Sparse Attention 🚀(129票)

🔗?https://huggingface.co/papers/2502.11089
🔥 NSA(Native Sparse Attention)來了!針對長上下文建模的高計算成本問題,NSA通過動態層次稀疏策略和硬件優化,實現高效建模。實驗證明,它在64k序列上大幅提速,同時性能媲美甚至超全注意力模型。效率與能力雙贏!

2. Qwen2.5-VL Technical Report 🔥(128票)

🔗?https://huggingface.co/papers/2502.13923
🚀 Qwen視覺語言系列旗艦升級!Qwen2.5-VL在視覺識別、文檔解析和長視頻理解上表現亮眼,支持動態分辨率處理,能精準定位對象并提取結構化數據。72B模型直逼GPT-4o,文檔理解更是強到飛起!

3. MLGym: AI研究Agent新框架 🚀(121票)

🔗?https://huggingface.co/papers/2502.14499
🔥 Meta MLGym和MLGym-Bench首次為AI研究任務打造Gym環境,涵蓋13個開放性任務。測試結果顯示,即便是前沿LLM也難生成新穎假設,暴露了AI研究能力的瓶頸。開源框架已就位,等你來挑戰!

4. SuperGPQA: 285學科LLM評估 🔥(78票)

🔗?https://huggingface.co/papers/2502.14739
🚀 覆蓋285個學科的超大基準SuperGPQA登場!通過Human-LLM協作篩選題目,測試LLM的知識與推理能力。結果表明,即便是DeepSeek-R1也只有61.82%的準確率,AGI還有很長的路要走。

5. SigLIP 2: 多語言視覺編碼器 🚀(77票)

🔗?https://huggingface.co/papers/2502.14786
🔥 SigLIP 2在圖像-文本任務上全面升級,加入自監督損失和數據篩選技術,支持多分辨率輸入。性能提升的同時,還優化了多語言理解和公平性,提供從86M到1B的多種模型選擇。

6. Soundwave: 高效語音-文本對齊 🔥(73票)

🔗?https://huggingface.co/papers/2502.12900
🚀 Soundwave用1/50的訓練數據打敗Qwen2-Audio!通過新型架構和高效策略解決語音與文本的表示差距問題,翻譯和語音任務表現搶眼。開源項目已上線,快去體驗!

7. Cramming 1568 Tokens into a Vector 🚀(57票)

🔗?https://huggingface.co/papers/2502.13063
🔥 將1568個Token壓縮進一個向量?這篇論文探索了嵌入空間的極限,發現x1500的壓縮比是可行的!研究表明,壓縮極限取決于序列的不確定性,揭示了模型設計的巨大優化空間。

8. The Danger of Overthinking 🔥(52票)

🔗?https://huggingface.co/papers/2502.08235
🚀 大型推理模型(LRM)也會“想太多”?論文分析了過思考的三種模式:分析癱瘓、錯誤行動和過早放棄。減少過思考可提升30%性能并降低43%計算成本,實用性拉滿!

9. How Much Knowledge in a LoRA Adapter? 🔥(50票)

🔗?https://huggingface.co/papers/2502.14502
🚀 LoRA適配器能塞多少新知識?研究發現,混合已知和新事實的訓練數據效果最佳,但仍可能損害模型的通用能力。如何平衡新知識與性能,值得深思。

10. Continuous Diffusion for Language Modeling 🚀(48票)

🔗?https://huggingface.co/papers/2502.11564
🔥 擴散模型也能玩語言建模!通過連續流設計和徑向對稱訓練框架,這篇論文讓擴散模型性能逼近自回歸模型,開源代碼已就位,趕緊去試試!

#HW智駕正式上車,搭載雙激光雷達

AODI不想努力了?

2025,奧迪全面“投華”。

華為智駕首搭燃油車,全新奧迪A5L火了。

最前沿的端到端架構,帶來最先進的「車位到車位」體驗。

AI司機上車傳統豪華,奧迪智駕一夜飛升,就是現在。

官宣合作7年,兜兜轉轉奧迪還是牽手了華為。

這也給豪華品牌,乃至整個合資陣營出了道題:
全面智駕,未來已來,是堅持自研還是趕緊上車中國智駕方案?

奧迪率先全面“投華”

先說明一下,這里說的全新奧迪A5L是來自上汽旗下,不是一汽也要出的那款A4L換代改名后的A5L。

全新奧迪A5L車長超4.9米,溜背造型設計,轎跑風格。本次改款上市,有兩大亮點值得關注:

  • 華為智駕首搭燃油車
  • 首個雙激光雷達華為智駕車型。

不要被A5L“光禿禿”的前車頂迷惑,它的兩顆激光雷達在車燈下方,類似小鵬轉向視覺路線前的車型設計。

這種設計讓激光雷達和車身融合的更好,但因為位置稍低,感知會受到影響,所以采用了兩顆激光雷達“補盲”。

雙激光雷達,這在華為系中尚屬首例

已上市的華為高階智駕車型,最多搭載3顆激光雷達,比如方程豹豹8。

大部分都只搭載了1顆激光雷達,比如包括50萬級問界M9在內的鴻蒙智行全系。

搭載4顆激光雷達尊界S800,將在5月底上市。

既然搭載了激光雷達,那上車的軟件算法肯定是ADS 3.0,基于端到端架構,支持城區NOA「車位到車位」

端到端是智能駕駛最前沿的技術范式,其實就是AI模型從過去只負責感知任務,到現在感知、決策和規劃等任務一把抓,算法上限更高,并且讓AI司機開車更擬人。

「車位到車位」,則是目前智能駕駛落地的最先進體驗。

智能駕駛在停車位原地啟動,AI幫你開出車位,過閘機,駛入公路,領航輔助駕駛,最終駛入指定車位。

「代客泊車」陸陸續續也會開放,到了停車場電梯口你可以直接下車,然后車子自己去找車位。

對用戶來說,相當于有了自己的專職司機,不管是日常城區通勤還是高速長途跋涉,都更省心省力。

對奧迪來說,在華為的帶動下,其智駕座次從落后一代一夜飛升至「領先一代」。

除了外觀和搭載華為智駕,奧迪A5L曝光的信息不多,有望會在4月底的上海車展上市。

據了解,A5L暫時還未上車鴻蒙座艙,不過僅憑智駕已經讓不少網友心動了。

有網友看了以后感慨:

A6不香了。

這下壓力瞬間給到一汽了?

其實根據此前多方消息,一汽奧迪相關負責人已經劇透,今年所有上市車型都將搭載華為智駕。

一汽奧迪率先放風,上汽奧迪趕緊出牌。

兜兜轉轉,奧迪還是在華全面“投華”,率先轉型“俊杰汽車”。

延續的合作

實際上,早在2018年7月,奧迪就在自動駕駛領域與華為達成了合作。

△左為時任奧迪中國執行副總裁梅薩德,右為華為董事徐文偉,圖源:華為

當時原計劃率先落地奧迪Q7

徐文偉在當時展望未來,認為通過雙方的合作:

相信不久的將來,消費者可以體驗到更加安全、舒適、便捷、智能的自動駕駛服務。”

但在2018年后,由于眾所周知的原因,雙方再也沒有提起過這項合作,相關工作的推進也鮮少披露。

但在這7年里,雙方一直在以各自的方式探索自動駕駛。

華為的工作,大家都比較熟悉了,ADS不斷迭代,賦能車企轉動數據飛輪,預計將于今年邁向L3級自動駕駛。

奧迪則早早瞄向L3,卻在2019年底正式取消了L3項目,將資源分別投入L2和L4級自動駕駛研發。

后來在2021年世界物聯網博覽會上,展示了結合車聯網的L4級自動駕駛公開路測,不過演示路程僅有6.5公里

在L2維度則鮮有作為,2022年底推出的A6L搭載的還是自適應巡航系統。半年以后,國內就開卷城區NOA了。

智能化的技術劣勢,開始轉變為市場劣勢。

2024年,奧迪全球銷量為167.1萬輛,下跌11.8%,在BBA中排名最末。

其中中國市場交付了64.94萬輛車,銷量同比下滑11%。

轉型成績也不太理想,2024年奧迪純電動車銷量為16.4萬輛,下跌8%,占總體銷量還不到10%。

最終在市場無形大手的推動下,奧迪再度牽手華為。彈指7年,當時的合作見證者,有的已經退休了。

與此同時,同樣面臨轉型困境的奔馳,也把希望放在了中國,押注智能化。

據了解,奔馳目前在華研發團隊超2000人,依靠中國研發團隊開發無圖方案,去年首秀上海,目前尚不清楚量產上車,全面鋪開的事件。

寶馬則在今年1月,要量產搭載V2X(Vehicle to X)模塊的全新寶馬5系,增強整車智駕能力,表示“要繼續加大研發投入,攜手中國創新力量”。

BBA是豪華品牌的代表者,隨著他們重注智能駕駛,再加上比亞迪等力推“全民智駕”,中國市場的風向很明確了。

可以預見后續二線的豪華品牌,以及大眾市場諸合資將陸續跟進。

自研時間太久,市場只爭朝夕。

#2024自動駕駛數據集完全指南:20+高質量開源數據集

1、 題目: MSC-Bench: Benchmarking and Analyzing Multi-Sensor Corruption for Driving Perception

鏈接: https://t.zsxq.com/BRSA3

簡介: MSC-Bench: 第一個針對多傳感器自動駕駛感知模型在各種傳感器損壞情況下的魯棒性進行評估的綜合基準

時間: 2025-01-10T23:52:48.526+0800

2、 題目: Hidden Biases of End-to-End Driving Datasets

鏈接:https://t.zsxq.com/BRSA3

簡介: 2024 CARLA挑戰賽中的地圖和傳感器賽道上排名第一和第二!Bench2Drive測試路線中SOTA!

時間: 2024-12-13T12:01:19.839+0800

3、 題目: Multi-cam Multi-map Visual Inertial Localization: System, Validation and Dataset

鏈接: https://t.zsxq.com/Pvi0i

簡介: 一種多攝像頭多地圖視覺慣性定位系統

時間: 2024-12-08T00:04:34.943+0800

4、 題目: OpenAD: Open-World Autonomous Driving Benchmark for 3D Object Detection

鏈接: https://t.zsxq.com/U7foq

簡介: 首個針對3D目標檢測的現實世界開放世界自動駕駛基準

時間: 2024-11-28T14:12:50.201+0800

5、 題目: V2X-Radar: A Multi-modal Dataset with 4D Radar for Cooperative Perception

鏈接:https://t.zsxq.com/cbO6x

簡介: 全球首個集成4D Radar并面向真實場景的多模態車路協同感知數據集

時間: 2024-11-19T21:19:52.213+0800

6、 題目: V2X-R: Cooperative LiDAR-4D Radar Fusion for 3D Object Detection with Denoising Diffusion

鏈接: https://t.zsxq.com/3Xm4K

簡介: V2X-R: 首個結合LiDAR、相機和4D Radar的V2X模擬數據集

時間: 2024-11-14T22:38:05.292+0800

7、 題目: Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models

鏈接: https://t.zsxq.com/ncOgu

簡介: 通過BEV注入多模態大模型對自動駕駛的整體理解:BEV-InMLLM整合了多視圖、空間意識和時間語義,以增強在NuInstruct任務上的MLLMs的能力

時間: 2024-01-03T21:23:08.634+0800

8、 題目: ROAD-Waymo: Action Awareness at Scale for Autonomous Driving

鏈接: https://t.zsxq.com/8T9mw

簡介: ROAD-Waymo,一個廣泛的數據集,用于開發和評估道路場景中agents、動作、位置和事件檢測技術,該數據集基于Waymo Open數據集

時間: 2024-11-06T21:58:38.047+0800

9、 題目: Adver-City: Open-Source Multi-Modal Dataset for Collaborative Perception Under Adverse Weather Conditions

鏈接:https://t.zsxq.com/xtCoc

簡介: 第一個專注于惡劣天氣條件的開源合成協同感知數據集

時間: 2024-10-15T23:59:12.411+0800

10、 題目: TLD: A Vehicle Tail Light signal Dataset and Benchmark

鏈接: https://t.zsxq.com/c2Fkk

簡介: 轉向燈、剎車燈數據集來了!

時間: 2024-09-06T23:22:06.957+0800

11、 題目: WayveScenes101: A Dataset and Benchmark for Novel View Synthesis in Autonomous Driving

鏈接: https://t.zsxq.com/VHTIL

簡介: WayveScenes101: 該數據集專注于包含眾多動態和可變形元素、幾何形狀和紋理變化的復雜駕駛場景。數據集包含101個駕駛場景,涵蓋廣泛的環境條件和駕駛情景

時間: 2024-07-14T22:20:58.691+0800

12、 題目: SID: Stereo Image Dataset for Autonomous Driving in Adverse Conditions

鏈接: https://t.zsxq.com/p9xIi

簡介: SID:用于惡劣條件下自動駕駛的立體圖像數據集

時間: 2024-07-09T23:28:37.587+0800

13、 題目: DurLAR: A High-Fidelity 128-Channel LiDAR Dataset with Panoramic Ambient and Reflectivity Imagery for Multi-Modal Autonomous Driving Applications

鏈接:https://t.zsxq.com/4ntGo

簡介: DurLAR:一個高保真度的128通道3D激光雷達數據集

時間: 2024-06-17T23:27:08.364+0800

14、 題目: Multiagent Multitraversal Multimodal Self-Driving: Open MARS Dataset

鏈接:https://t.zsxq.com/cdN4u

簡介: 紐約大學聯合自動駕駛公司May Mobility,推出了MARS數據集,該數據集統一了多agent、多遍歷和多模態自動駕駛研究的場景

時間: 2024-06-16T09:52:47.868+0800

15、 題目: SEVD: Synthetic Event-based Vision Dataset for Ego and Fixed Traffic Perception

鏈接: https://t.zsxq.com/XGIKB

簡介: 首創的多視角自車和固定感知的基于事件的合成數據集

時間: 2024-04-27T09:43:05.766+0800

16、 題目: PLoc: A New Evaluation Criterion Based on Physical Location for Autonomous Driving Datasets

鏈接:https://t.zsxq.com/xypV4

簡介: PLoc:一種新的基于物理位置的自動駕駛數據集評估標準

時間: 2024-04-06T00:09:04.617+0800

17、 題目: CORP: A Multi-Modal Dataset for Campus-Oriented Roadside Perception Tasks

鏈接: https://t.zsxq.com/45W4L

簡介: CORP:專為校園場景下的多模態路邊感知任務量身定制的首個公共基準數據集

時間: 2024-04-05T23:57:47.758+0800

18、 題目: Dataset and Benchmark: Novel Sensors for Autonomous Vehicle Perception

鏈接: https://t.zsxq.com/jvN0b

簡介: 用于自動駕駛汽車感知的新型傳感器有哪些?來看看這份NSAVP數據集和基準

時間: 2024-01-27T10:40:46.045+0800

19、 題目: A Survey on Autonomous Driving Datasets: Data Statistic, Annotation, and Outlook

鏈接:https://t.zsxq.com/HZCx9

簡介: 200+自動駕駛數據集全面調研!

時間: 2024-01-04T22:54:54.556+0800

20、 題目:英偉達和卡內基梅隆大學最新!V2V-LLM:基于多模態大語言模型的車對車協作式自動駕駛

鏈接:https://t.zsxq.com/07jyx

簡介: 一種基于LLM的協作式自動駕駛新框架,并配套發布首個面向車對車問答(V2V-QA)的數據集與評測基準

#中國首起L3事故?真刑啊

中國“首起L3事故”,最新進展來了.

從事件“曝光”,到主要責任人被抓,前后時間不到一周。

但這次“刑”起來的,卻不是L3的技術開發或運營方。

甚至涉事車企,也表示自己也是一臉懵,很無辜。

發生了什么?

2月18日,廣州天河警方發布了一則消息:

2月12日,廣州天河警方接群眾報警稱,有人在網絡上發布“首例智能駕駛致死案宣判車企擔責70%”的虛假信息。接報后,警方迅速介入調查,并于2月14日抓獲犯罪嫌疑人閆某(男,53歲)

經查,閆某為吸粉引流、賺取流量收益,捏造不實信息,通過其在各大平臺的個人自媒體賬號發布不實帖文,造成惡劣影響。目前,閆某已被警方依法刑事拘留,其對上述行為供認不諱,案件正在進一步偵辦中。

媒體與車企的糾紛恩怨屢見不鮮,報警發律師函的也不少,但這次性質格外嚴重:警方公告中直接使用了犯罪嫌疑人的表述,而不是違法嫌疑

區別在于,如果只界定為“違法”,有可能只給予行政處罰,免于起訴。而一旦被以“犯罪嫌疑”處理,辦案機關會將相關證據固定,移交起訴。

更精確地講,“犯罪”特指有違反我國《刑法》的情節,并且社會危害程度較高。

那么,閆某到底說了什么?

2月12日,他通過自己控制的自媒體賬號發布《L3級自動駕駛首例判決!車企擔責70%,智駕法規全面重構》一文。文章稱,廣州法院于2024年12月對一起小鵬汽車L3級自動駕駛追尾事故作出判決。因系統未識別靜止障礙物,車企需承擔70%的賠償責任,車主自負30%。

其中把案件稱為“國內首例智能駕駛致死案”,迅速在網絡上引發廣泛關注和討論。

當天小鵬汽車發布公告辟謠,并報警處理。次日公安就偵破,主要犯罪嫌疑人涉嫌尋釁滋事罪已到案。

尋釁滋事罪在刑法中界定范圍比較寬泛,行為人實施肆意挑釁,隨意毆打、騷擾他人或任意損毀、占用公私財物等行為,或者在公共場所起哄鬧事,造成了嚴重破壞社會秩序的損害結果都達到立案標準。

量刑一般分5年以下及5年到10年兩個區間,視危害程度而定。

具體到這個案子,危害程度大概率會以相關內容在互聯網的轉發討論數量為參考。

當然,最后是否以尋釁滋事罪起訴還不一定,因為閆某炮制Fake news的情節,也符合刑法中的損害商業信譽、商品聲譽罪范圍,量刑在2年以下。

查閱全國、廣東地區類似案件情況,大多數都是以行政處罰手段處理,上升到違法犯罪處理程序的還真不多。

一方面,可能因為最新的政策風向更加傾向于保護民營企業;

更關鍵的,是因為這個謠言炮制的確太粗糙,沒有什么翻案、模糊的空間。

首例L3事故?咋回事?

事實真相很簡單:根本不存在這樣一個案例,廣州法院沒判過,裁判文書也查不到。

因為小鵬現在量產的智駕系統,根本就不是L3,這是技術圈、用戶、媒體,也包括小鵬汽車自己一致的共識。

特斯拉、小鵬等等玩家量產高階智駕的全稱,應該是高階輔助智能駕駛,在國標GB/T 40429-2021中,只要帶輔助二字,就屬于L2及以下的范圍。

L3及以上最本質的區別,是“駕駛自動化”,即在特定條件下,完全實現自動駕駛,“條件”越普適,級別越高。

小鵬XNGP不是L3,國內首批通過L3上路試點的車企名單中也沒有它,自然不存在所謂“車企70%、用戶30%”的案例。

不過官方有臨時法規性質的文件中,口徑統一為智能網聯汽車,包含國標GB/T 40429-2021定義的L3級駕駛自動化(有條件自動駕駛)和L4級駕駛自動化(高度自動駕駛)。

至于事故責任,目前的仍然沿用2023年7月的規定:

事故責任歸屬的判斷由交通違法行為發生地的公安機關交通管理部門管轄。

在測試過程中事故責任系車輛負責的,造成的損失首先由保險公司賠付,不足的部分由試點使用主體(申請車企或其他試點申請方)補齊。

也就是在L3試點階段,具體情況具體商量,由當地交管部門憑經驗和客觀損失劃分責任。

很明顯是先收集案例積累操作經驗,為后面L3的規模化量產上路做準備。

從種種跡象來看,L3結束試點,進入量產階段可能也的確不遠了。

國內公開宣布L3時間表的玩家,包括:

小鵬汽車——2025年底推出L3級智駕軟件;

華為也明確在今年推出L3商用版本,合作車企之一嵐圖,透露L3車型已經在研發了;

上汽旗下的通用、智己,則宣布與2026年實現L3商用

極氪也將在4月上海車展公布自己的L3車型。

背后的技術,100%無例外都是端到端體系。

這也使得L3即將爆發的前夕,中國和歐洲車企走向兩條不同的路線:中國靠數據驅動的端到端,歐洲車企靠規則定義的傳統范式(奔馳、寶馬等有嚴苛條件的L3系統)。

北美呢?NHTSA最新的自動駕駛準入法規草案中,直接劃分為輔助駕駛和全無人,沒有給L3這種比較模糊的“人機共駕”留下任何操作空間。

核心難題仍然是:

L3大部分時間可以脫手脫眼,但注意力必須一直集中,隨時準備接管。而駕駛員接管時機難以量化表述,一旦發生事故,很難說是系統能力不足還是用戶接管時機不當。

基于此,L3呈現出這樣的格局:中國努力探索,北美直接放棄,歐洲圈地自娛自樂。

對于用戶來說,我們關心的則是:

一旦L3車型開賣上路,事故究竟誰來買單?

#OccProphet

港理工OccProphet:純視覺Occ SOTA!速度提升至2.6倍,內存占用減少60%(ICLR'25)

本文分享一篇由香港理工大學最近公開的發表于ICLR2025的論文『OccProphet: Pushing Efficiency Frontier of Camera-Only 4D Occupancy Forecasting with Observer-Forecaster-Refiner Framework』。作者在文中提出了一個輕量級的觀察器-預報器-細化器框架OccProphet來實現高效的未來4D占用預測。OccProphet在nuScenes、 Lyft-Level5和nuScenes-Occupancy等多個數據集上取得最先進的4D占用預測性能,成本減少近80%!相比此前最先進的方法,OccProphet性能提升至1.2倍,速度提升至2.6倍,內存占用減少近60%,僅需24G顯存即可完成訓練和推理。代碼即將開源。

  • 論文鏈接:https://arxiv.org/abs/2502.15180
  • 代碼鏈接:https://github.com/JLChen-C/OccProphet

圖1:(左)OccProphet示意圖。OccProphet僅接收多相機視頻輸入,并生成未來時刻的占用;(右)相比于Cam4DOcc,OccProphet性能提升約20%,速度提升約160%

圖1:(左)OccProphet示意圖。OccProphet僅接收多相機視頻輸入,并生成未來時刻的占用;(右)相比于Cam4DOcc,OccProphet性能提升約20%,速度提升約160%

動機

提升自動駕駛車輛對動態環境的感知與預測能力,是自動駕駛安全性和可靠性的迫切需求。傳統的占據感知(Occupancy Perception)方法通過學習空間中的占據狀態,能夠理解環境的當前和過去狀態,而無法預測未來動態。事實上,預測未來場景對于安全駕駛和避免碰撞至關重要。

這篇文章研究基于相機的占用預測(Occupancy Forecasting),能夠理解自動駕駛車輛周圍環境的動態變化,并對未來進行合理預測。考慮到現有的基于相機的占據預測方法(例如Cam4DOcc)計算成本高,不具備在計算資源受限的邊緣設備(例如自動駕駛車輛)的部署能力,這篇文章的主要動機在于開發一種輕量且高效的框架——OccProphet。

它僅僅使用環視圖片序列作為輸入,能準確預測未來時刻的4D占據(時間維度+空間維度)。在輕量化處理上,OccProphet引入了三大精簡模塊(Observer、Forecaster 和 Refiner),并采用高效的4D特征聚合與三元組注意力融合策略,旨在在顯著降低計算需求的同時提升預測的準確性。這一進步,首次展現了4D占用感知在自動駕駛車輛上部署的可行性

方法詳解

如圖2所示,OccProphet 是一種新型的僅基于攝像頭的占據預測框架,它不管在訓練階段還是推理階段都是計算友好的。

圖2:OccProphet概述。它接收來自環視攝像頭的多幀圖像作為輸入,并輸出未來的占用情況或占用流動。OccProphet由四個關鍵組件組成:觀察器(Observer)、預報器(Forecaster)、細化器(Refiner)和預測器(Predictor)。觀察器模塊負責聚合時空信息。預報器模塊有條件地生成未來場景的初步表示。這些初步表示通過細化器模塊進行細化。最后,預測器模塊產生對未來占用或占用流的最終預測。

圖2:OccProphet概述。它接收來自環視攝像頭的多幀圖像作為輸入,并輸出未來的占用情況或占用流動。OccProphet由四個關鍵組件組成:觀察器(Observer)、預報器(Forecaster)、細化器(Refiner)和預測器(Predictor)。觀察器模塊負責聚合時空信息。預報器模塊有條件地生成未來場景的初步表示。這些初步表示通過細化器模塊進行細化。最后,預測器模塊產生對未來占用或占用流的最終預測。

  • 觀察器(Observer)模塊:高效且有效地聚合多幀觀測(即多幀3D體素特征)中的時空信息。
  • 預報器(Forecaster)模塊:在 Observer 的輸出基礎上,自適應地預測未來狀態,從而確保在各種交通狀況下的靈活性。
  • 細化器(Refiner)模塊:通過促進幀間交互,進一步提升這些預測的質量。
  • 預測器(Predictor):將經過優化的未來狀態解碼為占用或占用流。

OccProphet 在創新性方面主要做出了以下貢獻:

  • 一種新穎的僅基于攝像頭的占用預測框架,在訓練和推理過程中都兼具高效性和有效性,適用于車載部署。
  • 一個輕量級的觀察器-預報器-細化器框架。觀察器(Observer)模塊從歷史觀測中提取時空特征;預報器(Forecaster)模塊有條件地預測粗略的未來狀態;細化器(Refiner)模塊則進一步提升預測準確性。
  • 實驗結果表明,OccProphet在預測準確性上更勝一籌,同時其計算成本不到Cam4DOcc的一半。這些優勢在nuScenes、Lyft-Level5以及nuScenes-Occupancy數據集上均得到了驗證。

關鍵組件?

觀察器(Observer)

觀察器(Observer)模塊接收4D運動感知特征作為輸入,并生成時空感知表示。通過多相機RGB圖像在時間戳上的數據,使用共享的圖像編碼器(例如ResNet)提取2D特征,這些特征被投影到3D空間中并聚合成體素化的3D特征。隨后,來自多個幀的3D特征根據6自由度(6-DoF)自車姿態對齊至當前幀坐標系,形成4D特征,然后通過附加6-DoF自車姿態信息生成運動感知4D特征。考慮到直接處理的計算負擔和3D空間大部分區域未被占用的事實,本文提出使用高效4D聚合模塊和三元組注意力融合模塊來有效地生成時空感知特征。?

Efficient 4D Aggregation(高效4D聚合)

圖3:高效4D聚合模塊

圖3:高效4D聚合模塊

直接聚合原始4D運動感知特征會導致高計算成本。為提高效率,本文設計了名為高效聚合(Efficient 4D Aggregation, E4A)的模塊,該模塊首先通過下采樣生成緊湊特征,然后在這些緊湊特征上利用時空交互實現聚合,最后通過上采樣過程補償信息丟失。E4A模塊架構首先通過3D卷積將的通道數從減少到,形成特征。為了彌補因下采樣導致的信息丟失,尤其是小物體的信息丟失,該方法一方面對下采樣后的特征進行時空交互(即三元組注意力融合模塊),另一方面對后交互特征進行上采樣,并與下采樣前相同分辨率的特征相加,直到上采樣特征的分辨率匹配初始運動感知特征的分辨率。

Tripling-Attention Fusion(三元組注意力融合)

圖4:三元組注意力融合(左)和三元組分解操作(右)

圖4:三元組注意力融合(左)和三元組分解操作(右)

三元組注意力融合模塊(TAF)專為促進多個三維特征間的時空交互而設計,通過提出的三三元組分解操作進一步降低計算成本。該操作旨在從三個互補且緊湊的角度理解三維空間,從而以較低的計算成本保留三維場景信息。具體而言,三元組分解操作將三維特征分解為場景、高度和BEV三個分支,分別壓縮三維特征至一維或二維特征,減少后續計算開銷。場景分支提取全局上下文,提供對場景的整體理解;高度分支保留垂直細節,作為2D BEV分支的補充線索,增強三維幾何信息的表現能力。

在數學表達上,給定輸入特征,通過全局平均池化(GAP)、線性變換(Linear)、一維卷積(Conv)、歸一化(Norm)及激活函數(Act)處理,分別得到場景、高度、BEV分支的輸出。隨后,通過對不同分支應用時間注意力(TA),并利用廣播技術將這三個分支的結果相加,最終得到TAF模塊的輸出特征。?

預報器 (Forecaster)

圖5:預報器的結構

圖5:預報器的結構

給定由Observer模塊輸出的時空表示,預報器 (Forecaster)模塊旨在生成未來狀態。首先通過將時間軸折疊進通道軸來重塑,形成重塑后的特征。直接使用單一線性層預測未來幀特征的方法雖然簡單,但難以適應不同交通場景下顯著變化的空間時間復雜性,尤其在動態復雜的環境(如擁擠的十字路口)中預測難度更大。

為應對這些挑戰,提出了一種靈活適應各種具有不同空間時間復雜性的交通場景的預測方法。該方法包括一個條件生成器(Condition Generator)和一個有條件預報器(Conditional Forecaster)。首先,條件生成器通過3D全局平均池化(GAP)和跨幀共享的線性層從觀測值中提取條件,然后將其重新排布為并傳遞給有條件預報器以預測未來狀態。具體來說,對應用線性層產生針對特定交通場景的自適應權重,并使用另一線性層基于這些權重預測未來狀態。最終得到的未來狀態特征被重新排布回包含時間軸的形式,作為未來環境的初步特征,并進一步通過細化器(Refiner)模塊進行細化處理。?

細化器(Refiner)

鑒于預報器模塊通過線性投影預測,其不可避免地缺乏幀間交互。為彌補這一缺陷,設計了細化器(Refiner)模塊,旨在通過增強未來幀間的交互,并結合歷史幀作為補充信息來提升預測結果的準確性。高效4D聚合模塊(E4A)作為一個時空交互模塊對于任何輸入特征,其功能可表示為,其中是高效4D聚合模塊的輸出特征,代表變換函數。考慮到殘差網絡有助于細化和網絡優化,可以將高效4D聚合視為一種特征的“細化變換”,這也有助于降低前序模塊的學習復雜度。

基于上述見解,進一步引入了一個重用高效4D聚合架構的細化器模塊,用于精細化由預報器預測的未來狀態以及由觀察器輸出的特征。具體來說,細化器應用于這兩個特征,生成增強后的特征,以便后續進行占用和占用流的預測。

實驗

網絡的訓練使用4塊(至少1塊)RTX4090 GPU,測試使用1塊RTX4090 GPU(24G顯存)。

實驗結果表明,OccProphet在預測準確性和效率上均表現出色,在三個數據集上相對于最先進的Cam4DOcc模型,其占用預測準確性分別提升了4%~18%,同時運行速度提高了約1.6倍,計算成本降低了58%~78%。?

定性實驗

圖6:Cam4DOcc與OccProphet的定性實驗

圖6:Cam4DOcc與OccProphet的定性實驗

Cam4DOcc和OccProphet在未來2秒內的占用預測可視化。紅色虛線矩形表明OccProphet的結果相比Cam4DOcc的結果與真實標注更加一致。第一行結果表明OccProphet在低光照條件下具有較強的適應性。?

定量實驗

圖7:不同表征形式之間的比較

圖7:不同表征形式之間的比較

采用E4A表征在性能上優于BEV和TPV表征,且參數更少,計算成本僅略有增加。

圖8:在細粒度的一般運動物體和一般靜態物體上的4D占用預測性能

圖8:在細粒度的一般運動物體和一般靜態物體上的4D占用預測性能

OccProphet在細粒度的4D占用預測上具有明顯優勢。

圖9:模型復雜度的比較

圖9:模型復雜度的比較

與Cam4DOcc相比,OccProphet的參數量、內存占用和FLOPs均降低了58%-78%,同時OccProphet在未來幀的平均IoU上實現了相對4%的提升,并且其FPS達到了Cam4DOcc的2.6倍。

更多定性和定量實驗及分析見論文。OccProphet將激勵在高效占用預測及其車載部署等領域的更多研究。

結論

本文提出了OccProphet,這是一種用于占用預測的全新純視覺框架。該框架采用了一個Observer Forecaster Refiner管道,專門用于高效和有效的培訓和推理。這種效率和有效性是通過4D聚合和對低分辨率特征進行三重注意力融合來實現的。實驗結果證明了OccProphet在預測準確性和效率方面的優越性。在三個數據集上,它在占用率預測方面比最先進的Cam4DOcc高出4%至18%,同時運行速度提高了2.6倍,計算成本降低了58%-78%。我們希望OccProphet能夠推動未來在高效占用率預測及其在車載部署中的應用方面的研究。

#ChatVLA

顯著超越現有SOTA!實現統一的多模態理解與機器人控制VLA的痛點與解決方案

人類擁有統一的認知能力,能夠感知、理解物理世界并與之互動。為什么大語言模型無法復制這種整體理解能力呢?通過對視覺-語言-動作模型(VLA)現有訓練范式的系統分析,發現了兩個關鍵挑戰:虛假遺忘,即機器人訓練會覆蓋關鍵的視覺文本對齊信息;任務干擾,即控制任務和理解任務在聯合訓練時相互競爭,會降低模型性能。為了克服這些限制,這里提出了ChatVLA,一個新穎的框架,它采用分階段對齊訓練,在掌握初始控制能力后逐步整合多模態數據,還使用專家混合(MoE)架構來最小化任務干擾。ChatVLA在視覺問答數據集上表現出色,在多模態理解基準測試中顯著超越了最先進的視覺-語言-動作(VLA)方法。值得注意的是,它在MMMU基準測試中的性能提高了6倍,在MMStar基準測試中得分達到47.2%,并且與ECOT相比,其設計的參數效率更高。此外,與現有的VLA方法(如OpenVLA)相比,ChatVLA在25個現實世界機器人操作任務中表現更優。研究結果凸顯了這個統一框架在實現強大的多模態理解和有效的機器人控制方面的潛力。

項目鏈接:https://chatvla.github.io/?

行業介紹

近年來,視覺-語言-動作(VLA)模型取得了顯著進展,這類模型在很大程度上優先致力于讓機器人掌握動作。在機器人控制任務上訓練的模型擅長低級操作和物理交互,但在解讀和推理圖像、文本等多模態數據時卻常常遇到困難。這看似矛盾,因為現代VLA架構是基于預訓練的視覺-語言模型(VLMs)構建的。相反,在視覺-文本對上訓練的VLMs展現出了出色的多模態場景理解能力,但卻缺乏與環境進行物理交互的能力。這種二元性凸顯了一個關鍵挑戰:如何在不犧牲任何一個領域性能的前提下,通過對齊機器人動作和視覺-文本語義這些不同數據源,實現實體控制和多模態理解的統一。

我們的工作致力于探索如何統一一個端到端的神經網絡,使其具備多模態場景理解、對話能力和物理交互能力。首先研究了現有的訓練范式,評估它們實現統一的可行性。我們研究了VLA訓練的三種數據設置:

第一,僅在包含機器人動作軌跡的專家演示數據上進行訓練(這是最常見的方法,例如OpenVLA、TinyVLA、π0 );

第二,用推理短語擴充機器人數據以指導動作(類似于ECOT和DiffusionVLA);

第三,同時使用視覺-文本對和機器人數據進行聯合訓練(如RT-2)。

這里也分析了每種配置對模型平衡控制和理解能力的影響。實驗表明,僅用機器人數據訓練會完全侵蝕對話能力;添加推理數據能部分保留多模態理解能力;引入視覺-文本對則會顯著削弱控制能力。這揭示了兩個關鍵挑戰:第一,VLA模型存在虛假遺忘問題,模型性能下降并非意味著預訓練VLMs的知識完全丟失,而是模型內部表示與不同任務的對齊方式發生了變化。機器人動作與視覺-文本數據之間的對齊似乎很脆弱,在微調過程中容易被覆蓋。第二,任務干擾問題,控制任務和理解任務的參數空間相互沖突,它們共享重疊的表示,在同時訓練時會導致相互的性能下降。

為了解決這些挑戰,我們提出了ChatVLA,這是一個在神經架構和訓練策略方面都簡單有效的框架,能讓單個神經網絡同時掌握理解和操作能力。我們受到課程學習的啟發,提出了分階段對齊訓練,這是一種兩階段策略。模型首先掌握實體控制,然后逐步整合多模態數據, “重新激活” 凍結的對齊鏈接。此外,在MLP層引入了專家混合(MoE)。這使得兩個任務可以共享注意力層(用于跨任務知識轉移),同時隔離特定任務的MLP(以最小化干擾)。這一設計的靈感來自雙編碼理論,該理論認為人類大腦通過兩個獨立但相互關聯的系統處理信息:一個用于物理技能,另一個用于語言和視覺實踐。ChatVLA中共享的注意力層促進了理解任務和控制任務之間有益知識的交換,而單獨的MLP層則獨立處理所學知識。

我們從三個維度評估ChatVLA:對話能力(視覺問答)、一般多模態理解和一般機器人控制。在TextVQA和DocVQA等既定數據集上評估其對話能力,與現有的VLMs相比,ChatVLA取得了具有競爭力的性能。此外,ChatVLA在包括MMMU、MME和MMStar在內的一般視覺和文本基準測試中,展示出了強大的多模態理解能力。值得注意的是,與ECOT等最先進的VLA方法相比,我們的方法在MMMU上性能提高了6倍,在MMStar上的性能從0提升到47.2,并且在VLM骨干網絡中使用的參數減少了3.5倍。最后在25個現實世界機器人任務上評估ChatVLA,這些任務涵蓋了抓取、放置、推動和懸掛等多種技能,涉及浴室、廚房和桌面等多個環境。在這個多任務設置中,我們的方法優于OpenVLA等最先進的VLA方法。這些結果驗證了方法的有效性,展示了單一統一方法在多模態理解和機器人控制方面的潛力。

ChatVLA貢獻如下:

  • 在嚴格的設置下深入分析了現有的VLA方法,展示了它們在實現令人滿意的多模態理解和機器人控制性能方面的局限性;
  • 引入了ChatVLA,這是一個簡單而有效的框架,它在單個神經網絡中統一了對話能力、多模態理解和機器人控制;
  • 進行了廣泛的實驗,評估ChatVLA在各種問答和一般理解基準測試中的性能;
  • 進行了廣泛的現實世界機器人實驗,涵蓋了現實家庭環境(桌面、廚房和浴室)中的25個不同任務,展示了ChatVLA在現實世界機器人控制場景中的卓越性能。?

相關工作

多模態理解

多模態大語言模型(MLLMs)通過整合視覺和語言信息來實現整體場景理解,極大地推動了多模態理解領域的發展。MLLMs在需要跨模態對齊的任務中,如視覺問答(VQA)、圖像字幕生成和空間推理,展現出了出色的性能。這一成功源于它們能夠通過復雜的適配器設計將視覺特征映射到語義表示。然而,當前的MLLMs缺乏與物理世界的連接,無法與環境和人類進行交互。這項工作旨在填補這一空白,使視覺-語言模型也能具備行動能力。
?

機器人學習中的視覺-語言-動作模型

視覺-語言-動作模型(VLAs)是一個不斷發展的研究領域,它以預訓練的視覺-語言模型(VLMs)為骨干,實現語言理解和觀察理解。這些方法通常對大型預訓練VLMs進行微調,以預測機器人動作。這些方法在模擬和現實世界任務中都表現出了強大的性能。然而,現有的VLA模型尚未證明具備真正的多模態理解能力。基于我們的實驗,發現這些模型缺乏這種能力。相比之下,我們的工作提出了一種統一的方法,使單個網絡能夠有效地處理多模態理解和機器人控制。?

ChatVLA方法介紹

圖片

形式定義

考慮機器人控制和多模態理解這兩種不同的場景。在機器人控制場景中,我們通常構建一個演示數據集,其中每個演示由一系列狀態-動作對組成。狀態由觀察(圖像)和指令(文本)組成,即。我們可以將狀態-動作對序列表示為:

圖片

其中每個元組表示時間步的狀態和相應采取的動作,是演示的長度。這些演示通常由人類專家提供。

對于多模態理解和視覺對話任務,我們有一個數據集,其中每個數據樣本由一個視覺圖像和相應的文本形式的問題(或字幕)組成,即。這里,表示此類圖像-文本對的總數。符號表示視覺-文本數據。

工作的總體目標是開發一個通用模型,它能夠處理實體控制和多模態理解。對于實體控制,這涉及學習一個策略,該策略對給定當前視覺觀察和文本指令的機器人動作的聯合分布進行建模:。同時,對于多模態理解和視覺問答,模型應該捕捉給定視覺輸入的文本(答案或字幕)的分布:。我們的目標是創建一個統一的模型,能夠有效地學習這兩種分布,使其在機器人控制任務和多模態理解場景中都能表現出色。

當前的VLA研究致力于開發更強大、更具泛化性的模型來學習視覺運動策略。一些方法探索類似思維鏈的推理來改進策略生成,而另一些方法則研究使用視覺-文本和機器人數據聯合訓練VLA模型。一些研究報告稱在實驗室環境中使用視覺-文本數據聯合訓練有好處,而另一些研究發現在現實世界場景中效果不佳。雖然有一些工作表明VLA可以保持對話能力,但沒有研究深入探討在應用VLA訓練范式后,這種能力以及一般多模態理解能力是如何保留的。在接下來的部分,分析VLA的不同訓練數據集設置,特別關注所得模型在多模態理解和現實世界機器人控制中的性能。目標是為構建能夠同時實現這兩者的統一模型提供實用指導。
?

分析

為了了解現有VLA模型在多模態理解和實體控制方面的能力,我們研究了三種不同的訓練范式,每種范式使用不同的數據集:第一,僅用機器人數據訓練,這是VLA中最普遍的方法,主要側重于優化機器人控制性能;第二,用類似思維鏈的推理擴充機器人數據,旨在提供輔助信息,提高模型的泛化能力和機器人任務性能;第三,同時使用視覺-文本數據和機器人數據進行聯合訓練。后一種范式由RT-2開創,但由于專有數據和模型細節的原因,很難進行精確復制。在本次實驗中,參照RT-2,將機器人數據與視覺-文本數據的比例設為3:1。

我們分析了VLA模型的這三種訓練數據設置。具體來說,使用DiffusionVLA,這是一個具有代表性的VLA模型,它既支持通過自回歸生成語言輸出,也支持通過擴散模型生成動作。在六個具有代表性的基準測試中評估性能:其中四個側重于視覺問答,另外兩個對多模態大語言模型進行更廣泛的評估,涵蓋數學和OCR等任務。此外,在五個現實世界機器人任務中評估性能,這些任務涵蓋了懸掛、拉動、抓取和放置等多種技能。按照DiffusionVLA的方法,生成機器人推理數據。對于視覺-文本數據,從LLaVA中隨機抽取54k個圖像-文本對。

圖片

多模態理解和問答基準測試結果:實驗結果如圖2所示。圖的右下角顯示了在六個基準測試中的性能,包括視覺問答(VQA)和一般理解任務。圖的右上角顯示了在五個現實世界機器人任務上總共進行112次試驗的平均成功率。

右下角的表格包含了基礎模型Qwen2-VL的結果。一些結果在意料之中。例如,僅在機器人數據上訓練模型,在所有基準測試中的性能均為0。該模型完全失去了對話能力,被提問時只會輸出無意義的內容。不出所料,與基礎模型相比,使用視覺-文本對和機器人數據同時訓練時,性能下降最小。有趣的是,即使推理數據中的推理短語具有高度結構化和模板化的特點,用包含推理的機器人數據進行訓練也能將性能從0提升到不可忽視的水平。盡管推理短語相似且結構化,但明確讓模型 “表達出來” 顯著提高了問答甚至一般理解的性能。

結論1:觀察表明,預訓練的VLM組件似乎遭受了災難性遺忘。僅用機器人數據訓練會導致模型失去先前獲得的對話和理解能力。然而實驗表明,這并不一定意味著知識的完全丟失,而是由機器人數據導致的對齊錯誤。使用固定的推理模板進行訓練似乎 “重新激活” 了視覺-文本對齊,使模型能夠進行對話并展示理解能力。

現實機器人多任務設置的結果:進一步在現實機器人設置中評估了不同的方法。所有方法都在25個現實機器人任務上進行訓練,這里選擇了五個不同的任務,涵蓋推動、抓取和懸掛等技能進行比較。然而,令人驚訝的是,僅用機器人數據訓練的性能比加入推理數據更差。這證實了先前的發現,即利用視覺或文本思維鏈可以增強機器人模型的泛化能力。有趣的是,將機器人數據與視覺-文本數據聯合訓練導致現實世界任務成功率顯著下降。

結論2:最初觀察到在機器人數據中加入推理可以提高性能,這與雙編碼理論一致。該理論認為,身體運動技能和視覺-語言理解并非相互排斥,而是相互關聯的,具有重疊的益處。然而,當在訓練數據中加入視覺-文本對時,機器人控制的性能急劇下降。這表明,動作生成和理解所需的不同表示可能在共享參數空間中相互競爭。我們將這種現象稱為部分任務干擾,需要仔細解決。一個統一的系統應該連接這兩種數據類型,同時為每個任務實現可分離的表示學習。
?

ChatVLA

如前所述,在機器人策略數據上訓練會干擾視覺-文本關系的學習。此外,僅在機器人數據上訓練會削弱視覺-文本對齊,導致模型對話能力下降。因此,解決這兩個挑戰對于在單個VLA模型中成功統一這兩個方面至關重要。這里將首先描述用于解決虛假遺忘的訓練策略,然后概述方法的總體架構,以解決第二個挑戰。

圖片

分階段對齊訓練:此前發現虛假遺忘是導致VLA失去聊天和理解場景能力的關鍵因素。由于預訓練的VLM訓練良好,在視覺相關任務中表現出色,因此直觀地說,少量的視覺-文本對數據就可以重新激活聊天和理解場景的能力。相比之下,機器人控制任務的訓練要復雜得多,因此優先開發一個在實體控制任務中表現出色的優秀模型。我們的訓練策略簡單而有效。首先在機器人數據上訓練VLA模型。在這個訓練過程中,我們還包括推理數據,以確保視覺和文本組件之間的持續對齊。一旦機器人數據訓練完成,同時訓練視覺-文本數據和機器人數據,以幫助模型在兩個任務中都保持熟練程度。

圖片

專家混合:上面展示了使用分階段對齊訓練來解決虛假遺忘問題,使模型能夠保留先前訓練的VLM中的知識。然而,這種方法并沒有完全解決任務干擾問題,因為模型仍然需要同時在視覺-文本數據和機器人數據上進行聯合訓練。我們引入專家混合來解決這個問題,如圖4所示。給定作為第個塊的輸入。該輸入可以屬于或。值得注意的是,這里設計了一個雙路由器,一個用于處理與多模態理解和對話相關的任務(),另一個用于學習機器人控制的表示()。輸入首先通過多頭自注意力機制,其中表示多頭自注意力。然后將其輸入到專家混合層,可以表示為:

圖片

然后將其與來自跳躍連接的輸入相加。請注意,在第一階段訓練中,僅激活控制專家。

為了區分不同任務的輸出,采用了不同的系統提示。比如,對于理解和對話任務,使用 “依據問題作答”;對于控制任務,則使用 “預測機器人動作”。直觀來講,應用于多層感知器(MLP)層的靜態專家混合(MoE)架構,可看作是一個高維特征提取器,它對共享參數空間進行劃分。這使得每個任務(例如理解任務和控制任務)都能利用相當一部分專用神經元,進而讓模型在這兩個方面都表現出色。這種類MoE架構的一個關鍵優勢在于,在推理過程中,僅有一條路徑會被激活,從而保留了基礎模型的參數。我們的研究結果表明,這種簡單直接的方法能夠同時提升模型的理解能力、對話能力和控制性能。 為什么要共享自注意力層呢?目前一種常見的解決方案是使用注意力混合機制來學習特定任務的表示。然而,基于實驗我們認為理解任務和機器人控制任務共享的一些表示對兩者都有益。例如,在典型的機器人控制場景中,模型需要理解場景、識別物體、確定物體位置,然后將這些信息轉化為動作。這些高維表示具有相似的語義概念。因此,這兩個任務之間的相互關聯性,對于同時提升理解和控制方面的性能至關重要。?

實驗分析

模態理解和視覺問答結果

使用Vlmevalkit在TextVQA、DocVQA、InfoVQA、AI2D、ChartQA、MTVQA和RealworldQA數據集上評估ChatVLA的視覺問答能力。還針對為多模態大語言模型(MLLMs)設計的更具挑戰性的基準進行了測試,即MMMU、MMStar、MME、OCRBench、HallBench和MMBench。如表1所示,ChatVLA在多個基準測試中與現有的視覺語言模型(VLMs)相比表現出了競爭力。值得注意的是,在視覺問答任務中,我們的框架在TextVQA上取得了71.2的顯著成績,大幅超越了當前最先進的視覺語言動作(VLA)方法。與ECoT和DiVLA相比,它在這些基線模型上的相對提升分別達到了9.2倍和9.5倍。該模型在需要復雜跨模態整合的多模態推理任務中表現出特別強的能力。在MMStar基準測試中,ChatVLA獲得了37.4的分數,與DiVLA和ECoT相比,性能分別提升了2.2倍和6.9倍。
真實機器人任務結果

ChatVLA的實體控制性能在25個真實世界的操作任務上進行評估。根據語言指令的粒度,所有這些評估任務可分為三類。我們在一個真實機器人上進行了528次試驗,以評估該模型的能力。

  • 直接提示的長時程任務:模型被要求直接根據語言指令執行任務(例如,“整理玩具”)。評估的四個任務均在桌面設置的玩具場景中完成。此類具有挑戰性的任務包括任務1,其中所有玩具以隨機姿勢放置在不同位置;以及任務3,它需要整合打開、拾取和關閉這三種不同的技能。在所有評估場景中,ChatVLA在直接根據高級描述執行任務方面展現出顯著優勢。該方法在多步序列中保持一致的性能,在任務1中平均成功長度達到0.54(比Octo高6.75倍),并且在任務3的三步序列中成功率達到完美。
  • 帶有高級規劃器的長時程任務:模型接收指定當前子任務目標的中間命令(例如,“拾取物體并放置到目標位置”)。此評估的主要挑戰來自子任務之間的顯著差異,這些差異包括:(1)不同的物體類型(例如,盤子、杯子、面包);(2)多種所需技能(例如,拾取 - 放置、翻轉);(3)不同的位置高度(例如,頂部/底部架子位置),如圖1右下角面板所示。這些差異共同構成了一個測試平臺,用于評估模型的組合推理能力,特別是其整合物體操作、空間推理和干擾適應的能力。這一要求在實驗結果中得到了明顯體現,如表3所示,ChatVLA在所有任務配置上均優于OpenVLA和Octo。
  • 跨技能多任務:這些任務需要在各種真實世界環境中整合多種操作技能(例如,拾取、放置、推動和懸掛),具體分為三個測試領域:浴室場景(任務14 - 17)、廚房環境(任務18 - 19)和桌面配置(任務20 - 25)。如表4所示,ChatVLA在所有任務類別中均比Octo和OpenVLA表現更優。該模型在具有挑戰性的浴室和廚房任務中表現尤為出色,在這些任務中,機械臂的操作空間范圍受到嚴重限制。這種實驗設置在模型評估過程中引入了大量安全考慮因素,從而對評估模型的操作精度和系統穩健性提出了嚴格要求。

消融研究

  • 哪種視覺語言數據更優?:在第二階段,使用LLaVA - 1.5數據集進行聯合訓練,這使得模型在視覺問答(VQA)和多模態大語言模型基準測試中與Qwen2 - VL相比能夠取得相當的結果。然而,我們認為剩余的性能差距歸因于所使用的視覺文本數據的局限性。為了進一步探索這一點,對ChatVLA和Qwen2 - VL在MMMU數據集上的結果進行了深入分析,如圖5所示。MMMU數據集分為六個類別,ChatVLA在其中三個類別(藝術、醫學和社會科學)中的性能略低于Qwen2 - VL。對相應子類別結果的更仔細檢查顯示,性能差異主要出現在五個特定領域:藝術理論、檢驗醫學、藥學、文學和心理學。這些領域涉及相對有限的專業知識,難以獲取。在查看LLaVA數據集的組成時,驚訝地發現,其包含COCO、GQA、OCR - VQA、TextVQA和VisualGenome在內的子數據集缺乏這些領域所需的專家知識,這可能是觀察到性能下降的原因。這一發現也凸顯了ChatVLA的巨大潛力:通過使用更合適的專業數據進行訓練,相信可以在多模態理解方面取得顯著更好的性能。
  • 視覺文本數據與機器人數據的合適比例是多少?:在與視覺文本數據進行聯合訓練時,遵循ECoT中討論的設置,將視覺文本數據與機器人數據的總體比例設置為1:3。然而,其他數據比例對多模態理解和機器人任務是有益還是有害仍需關注。因此,在相同的步數下,將聯合訓練中視覺文本數據與機器人數據的比例分別修改為1:1和3:1。三種設置的結果如表5所示。令人驚訝的是,較少的視覺文本數據導致了更好的性能。這與前面的分析一致,即使是有限數量的視覺文本數據也足以重新激活視覺文本對齊,并彌合基礎視覺語言模型(VLM)與視覺語言動作(VLA)模型之間在現實世界交互能力方面的差距。?

參考

[1] ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model

#Reasoning模型復現R1經驗綜述

小小夢想的R1模型(復現R1)

作者復現R1基于HF的open-r1,底層使用trl庫,在GSM8K數據集上進行了復現,使用了4張40G的A100和Qwen2.5 1.5B-Instruct模型。

代碼在https://github.com/Mryangkaitong/deepseek-r1-gsm8k
?

獎勵:

  • 格式獎勵參考了Logic-RL的工作,格式檢查了以下內容:
  • ??<think>???出現在??</think>??之后,
  • ??<answer>???在??</answer>??之后,
  • ??</think>???在??<answer>??之后,
  • 以上三種任意一種都是格式錯誤,獎勵值出-1,其他出+1;
  • accuracy_reward直接看結果是否正確,正確獎勵值為1,錯誤獎勵值為0。

參數:

作者使用了DeepSpeed Zero3,FlashAttention2, 提示詞長度最大512,回答長度最大1024,每張卡1個BS,梯度累計16步, 每次采樣3個回答,學習率3e-6,BF16,使用VLLM。
?

復現效果:

來源于https://github.com/Mryangkaitong/deepseek-r1-gsm8k/blob/main/log/log.png

來源于https://github.com/Mryangkaitong/deepseek-r1-gsm8k/blob/main/log/log.png

作者使用Qwen2.5 1.5B-Instruct在GSM8K訓練完的準確率為74.29%。

HF的Open-R1(復現R1)

github.com/huggingface/open-r1/
?

復現的訓練步驟:

圖片

  1. 首先對有指令遵循的模型蒸餾DeepSeek R1的訓練數據,得到Open R1-Distill;
  2. 對Base 模型用GRPO訓練得到OpenR1-Zero;
  3. 對Base模型先蒸餾Open R1-Zero的指令遵循數據,再使用GRPO訓練得到Open R1。
    ?

復現效果

左側是HF Open R1,右側是DeepSeek R1.

左側是HF Open R1,右側是DeepSeek R1.

作者的生成使用的溫度系數為0.6。
?

Mini-R1 (基于GRPO的用來玩小游戲的模型)

作者希望能通過GRPO的訓練,讓模型精通Countdown游戲。Countdown 游戲是一個數字拼圖游戲,玩家使用一組隨機抽取的數字和基本的算術運算 (+、-、×、÷) 來達到或盡可能接近目標數字

作者的技術文章在 https://www.philschmid.de/mini-deepseek-r1
?

獎勵設置

  • Format Reward:檢查生成的格式是否滿足??<think>????[thinking]???</think><answer>????[answer]???</answer>???的格式。滿足獎勵值為 1.0 ,否則為0。
  • Accuracy Reward:從標簽中提取方程式,并根據目標以及每個數字是否使用一次對其進行評估。??<answer>??
  • 生成的回答必須包含??<answer>???且必須可以被??<answer>(.*?)</answer>??解析出內容,同時解析出的內容只能包含數字、運算符(+、-、*、/)、括號、點號(.)和空白字符。
  • 數字使用正確:解析出的內容中的數字只能是輸入的幾種數字。
  • 使用eval運行解析出的表達式,結果需要和答案的差異小于1e-5。
  • 異常處理:報異常直接返回0.

參數設置

每個設備一個BatchSize,梯度累計8步,采樣8次,使用VLLM。
?

觀察

  • 在 ~50 步時,模型已學習正確的格式。??<think>...</think>\n<answer>...</answer>??
  • 在 100 步時,求解方程的成功率約為 25%。模型開始用單詞 “推理” ,見下面的例子。
  • 在 200 步時,性能似乎收斂得慢得多,我們的成功率為 ~40%。該模型開始學習一種新的 “格式”,在其中,它通過嘗試不同的組合并查看結果,類似于以編程方式求解方程式,請參閱“步驟 200 和 450 之間的成功推理樣本”。
  • 在 450 個步驟中,我們求解方程的成功率為 50%。性能仍然緩慢提高,模型從步驟 200 開始保持其新的格式形式。

圖片

Logic-RL(復現R1)

文檔鏈接 https://evxpwrsfkdb.feishu.cn/docx/NokEdaMBmo6aqZxVdxkcSm2cnab

代碼鏈接 https://github.com/Unakar/Logic-RL
?

獎勵設置:

作者自己寫的規則

作者發現:

我們發現模型在學習format的時候,其實是一個快速收斂--逐漸崩壞--又忽然找回format的形式,與我們三階段RL訓練設置吻合。
還有一個有趣的小發現,在中間階段,模型似乎認為格式反而阻礙了它的思考:日志里看到不少例子,模型在??<answer>????tag開始后意識到自己犯錯了,想重回??<think>??進入思考模式,可惜被format reward狠狠懲罰了

獎勵設置:

  • 格式是否遵循??think> [thinking] </think><answer> [answer] </answer>???的格式。滿足獎勵值為 1.0 ,否則為-1.0。
  • 答案是否正確:如果答案正確是2,答案可以解析但是錯誤是-1.5,答案不可以解析是-2

參數:

  • 模型:Qwen2.5-7B-Instruct-1M
  • 數據集&場景:作者使用了不到2K合成數據集。

場景:邏輯問題類似老實人和騙子的益智題,老實人總說真話,騙子總說假話,下面N個人,各有各的表述,請判斷誰是騙子。

  • 訓練(全局GRPO):
  • 預熱:作者先使用一共三個人的邏輯問題作為訓練集,3epoch的RL訓練后,成功讓qwen-7B達到了0.41。模型在10step訓練里很快就能學會把format error降到0.1的占比
  • 訓練:高溫采樣設置溫度系數1.2
  • 退火:溫度從1.2慢慢降到0.9,學習率降低到2e-7。

作者在挑選模型發現Qwen 7B MATH:

首先它指令跟隨能力比較一般,很難學會format;
其次,它說話老愛用python code解題,訓練很難克服移除system prompt后,還是習慣用\box{}包裹answer,還是format不行Markdown味道太重,一板一眼的,Reasoning模型本應思想跳脫一些才是。

從邏輯上確實是Qwen 7B Math更高,但是格式遵循不如Qwen Instruct模型。

作者使用了GRPO,采樣數逐漸減少 64-32-16(因現存有限,每個設備的BatchSize先小后大)。
?

simpleRL-reason(Math模型)

Qwen2.5-7B-SimpleRL訓練使用了8K條math相關的數據,

  • SFT:作者先從Qwen 32B QwQ生成 對應回答,然后對基模進行蒸餾。
  • RL: 作者使用GRPO,每個采樣8個回答,訓練模型。

Qwen2.5-7B-SimpleRL-Zero訓練只有RL步驟,無SFT。
?

效果

(pass@1) 33.3% on AIME, 62.5% on AMC, and 77.2% on MATH。
?

總結

  • Reasoning能力:這幾個復現項目都以Qwen為基模。預訓練通過較好的過濾,減少知識的沖突,提高數據質量,把世界知識灌注好,通過GRPO就可以激發模型的reasoning能力。
  • 高效訓練:強化學習可以參考OpenRLHF 、Ray和 生成時考慮VLLM。
  • 蒸餾具有Reasoning能力的教師模型或者通過Rule-Base RL訓練都可以得到不錯的效果。但是蒸餾涉及到數據的選取問題,RL涉及到Rule的質量,規避Reward hacking現象。
  • 通過高溫采樣可以得到多樣性強的結果。

#VLM與VLA的區別是什么?當前自動駕駛落地的情況怎么樣?

去年理想對外展示快慢系統后,VLM在自駕的應用落地正式對外展露。今年智駕行業又在主推VLA,相比于端到端+VLM方式,VLA方案擁有更高的場景推理能力與泛化能力。不少智駕領導者都將VLA視為當下“端到端”方案的2.0版本,VLA也被看成是端到端+VLM的合體。VLM關注的重點在于環境建模,VLA除了考慮環境建模,還需要關注規劃和控制問題,這是兩者的區別。

VLM的應用怎么樣?

視覺語言模型在座艙域的應用可能更加直接,交互也容易些。這也是為什么座艙域更容易接入。VLM在自駕域的應用,分為輔助功能和直接預測軌跡。

理想的快慢系統給出了第一個輔助應用的答案,這一點發布會上有很清晰的描述。端到端模型速度快,大模型幀率低,無法實時交互,那么是否可以把VLM輸出的結果給未來幀作為參考,提供一定的經驗或者矯正,無論是特征級別還是后處理層面,相信是一個很好的輔助。地平線的Senna也給出了具體的方案,VLM的缺點是對于精確的數值預測不是很好,但是對于預測意圖或者粗粒度的規劃是很好的,E2E系統到現在依然無法解決一些復雜的長尾場景。Senna工作中,VLM做高層次的planning decisions,進而指引E2E系統的軌跡預測。

圖片

當下公開的論文,像DriveGPT、DriveGPT4、DriveVLM、OmniDrive等任務直接輸出規劃或預測軌跡點信息,這一點接近了VLA本身,但存在真實場景中高質量數據收集較難、實時部署較難等一系列的問題。如果只有純視覺輸入,除了參數量,本質上可以用端到端模型來替代,但參數量上來了,模型的性能上限也會出現非常大的差異。

VLA可能有哪些優勢?

可以說VLA是端到端2.0,VLA的關鍵特性是思維鏈,這一點和當下的端到端有所不同,例如潮汐車道,基于VLA的智能駕駛車輛,能通過文本等看懂可逆車道的道路標志,從多重信息中確認此時的潮汐車道是否可行駛,并通過轉向燈等與其他車輛交互,隨即變換車道,進行轉向,最終行駛至潮汐車道中。利用類人的思維,通過對全局上下文的了解,去了解車道的情況,與其他車輛交互,并做出最優的、安全的決策。

VLA大模型直接用統一的參數處理原來的分層任務,和現在的端到端模型相似。但大模型的參數量大,微調到下游任務也比較方便。

VLA具備更強的泛化能力,這一點和具身領域比較相似,零樣本、新場景的泛化能力會有明顯提升。

VLA在自動駕駛中應用會有哪些難點?

高質量數據依然是瓶頸,即使是finetune,怎么解決數據分布不均衡問題,怎么減少模型本身的經驗導致的錯誤輸出?

VLA的部署,算力上支持的不是很好,英偉達的Thor也許是一個很好的解決方案,千T的算力加持。極氪自研的浩瀚智駕系統率先成為全球首款搭載英偉達Thor芯片的量產車型,期待后面的自駕公司產生更多有效、穩定的方案!

VLM/VLA在訓練中可以增強端到端任務

VLM和VLA也可以很有效增強現有端到端任務,主要體現在以下部分:

提升泛化能力,處理長尾場景:通過引入LLM,E2E模型能夠更好地處理罕見和復雜的駕駛場景,知識遷移可以完成長尾場景的學習,大模型的零樣本能力也是值得關注的點。

豐富的語義信息,輔助推理:視覺語言模型可以生成更有解釋性的結果,為E2E模型提供了豐富的語義信息,幫助模型更好地理解駕駛環境。

提高規劃性能,降低軌跡誤差:DiMA在nuScenes數據集上實現了37%的L2軌跡誤差降低。多模的軌跡輸出更符合現實需求,進而減少碰撞率:VLM-AD和DiMA均顯著降低了碰撞率。

知識蒸餾助力實時部署:通過將大模型的知識蒸餾到更小的模型中,可以在保持高性能的同時顯著減少計算量和模型大小。

增強可解釋性:VLM-AD通過預測人類可解釋的動作標簽,增強了模型決策的可解釋性。

減少對大規模數據集的依賴:通過LLM生成的合成數據或推理注釋,可以在數據稀缺或隱私受限的場景下訓練模型。 VLM可以自動生成高質量的標注數據,減少人工標注的成本和時間。

#比亞迪終結高階智駕特權時代

『天神之眼』擊穿價格壁壘!

比亞迪“天神之眼”震撼登場:開啟全民智駕新時代

?比亞迪又一次驚艷眾人,這次直接放大招,目標是把智能駕駛從“奢侈品”變成人人都能擁有的“日用品”!

圖片

2月10日晚,在比亞迪智能化戰略發布會上,董事長兼總裁王傳福宣布:比亞迪全系車型都將搭載“天神之眼”高階智駕系統,首批就有21款車型稍后上市。要知道,在此之前,比亞迪的智能駕駛一直被網友調侃為“理科生的沉默”,沒想到這次直接甩出“天神之眼”,還喊出了“全民智駕”的口號,連7萬多塊的海鷗都安排上了高階智駕,這操作簡直太絕了!

消息一出,資本市場迅速給出積極反饋。自消息公布起短短4天內,比亞迪的市值激增近1500億元。這無疑是繼2024年初“電比油低價格戰”后,比亞迪發起的又一重大戰略舉措,極有可能重塑中國汽車市場的競爭格局。

這也是為什么王傳福能在臺上淡定表示:“技術不成熟我們就不說,但一拿出來就要大大超越預期。” 在比亞迪發布新戰略后,資本市場迅速做出積極反饋。自消息公布起,比亞迪的股價一路走高。截至2月10日,短短4天內,其市值已激增近1500億元。此次行動顯然是比亞迪繼2024年初的“電比油低價格戰”之后,再次發起的一場重大戰略舉措,這場“智能普及戰”有可能徹底改變中國汽車市場的競爭格局。
?

“天神之眼”技術矩陣:覆蓋全系,各有千秋

比亞迪“天神之眼”系統根據硬件配置和功能定位,精心分為三個版本,對應不同尾標顏色,從高端到大眾市場的車型全覆蓋。

版本

正式名稱

主要搭載品牌

硬件配置

功能亮點

適用車型

天神之眼A

高階智駕三激光版(DiPilot 600)

仰望

集成3顆激光雷達、5顆毫米波雷達、11顆攝像頭,搭載雙英偉達Orin X芯片,算力高達508TOPS

支持無圖城市領航(CNOA)、高速NOA、易四方泊車等,適用于復雜城市道路和極端場景,滿足如仰望U8的極端越野需求

專為仰望品牌旗艦車型設計(如仰望U8)

天神之眼B

高階智駕激光版(DiPilot 300)

騰勢、比亞迪

采用1顆激光雷達+毫米波雷達+攝像頭組合,算力254TOPS(單Orin X芯片)

與A版功能相似,但受限于單激光雷達,復雜場景性能稍遜

適用于騰勢Z9GT、比亞迪漢L等中高端車型

天神之眼C

高階智駕三目版(DiPilot 100)

比亞迪

純視覺方案,配備5顆毫米波雷達、12顆攝像頭(前視三目設計)、12顆超聲波雷達,搭載地平線J6M或英偉達Orin N芯片,算力96TOPS

聚焦高速NOA、代客泊車(AVP)、城市記憶領航(MNOA),支持1000公里0接管駕駛,AEB剎停速度100km/h(未來升級至140km/h)

覆蓋7萬 - 20萬元區間車型,如海鷗(6.98萬元起)、秦PLUS DM-i等,推動智駕技術普及

核心技術:軟硬結合,數據驅動

硬件與算法深度融合才是關鍵。只堆砌硬件,那不過是一堆廢銅爛鐵,比亞迪深知這一點,將硬件和算法深度融合,充分釋放硬件性能,展現出強大的軟件實力。

  • 感知系統:A/B版的激光雷達發揮著重要作用。仰望U8的3顆激光雷達實現360度無死角感知,探測距離達250米,能精準識別不規則障礙物;騰勢Z9GT配備2顆激光雷達,更側重城市復雜場景。C版的純視覺方案也毫不遜色,采用“二郎神”前視三目攝像頭(2顆800萬廣角 + 1顆800萬長焦),通過稠密點云模擬激光雷達效果,最遠探測350米,再配合毫米波雷達,實現全天候感知。
  • 算力與架構:比亞迪全球首推整車廠自研車載計算平臺。仰望U8的508TOPS算力支持端到端決策,騰勢Z9GT的254TOPS算力則優化城市路況處理。璇璣架構更是一大亮點,整合“一腦(中央計算平臺)、兩端(車端 + 云端AI)、三網(車聯網/5G/衛星網)”,實現電動化與智能化深度協同,支持算力動態分配和算法快速迭代,還接入DeepSeek賦能車端和云端的AI雙循環。
  • 數據驅動迭代:比亞迪依托超過440萬輛智能車的云端數據庫,每月新增數十萬條駕駛場景數據。這些海量數據為算法優化提供了豐富素材,形成“越開越智能”的進化模式,在數據積累和模型訓練上建立起難以復制的優勢。

功能場景:全鏈條覆蓋,實用至上

“天神之眼”的功能覆蓋了從高速到泊車的各個場景,實用性拉滿。

  • 高速與城市領航:高快領航(HNOA)能自動上下匝道、保持車道、智慧避障,面對大曲率彎道和施工路段也不在話下。無圖城市領航(CNOA)更是厲害,全國范圍開通,不依賴高清地圖,靠多傳感器融合就能識別紅綠燈、在復雜路口博弈通行。
  • 泊車與記憶功能:代客泊車(AVP)成功率高達99%,不管是狹窄車位還是室內外環境都能輕松應對,用戶還能下車后遠程操控。自動泊車精準感知,空間車位插空即停,斜列空車位也能精準識別。記憶領航(MNOA)計劃2025年底OTA推送,它能學習用戶高頻通勤路線,自動完成紅綠燈啟停、路口通行。

圖片

戰略意義:重構市場,引領產業變革

比亞迪這波操作,不只是技術上的突破,還蘊含著深遠的戰略意義。

  • 成本下探與市場下沉:憑借規模化生產和自研技術,比亞迪把高階智駕成本壓縮至1.5萬元以內,推動激光雷達價格向千元級邁進,成功打破“智駕 = 高價”的行業認知。7萬元級的海鷗搭載DiPilot 100,直接沖擊合資品牌燃油車市場。
  • 產業鏈協同及全球化與生態協同:比亞迪擁有11萬名研發團隊(其中5000名是智駕工程師)和全球最大新能源汽車制造體系,具備從芯片到算法的全鏈路自研能力。這種垂直整合模式,不僅降低了成本,還推動了中國智能駕駛產業鏈的成熟。2025年海外銷量同比激增83.4%,智駕技術成為拓展歐美市場的關鍵差異化競爭力。同時,比亞迪呼吁供應鏈擴產,帶動激光雷達、芯片等產業鏈發展,構建起“技術普惠”生態。

未來展望:打造智能駕駛“中國名片”

比亞迪的全民智駕戰略,不僅是企業自身的技術飛躍,更代表著中國汽車工業從“電動化領先”向“智能化引領”的轉型。分析師預測,未來3 - 5年,跟不上智能化步伐的車企可能會面臨淘汰。

比亞迪還計劃推出“賽道無人駕駛”系統,通過扭矩矢量控制實現性能與智能的融合。其提出的“出行空間”概念,預示著汽車將從單純的交通工具升級為生活場景的延伸。隨著“天神之眼”的普及,中國智駕技術有望成為全球市場的差異化競爭力。

以前,智能駕駛就像奢侈品店里的限量款,價格高昂。現在,比亞迪把激光雷達、毫米波雷達這些“黑科技”塞進7萬塊的海鷗里,還讓全系車型智駕版比老款最多貴5000塊,相當于用一部手機的錢就能升級整套智能駕駛系統。這場技術普惠背后,是比亞迪的“陽謀”。當1000萬車主同時使用智駕系統,每天產生的數據量能讓算法進化速度提升十倍。就像網友說的:“現在買比亞迪等于入股自動駕駛實驗室,開著開著車自己就變聰明了。”
?

寫在最后

從今往后,誰再敢說比亞迪智駕是“瘸腿選手”,網友第一個不答應!這場發布會直接把行業整破防了——以前大家吐槽比亞迪“三電技術封神,智能駕駛掉隊”,現在“天神之眼”一亮相,好家伙,直接讓友商連夜改PPT。

這波操作可不只是技術炫技這么簡單。以前智能駕駛就像奢侈品店里的限量款,動輒二三十萬的車才配擁有。比亞迪這次直接把激光雷達、毫米波雷達這些“黑科技“塞進了7萬塊的海鷗車里,活生生把智駕配置卷成了“車圈拼多多”。

更絕的是比亞迪的“技術普惠“打法。別人家發布會曬參數,比亞迪直接曬價格表——全系車型智駕版比老款最多貴5000塊,相當于用一部手機的錢升級整套智能駕駛系統。

其實這場革命早有預兆。去年王傳福說要“用新能源車價格戰的方式打智能駕駛”時,還有人笑他畫大餅。結果人家悶聲搞出個“天神三件套“:仰望U8上的激光雷達陣列活像未來戰車,秦PLUS的“前視三目“攝像頭堪比蜻蜓復眼,最狠的是那個代客泊車功能——現場演示時,工作人員直接蒙著眼罩讓車自己找車位,把觀眾看得直呼“這波在大氣層”。

現在行業徹底被帶跑偏了。以前車企開發布會必提“算力天花板”“算法專利數”,現在全改口說“要讓老百姓用得上”。這場技術普惠的背后,藏著比亞迪的“陽謀”。他們早就算準了:當1000萬車主同時使用智駕系統,每天產生的數據量能讓算法進化速度提升十倍。就像網友說的:“現在買比亞迪等于入股自動駕駛實驗室,開著開著車自己就變聰明了。” 這種“人民戰爭”式的研發模式,恐怕才是讓傳統車企最頭疼的殺手锏。

深圳發布會現場,“智駕平權時代”六個大字滾動播放。比亞迪不僅要改寫智能駕駛的游戲規則,更要重新定義“好技術”的標準——不是實驗室里冷冰冰的參數,而是菜市場門口能自動避讓三輪車的智能海鷗,是新手司機在暴雨天敢放心交給系統的AEB功能,是每個普通人都能觸摸到的科技溫度。從今往后,誰還敢說比亞迪智駕是“瘸腿選手”?這場發布會直接讓行業“破防”,友商估計都得連夜改PPT了!

#自動駕駛汽車的運動預測
  • 論文鏈接:https://arxiv.org/pdf/2502.08664

摘要

本文介紹了自動駕駛汽車的運動預測:綜述。近年來,自動駕駛領域吸引了越來越多的關注。準確預測各種交通參與者的未來行為對于自動駕駛汽車(AVs)的決策是至關重要的。本文主要研究基于場景和基于感知的自動駕駛汽車運動預測。本文提出了運動預測的形式化問題表述,并且總結了該研究領域面臨的主要挑戰。本文還詳細介紹了與該領域相關的代表性數據集和評估指標。此外,本文將最近的研究分為兩個主要類別:監督學習和自監督學習,它們反映了基于場景和基于感知的運動預測中不斷發展的范式。在監督學習的背景下,本文深入檢驗并且分析了該方法的每個關鍵元素。對于自監督學習,本文總結了常用的技術。最后,本文總結并且討論了潛在的研究方向,旨在推進AV技術這一重要領域的發展。

主要貢獻

本文的貢獻總結如下:

1)本文全面概述了自動駕駛汽車運動預測的最新研究,涵蓋了基于場景和基于感知方法的通用流程;

2)本文總結并且討論了未來的研究方向,為推進AV技術的發展做出了貢獻。

論文圖片和表格

總結

本文全面概述了自動駕駛汽車運動預測的最新進展。本文首先介紹了運動預測的表述,然后回顧了各種廣泛使用的數據集。接著,詳細解釋了專門為運動預測設計的評估指標。最先進的預測模型已經取得了重大進展,它們采用了注意力機制、GNNs、transformers和自監督架構等先進技術。盡管這些技術取得了突破,但是該領域仍然面臨著重大挑戰。理解運動預測對于自動駕駛至關重要,因為它極大地提高了道路場景的可解釋性,從而在提高未來自動駕駛技術的安全標準方面發揮著重要作用。

#理想汽車官宣首款純電SUV

股價大漲、CEO罕見發聲

好么 李想是我感覺最惡心的之一

在理想MEGA純電MPV之后,理想首款純電SUV車型正式進入公眾視野。

2月25日,理想汽車通過官方社交平臺發布了旗下首款純電SUV的外觀造型信息,新車命名為理想i8,不同于此前車型,該車采用了全新的外觀設計,還將配備激光雷達,并采用貫穿式尾燈。

據了解,i系列是理想汽車全新的純電SUV系列,與L系列、MEGA并列,3個產品系列共同構成完整的車型矩陣。

false

理想汽車CEO李想同日在社交平臺罕見發文,解釋了自家兩大產品序列 ——L和i的含義。其表示,增程 SUV 的“L”代表“Leading(領先)”,純電 SUV 的“i”代表“intelligence(智慧)”。

受新車消息影響,港股理想汽車逆市走強,截至午間收盤,理想汽車漲超12%,盤中最高漲幅超14%。

理想汽車的首款純電車型理想MEGA去年3月1日上市,售價55.98萬元,官方原本期望其成為50萬元以上、不分品類和能源形式的銷量第一。但該車型上市后經歷系列風波,未能實現預定目標。

在首款純電車型上市失利后,理想汽車官方決定將原本在2024年內發布的3款純電SUV的推遲至今年上半年。

此后理想發布的首款30萬元以下的新車型理想L8很快扭轉了公司遭遇的不利境遇。去年全年,理想汽車的交付量超過50萬輛,同比增長33.1%,再次蟬聯造車新勢力銷量冠軍。

不過,理想汽車的頭部地位正在遭遇沖擊,2025年開年第一個月,理想汽車丟失連續多個月的銷量第一寶座,當月交付新車29,927輛,同比下降3.97%,環比下降48.85%,成為新勢力中唯一一家同環比雙降的企業。

而同期小鵬汽車共交付新車30,350輛,同比增長268.88%,連續3個月交付量破3萬輛的同時,時隔30個月重回造車新勢力銷量榜首。

#Hawk

大模型破解極端場景!港科開源Hawk:重新定義開放世界視頻異常理解

視頻異常檢測(VAD)系統廣泛應用于監控、安防、交通管理等領域,能夠自動識別異常事件,如暴力行為、交通事故等,從而減少人工干預、提高效率。在大模型時代,隨著大規模預訓練模型,尤其是視覺語言模型(VLM)的發展,VAD的智能化水平得到了顯著提升。

然而,現有VAD技術仍面臨挑戰。當前系統多依賴傳統特征提取方法,對場景的語義理解有限,難以識別復雜或不規則的異常行為。同時,現有的標注數據稀缺,限制了VAD在開放世界場景中的應用,這些場景中異常行為千差萬別,現有模型難以應對未見過的新型異常,并缺乏足夠的自適應能力。

針對上述挑戰,本研究提出了Hawk,一個面向開放世界的視頻理解和異常檢測框架。HAWK通過識別異常視頻和正常視頻之間的運動信息差異,顯式地整合了運動模態以增強異常識別。為了加強運動信息的關注,Hawk在運動和視頻空間中構建了一個輔助一致性損失,指導視頻分支集中在運動模態上。此外,為了提升運動與語言之間的解釋能力,Hawk建立了運動及其語言表示之間的明確監督關系。此外,本研究標注了超過8,000個異常視頻及其語言描述,支持在多樣的開放世界場景中進行有效訓練,并創建了8,000對問答對,以幫助用戶處理開放世界中的問題。實驗結果表明,HAWK在視頻描述生成和問答任務中均超越了現有的VAD基準。

Demo:https://huggingface.co/spaces/Jiaqi-hkust/hawk
Model:https://huggingface.co/Jiaqi-hkust/hawk
Dataset:https://huggingface.co/datasets/Jiaqi-hkust/hawk
Code:https://github.com/jqtangust/hawk?

1.引言

圖1:在VAD中不同的架構。

(A)是傳統的VAD,他使用一個二分類器來檢測異常

(B)是使用多分類器整合語義信息來給出對不同類型的異常信息,僅限于檢測異常幀

(C)是之前的視頻理解框架,可以交互式的為用戶提供豐富的語義信息(但更多關注的是長距離上下文信息,而不是異常信息),但是不能準確定位異常(因為主要依賴偽標簽)

(D)為本文提出的方法,提高了異常理解能力,并使用帶有豐富語義信息的注釋標簽來訓練

圖片

1.1 問題分析

  • 如圖1(A)所示,對場景的語義理解較淺,用戶交互不足。
  • 如圖1(B)所示,僅限于檢測異常幀,仍需進一步手動分析來理解異常。
  • 如圖1(C)所示,主要依賴于偽標簽進行訓練,更多關注長距離上下文信息,而不是與異常相關特征。

1.2 方法

HAWK是一個交互式VLM(interactive large visual-language model),用于精確理解視頻異常,如圖1(D)所示。

  • 正常視頻和異常視頻中的運動差異顯著。通過雙分支框架顯式集成運動模態,以增強對異常的理解(3.1)。
  • 增強運動注意力。基于原始視頻(外觀特征)和其運動之間的互信息,在緊空間中構建了一個輔助一致性損失(3.2)隱式引導視頻分支關注運動相關特征。
  • 增強運動與相應語言的解釋。從原始描述中提取與運動相關的語言(動詞及其實體),以監督運動的視覺和語言表示(3.3)。

1.3 數據集

本研究采集了來自不同場景的七個視頻異常數據集,并為每個視頻生成了語言描述。此外,為了應對用戶提出的開放式問題,本研究利用視頻的語言描述生成潛在的QA對進行訓練。由于這些數據集涵蓋了多個場景,包括犯罪(UCF-Crime)、校園環境(ShanghaiTech 和 CUHK Avenue)、人行道(UCSD Ped1 和 Ped2)、交通情況(DoTA)以及人類行為(UBnormal),因此,該模型能夠有效地泛化到開放世界場景中。

1.4 主要貢獻

  • 一個創新的視頻-語言框架HAWK,旨在理解視頻異常,并引入運動模態來增強其視頻理解語義能力。
  • 七個不同的視頻異常數據集生成了豐富的語言描述。同時,考慮到開放世界問題的多樣性,同時生成了問答對,以應對潛在的用戶QA。
  • 在多個場景中展示了SOTA的表現,既能進行視頻異常理解,又能進行問答任務。

2. 數據工程

圖2:數據集生成的流程。

(第一行)首先將視頻分割為片段密集片段并生成描述,然后通過將"描述+prompt"輸入給GPT4來生成與異常視頻相關的描述,并且要人工檢查出錯誤的

(第二行)將"兩個原則+prompt"輸入給GPT4來生成問題,并通過人工選出最合適的100個問題,將他們隨機分給不同的視頻,然后將上面的"描述+問題+prompt"輸入給GPT4來生成答案

圖片

2.1 原理2.1.1 語言描述

對7個數據集進行詳細的語言描述標注,涵蓋了多種異常場景:

  • 犯罪(UCF-Crime)
  • 校園(ShanghaiTech、CUHK Avenue)
  • 人行道(UCSD Ped1、Ped2)
  • 交通(DoTA)
  • 人類行為(UBnormal)

2.1.2 開放性問題

每種場景構建了開放式的QA對,進一步增強模型對用戶各種問題的實際回答能力。過程如圖2所示。數據格式如下:

圖片

2.2 異常視頻描述生成流程

  • 首先將視頻拆分為密集的片段,確保捕捉到關鍵信息
  • 使用感知工具(InternVideo、Tag2Text、GRiT)自動生成每個片段的描述(UCF-Crime本身就有)
  • 將 描述 + prompt(生成與視頻異常相關的具體描述)給GPT-4來為每個視頻生成與異常相關的描述
  • 人工檢查不準確的標注

2.3 以人為中心的QA對生成

雖然已經獲得準確的異常視頻描述。但仍可能面臨用戶提出的更開放性問題的挑戰。

2.3.1 兩個原則

  • 與異常相關:問題應與視頻中的異常緊密相關
  • 5W2H:What、Who、Where、When、How、How much和Why

2.3.2 流程

  • 將"兩個原則+prompt"輸入GPT-4來生成異常視頻的開放性問題
  • 人工選擇出最合適的100個問題,隨機分配給每個視頻
  • 將"問題+prompt"輸入GPT-4來為<QUESTION>生成<ANSWERS>

3. 方法

圖3:Hawk的總覽。在訓練過程中,旨在優化3個損失:

(1)原始視頻到語言匹配損失,為了生成一般性的語言描述

(2)原始視頻到運動一致性損失,為了讓原始視頻更關注與運動相關的

(3)運動到語言匹配損失,為了讓模型更好的描述運動

圖片

3.1 顯式集成運動模態

HAWK專門集成了運動模態,采用架構相同但權重獨立的雙分支結構集成視頻和運動信息,形成視覺標記嵌入。最終,通過結合視覺標記嵌入??和文本嵌??,輸入給 LLaMA-2 來生成最后的響應??,整體推理過程如下:

  • ?表示用于提取外觀特征的??輸入
  • ?表示用于提取運動特征的??輸入,?表示運動提取器
  • ?和??分別表示原始視頻理解網絡和運動理解網絡,架構由一個 EVA-CLIP 和一個預訓練的 Video Q-Former 組成
  • ?和??表示對于視頻和運動的可學習的投影網絡,旨在將視覺(視頻和運動)嵌入投影到語言特征空間
  • ?表示凍結的文本標記到嵌入的投影,旨在使文本信息可以輸入到 LLaMA-2 中
  • ?表示組合輸入 prompt:"Here is the input video embedding: <VIDEO_EMBEDDING>and motion embedding<MOTION_EMBEDDING>in different frames,please help me to<DESCRIBE_VIDEO>|."其中 <DESCRIBE_VIDEO>是視頻描述生成的問題類別,<QUESTION>是視頻問答的問題類別

3.2 隱式集成運動模態

3.1雖然集成了運動模態來微調HAWK,但是視頻分支和運動分支獨立運行,所以視頻分支不能提取出關注異常發生區域(運動)的外觀特征。

3.2.1 提取運動

  • ?表示在時間步??的運動描述,使用了 Gunnar Farneback 算法,用于生成兩個連續幀之間的運動信息
  • ?表示在時間步??和??的視頻幀
  • ?包含來自水平和豎直兩個方向的運動向量

接著,使用這些通道的光流幅度作為 Mask,歸一化到[0,1],并與原始視頻外觀進行相乘,以遮蔽其他非運動區域:

  • ?表示逐像素相乘
  • ?表示在時間步??的原始視頻和運動信息

3.2.2 構建損失

圖4:Hawk的損失可視化。

① 表示原始的視頻到語言損失

② 表示運動模態適應的余弦相似度損失

③ 表示運動到語言損失

圖片

因為??僅包含關鍵的異常信息,且從??中提取而得。為了讓外觀特征(原始的視頻)可以更加集中在運動區域,就需要將??和??壓縮到一個緊湊的空間。最后的??損失如下:

  • ?表示壓縮函數
  • ?與??共享一些初始的淺層參數(見圖 3)
  • ?表示??通過壓縮函數壓縮后的緊湊表示
  • ?表示??通過壓縮函數壓縮后的緊湊表示

3.3 解釋運動到語言

在集成了運動模態(3.1 和 3.2)的基礎上,Hawk 進一步增強運動到語言的解釋。

3.3.1 提取與運動相關的語言

基于語言中運動的表示主要來自動詞及其相應的實體,首先對原始句子進行依賴關系分析:

  • ?表示依賴解析
  • ?表示真實值
  • ?表示依賴結構圖,表示句子中詞匯之間的句法關系

根據依賴結構圖,可以提取動詞??以及相關的實體(主語??,賓語??,間接主語??,間接賓語??),然后組合成表示運動的短語

  • ?是運動語言提取器
  • ?是與運動相關的語言

3.3.2 構建損失

在視覺和語言表示中的運動之間建立監督,實現運動-語言匹配作為輔助損失:

  • ?是交叉嫡損失
  • ?表示單詞數量

3.3.3 優化目標

如圖 4,結合?(3.2.2,圖4(2))和?(3.3.2,圖4(3)),在原始視頻到語言匹配損失?(圖4(1)的基礎上,形成最終的訓練優化目標:

4. 實驗4.1 實驗設置

圖5:訓練與測試。分為三個階段:

(1)預訓練:在 WebVid 數據集上進行預訓練來獲取對視頻內容的一般性理解

(2)微調:使用8,000個視頻微調模型的異常理解能力,其中訓練數據和測試數據的占比為9:1,并在此階段聯合訓練視頻描述生成和視頻問答兩個任務

(3)在測試集中獨立評估這兩個任務,以確保模型的有效性

圖片

4.2 定量評估

表1:定量評估baseline和HAWK方法的性能。紅色表示指標第一,藍色表示指標第二。

(A)表示對異常視頻描述生成任務的各指標比較

(B)表示對視頻問題回答任務的各指標比較

圖片

4.3 定性評估

表2:定性評估baseline和HAWK方法的性能。紅色表示關鍵語義信息不一致,綠色表示生成結果與真實值很接近,黃色表示生成結果存在的問題。

(A)表示對異常視頻描述生成任務的各指標比較

(B)表示對視頻問題回答任務的各指標比較

圖片

4.4 消融實驗

表3:兩種任務的消融實驗的定量評估。紅色表示指標第一,藍色表示指標第二。

(A)表示對異常視頻描述生成任務的各指標比較

(B)表示對視頻問題回答任務的各指標比較

圖片

表4:兩種任務的消融實驗的定性評估。紅色表示關鍵語義信息不一致,綠色表示生成結果與真實值很接近,黃色表示生成結果存在的問題。

圖片

5. 結論

本研究提出了Hawk,一個創新的視頻-語言框架,用于理解各種場景中的視頻異常。通過結合運動特征和構建豐富的語言描述,Hawk在開放世界場景中展示了優越于VAD基線的表現。它具有在多個領域的實際應用潛力,并推動提升模型與用戶的互動性,從而能夠更高效、有效地解決用戶關于視頻異常的特定問題。

#FSD突然降臨中國

不同車型逐批推送,老車主苦等多年終夢圓

FSD入華,官宣了。

盼星星,盼月亮,特斯拉中國車主等到了FSD,行業迎來了最強鯰魚。

全民智駕元年,沖刺L3的當口,對岸的獨孤求敗終于對上了國內的智駕群雄。

技術上的強弱暫且未知,體驗技術的門檻卻實實在在擺在眼前。

FSD要如何打動車主,花6.4萬元選購?

FSD,來了!

特斯拉發布了2024.45.32.12版本的更新通知,通知內容主要包括三部分:

  • 城區道路Autopilot,分批推送。
  • 駕駛室攝像頭,可以判斷是否集中注意力開車,并做出提醒。
  • 地圖包更版本更新。

所謂城區道路的Autopilot,就是我們常說的FSD,現售價6.4萬元,支持分期購買,每月5219元。

根據通知內容,FSD可以根據導航引導車輛駛出匝道和交叉口,識別信號燈,直行、轉向和掉頭等,可以自動變道。

不設置導航路線也能開,FSD會根據實際情況選擇最優道路行駛。

特斯拉最后強調,城區Autopilot已在部分車型推出,將逐步擴展適配的車型范圍。

最強智駕鯰魚,正式登場。車主圓夢,網友熱議。

最值得關注的話題,當然是國產智駕與FSD的對比。

FSD來了,然后呢?

FSD入華靴子終于落地,來的有些突然。

因為就在1月底,馬斯克剛承認過,FSD入華面臨著技術挑戰。

在2024年度財報電話會議上,馬斯克拿中國的公交車道舉例,形容其“非常復雜”,比如這種:

然而沒想到,短短一個月后,FSD真的來了。

FSD在中國能帶來的體驗,還不知道有多高。

但目前體驗FSD的門檻確實不低。

最便宜的Model 3后驅版現售價23.55萬元,如果選裝上6.4萬元的FSD,整車落地接近30萬元,購車成本一下子上去了。

再從兩個方面對比一下當前FSD的價格。

先和自己比,美國當前FSD的選裝價格為8000美元,按當前匯率計算,折合人民幣約為57986元,比國內便宜6000塊。

同時支持月租,每月費用為99美元,約合人民幣717元/月。

和國內頭部智駕玩家對比,理想和小鵬都是隨車附送。

華為的智駕包則需選裝,一次性買斷的價格是3萬元,不過車子上市時一般會有權益優惠,這個價格在不同時期有浮動,目前選裝價格為1萬元。

此外,特斯拉去年還在美國推出過免費試用1個月的政策,國內是否會同步跟進,FSD面對國內群雄售價是否會調整,都值得期待。

最后,既然FSD都入華了,那同樣搭載FSD的Cybercab將來有希望在國內落地嗎?

在馬斯克堅定不移的推進下,Cybercab朝著6月落地的目標前進,進展飛快。

據特斯拉工程副總裁Lars Moravy透露,Cybercab落地時,將支持“公路旅行”。

言外之意,就是運營范圍不僅限于城區。

然而有意思的是,特斯拉位于得州的超級工廠近期被拍到Cybercab的測試車數量變多了。

有的測試車還帶有方向盤:

暫且不知這是傳說中的“Model 2”,還是Cybercab為了上路路測的“妥協”。畢竟此前的Robotaxi玩家們,很少出現一落地便拿掉方向盤的操作。

Robotaxi是特斯拉的未來的增長曲線,FSD入華則是特斯拉當前的增長動能。

問題是FSD入華,會給特斯拉帶來多大的增長?

國內智駕玩家將如何應對?

#OG-Gaussian

直達143 FPS!OG-Gaussian利用占據網格語義信息「降本增效」

擺脫LiDAR如何重建自駕場景

重建逼真且幾何精確的三維場景長期以來一直是計算機視覺的一個關鍵目標。隨著神經輻射場(NeRF)和三維高斯噴濺(3DGS)等技術的進步,生成高精度的三維模型變得更加可行。這些技術大大增強了虛擬環境的真實感,并在醫學成像、手術導航和虛擬現實等多個領域具有重要應用。在自動駕駛領域,這些重建技術能夠提供周圍環境的精確三維模型,包括街道、建筑物甚至動態物體。這種能力提升了自動駕駛系統的導航能力,并使極端場景的仿真成為可能,擴展了現實的邊界,同時對其進行了數字化。

為了實現自動駕駛場景的高精度重建,NeRF被用作基礎技術,通過神經網絡將場景表示為連續的三維體積。雖然這種方法能夠生成高質量的戶外場景,但其缺點是需要大量的訓練資源且渲染速度較慢。隨著三維高斯噴濺(3DGS)的出現,這種低成本、快速渲染的三維場景重建方法迅速獲得了廣泛關注。原生的3DGS并不適合處理包含動態物體的大型戶外場景。為了將該技術適配于自動駕駛場景重建,現有的3DGS研究將注意力集中在結合LiDAR生成的點云并使用標注的三維邊界框來重建包含動態物體的街道場景上。它們成功地將動態物體從靜態背景中分離出來,取得了低訓練成本下的良好重建效果。

然而,這些技術仍然需要:

  1. 昂貴的LiDAR來生成點云
  2. 需要帶有預標注動態車輛邊界和軌跡的數據集。

為了緩解這一限制,將占據預測網絡(ONet)引入自動駕駛感知領域,并應用于三維場景重建。由于ONet將現實世界建模為具有語義信息的體素網格,我們可以消除對昂貴的LiDAR的需求,同時解決邊界框無法捕捉未標注物體的問題。

本文介紹的OG-Gaussian[1]是一種新的自動駕駛場景重建方案。我們的方法首先通過安裝在車輛上的攝像頭捕捉周圍視野圖像。然后,我們使用占據預測網絡(ONet)獲取周圍環境的占據網格(OG)信息。通過利用占據網格中的語義信息,我們將原始場景分為街道場景和動態車輛。接著,我們將背景街道的占據網格轉換為點云,并通過二維圖像投影將動態車輛的網格轉化為初始點云集合。我們的方案不依賴昂貴的LiDAR點云作為初始點云,而是將通過占據網格獲得的點云作為低成本的替代先驗。這些點云將被轉換為可優化的高斯橢球集。為了追蹤動態車輛,我們將其初始點的位置和旋轉矩陣定義為可學習的參數。這使得我們可以優化車輛的姿態和軌跡,描述動態車輛在現實世界中的運動方式。通過這種方式,我們的方法無需預標注的軌跡或動態物體的邊界框。最終,優化后的高斯橢球將投影到二維空間中,渲染重建的自動駕駛場景。

我們在Waymo開放數據集上進行了實驗,結果表明,OG-Gaussian在重建質量和渲染速度方面與當前的最先進方法相當,并且在不依賴LiDAR或任何標注的情況下,取得了平均PSNR為35.13,渲染速度為143 FPS。我們還進行了消融研究,以驗證使用處理過的占據網格作為先驗在重建自動駕駛場景中的有效性。我們為后續任務提供了一種快速、低成本的三維場景重建方法。

主要貢獻

  • 我們介紹了OG-Gaussian,將占據網格融入到自動駕駛場景的重建中。這種方法消除了依賴昂貴的LiDAR生成初始點云的需求,僅需圖像輸入,并顯著降低了三維場景重建的成本。
  • 我們利用占據網格的語義特性將動態車輛從靜態背景中分離出來,并估計其姿態,消除了動態物體手動標注的需求。
  • 通過廣泛的實驗,我們的方法在重建質量和渲染速度方面與最先進的方法相當,平均PSNR為35.13,渲染速度為143 FPS,且不依賴LiDAR或任何標注。

具體方法?

OG-Gaussian

在本節中,我們重點介紹OG-Gaussian的基本結構,并說明如何使用兩組不同的點云來表示街道場景和動態車輛。以下是我們方法的詳細解釋。
?

街道模型

街道模型的初始點云是一組在世界坐標系中的點。根據前面的介紹,三維高斯的參數可以通過協方差矩陣和位置向量來表示。協方差矩陣可以分解為旋轉矩陣和縮放矩陣,恢復過程如下:

除了協方差矩陣和位置矩陣外,每個高斯包含一個參數來表示不透明度和一組球面諧波系數(公式6),用來表示場景的外觀。公式6中的和是定義具體球面諧波函數的度和階。為了獲取原始視圖的顏色信息,我們還需要將球面諧波系數與從視角方向投影的球面諧波基函數相乘。為了獲得每個高斯的語義信息,我們將logit??加入到每個點,其中表示語義類別的總數。
?

動態車輛模型

自動駕駛場景包含多個移動的車輛,我們也需要使用一組可優化的點云來表示它們。觀察動態車輛時,由于其位置的變化,周圍空間發生了顯著的變化,因此很難直接使用3DGS來重建它們。我們使用成熟的檢測和分割模型,基于占據網格的語義信息提取動態車輛物體,并根據其位置在車輛坐標系中提取初始動態點云。

動態車輛和街道的高斯屬性是相似的,它們對不透明度和縮放矩陣有相同的含義。然而,正如前面所提到的,它們的位置和旋轉矩陣是在車輛坐標系下的,這與街道場景不同。為了避免使用地面真實姿態值,我們通過跟蹤其姿態來表示動態車輛的實際狀態。車輛的姿態可以通過旋轉矩陣和位移向量表示,如下:

其中,和分別是每個高斯在世界坐標系中的位置矩陣和旋轉矩陣,和是相對于車輛的物體位置和旋轉矩陣。根據先驗知識,我們可以通過和得到動態車輛的協方差矩陣。為了獲得更準確的車輛姿態,我們將每幀的旋轉矩陣和位置矩陣作為參數(如公式8所示),然后使用它們來獲得車輛的位置和軌跡,而不依賴于動態物體的真實軌跡。

動態車輛模型的語義表示與街道模型不同,街道模型中的語義是一個維向量(是語義類別的數量),而車輛模型的語義只有兩個類別:車輛和非車輛(來自占據預測結果),因此它是一個一維標量。

在街道模型中,我們使用球面諧波系數表示場景的外觀。但在處理動態車輛時,其位置隨著時間變化。因此,使用多個連續的球面諧波系數表示動態物體在每個時間戳下的外觀是浪費的。相反,我們將每個球面諧波系數替換為一組傅里葉變換系數,在構建四維球面諧波系數時,加入時間維度,以便可以通過離散傅里葉變換恢復給定時間步的。?

占據先驗與周圍視圖

原始的3DGS通過結構光法(SfM)生成稀疏點云作為先驗。對于重建大規模的街道場景,直接使用SfM點云來表示動態物體和復雜的街道場景會產生明顯的幾何誤差和不完整的恢復。為了為3DGS提供準確的初始化點云,我們將ONet預測的結果轉換為初始化點云,以獲得準確的幾何信息,并在多個攝像頭視角下保持一致性。

具體而言,我們根據占據網格的語義信息提取車輛點云,并將每個時間戳的車輛位置定義為。如果,我們可以將該車輛標記為動態物體,其中表示用于確定其為動態物體的位移閾值。

為了生成更密集的點云來表示動態車輛,我們以的體素大小對動態物體的點云進行上采樣。然后,我們將這些點云投影到相應的圖像平面,并通過查詢像素值為它們賦予顏色。對于每個動態車輛的初始點,我們將其坐標轉換為相機坐標系,然后執行公式9所描述的投影步驟,其中是圖像的二維像素,是每個相機的內部參考矩陣,和分別表示正交旋轉矩陣和位移向量。

最后,我們將剩余的占據網格轉換為密集的點云,并將其位置取自中心坐標。靜態和動態物體的初始點云生成過程如圖3所示。除此之外,我們還將通過COLMAP生成的點云與生成的點云結合,以處理遠處的建筑物。?

通過高斯噴濺進行全局渲染

為了渲染整個OG-Gaussian,我們匯總每個高斯的貢獻來生成最終圖像。以前的方法使用神經場表示場景,在合成場景時需要考慮光照復雜性等因素。我們的OG-Gaussian渲染方法基于3DGS,通過將所有點云的高斯投影到二維圖像空間,從而實現高保真度的自動駕駛場景渲染。

給定一個渲染時間戳,我們首先使用公式6計算球面諧波系數。然后,將點云從車輛坐標系轉換到世界坐標系,我們將街道模型和動態模型合并成一個全局模型。使用相機的外參和內參,我們將點云投影到二維平面,并計算每個點在二維空間中的參數。在公式10中,是的雅可比矩陣,而和分別表示二維圖像空間中的位置和協方差矩陣。

之后,我們可以根據點云的不透明度計算每個像素的顏色。在公式11中,是透明度和二維高斯概率的乘積,而是從特定視角方向的球面諧波中得到的顏色。
?

實驗效果
總結一下

OG-Gaussian是一種高效的方法,將占據網格(OGs)融入3DGS用于重建戶外自動駕駛場景。我們的方法利用占據網格提供的先驗進行場景重建,同時分離并重建動態車輛與靜態街道場景。我們的表現與依賴LiDAR的現有最先進技術相當,但僅依賴于相機圖像。我們的方法將使未來的研究人員能夠快速且低成本地重建自動駕駛場景,為自動駕駛技術的發展做出貢獻。
參考

[1] OG-Gaussian: Occupancy Based Street Gaussians for Autonomous Driving

#VLM-E2E

多模態注意力融合增強端到端自動駕駛

  • ?論文鏈接:??https://arxiv.org/pdf/2502.18042??

摘要

本文介紹了VLM-E2E:通過多模態駕駛員注意力融合來增強端到端自動駕駛。人類駕駛員通過利用豐富的注意力語義來熟練地在復雜場景中導航,但是目前的自動駕駛系統難以復制這種能力,因為它們在將2D觀測轉換到3D空間時往往會丟失關鍵的語義信息。從這個意義而言,這阻礙了它們在動態且復雜的環境中的有效部署。利用視覺語言模型(VLMs)卓越的場景理解和推理能力,本文提出了VLM-E2E,這是一種使用VLMs通過提供注意力線索來增強訓練的新框架。本文方法將文本表示集成到鳥瞰圖(BEV)特征中以進行語義監督,這使得模型能夠學習更豐富的特征表示,這些表示顯式地捕獲駕駛員的注意力語義。通過著重于注意力語義,VLM-E2E能夠更好地與類人駕駛行為相一致,這對于在動態且復雜的環境中導航是至關重要的。此外,本文還引入了一種BEV-文本可學習的加權融合策略,以解決融合多模態信息時模態重要性不平衡的問題。該方法動態地平衡了BEV和文本特征的貢獻,確保了視覺和文本模態的互補信息得以有效利用。通過顯式地解決多模態融合中的不平衡問題,本文方法有助于更全面、更魯棒地表示駕駛環境。本文在nuScenes數據集上評估了VLM-E2E,并且證明了其優于最先進的方法,展現了性能的顯著提升。

主要貢獻

本文的主要貢獻總結如下:

1)本文提出了VLM-E2E,這是一種利用VLMs通過注意力理解來豐富訓練過程的新框架。通過結合語義和上下文信息,VLM-E2E顯式地捕獲了駕駛員的注意力語義,這使其能夠在復雜的駕駛場景中做出更人性化的決策;

2)本文引入了一種BEV-文本可學習的加權融合策略,該策略動態地平衡了BEV和文本模態的貢獻。這種自適應融合機制在計算上是高效的,它需要最少的額外開銷,同時顯著地增強了模型的適應性和魯棒性;

3)為了解決VLMs的幻覺問題,本文結合了從前視圖像中生成的文本描述的語義細化。通過利用真值(GT)標簽和高級行為意圖,確保了文本表示既準確又與駕駛任務高度相關,從而增強了模型對關鍵駕駛線索的推理能力;

4)在nuScenes數據集上進行的大量實驗證明了VLM-E2E優于現有的方法。本文框架在處理復雜的駕駛場景方面取得了重大改進,展現了其將幾何精度與高級語義推理相結合的能力,以實現更安全、更可解釋的自動駕駛。

論文圖片和表格

總結

本文提出了VLM-E2E,這是一種利用VLMs來增強對駕駛員注意力語義理解的新端到端自動駕駛框架。本文方法的目標是為了解決現有系統中的關鍵局限性,例如多傳感器融合中的模態不平衡、高級語義上下文的利用不足以及軌跡規劃中缺乏可解釋性。為此,本文引入了一種BEV-文本可學習的加權融合策略來動態地平衡幾何和語義特征、一個時空模塊來確保動態場景中的時間連貫性以及一個具有注意力引導軌跡優化的概率未來預測模塊。這些組件共同使本文框架能夠在感知、預測和規劃任務中實現魯棒且可解釋的性能。未來工作將著重于擴展該框架,以將VLMs和E2E加入一個統一的框架中,并且利用激光雷達和雷達模態在長尾場景中泛化所提出的模型。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/72057.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/72057.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/72057.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

用大白話解釋緩存Redis +MongoDB是什么有什么用怎么用

Redis和MongoDB是什么&#xff1f; Redis&#xff1a;像你家的“小冰箱”&#xff0c;專門存高頻使用的食物&#xff08;數據&#xff09;。它是基于內存的鍵值數據庫&#xff0c;讀寫速度極快&#xff08;每秒超10萬次操作&#xff09;。比如你每次打開手機App&#xff0c;用…

自然語言處理:詞頻-逆文檔頻率

介紹 大家好&#xff0c;博主又來給大家分享知識了。本來博主計劃完成稠密向量表示的內容分享后&#xff0c;就開啟自然語言處理中文本表示的講解。可在整理分享資料的時候&#xff0c;博主發現還有個知識點&#xff0c;必須得單獨拎出來好好說道說道。 這就是TF-IDF&#xf…

架構思維:架構的演進之路

文章目錄 引言為什么架構思維如此重要架構師的特點軟件架構的知識體系如何提升架構思維大型互聯網系統架構的演進之路一、大型互聯網系統的特點二、系統處理能力提升的兩種途徑三、大型互聯網系統架構演化過程四、總結 引言 在軟件開發行業中&#xff0c;有很多技術人可能會問…

DeepSeek-R1-Zero:基于基礎模型的強化學習

注&#xff1a;此文章內容均節選自充電了么創始人&#xff0c;CEO兼CTO陳敬雷老師的新書《自然語言處理原理與實戰》&#xff08;人工智能科學與技術叢書&#xff09;【陳敬雷編著】【清華大學出版社】 文章目錄 DeepSeek大模型技術系列四DeepSeek大模型技術系列四》DeepSeek-…

Metal學習筆記八:紋理

到目前為止&#xff0c;您已經學習了如何使用片段函數和著色器為模型添加顏色和細節。另一種選擇是使用圖像紋理&#xff0c;您將在本章中學習如何操作。更具體地說&#xff0c;您將了解&#xff1a; ? UV 坐標&#xff1a;如何展開網格&#xff0c;以便可以對其應用紋理。 ?…

Dify使用和入門

第一步&#xff1a;了解 Dify 在開始之前&#xff0c;先簡單了解一下 Dify 是什么&#xff1a; Dify 是一個開源的 LLM 應用開發平臺&#xff0c;專注于幫助開發者快速構建生產級的生成式 AI 應用。它支持知識庫集成、RAG&#xff08;檢索增強生成&#xff09;技術、復雜工作…

threeJS——安裝以及三要素

提示&#xff1a;文章寫完后&#xff0c;目錄可以自動生成&#xff0c;如何生成可參考右邊的幫助文檔 文章目錄 前言一、安裝二、三要素1.場景1.1創建場景1.2向場景添加元素1.3場景屬性 2.相機2.1相機特點2.2正交相機2.3空間布局2.4小姐操作 3.渲染器 總結 前言 本章簡單介紹前…

畢業項目推薦:基于yolov8/yolo11的野生菌菇檢測識別系統(python+卷積神經網絡)

文章目錄 概要一、整體資源介紹技術要點功能展示&#xff1a;功能1 支持單張圖片識別功能2 支持遍歷文件夾識別功能3 支持識別視頻文件功能4 支持攝像頭識別功能5 支持結果文件導出&#xff08;xls格式&#xff09;功能6 支持切換檢測到的目標查看 二、數據集三、算法介紹1. YO…

【精華】為什么class在前端開發中不常用?

為什么class在前端開發中不常用&#xff1f; js是一種基于原型的語言。它的對象繼承是通過 原型鏈&#xff08;prototype chain&#xff09;實現的&#xff0c;每個對象都有一個 proto 屬性指向它的原型。&#xff08;大多數傳統面向對象語言&#xff08;如 Java、C、Python、…

【六祎 - Note】SQL備忘錄;DDL,DML,DQL,DCL

SQL備忘錄 from to : 點擊訪問源地址

阿里云物聯網獲取設備屬性api接口:QueryDevicePropertyData

阿里云物聯網接口&#xff1a;QueryDevicePropertyData 說明&#xff1a;調用該接口查詢指定設備或數字孿生節點&#xff0c;在指定時間段內&#xff0c;單個屬性的數據 比如提取上傳到物聯網的溫度數據 api文檔&#xff1a;QueryDevicePropertyData_物聯網平臺_API文檔-阿里…

需求和開發模型

文章目錄 什么是需求&#xff1f;用戶需求軟件需求用戶需求和軟件需求的不同 開發模型什么是“模型”&#xff1f;軟件的生命周期常見的開發模型瀑布模型&#xff08;Waterfall Model&#xff09;螺旋模型增量模型、迭代模型敏捷模型 測試模型V 模型W 模型&#xff08;雙 V 模型…

21-發糖果

n 個孩子站成一排。給你一個整數數組 ratings 表示每個孩子的評分。 你需要按照以下要求&#xff0c;給這些孩子分發糖果&#xff1a; 每個孩子至少分配到 1 個糖果。 相鄰兩個孩子評分更高的孩子會獲得更多的糖果。 請你給每個孩子分發糖果&#xff0c;計算并返回需要準備的 最…

sql深入學習

文章目錄 前言知識學習注釋的兩種形式字符型注入萬能密碼 布爾盲注報錯注入堆疊注入時間盲注二次注入 小技巧 前言 這次學習建立在對數據庫有基本的認識&#xff0c;了解基礎的增刪改查語句&#xff0c;數字型注入和字符型注入的基礎上&#xff0c;進一步深入學習知識&#xf…

利用three.js在Vue項目中展示重構的stl模型文件

一、目的 為了在前端頁面展示3d打印機打印過程 二、前期準備 完整模型的stl文件和模型切割成的n個stl文件 models文件夾下的文件就是切割后的stl文件 三、代碼 <template><div ref"threeContainer" class"three-container"></div><…

【Eureka 緩存機制】

今天簡單介紹一下Eureka server 的緩存機制吧?????? 一、先來個小劇場&#xff1a;服務發現的"拖延癥" 想象你是個外賣小哥&#xff08;客戶端&#xff09;&#xff0c;每次接單都要打電話問調度中心&#xff08;Eureka Server&#xff09;&#xff1a;“現在…

Python--內置模塊和開發規范(下)

2. 開發規范 2.1 單文件應用 文件結構示例 # 文件注釋 import os import jsonDB_PATH "data.json" # 常量放頂部def load_data():"""函數注釋&#xff1a;加載數據"""if os.path.exists(DB_PATH):with open(DB_PATH, "r"…

go設計模式

劉&#xff1a;https://www.bilibili.com/video/BV1kG411g7h4 https://www.bilibili.com/video/BV1jyreYKE8z 1. 單例模式 2. 簡單工廠模式 代碼邏輯&#xff1a; 原始&#xff1a;業務邏輯層 —> 基礎類模塊工廠&#xff1a;業務邏輯層 —> 工廠模塊 —> 基礎類模塊…

搭建數字化生態平臺公司:痛點與蚓鏈解決方案

在數字技術突飛猛進的當下&#xff0c;數字化生態平臺成為眾多企業實現創新發展、拓展業務版圖的 “秘密工具”。今天&#xff0c;咱們就一起來聊聊搭建這類平臺的公司&#xff0c;看看它們有啥獨特之處&#xff0c;又面臨哪些難題。 一、面臨的痛點 &#xff08;一&#xff0…

標記符號“<”和“>”符號被稱為“尖括號”或“角括號”

你提到的“<”和“>”符號被稱為“尖括號”或“角括號”。它們常用于編程語言中表示類型參數&#xff08;如泛型&#xff09;、HTML標簽&#xff08;如<div>&#xff09;、數學中的不等式&#xff08;如< 5&#xff09;等。 好的&#xff0c;我來用通俗的方式解…