51c自動駕駛~合集16

自己的原文哦~? ? ? ? ? ?https://blog.51cto.com/whaosoft/11739891

#CLIP系列模型如何補短板再升級

CLIP(Contrastive Language–Image Pre-training)模型自推出以來,在圖像-文本跨模態理解和生成領域取得了顯著成果。然而,經典模型CLIP還是存在許多短板,對此,學界對CLIP模型的改造與增強還在持續進行中,希望通過改造CLIP模型架構、添加某些模塊來彌補CLIP的能力短板,不斷提升其在跨模態、少樣本任務中的泛化性能與適用性。具體如下:

  • 細化CLIP的視覺識別顆粒度
  • 即提升其識別圖像中細微差異和局部特征的能力,可以在視覺編碼器部分引入更精細的特征提取機制。
  • 可以采用多尺度特征融合策略,通過并行處理不同尺度的圖像輸入,并將多尺度特征進行有效融合,以捕捉圖像中的多層次信息。
  • 還可以引入注意力機制,使模型能夠自動聚焦于圖像中的關鍵區域或特征點。
  • 結合弱監督學習或自監督學習方法,利用圖像中的自然標注(如顏色、紋理等)或自生成標簽(如聚類結果)來指導特征學習,也是提升視覺識別顆粒度的有效途徑。
  • 延長CLIP處理的文本長度并細化CLIP提取的文本信息
  • 可以通過增加網絡層數或采用更復雜的網絡結構(如Transformer)來擴展文本編碼器的容量,以支持更長的文本輸入。
  • 可以引入文本分段或分層處理機制,將長文本劃分為多個子序列或段落,并分別進行編碼和表示學習,最后再將各部分的表示進行有效融合。
  • 為了細化文本信息的提取,可以設計更精細的文本表示學習方法,如基于詞嵌入的向量表示、基于句法結構的圖表示或基于語義角色的框架表示等。
  • 對CLIP的圖像文本輸入做數據增強
  • 對于圖像數據增強,可以采用旋轉、縮放、裁剪、翻轉、顏色變換等傳統方法,以及基于生成模型的對抗性樣本生成等高級方法。
  • 對于文本數據增強,則可以采用同義詞替換、回譯、隨機刪除、句子重組等方法來生成多樣化的文本樣本,或生成偽字幕改善輸入數據的質量。
  • 其他方法如, 通過文本到圖像的擴散模型生成反饋來實現CLIP的自監督學習、增強模塊以提升CLIP在某一少樣本分類任務上的泛化能力等,還有的方法將CLIP輸入擴展到視頻……

本期推送再次盤點了CLIP模型架構還能如何改造,讓我們一起來看看吧!

GroupViT: 從文本監督中實現語義分割

??https://arxiv.org/abs/2202.11094??

文章介紹了一個名為GroupViT(Grouping Vision Transformer)的模型,它是為了實現僅通過文本監督進行語義分割的任務而設計的。GroupViT通過一個分層的Transformer架構進行視覺概念的逐步分組,從較小的圖像片段合并成較大的任意形狀的語義段。GroupViT首先將輸入圖像劃分為多個不重疊的小patch,并將每個patch線性投影到潛在空間,形成輸入的image token。在每個分組階段,image token和group token通過Transformer層進行信息傳播,通過自注意力機制(self-attention)聚合全局信息。每個分組階段的末尾都有一個grouping block,負責將相似的image token合并為更大的語義段(segment)。Grouping block通過計算group token和segment token之間的相似性矩陣來實現合并。在Grouping Block中,使用Gumbel-Softmax操作和直通技巧(straight through trick)來進行硬分配,使得segment tokens能夠明確地分配給不同的group tokens。為了訓練GroupViT執行分層分組,模型采用了特別設計的對比損失函數,包括原始的圖像-文本對比損失和多標簽對比損失

相對于CLIP,GroupViT引入了分組機制,允許模型自動地將圖像區域分組為語義段,而CLIP是一個基于對比學習的模型,主要用于圖像和文本的聯合表示學習,并沒有顯式的分組機制。GroupViT還采用了分層的Transformer架構,能夠處理任意形狀的圖像段,而CLIP通常處理的是固定大小的圖像patch。此外,GroupViT特有的Grouping Block模塊,用于將圖像tokens合并為更大的語義段。最后,GroupViT使用了多標簽對比損失,通過從文本中提取名詞并使用句子模板生成額外的文本標簽,增強了模型對視覺分組的學習能力。

FFF:在對比性預訓練中修復有缺陷的基礎產生的視覺語言模型

??https://arxiv.org/abs/2405.10286??

文章提出了一種改進的對比性預訓練方法,稱為FFF(Fixing Flawed Foundations),旨在通過解決現有視覺-語言模型訓練中的兩個關鍵問題來增強模型性能:錯誤分配的負對(false negative pairs)和低質量及多樣性不足的字幕(captions)

  • 在對比學習中,通常假設每個樣本只有一個正對(positive pair),但實際中,由于圖像和/或字幕在語義上的相似性,一些負對(negative pairs)可能被錯誤地標記。這導致訓練過程和模型質量受限。為了解決這個問題,文章提出了一種基于圖像-文本、圖像-圖像和文本-文本相似性的算法,用于發現并糾正這些錯誤分配的負對,并挖掘新的真正例(true positives)。
  • 現有的網絡收集的數據集往往包含質量低下、描述簡短或不相關的字幕,這不利于訓練。文章通過使用最先進的圖像字幕技術生成偽字幕(pseudo-captions),作為給定圖像的新真正例,從而提高字幕的質量和描述性。為了進一步提升訓練數據的多樣性,文章提出了批量文本增強策略。在同一個批次中,為每個訓練圖像生成多個偽字幕(例如,通過束搜索選擇的五個字幕),這樣可以有效增加字幕的多樣性
  • 由于上述方法導致每個圖像的正對數量可能不同,文章提出使用sigmoid loss作為訓練損失函數。這種損失函數允許每個樣本的正對數量動態變化,且對挖掘過程中的潛在錯誤具有魯棒性。

文章展示了FFF方法在圖像識別(在11個數據集上平均提高了約6%)和圖像檢索(在Flickr30k上提高了約19%,在MSCOCO上提高了約15%)方面的顯著性能提升。總之,FFF方法通過解決負對分配錯誤和提升字幕質量與多樣性,顯著提高了視覺-語言模型的預訓練效果,并通過使用sigmoid loss作為訓練損失函數,有效地利用了多個正對進行訓練。

DreamLIP:帶有長字幕的語言圖像預訓練

??https://arxiv.org/abs/2403.17007??

文章提出的DreamLIP模型實現了從長標題中動態采樣子標題,并與圖像的局部區域進行細粒度對齊

  • DreamLIP首先使用預訓練的多模態大型語言模型(MLLM)為30M圖像重新生成詳細的描述性長標題,這些長標題比現有的數據集更豐富、更詳盡。進而從長標題中動態采樣子標題(subcaptions),以構建多個正對(positive pairs)。每個子標題可能描述圖像的一個部分,例如一個物體或者場景的一個方面。引入分組損失來匹配每個子標題的文本嵌入與相應的局部圖像塊。這種損失函數在自我監督的方式下工作,意味著它不需要外部標注來指導子標題和圖像塊之間的對齊。
  • 采用多正對對比學習框架(Multi-Positive Contrastive Learning),將文本嵌入與圖像嵌入進行對齊,使得來自同一圖像的多個子標題能夠與圖像的不同部分形成正對。通過分組損失實現細粒度對齊,確保每個子標題的文本特征與圖像中相應的局部特征精確匹配,從而提高模型對圖像細節的理解。將多正對對比損失和細粒度對齊損失結合起來,形成DreamLIP的整體訓練目標函數,通過這個函數來優化模型。

在多種下游任務上進行實驗,包括圖像-文本檢索、語義分割等,證明了DreamLIP模型相較于現有方法在細粒度表示能力上的一致優越性。通過這種方法,DreamLIP能夠充分利用長標題中的信息,提高模型對圖像內容的理解和表示能力,尤其是在零樣本學習的場景下,展現出了強大的性能。

DIVA:擴散反饋幫助 CLIP 看得更清楚

??https://arxiv.org/abs/2407.20171??

對比語言-圖像預訓練 (CLIP) 擅長跨領域和模態抽象開放世界表示,已成為各種視覺和多模態任務的基礎。然而,最近的研究表明,CLIP存在嚴重的視覺缺陷,例如幾乎無法區分方向、數量、顏色、結構等。這些視覺缺陷也限制了基于 CLIP 構建的多模態大型語言模型 (MLLM) 的感知能力。主要原因可能是用于訓練 CLIP 的圖像-文本對具有固有的偏見,因為缺乏文本的獨特性和圖像的多樣性。這項工作提出了一種簡單的CLIP模型后訓練方法,該方法通過自監督擴散過程在很大程度上克服了其視覺缺陷。我們介紹了 DIVA,它使用 DIffusion 模型作為 CLIP 的視覺助手。具體來說,DIVA利用來自文本到圖像擴散模型的生成反饋來優化CLIP的表征,僅使用圖像(沒有相應的文本),從而實現了自監督學習

  • DIVA使用一個預訓練的條件擴散模型,該模型能夠根據條件生成詳細的圖像。擴散模型通過一個逐步添加高斯噪聲的過程來學習圖像的概率分布,這個過程可以逆轉,從而從噪聲中重建圖像。DIVA利用文本到圖像擴散模型的生成能力,將CLIP模型編碼的視覺特征作為擴散模型的條件輸入。這意味著CLIP的視覺特征被用來指導擴散模型生成圖像。通過最大化圖像似然度,使用擴散損失來優化CLIP模型的表示。具體來說,擴散模型嘗試預測每一步中添加的噪聲,并通過這種方式來優化CLIP的權重,使其學習到更豐富的視覺細節。
  • DIVA引入了一種視覺密集重述策略(Visual Dense Recap Scheme),通過結合局部區域的視覺特征(patch tokens)和類別標記(class token)來增強條件信息的豐富性,從而提高CLIP模型的優化能力。
  • 盡管進行了優化,DIVA框架仍然保持了CLIP模型原有的零樣本(zero-shot)能力,在多種圖像分類和檢索基準測試中表現出色。

通過在MMVP-VLM基準測試上的實驗,DIVA顯著提升了CLIP模型在細粒度視覺能力上的表現,并在多模態理解和分割任務上提高了MLLMs和視覺模型的性能。總的來說,DIVA模型通過一個簡單而有效的自監督框架,使用擴散模型的生成反饋來優化CLIP的視覺表示,使其在視覺細節的感知上有了顯著的提升,同時保留了CLIP的原有優勢。

CLIP-FSAR:小樣本動作識別的原型調制方法

??https://arxiv.org/abs/2303.02982??

本文的目標是遷移CLIP強大的多模態知識,以解決由于數據稀缺而導致的原型估計不準確的問題,這是少樣本動作識別(Few-shot Action Recognition, FSAR)中一個關鍵問題。文章提出了一種名為CLIP-FSAR的原型調制框架,該框架由兩個關鍵組件組成:視頻-文本對比物鏡(Video-text Contrastive Objective)和原型調制(Prototype Modulation)

  • 視頻-文本對比物鏡的目的是縮小CLIP和少樣本視頻任務之間的差異。通過對比視頻特征和對應的類別文本描述,框架能夠學習如何將視頻內容與文本描述相匹配。使用CLIP的視覺編碼器(Visual Encoder)提取視頻幀的特征,同時使用文本編碼器(Text Encoder)提取文本描述的特征。然后通過全局平均池化(Global Average Pooling, GAP)和余弦相似度函數來計算視頻特征和文本特征之間的匹配概率。最后應用交叉熵損失函數來優化視頻-文本匹配概率,使得匹配對的相似度最大化,不匹配對的相似度最小化。
  • 原型調制是為了解決少樣本情況下視覺信息不足導致的原型估計不準確問題,原型調制組件利用CLIP中的文本語義先驗來優化視覺原型。首先在支持集(Support Set)的視覺特征基礎上,將文本特征沿時間維度堆疊,并使用時間Transformer來自適應地融合文本和視覺特征。時間Transformer能夠處理支持視頻和查詢視頻的特征,使得融合后的特征在共同的特征空間中進行匹配,以計算查詢視頻與支持視頻之間的距離。采用動態時間規整(Dynamic Time Warping, DTW)或其他時間對齊度量來計算查詢視頻和支持視頻之間的距離,并通過少數樣本度量目標(Few-shot Metric Objective)來進行分類。

CLIP-FSAR框架通過這兩個組件的協同工作,能夠充分利用CLIP模型中的豐富語義信息,生成可靠原型,并在少樣本分類任務中實現精確分類。通過視頻-文本對比物鏡,CLIP-FSAR適應于視頻任務,并通過原型調制增強了對視頻中動作類別的識別能力。

MA-CLIP:CLIP的多模態自適應用于小樣本動作識別

??https://arxiv.org/abs/2308.01532??

將大規模預訓練的視覺模型(如 CLIP)應用于小樣本動作識別任務可以提高性能和效率。利用“預訓練,微調”范式可以避免從頭開始訓練網絡,這可能既耗時又耗費資源。但是,這種方法有兩個缺點。首先,用于小樣本動作識別的標記樣本有限,因此需要盡量減少可調參數的數量以減輕過擬合,這也會導致微調不足,從而增加資源消耗并可能破壞模型的廣義表示。其次,視頻的超時域維度挑戰了小樣本識別的有效時間建模,而預訓練的視覺模型通常是圖像模型。為了解決這些問題,本文提出了一種名為CLIP多模態適應MA-CLIP, Multimodal Adaptation of CLIP)的新方法。

  • 輕量級適配器(Lightweight Adapters)被添加到CLIP模型中,目的是最小化可學習的參數數量,從而減少過擬合的風險,并允許模型快速適應新任務。適配器的設計允許它們結合視頻和文本信息,進行面向任務的時空建模。MA-CLIP利用視頻的時空信息和文本的語義信息,通過適配器進行有效的多模態信息融合。這種融合方法可以提高模型對動作類別的識別能力,尤其是在小樣本學習場景下。
  • 模型不僅關注視頻幀內的空間特征,還關注幀之間的時間關系,這對于理解動作的發展和變化至關重要。面向任務的時空建模(Task-oriented Spatiotemporal Modeling)使得MA-CLIP能夠捕捉到動作的本質特征,提高識別的準確性。
  • 文本引導的原型構建模塊(TPCM, Text-guided Prototype Construction Module)基于注意力機制設計,用于增強視頻原型的表示。通過利用文本描述,TPCM能夠更好地理解視頻內容,從而提高類別原型的質量,這對于小樣本學習中的類別匹配和識別非常關鍵。

MA-CLIP設計為可以與任何不同的小樣本動作識別時間對齊度量(如視頻匹配器)一起使用,這增加了模型的通用性和靈活性。由于適配器的輕量級特性和參數數量的減少,MA-CLIP在訓練時更加快速和高效,同時降低了訓練成本。總的來說,MA-CLIP通過精心設計的適配器和文本引導的原型構建模塊,有效地結合了視覺和語言信息,提高了小樣本動作識別的性能,同時保持了模型的快速適應性和低訓練成本。

APE:并非所有特征都重要:通過自適應先驗優化增強CLIP的少樣本泛化能力

??https://arxiv.org/abs/2304.01195??

現有的CLIP少樣本泛化方法要么表現出有限的性能,要么存在過多的可學習參數。本文提出了 APE(Adaptive Prior rE?nement),這是一種為CLIP模型的預訓練知識進行適應性細化的方法,旨在提高CLIP在下游任務中的性能,特別是在小樣本學習場景下。

  • APE通過先驗細化模塊(Prior Refinement Module)分析下游數據中的類間差異性,目的是將領域特定的知識與CLIP模型中已經提取的緩存模型進行解耦,從而選擇最有意義的特征通道。利用兩個標準——類間相似度(inter-class similarity)和方差(variance)——來選擇最具區分性的特征通道,減少冗余信息并降低緩存大小,以減少內存成本。
  • APE提供了兩種模型變體:(1)無需訓練的APE(Training-free APE):直接利用細化后的緩存模型進行推理,探索測試圖像、細化的緩存模型和文本表示之間的三邊親和性,實現無需訓練的穩健識別。(2)需要訓練的APE-T:在APE的基礎上,增加了一個輕量級的類別殘差模塊(category-residual module),該模塊只需對類別殘差進行訓練,而不需要對整個緩存模型進行昂貴的微調。這個模塊進一步更新細化的緩存模型,并在模態之間共享以確保視覺-語言的對應關系。
  • APE模型探索了測試圖像、先驗緩存模型和文本表示之間的三邊關系,通過這種關系來增強小樣本學習的性能。

APE和APE-T在保持高計算效率的同時,實現了在多個基準測試中的最先進性能,特別是在16次拍攝的ImageNet分類任務中,APE和APE-T分別以少于第二佳方法+1.59%和+1.99%的平均準確率,并且具有×30更少的可學習參數。

.

#SAM2-Adapter

SAM2無法分割一切?首次讓SAM2適應一切!

SAM2-Adapter是一種新型適配方法,旨在充分利用Segment Anything 2(SAM2)模型的高級功能,以應對特定的下游分割任務。

2023年,Meta提出了SAM,在圖像分割領域取得了突破的進展。但是,研究人員也發現了SAM在醫學圖像領域、偽裝物體等領域效果不佳,因此,我們在SAM發布后兩周提出了SAM-Adapter,它成功地將Segment Anything (SAM) 模型應用于特定的復雜任務中,如偽裝物體檢測、陰影識別和醫學圖像分割,展現出完美的表現。SAM-Adapter不僅為科研人員提供了強大的工具,還在學術界和工業界產生了深遠的影響,成為處理高難度分割任務的首選方案。隨著Segment Anything 2 (SAM2) 的出現,這一升級版的模型在架構和數據訓練規模上進行了大幅度的增強,為更復雜的圖像分割任務提供了新的可能性。SAM2的發布帶來了更強大的基礎能力,但也提出了新的挑戰:如何將這些增強的功能應用于具體的下游任務中。令人振奮的是,我們在新工作中展示了,SAM-Adapter的微調方法在SAM2上再次取得了成功。通過SAM2-Adapter的引入,研究人員將SAM2的潛力充分釋放,在各類復雜任務中繼續實現最先進(SOTA)的性能。這一成果不僅延續了SAM-Adapter的影響力,還證明了其方法的通用性和強大效能,推動了圖像分割技術的進一步發展。論文和代碼均已開源。

單位:魔芯科技、浙大等

項目頁面:??http://tianrun-chen.github.io/SAM-Adaptor??

論文:??https://arxiv.org/abs/2408.04579??

開源代碼(已開源):??https://github.com/tianrun-chen/SAM-Adapter-PyTorch??

1. 研究背景

在人工智能(AI)的研究領域,基礎模型的引入已經顯著地重塑了研究的版圖,特別是在這些模型經過大規模數據集訓練后。最近,Segment Anything(SAM)模型因其在圖像分割領域的杰出成就而受到廣泛關注。然而,盡管SAM在圖像分割任務中表現出色,但先前的研究也指出了它在處理某些復雜低層次結構分割任務時的性能限制。為了應對這些挑戰,研究人員在SAM模型發布不久之后,便開發了SAM-Adapter,目的是通過增強SAM的功能來提升其在這些任務上的表現。SAM-Adapter的設計架構在下圖中進行了詳細展示。

圖片

隨著技術的發展,一個更為強大和通用的模型——Segment Anything 2 (SAM2)應運而生。SAM2在SAM的基礎上對網絡架構進行了優化,并在更廣泛的視覺數據上進行了訓練,引起了科研界的廣泛關注。這引發了兩個關鍵問題:

1. SAM在下游任務中遇到的挑戰是否同樣存在于SAM2?

2. 是否能夠借鑒SAM-Adapter的成功經驗,利用SAM2的先進預訓練編碼器和解碼器,在這些任務中達到新的最前沿(SOTA)水平?

2. SAM2-Adapter

本研究的實驗結果對這兩個問題都給出了肯定的答案。盡管基礎模型的固有局限性仍然存在,例如訓練數據無法完全覆蓋所有可能的場景,但通過引入SAM2-Adapter,研究者成功地在多個任務中實現了SOTA性能。SAM2-Adapter不僅繼承了SAM-Adapter的核心優勢,還引入了顯著的改進,SAM2-Adapter有效地利用了SAM2的多分辨率和分層特性,實現了更為精確和魯棒的分割效果。

圖片

SAM2-Adapter 的核心基于SAM2模型的強大圖像編碼器和掩碼解碼器組件。具體來說,利用從 SAM2 中預訓練的 MAE Hiera 圖像編碼器,并凍結其權重以保留從大規模數據集預訓練中學到的豐富視覺表示。此外,研究團隊使用了原始 SAM2 模型的掩碼解碼器模塊,初始化其權重為預訓練的 SAM2 參數,然后在訓練適配器過程中進行微調。這個方法沒有為原始 SAM2 掩碼解碼器提供任何額外的提示作為輸入。

與 SAM-Adapter 的成功方法類似,通過適配器學習并注入任務特定的知識F^i到網絡中。這個方法采用提示的概念,這利用了基礎模型(如 SAM2)已在大規模數據集上訓練的事實。使用適當的提示來引入任務特定的知識可以增強模型在下游任務上的泛化能力,尤其是在標注數據稀缺的情況下。

這個方法旨在保持適配器設計的簡單和高效。因此選擇使用一個僅由兩個 MLP 和一個激活函數組成的適配器。值得注意的是,與 SAM 不同,SAM2 的圖像編碼器具有四個層次的分層分辨率。因此,本方法初始化了四個不同的適配器,并將四個適配器插入每個階段的不同層中。?

3. 實驗驗證

在實驗中,研究團隊選擇了兩個具有挑戰性的低級結構分割任務和一個醫學成像任務來評估SAM2-Adapter的性能:偽裝物體檢測、陰影檢測和息肉分割。

3.1 偽目標檢測

研究團隊首先評估了SAM在偽裝物體檢測這一具有挑戰性的任務中的表現,這項任務的調整在于前景物體通常與視覺上相似的背景圖案融合在一起。實驗表明,SAM在該任務中表現不佳。如圖所示,SAM無法檢測到多個隱藏物體。定量結果進一步確認了這一點,表明SAM在所有評估指標上的表現顯著低于現有的最先進方法,而SAM2本身的表現最低,無法產生任何有意義的結果。實驗結果證明,通過引入SAM2-Adapter,這個方法顯著提高了模型的性能。該方法成功識別了隱藏的物體。

圖片

圖片

3.2 陰影檢測

研究團隊進一步評估了SAM在陰影檢測中的表現。SAM2-Adapter的表現與SAM-Adapter一樣出色,提供了可比的結果。

圖片

3.2 息肉分割

研究團隊還展示了SAM2-Adapter在醫學圖像分割中的應用,特別是息肉分割。息肉在結腸鏡檢查過程中被識別并通過息肉切除術移除。準確快速地檢測和移除息肉對于預防結直腸癌至關重要。在沒有適當提示的情況下,SAM2模型無法產生有意義的結果。SAM2-Adapter解決了這個問題,并且優于原始的SAM-Adapter。根據定量分析和可視化結果,強調了SAM2-Adapter在提高息肉檢測準確性和可靠性方面的有效性。

圖片

圖片

4. 總結與展望

SAM2-Adapter是一種新型適配方法,旨在充分利用Segment Anything 2(SAM2)模型的高級功能,以應對特定的下游分割任務。基于SAM-Adapter的成功,SAM2-Adapter針對SAM2的多分辨率分層Transformer架構進行了優化,成功克服了SAM的局限性,在偽裝物體檢測、陰影檢測和息肉分割等挑戰性任務中實現了新的最先進(SOTA)性能。實驗結果表明,SAM2-Adapter不僅保留了其前身的優勢,如泛化性和可組合性,還通過與SAM2的高級架構無縫集成進一步增強了這些能力。這使得SAM2-Adapter在各種數據集和任務中設定了新的基準,超越了之前的方法。從SAM到SAM2的持續挑戰反映了基礎模型在多樣化現實場景中的復雜性。盡管如此,SAM2-Adapter有效解決了這些問題,展示了其作為高質量分割工具的潛力,適用于多種應用領域。研究人員和工程師被鼓勵采用SAM2結合SAM2-Adapter,以提升分割任務的性能,推動圖像分割領域的發展。這項工作不僅擴展了SAM2的能力,還為未來的大規模預訓練模型在專門應用中的創新奠定了基礎。

.

#文遠知行

文遠知行上市基石曝光:博世認購部分,IPO作價50億美元

50億美元,這就是國產通用型自動駕駛公司,文遠知行剛剛曝光的IPO作價。

據文遠知行更新的招股書信息,明確了IPO將增發的股票數量,以及每股價格,公司估值隨之曝光。

其中超過91%的公開增發股份,將由百年Tier 1巨頭博世認購。

博世之前已經參與了文遠知行的融資,并且雙方還落地了L2+方案的合作,而現在博世更進一步以基石投資者身份,幫文遠沖擊納斯達克。

此外,首次公開募股的同時,文遠知行還將開啟私募,總計將獲得折合人民幣超31.5億元的資金。

文遠知行的IPO,已經到了最后100米沖刺。

360億,文遠知行估值曝光

文遠知行向美監管機構提交的最新文件顯示,文遠知行此次IPO將發行6452000股ADS(美國存托股),每份ADS價格為15.5-18.5美元1份ADS相當于3份普通股

即此次增發股份的融資金額為1-1.2億美元,折合人民幣約為7.17-8.56億元。

此次增發股份后,文件顯示文遠知行將擁有總共814132531股普通股。

若按最高股價計算,則文遠知行的市值將沖上50.2億美元,折合人民幣約為359.83億元

這個作價,實際與2022年11月D+輪融資后,文遠知行投后超50億美元的估值相比,變化并不大。

或許也是文遠知行對于這次上市務實求真的態度,沒有追求更高的溢價。

而且此次公開增發的股份,將由Tier 1巨頭博世認購絕大部分。

文件顯示,博世購買的ADS數量為5882353份,約占增發ADS總數的91.2%

博世與文遠知行淵源頗深,既是文遠知行的投資者,也是文遠知行的高階智駕合作方

2022年3月,博世和廣汽等參與了文遠知行的D輪融資,融資金額為4億美元,當時折合人民幣約為25.2億元

也差不多是這一輪融資,文遠知行的估值達到了44億美元。

兩個月后,博世與文遠知行達成合作,將聯合開發L2+級ADAS,自此文遠知行搭上了第一Tier 1的快車,走上了一條令供應商艷羨的道路。

△左二為時任博世中國執行副總裁、現任總裁徐大全博士,右二為文遠知行聯合創始人兼CTO李巖博士

經過18個月的努力,雙方合作方案成功落地,上車奇瑞星紀元ES,可實現高速NOA,包括超車變道、避讓施工區域、自動上下匝道等。

圖片

博世此次認購超91%的發行股份,可視為雙方合作關系的進一步深化,也說明文遠的實力得到了博世的認可。

如此比例的認購,實際也不算多見,全球第一Tier 1幫文遠沖刺通用型自動駕駛第一股。

除了增發股份之外,文遠知行還表示完成IPO的同時,還會以私募方式,出售價值3.205億美元(折合人民幣約為23億元)的A類普通股。

相關投資者有Alliance Ventures廣汽資本、Beijing Minghong、Kechuangzhixing等。

其中Alliance Venture是雷諾日產三菱聯盟旗下的戰略風投部門,是文遠知行的早期投資者。

曾在2018年領投A輪,后又在2021年參與了C輪融資,此次將認購9700萬美元,折合人民幣約為6.95億元的A類普通股。

文遠知行和雷諾日產等也有合作關系。

2022年11月,文遠知行聯合日產在蘇州落地了Robotaxi,并亮相當年的進博會。

今年5月,雷諾和文遠知行合作的無人小巴在法網提供接駁服務。

廣汽也是文遠知行過去的投資者,曾在2021年底參與文遠知行的戰略投資,以及2022年3月的D輪融資,此次將認購2000萬美元(折合人民幣約為1.43億元)的A類普通股。

簡單計算一下可知,文遠知行此次將通過IPO和私募等途徑,累計獲得約4.4億美元,折合人民幣超31.5億元的資金。

文遠知行在文件對資金的用途做了說明:

  • 約35%用于自動駕駛技術、產品和服務的研發。
  • 約30%用于自動駕駛車隊的商業化和運營,拓展市場的營銷活動。
  • 約25%用于資本支出,包括購買測試車輛、研發設施和行政支出。
  • 剩余10%用于公司一般用途。

所以,文遠知行靠什么撐起了50億美元的估值,能夠收獲博世等合作伙伴的青睞?

文遠知行靠什么值50億美元

文遠知行成立于2017年,目前在7個國家30座城市開展自動駕駛的研發、測試和運營,是唯一同時擁有中國、美國、阿聯酋和新加坡四地自動駕駛牌照的科技企業。

提供L2和L4級自動駕駛產品與服務,不久前向美國證監會提交招股書,沖刺納斯達克。

在招股書中,文遠知行披露了最近三年半的財務指標。

其中2021年的營收為1.38億元,2022年暴漲至5.28億元,實現281.7%的同比增長。

2023年營收略有下滑,為4億元

截止2024年上半年,文遠知行營收為1.5億元,對比2023年同期仍然略有下降。

目前公司尚未實現盈利,三年累計凈虧損13.31億元

從圖中可以看到,文遠知行的虧損在擴大,這和研發投入逐年增高有關系。

文遠知行共有員工2227名,其中約91%都是研發人員。

2021年研發投入為4.43億元,2022年幾乎翻了一番,增長至7.59億元,2023年繼續增長至10.58億元

今年上半年的研發投入,已達5.17億元

研發投入遠大于營收,對虧損起到了一定影響。

但目前公司的現金儲備還比較充足,截止2024年上半年末,文遠知行現金及其等價物約為18.28億元

所以,虧損中的文遠知行,有什么技術和業務,撐起了50億美元的估值?

文遠知行的核心平臺是WeRide One,基于此打造L2和L4級自動駕駛技術,落地乘用車、Robotaxi、無人小巴和自動駕駛廂貨車和無人清掃車。

同時押注兩條路線,落地產品范圍廣,這也是為什么,文遠知行被稱為通用自動駕駛第一股

從文遠知行的營收組成變化來看,文遠知行的業務正在發生轉變。

招股書顯示,文遠的營收來源主要分為產品服務兩大部分。

2021年的營收中,前者占了大頭,帶來1.01億元的營收,占比高達73.5%。而服務則只有0.37億元的收入,占比26.5%

而到了2023年,公司產品收入為0.54億元,占比降至13.5%,服務收入增長至3.48億元,占比升至89.9%。

這表明,文遠知行的商業化模式,正在經歷轉折

從一個運營Robotaxi車隊,或給運營商賣車輛硬件的“重資產”模式,走向提供技術、提供后續服務的輕資產模式。

短期內,文遠營收會受到博世智駕推廣覆蓋速度的影響。

但長期來看,博世的方案就是全行業的方案,是可持續產生營收的現金奶牛項目。

文遠知行還將堅持L4自動駕駛,其判斷2024年和2025年隨著Robotaxi的大規模投放,來自服務的收入占比將會進一步提升。

最后,簡單介紹一下文遠知行的兩位主要創始人:

CEO韓旭,伊利諾伊大學香檳分校計算機工程博士,歷任密蘇里大學的助理教授,密蘇里大學博士生導師、終身教授,計算機視覺和機器學習實驗室主任。

創業前曾擔任百度美研自動駕駛事業部首席科學家。

聯合創始人兼CTO李巖,卡內基梅隆大學電氣與計算機工程學博士,曾在Facebook和微軟擔任核心工程師。

相比兩位創始人,文遠知行也因為脫口秀演員趙曉卉的加盟而出圈。

不過趙曉卉在文遠知行,擔任的是項目經理,與其演員身份有著明確區隔,也沒有對文遠做過多的公眾宣傳。

此前其在綜藝節目上曾透露,正在負責無人小巴接駁車的部分功能。

相比趙曉卉之于文遠知行,文遠知行帶給這位“打工人”則價值更大。文遠知行不僅給了汽車科班出身趙曉卉業務能力認可,如今也在上市IPO進展中,印證了趙曉卉當初眼光的長遠。

畢竟相比李誕的笑果文化和脫口秀行業,自動駕駛確實前途光明多了。

One More Thing

招股書之外,近日文遠知行還預告了新動向:10月15日將發布新一代Robotaxi車型。

與馬斯克和特斯拉,也就前后腳吧。

實際上,隨著自動駕駛技術正在實現的技術和商用運營突破,自動駕駛不論是產品還是資本運作,都來到了新周期。

文遠知行IPO,只是浪潮中的浪花一朵,同樣在潮尖之上的,還有M公司、P公司…以及剛剛通過港股聆訊的H公司。

一個新的周期,已經來到了公眾面前。

.

#RadarPillars

從4D雷達中進行高效目標檢測(速度精度均有優勢)

原標題:RadarPillars: Efficient Object Detection from 4D Radar Point Clouds

論文鏈接:https://arxiv.org/pdf/2408.05020

作者單位:曼海姆應用科學大學

論文思路:

汽車雷達(radar)系統已經發展到不僅提供距離、方位角和多普勒速度,還能提供俯仰數據。這一額外的維度使得4D雷達可以表示為3D點云。因此,現有的用于3D目標檢測的深度學習方法,最初是為LiDAR數據開發的,經常被應用于這些雷達點云。然而,這忽略了4D雷達數據的特殊特性,例如極端稀疏性和速度信息的最佳利用。為了彌補這些在現有技術中的不足,本文提出了RadarPillars,一種基于柱狀結構的目標檢測網絡。通過分解徑向速度數據,引入PillarAttention進行高效特征提取,并研究層縮放以適應雷達稀疏性,RadarPillars在View-of-Delft數據集上的檢測結果顯著優于現有技術。重要的是,這在顯著減少參數量的同時,實現了超越現有方法的效率,并在邊緣設備上實現了實時性能。?

論文設計:

在自動駕駛和汽車應用的背景下,雷達作為一種關鍵的感知技術脫穎而出,使車輛能夠檢測到周圍的物體和障礙物。這一能力對于確保各種自動駕駛功能的安全性和效率至關重要,包括碰撞避免、自適應巡航控制和車道保持輔助。雷達技術的最新進展導致了4D雷達的發展,它結合了三個空間維度以及一個額外的多普勒速度維度。與傳統雷達系統不同,4D雷達引入了作為第三維度的俯仰信息。這一增強功能使得雷達數據可以表示為3D點云,類似于LiDAR或深度感應相機生成的點云,從而能夠應用之前僅限于這些傳感器的深度學習方法。

然而,盡管來自LiDAR檢測領域的深度學習技術已經被適配到4D雷達數據上,但它們并沒有充分探索或適應其獨特特性。與LiDAR數據相比,4D雷達數據顯著稀疏。盡管存在這種稀疏性,雷達獨特地提供了速度作為特征,這在各種場景中有助于移動物體的檢測,例如在LiDAR傳統上難以應對的遠距離場景中[1]。在View-of-Delft數據集中,平均每次4D雷達掃描僅包含216個點,而相同視野內的LiDAR掃描包含21,344個點[2]。對此,本文提出了RadarPillars,一種專門為4D雷達數據量身定制的新型3D檢測網絡。通過RadarPillars,本文填補了當前技術中的空白,并在以下幾個方面做出了貢獻,大幅提升了性能,同時保持了實時能力:

  • 增強速度信息的利用:本文分解徑向速度數據,提供額外的特征,從而顯著提升網絡性能。
  • 適應雷達稀疏性:RadarPillars利用柱狀表示法[3]進行高效的實時處理。本文利用4D雷達數據固有的稀疏性,并引入PillarAttention,一種將每個 pillar 作為一個 token 處理的新型自注意層,同時保持效率和實時性能。
  • 針對稀疏雷達數據的擴展:本文展示了雷達數據的稀疏性可能導致檢測網絡中信息量較少的特征。通過均勻網絡,本文不僅提升了性能,還顯著減少了參數量,從而提高了運行效率。

圖1:RadarPillars在4D雷達上的檢測結果示例。汽車用紅色標記,行人用綠色標記,騎行者用藍色標記。點的徑向速度由箭頭指示。

圖2:補償了4D雷達自車運動的絕對徑向速度$ v_r $。隨著物體的移動,$ v_r $會根據其相對于傳感器的航向角發生變化。由于其航向無法確定,汽車的實際速度$v$仍然未知。然而,$ v_r $可以分解為其$x$和$y$分量,以提供額外的特征。坐標系統和命名法遵循View-of-Delft數據集[2]。

圖3:PillarAttention概述。本文利用雷達點云的稀疏性,通過使用掩碼從非空 pillars 中收集特征,將空間大小從$H, W$減少到$p$。每個具有$C$通道的柱狀特征被視為計算自注意力的一個 token 。本文的PillarAttention封裝在一個Transformer層中,前饋網絡(FFN)由層歸一化(Layer Norm)和兩個中間帶有GeLU激活的MLP組成。PillarAttention的隱藏維度$E$由層前后的MLP控制。最后,具有$C$通道的柱狀特征被散射回其在網格中的原始位置。本文的PillarAttention不使用位置嵌入。

圖4:本文提出的方法組合形成RadarPillars,與基準方法PointPillars [3]的比較。在View-of-Delft數據集[2]上,整個雷達區域的一幀目標檢測精度結果。幀率是在Nvidia AGX Xavier 32GB上評估的。

圖5:權重幅度分析比較不同通道大小的均勻縮放RadarPillars。結果顯示,隨著網絡規模的減小,權重強度增加。本可視化排除了無效權重和異常值。?

實驗結果:

總結:

本文提出了RadarPillars,利用4D雷達數據進行目標檢測的新方法。作為一個僅有 0.27 M 參數和1.99 GFLOPS的輕量級網絡,RadarPillars在檢測性能方面建立了新的基準,同時實現了實時能力,顯著超越了當前的先進技術。本文研究了雷達速度的最佳利用,以為網絡提供增強的上下文。此外,本文引入了PillarAttention,這是一種創新的層,將每個 pillar 視為一個 token ,同時確保效率。本文展示了均勻縮放網絡在檢測性能和實時推理方面的優勢。以RadarPillars為基礎,本文未來的工作將集中于通過優化主干網絡和探索無錨檢測頭來提升運行時間。另一條研究途徑是研究使用僅包含PillarAttention的Transformer層進行端到端的目標檢測,或將有前景的LiDAR方法[38], [39]適用于雷達。此外,本文還提出將RadarPillars擴展到其他傳感器數據模態的潛力,如深度傳感器或LiDAR。?

引用:

@ARTICLE{2024arXiv240805020M,author = {{Musiat}, Alexander and {Reichardt}, Laurenz and {Schulze}, Michael and {Wasenm{\"u}ller}, Oliver},title = "{RadarPillars: Efficient Object Detection from 4D Radar Point Clouds}",journal = {arXiv e-prints},keywords = {Computer Science - Computer Vision and Pattern Recognition},year = 2024,month = aug,eid = {arXiv:2408.05020},pages = {arXiv:2408.05020},doi = {10.48550/arXiv.2408.05020},
archivePrefix = {arXiv},eprint = {2408.05020},primaryClass = {cs.CV},adsurl = {https://ui.adsabs.harvard.edu/abs/2024arXiv240805020M},adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}

.

#NTU開源嵌入式平臺AirSLAM

高效&魯棒的點線視覺SLAM系統?

vslam的光照挑戰

現有的vSLAM系統在面對嚴苛光照條件時仍然面臨兩類挑戰:

  1. 短期光照挑戰:劇烈的光照變化或低光照環境下,特征檢測和跟蹤經常失敗,從而嚴重影響軌跡估計的質量。它影響了兩個時間上相鄰幀之間的姿態估計
  2. 長期光照挑戰:當視覺地圖用于重定位時,光照的變化可能顯著降低成功率。它影響了查詢幀與已有地圖之間的匹配。

現有方法通常只聚焦于上述挑戰中的某一個。例如,各種圖像增強和圖像歸一化算法已經被開發出來,以確保魯棒的跟蹤。這些方法主要集中于保持全局或局部亮度的一致性,但它們通常難以處理所有類型的光照挑戰。一些系統通過在包含各種光照條件的大型數據集上訓練VO或SLAM網絡來解決這一問題。然而,它們很難生成適合長期定位的地圖。一些方法可以提供光照魯棒的重定位,但通常需要在良好光照條件下構建地圖。

本文介紹的AirSLAM[1]將點和線特征結合起來用于跟蹤、建圖、優化和重定位。為了在效率和性能之間取得平衡,設計了一個混合系統,采用基于學習的方法進行特征檢測和匹配,采用傳統的幾何方法進行姿態和地圖優化。此外,為了提高特征檢測的效率,我們開發了一個統一的模型,能夠同時檢測點和線特征。我們還通過提出一個多階段的重定位策略來應對長期定位的挑戰,該策略能夠有效地重用我們的點線地圖。

C++源代碼鏈接:https://github.com/sair-lab/AirSLAM

相比前作AirVO[2],AirSLAM是擴展版本,其實質性的改進包括:

  • 設計了一個統一的CNN來檢測點和線特征,增強了特征檢測在光照挑戰環境中的穩定性。此外,我們使用了更高效的LightGlue進行特征匹配。
  • 擴展了系統,使其支持立體數據和立體慣性數據,在提供慣性測量單元(IMU)的情況下提高了系統的可靠性。
  • 集成了回環檢測和地圖優化,形成了一個完整的vSLAM系統。
  • 設計了一個基于點和線特征的多階段重定位模塊,使得系統能夠有效應對長期光照挑戰。

系統概述

一個實用的vSLAM系統應具備以下特性:

  • 高效性:系統應在資源受限的平臺上具備實時性能。
  • 可擴展性:系統應易于擴展,以適應各種需求和實際應用。
  • 易于部署:系統應易于在真實機器人上部署,并能夠實現穩健的定位。

該系統是一個混合系統,如圖1所示,因為需要數據驅動方法的魯棒性和幾何方法的精度。它包括三個主要組件:立體視覺里程計(Stereo VO/VIO)、離線地圖優化和輕量級重定位。

  1. 立體視覺里程計(Stereo VO/VIO):提出了一種基于點線的視覺里程計,能夠處理立體視覺數據和立體慣性數據。
  2. 離線地圖優化:實現了幾個常用的插件,如回環檢測、位姿圖優化和全局捆綁調整。系統可以通過添加自定義插件,輕松擴展以實現其他地圖處理目的。例如,我們實現了一個插件,用于使用線特征的端點訓練場景依賴的交匯點詞匯,并在輕量級多階段重定位中使用。
  3. 輕量級重定位:提出了一種多階段的重定位方法,提高了效率的同時保持了效果。在第一階段,使用提出的PLNet檢測關鍵點和線特征,并使用在大型數據集上訓練的關鍵點詞匯檢索若干候選。在第二階段,使用場景依賴的交匯點詞匯和結構圖快速過濾掉大部分錯誤的候選。在第三階段,在查詢幀和剩余候選之間進行特征匹配,以找到最佳匹配并估計查詢幀的位姿。由于第三階段的特征匹配通常是耗時的,因此第二階段的過濾過程提高了系統的效率,相較于其他兩階段的重定位系統。

將一些耗時的過程,如回環檢測、位姿圖優化和全局捆綁調整,轉移到離線階段。這提高了在線建圖模塊的效率。在許多實際應用中,例如倉庫機器人,通常由一個機器人構建地圖,然后由其他機器人重用。設計的系統考慮到了這些應用需求。輕量級的映射和地圖重用模塊可以輕松部署在資源受限的機器人上,而離線優化模塊可以在更強大的計算機上運行,用于各種地圖操作,如地圖編輯和可視化。映射機器人將初始地圖上傳到計算機,然后計算機將優化后的地圖分發給其他機器人,確保無漂移的重定位。?

特征檢測

動機

基于學習的特征檢測方法在光照挑戰環境中展現出了比傳統方法更穩定的性能。然而,現有的基于點線的視覺里程計(VO/VIO)和SLAM系統通常分別檢測關鍵點和線特征。對于手工設計的方法,由于其效率較高,可以接受這種做法,但對于基于學習的網絡來說,同時應用關鍵點檢測和線檢測網絡,尤其是在立體配置中,會影響資源受限平臺上的實時性能。因此需要設計一個能夠同時檢測關鍵點和線特征的高效統一模型。

然而,實現一個同時檢測關鍵點和線特征的統一模型是有挑戰性的,因為這些任務通常需要不同的真實圖像數據集和訓練過程。關鍵點檢測模型通常在包含多種圖像的大型數據集上訓練,并依賴于提升步驟或圖像對的對應關系進行訓練。對于線特征檢測,我們發現線框解析方法比自監督模型提供了更強的幾何線索,因為它們能夠檢測到更長且更完整的線條。

架構設計

如圖2所示,當可視化關鍵點和線特征檢測網絡的結果時,有兩個發現:

  1. 大多數由線特征檢測模型檢測到的線端點(交點)也被關鍵點檢測模型選為關鍵點
  2. 關鍵點檢測模型輸出的特征圖包含了邊緣信息。

因此,可以基于預訓練的關鍵點檢測模型的骨干網絡構建一個線特征檢測模型。基于這一假設,設計了PLNet以在一個統一框架中檢測關鍵點和線特征。如圖3所示,包括共享的骨干網絡、關鍵點模塊和線特征模塊。

  • 骨干網絡:采用了SuperPoint的設計作為骨干網絡,因為它具有良好的效率和效果。它使用了8層卷積層和3層最大池化層。輸入是尺寸為𝐻 × 𝑊的灰度圖像,輸出為𝐻 × 𝑊 × 64、𝐻/2 × 𝑊/2 × 64、𝐻/4 × 𝑊/4 × 128、𝐻/8 × 𝑊/8 × 128的特征圖。
  • 關鍵點模塊:同樣遵循SuperPoint的設計來構建關鍵點檢測頭。它有兩個分支:得分分支描述符分支。輸入是骨干網絡輸出的𝐻/8 × 𝑊/8 × 128特征圖。得分分支輸出尺寸為𝐻/8 × 𝑊/8 × 65的張量,其中65個通道對應一個8×8的網格區域和一個表示沒有關鍵點的垃圾箱。該張量經過softmax處理后再調整尺寸為𝐻 × 𝑊。描述符分支輸出尺寸為𝐻/8 × 𝑊/8 × 256的張量,用于插值計算關鍵點的描述符。
  • 線特征模塊:該模塊以𝐻/4 × 𝑊/4 × 128的特征圖為輸入。它由一個類U-Net的CNN和線特征檢測頭組成。將U-Net進行了修改,使其包含更少的卷積層,從而提高了效率。類U-Net的CNN用于增加感受野,因為檢測線條比檢測關鍵點需要更大的感受野。使用EPD LOIAlign處理線特征模塊的輸出,并最終輸出交點和線條。

網絡訓練

PLNet訓練分為兩輪。

  1. 在第一輪中,僅訓練骨干網絡和關鍵點檢測模塊,這意味著我們需要訓練一個關鍵點檢測網絡。
  2. 在第二輪中,固定骨干網絡和關鍵點檢測模塊,僅在Wireframe數據集上訓練線特征檢測模塊。我們跳過了第一輪的詳細內容,因為它們與非常相似,而是介紹線特征檢測模塊的訓練過程。
  • 線編碼:采用吸引區域場來編碼線段。對于線段l = (x1, x2),其中x1和x2是l的兩個端點,p是l的吸引區域中的一個點,使用p和四個參數來編碼l:

其中𝑑是p到l的垂線段,𝜃是l與圖像Y軸的夾角,𝜃1是p到x1的夾角,𝜃2是p到x2的夾角。

  • 線特征預測:線特征模塊輸出一個尺寸為𝐻/4 × 𝑊/4 × 4的張量來預測參數,并輸出一個熱圖來預測交點。對于每個通過參數解碼的線段,從熱圖中選擇與端點最接近的兩個交點,并形成線條提議。然后使用EPD LOIAlign和一個頭分類器來決定線條提議是否為真正的線特征。
  • 線特征模塊訓練:使用𝐿1損失來監督參數的預測,并使用二元交叉熵損失來監督交點熱圖和頭分類器的輸出。總損失為它們的和。為了提高線特征檢測在光照挑戰環境中的魯棒性,對訓練圖像進行了七種類型的光度數據增強處理。訓練使用ADAM優化器,前35個epoch學習率為4𝑒-4,最后5個epoch學習率為4𝑒-5。

立體視覺里程計

概述

基于點線的立體視覺里程計(Stereo Visual Odometry)如圖5所示。它是一個混合VO系統,結合了基于學習的前端和傳統優化的后端。對于每對立體圖像,首先使用所提出的PLNet提取關鍵點和線特征。然后使用一個圖神經網絡(LightGlue)來匹配關鍵點。同時通過關鍵點匹配結果關聯線特征,并進行線特征匹配。接下來執行初始位姿估計并剔除離群值。基于這些結果,對關鍵幀的2D特征進行三角測量,并將其插入到地圖中。最后,執行局部BA以優化點、線和關鍵幀的位姿。與此同時,如果可以獲取慣性測量單元(IMU)的數據,會使用IMU預積分方法處理這些測量數據,并將其添加到初始位姿估計和局部捆綁調整中。

將基于學習的特征檢測和匹配方法應用于立體VO是耗時的。因此,為了提高效率,在系統中使用了以下三種技術:

  1. 對于關鍵幀,在左右圖像上提取特征并執行立體匹配以估計真實尺度。但對于非關鍵幀,僅處理左圖像。此外使用了一些寬松的標準,使得系統中選取的關鍵幀非常稀疏,因此系統中特征檢測和匹配的運行時間和資源消耗接近于單目系統。
  2. 將CNN和GNN的推理代碼從Python轉換為C++,并使用ONNX和NVIDIA TensorRT進行部署,其中16位浮點運算替代了32位浮點運算。
  3. 設計了一個多線程管道。采用生產者-消費者模型,將系統分為前端線程和后端線程兩大部分。前端線程負責特征提取和匹配,而后端線程執行初始位姿估計、關鍵幀插入和局部捆綁調整。

特征匹配

使用LightGlue來匹配關鍵點。對于線特征,目前大多數VO和SLAM系統使用LBD算法或跟蹤采樣點來匹配它們。然而,LBD算法從線的局部帶狀區域提取描述符,因此在光照變化或視點變化的情況下,線特征檢測不穩定。跟蹤采樣點可以匹配在兩個幀中檢測到不同長度的線,但目前SLAM系統通常使用光流跟蹤采樣點,這在光照條件快速或劇烈變化時表現較差。一些基于學習的線特征描述符也被提出,但由于時間復雜度的增加,它們很少在現有SLAM系統中使用。

因此,為了解決效率和效果問題,我們設計了一種快速且魯棒的線特征匹配方法,以應對光照挑戰條件。首先,我們通過距離將關鍵點與線段關聯。假設在圖像上檢測到𝑀個關鍵點和𝑁個線段,每個關鍵點表示為?,每個線段表示為,其中為線段的參數,而()為端點。首先通過以下公式計算與之間的距離:

如果?且在坐標軸上的投影在線段端點的投影范圍內,即或,將認為屬于。然后,可以基于這兩張圖像的點匹配結果匹配線段。對于圖像𝑘上的線段和圖像上的線段,計算一個得分𝑆𝑚𝑛來表示它們是同一線段的置信度:

其中是屬于的點特征和屬于的點特征之間的匹配數量。和分別是屬于和的點特征數量。然后,如果且,我們將認為和是同一線段。這種耦合特征匹配方法使線段匹配能夠共享關鍵點匹配的魯棒性能,同時由于不需要另一個線段匹配網絡,它具有很高的效率。

3D 特征處理

  1. 3D線段表示:我們使用Plücker坐標【71】來表示三維空間中的線段:

其中v是線段的方向向量,n是由線段和平面確定的法向量。Plücker坐標用于3D線段的三角測量、變換和投影。它是過參數化的,因為它是一個6維向量,而一個3D線段只有四個自由度。在圖優化階段,額外的自由度將增加計算成本并導致系統的數值不穩定。因此,還使用正交表示來表示3D線段:

Plücker坐標和正交表示之間的關系類似于SO(3)和so(3)。通過以下公式可以從Plücker坐標轉換為正交表示:

其中Σ3×2是一個對角矩陣,其兩個非零項可以通過SO(2)矩陣表示:

在實際操作中,可以通過QR分解簡單快速地進行這種轉換。

  1. 三角測量:三角測量是從兩個或更多2D線特征初始化一個3D線段。使用兩種方法對3D線段進行三角測量。第一種方法3D線段的姿態可以通過兩個平面計算。為實現這一點,選擇兩條在兩張圖像上的線段l1和l2,它們是一個3D線段的兩個觀測。注意,這兩張圖像可以來自同一個關鍵幀的立體圖像對,也可以來自兩個不同的關鍵幀。l1和l2可以反投影并構建兩個3D平面π1和π2。然后,3D線段可以視為π1和π2的交線。

然而,三角測量一個3D線段比三角測量一個3D點更困難,因為它更容易受到退化運動的影響。因此,如果上述方法失敗,還采用第二種線段三角測量方法,利用點來計算3D線段。為了初始化3D線段,選擇兩個已三角測量的點X1和X2,它們屬于該線段并且在圖像平面上與該線段的距離最短。然后,可以通過以下公式獲得該線段的Plücker坐標:

該方法只需很少的額外計算,因為所選擇的3D點在點三角測量階段已經被三角測量。它非常高效且魯棒。

  1. 重投影:重投影用于計算重投影誤差。我們使用Plücker坐標來進行3D線段的變換和重投影。首先,我們將3D線段從世界坐標系轉換到相機坐標系:

其中和分別是相機坐標系和世界坐標系中的3D線段的Plücker坐標。是從世界坐標系到相機坐標系的旋轉矩陣,是平移向量。表示向量的反對稱矩陣,是從世界坐標系到相機坐標系的3D線段變換矩陣。

然后,可以通過線段投影矩陣將3D線段投影到圖像平面:

其中?是圖像平面上重投影的2D線段。表示向量的前三行。

關鍵幀選擇

系統中使用的基于學習的數據關聯方法能夠跟蹤具有大基線的兩幀。因此,不同于其他VO或SLAM系統中使用的逐幀跟蹤策略,只將當前幀與最后一個關鍵幀匹配。我們認為這種策略可以減少累積的跟蹤誤差。

因此,關鍵幀選擇對系統至關重要。一方面,希望關鍵幀稀疏以減少計算資源的消耗。另一方面,關鍵幀越稀疏,發生跟蹤失敗的可能性就越大。為了平衡效率和跟蹤的魯棒性,如果滿足以下任一條件,則選擇該幀為關鍵幀:

  • 跟蹤到的特征數少于。
  • 當前幀與最后一個關鍵幀之間的跟蹤特征的平均視差大于。
  • 跟蹤到的特征數少于。

其中𝛼1, 𝛼2和𝑁𝑘𝑓均為預設閾值。𝑁𝑠是檢測到的特征數。𝑊和𝐻分別表示輸入圖像的寬度和高度。

局部圖優化

為了提高精度,在插入新關鍵幀時執行局部捆綁調整。選擇最近的個相鄰關鍵幀構建一個局部圖,其中地圖點、3D線段和關鍵幀作為頂點,位姿約束作為邊。我們使用點約束和線約束,以及如果有IMU數據可用,還會使用IMU約束。相關的誤差項定義如下:

  1. 點重投影誤差:如果幀𝑖可以觀察到3D地圖點X𝑝,則重投影誤差定義為:

其中,?是幀上的觀測值,表示相機投影。

  1. 線重投影誤差:如果幀𝑖可以觀察到3D線段,則重投影誤差定義為:
  2. IMU殘差:我們首先按照【69】在幀𝑖和幀𝑗之間預積分IMU測量值:

IMU殘差定義為:

成本函數定義為:

使用Levenberg-Marquardt優化器來最小化成本函數。如果點和線的殘差過大,在優化過程中它們也會被拒絕為離群值。

初始地圖

地圖在離線階段進行了優化。因此,當視覺里程計完成后,關鍵幀、地圖點和3D線段將被保存到磁盤,以便后續優化使用。對于每個關鍵幀,保存其索引、位姿、關鍵點、關鍵點描述符、線特征和交點。2D特征與3D特征之間的對應關系也會被記錄下來。為了加快地圖的保存、加載和在不同設備之間的傳輸,以上信息以二進制形式存儲,這也使得初始地圖比原始數據要小得多。例如,在OIVIO數據集上,我們的初始地圖大小僅約為原始數據大小的2%。?

地圖優化與重用

離線地圖優化

這一部分旨在處理由我們的視覺里程計(VO)模塊生成的初始地圖,并輸出可以用于無漂移重定位的優化地圖。我們的離線地圖優化模塊包括以下幾個地圖處理插件。

  1. 回環檢測:與大多數當前的vSLAM系統類似,使用粗到細的流程來檢測回環。回環檢測依賴于DBoW2來檢索候選幀,并使用LightGlue進行特征匹配。在包含35,000張圖像的數據庫上為PLNet檢測到的關鍵點訓練了一個詞匯。這些圖像從幾個大型數據集中選取,包括室內和室外場景。該詞匯有4層,每層10個節點,因此包含10,000個詞。
  2. 地圖融合:回環對觀察到的3D特征通常被錯誤地當作兩個不同的特征。因此,目標是融合由回環對觀察到的重復點和線特征。對于關鍵點特征,使用上述回環對之間的特征匹配結果。如果兩個匹配的關鍵點分別關聯了兩個不同的地圖點,將它們視為重復特征,并且只保留一個地圖點。2D關鍵點與3D地圖點之間的對應關系以及共視圖圖中的連接也將更新。
    對于線特征,首先通過2D-3D特征對應關系和2D點線關聯來關聯3D線段和地圖點。然后,檢測與同一地圖點關聯的3D線段對。如果兩個3D線段共享超過3個關聯的地圖點,它們將被視為重復線段,并且只保留一個3D線段。
  3. 全局BA:在融合重復特征后執行全局捆綁調整(GBA)。其殘差和成本函數類似,不同之處在于該模塊中所有關鍵幀和特征都將被優化。在優化的初始階段,由于VO漂移誤差,融合特征的重投影誤差相對較大,因此我們首先迭代50次而不剔除離群值,以便將變量優化到一個較好的初始位置,然后再進行另外40次帶有離群值剔除的迭代。
    我們發現當地圖較大時,初始的50次迭代無法將變量優化到令人滿意的位置。為了解決這一問題,如果地圖包含超過80,000個地圖點,將在全局BA之前首先執行位姿圖優化(PGO)。在PGO中,僅調整關鍵幀的位姿,成本函數定義如下:

在線回環檢測系統通常在檢測到一個新的回環后執行全局捆綁調整,因此當一個場景中包含許多回環時,它們會經歷多次重復的全局捆綁調整。相比之下,離線地圖優化模塊僅在檢測到所有回環后才執行全局捆綁調整,這使得與這些系統相比,可以顯著減少優化迭代次數。

  1. 場景依賴詞匯:訓練了一個用于重定位的交點詞匯。該詞匯建立在地圖中的關鍵幀交點之上,因此具有場景依賴性。與關鍵點詞匯相比,用于訓練交點詞匯的數據庫通常要小得多,因此我們將層數設置為3,每層10個節點。這個交點詞匯非常小,只有大約1MB,因為它只包含1,000個詞。
  2. 優化地圖:保存優化后的地圖以供后續地圖重用,保存了更多的信息,例如每個關鍵幀的詞袋、全局共視圖圖以及場景依賴的交點詞匯。同時,由于重復地圖點和3D線段的融合,3D特征的數量有所減少。因此,優化后的地圖占用的內存與初始地圖相當。

地圖重用

在大多數vSLAM系統中,識別已訪問的地方通常需要兩個步驟:

  1. 檢索𝑁𝑘𝑐個與查詢幀相似的關鍵幀候選
  2. 執行特征匹配并估計相對位姿。

第二步通常是耗時的,因此選擇合適的𝑁𝑘𝑐非常重要。較大的𝑁𝑘𝑐會降低系統的效率,而較小的𝑁𝑘𝑐可能會使正確的候選無法被召回。例如,在ORB-SLAM3的回環關閉模塊中,只使用DBoW2檢索到的最相似的三個關鍵幀來提高效率。這在兩幀之間時間間隔較短且光照條件相對相似的回環對中表現良好。然而,對于具有挑戰性的任務,如日/夜重定位問題,檢索如此少的候選通常會導致較低的召回率。然而,檢索更多候選需要對每個查詢幀進行更多次特征匹配和位姿估計,這使得在實時應用中很難實現。

為了解決這個問題,提出了一種高效的多階段重定位方法,使優化地圖可以在不同的光照條件下使用。我們的見解是,如果能夠快速過濾掉大多數錯誤的候選,那么在保持或甚至提高重定位召回率的同時,也可以提高效率。因此,在上述兩步流程中添加了另一個步驟。接下來,將詳細介紹所提出的多階段流程。

  1. 第一步:這一步是從地圖中檢索與查詢幀相似的關鍵幀。對于每個輸入的單目圖像,使用PLNet檢測關鍵點、交點和線特征。然后,執行一個“粗略候選選擇”的流程,但有兩個不同之處。第一個不同點是不使用共視圖圖過濾候選,因為查詢幀不在圖中。第二個不同點是保留所有候選用于下一步,而不僅僅是三個候選。
  2. 第二步:這一步使用交點和線特征過濾掉大多數在第一步中選定的候選。對于查詢幀K𝑞和每個候選幀K𝑏,首先通過交點詞匯過濾掉大多數候選。在前面的步驟中,已經檢測了K𝑞的交點。接下來,使用DBoW2詞袋將這些交點量化為單詞,并通過計算直方圖的𝜒2距離來選擇與K𝑞相似的候選幀。如果𝜒2距離大于0.3 · 𝑆𝑚𝑎𝑥,K𝑏將被過濾掉。在剩余的候選中,如果K𝑞和K𝑏之間共享超過4條線特征,并且這些線特征的端點足夠接近,它們將保留。否則,K𝑏將被過濾掉。這一步使得通過接下來耗時的特征匹配和位姿估計進行處理的候選數量大大減少。
  3. 第三步:這一步對第二步中剩余的候選執行特征匹配并估計位姿。首先通過LightGlue將K𝑞和K𝑏的關鍵點和交點進行匹配。然后,基于上述點匹配結果匹配線特征。最后,通過五點法估計初始相對位姿,并通過迭代最近點算法(ICP)優化它。

通過這種多階段流程,我們能夠提高重定位的召回率和精度,同時保持實時性能。開發板商城 天皓智聯 TB上有視覺設備哦 支持AI相關~ 大模型相關也可用 whaosoft aiot自動駕駛也可以哦

實驗效果

總結一下

AirSLAM系統是一種高效且光照魯棒的點線視覺SLAM系統。設計了一個統一的CNN模型來同時檢測點和線特征,并提出了一種基于點線特征的多階段重定位方法。這些創新使得系統能夠在短期和長期光照挑戰中表現出色,同時保持足夠的效率以部署在嵌入式平臺上。最終將AirSLAM部署在實際機器人中,顯示出其在各種真實場景下的廣泛適用性。

#WHALES

支持多智能體調度的大規模協同感知數據集

自動駕駛技術在預防交通事故、提升交通效率與安全性方面展現出巨大潛力。然而,現有單車自動駕駛系統存在固有的感知局限性,特別是在處理非視距 (NLOS) 區域信息時,由于遮擋導致的感知盲區會帶來潛在的安全風險。

為克服這一挑戰,研究人員提出了協同式駕駛 (Cooperative Autonomous Driving)?方案,通過車輛間無線通信實現信息共享,顯著增強了系統在復雜場景下的安全性。盡管協同式感知為自動駕駛提供了廣闊前景,但現有研究仍受限于數據集智能體數量的不足,無法充分探索智能體調度這一關鍵任務,從而制約了協同感知的實際落地應用。

為彌合此研究鴻溝,作者團隊正式發布?WHALES (Wireless enHanced Autonomous vehicles with Large number of Engaged agentS),首個專門設計用于評估通信感知智能體調度與可擴展協同感知的大規模車聯網數據集。數據集整合了詳細的通信元數據,模擬真實場景中的通信瓶頸,為調度策略評估提供嚴格標準。為推動領域發展,作者團隊提出覆蓋范圍自適應的歷史調度算法 (Coverage-Aware Historical Scheduler, CAHS),這種新型調度基準通過基于歷史視角覆蓋度的智能選擇機制,在感知性能上超越現有方法。WHALES成功彌合了仿真與真實車聯網挑戰之間的鴻溝,為探索感知-調度協同設計、跨數據泛化及擴展性極限提供了堅實框架。作者團隊使用 MMDetection3D 實現了數據集,并提供了基線模型以及相應的性能指標。預處理流程集成了現有的智能體調度方法,使研究人員能夠輕松地提出和評估新的調度策略。

  • 論文標題:WHALES: A Multi-agent Scheduling Dataset for Enhanced Cooperation in Autonomous Driving
  • 論文鏈接:https://arxiv.org/pdf/2411.13340
  • 代碼倉庫:https://github.com/chensiweiTHU/WHALES

?,時長02:05

WHALES:支持多智能體調度的大規模數據集

圖1 WHALES數據集的總覽。(a) 數據集中單幀的BEV視圖。(b) 點云與邊界框的可視化呈現。(c) 智能體在該幀中的前向相機圖像。

圖1 WHALES數據集的總覽。(a) 數據集中單幀的BEV視圖。(b) 點云與邊界框的可視化呈現。(c) 智能體在該幀中的前向相機圖像。

核心特點與主要貢獻

  • 大規模多智能體協同環境:WHALES支持V2V和V2I感知,通過優化CARLA模擬器的速度和計算成本,實現了平均每個駕駛場景有8.4個協同智能體,包含17k幀LiDAR點云, 70k張圖像和2.01M個有效3D標注框的大規模模擬。該數據集包含了超過2.01M個3D標注框,以及物體索引和智能體行為信息,使其具有很強的可擴展性。
  • 創新性引入多智能體調度任務:WHALES支持3D目標檢測智能體調度等協同式駕駛任務。WHALES 是第一個將調度問題納入協同感知的數據集。作者團隊為這兩個任務都提供了詳細的基準,并分析了各種現有的單智能體和多智能體調度算法。
  • 較低的時間成本:平均而言,每增加一個智能體只需要160ms,有效地將時間成本降至線性函數,使得數據集生成的時間和計算成本可以接受。

表1 WHALES和現有自動駕駛數據集的比較

表1 WHALES和現有自動駕駛數據集的比較

傳感器和智能體配置

每個智能體都配備了傳感器,包括一個64通道的LiDAR ,四個1920×1080的相機以及V2X通信設備。通過這種設置,它們可以執行感知和通信任務。

數據集中有四種類型的智能體:

  • 非受控網聯自動駕駛車輛:使用CARLA自動駕駛系統進行規劃和控制。
  • 受控網聯自動駕駛車輛:可通過強化學習專家模型進行控制。
  • 路側單元 (RSU):安裝在路邊,配備LiDAR和攝像頭,并能進行感知和規劃。
  • 普通智能體:沒有傳感器,軌跡非受控。

通過這種設置,能夠評估協同對自動駕駛安全性和其他基準的增強作用。

強化學習專家模型進行規控

軌跡真值對自動駕駛模型至關重要,但是基于規則的CARLA pilot過于保守,無法探索智能體行為的多樣性。為了更好地生成軌跡,作者團隊繼承了Roach的強化學習環境,利用強化學習專家模型生成更高質量的軌跡。該強化學習模型以自身BEV的真實值作為輸入,并輸出控制信號(油門、剎車和轉向)給車輛。然后,另一個深度學習模型通過模仿學習訓練,以近似在理想觀測條件下的真實車輛行為。為了在后續任務中進行擴展,本車的行為和獎勵函數存儲在標簽中。

數據分析

自車周圍的邊界框分布在各種方向上,由于道路方向的限制,許多物體與自車方向平行或垂直對齊。大多數車輛彼此靠近,提供互補的視野,而一些車輛則相距較遠,以提供長距離信息。WHALES的數據存儲格式遵循nuScenes數據集,除了現有的nuScenes標簽外,還包括了用于協同感知任務的新標簽,例如智能體之間的距離和遮擋關系圖。

圖2 (a) 在對數刻度的極坐標密度圖中標注框的分布。受限于道路朝向,多數物體與本車方向平行或垂直。(b) 不同協同智能體之間的距離分布。大多智能體彼此靠近,提供互補視角,少數距離較遠,以獲取遠程信息。(c) 物體的鄰近性的量化。88%的物體位于本車的20米范圍內,突顯了密集城市環境中遮擋現象的頻繁性。

圖2 (a) 在對數刻度的極坐標密度圖中標注框的分布。受限于道路朝向,多數物體與本車方向平行或垂直。(b) 不同協同智能體之間的距離分布。大多智能體彼此靠近,提供互補視角,少數距離較遠,以獲取遠程信息。(c) 物體的鄰近性的量化。88%的物體位于本車的20米范圍內,突顯了密集城市環境中遮擋現象的頻繁性。

WHALES支持的調度算法

WHALES支持的調度算法包括全通信 (Full Communication)、最臨近調度 (Closest Agent)、隨機調度 (Single/Multiple Random)、移動條件下協作車輛選擇算法 (Mobility-Aware Sensor Scheduling, MASS) 以及作者團隊提出的CAHS算法。CAHS調度算法是一種新型調度方法,根據本車感知范圍內的歷史視角覆蓋率對智能體進行優先級排序。通過握手機制,CAHS能夠動態選擇具有最大空間相關性的候選對象

圖3 智能體調度的四個階段。(1) 本車將自身需求廣播給所有候選智能體。(2) 候選智能體根據本車需求計算調度基準。(3) 候選智能體將結果反饋給本車。(4) 本車選擇基準值最高的候選智能體進行協同。

圖3 智能體調度的四個階段。(1) 本車將自身需求廣播給所有候選智能體。(2) 候選智能體根據本車需求計算調度基準。(3) 候選智能體將結果反饋給本車。(4) 本車選擇基準值最高的候選智能體進行協同。

  • 全通信算法允許本車從所有其他智能體獲取數據,這種理想化場景可視為感知性能的上限,而No Fusion則對應下限。
  • 最臨近調度算法采用更直接的方式,僅通過距離不依賴歷史信息來選擇最近智能體。
  • 隨機調度算法從環境中隨機選取一個智能體作為通信對象。
  • MASS算法通過結合車輛動態特性與Upper置信邊界 (UCB) ,能夠實現去中心化調度并最大化感知增益。
  • CAHS算法(本文提出)會選擇候選車輛中,在上一幀范圍內為其本車提供最多邊界框數量的車輛,該機制可通過握手協議實現。具體而言,對于候選智能體,定義其獎勵定義為先前檢測結果與本車過去感知范圍相交的數量:

最后本車選擇相交數量最多的智能體進行通信:

實驗結果

作者團隊在WHALES數據集上進行了三種類型的實驗,所有模型都在8個NVIDIA GeForce RTX 3090 GPU上訓練,對于每個任務以8:2的比例分為訓練集和測試集。所有模型都訓練了24個epoch,基礎學習率為0.001。實驗在50米和100米的檢測范圍內訓練和測試。每次傳輸的數據量限制為每幀2MB。

  1. 獨立 3D 目標檢測 (Stand-alone 3D Object Detection):使用Pointpillars、RegNet和SECOND等主流模型進行實驗。結果表明,在100米的檢測范圍內,性能顯著下降,這強調了協同在增強長距離感知方面的重要性。

表2 單車三維物體檢測 (50m/100m)

表2 單車三維物體檢測 (50m/100m)

  1. 協同 3D 目標檢測 (Cooperative 3D Object Detection):通過使用不同的融合方法(如原始數據級融合和特征級融合),協同模型在檢測性能上顯著優于單車獨立模型。與基線相比,F-Cooper在50米和100米下mAP分別提高了19.5%和38.4%,而VoxelNeXt則分別提高了25.7%和81.3%。

表3 協同三維物體檢測 (50m/100m)

表3 協同三維物體檢測 (50m/100m)

  1. 智能體調度 (Agent Scheduling):這是WHALES數據集引入的一項新任務。單智能體調度部分展示了當本車選擇單一協同對象時各策略的性能表現,而多智能體調度部分則涉及在協同場景中協調兩個及以上智能體的調度算法。

研究發現,Historical Best和MASS算法在單智能體調度中表現最好。同時,使用隨機訓練策略的模型比確定性訓練策略的模型表現更好,因為它能生成更多樣化的輸入,從而在有限的訓練周期內更好地泛化。

表4 使用不同調度算法的3D物體檢測mAP評分 (50m/100m)

表4 使用不同調度算法的3D物體檢測mAP評分 (50m/100m)

結論

作者團隊提出了WHALES數據集,包含1.7萬幀激光雷達數據、7萬張RGB圖像及總計201萬個三維標注數據,旨在推動自動駕駛領域中協同式感知和調度研究的進展。通過深度學習模型同步智能體進程,顯著提升了CARLA仿真系統的數據生成速度。作者團隊還建立了三維目標檢測與智能體調度的基準測試體系,充分展現數據集的優勢。此外,WHALES還支持智能體行為的可控性,為智能體交互與控制策略研究提供可能。未來將基于該數據集構建模塊化、端到端的自動駕駛系統,進一步拓展感知協同之外的協同應用,并評估協同帶來的安全性能提升。

#CBDES MoE

能暴漲4%!MoE煥發BEV第二春,性能直接SOTA(清華&帝國理工)基于多傳感器的BEV感知已經成為端到端自動駕駛的的核心,然而現有方法仍然面臨輸入適應性有限、建模能力受限以及泛化不佳等問題。針對這些挑戰,清華大學、倫敦帝國理工學院和武漢理工的團隊提出了CBDES MoE,一種在功能模塊層面實現分層解耦的專家混合結構。也是首個在自動駕駛領域內以功能模塊粒度構建的模塊化專家混合框架。

CBDES MoE集成了多個結構異構的專家網絡,并采用輕量級的自注意力路由器(Self-Attention Router, SAR)門控機制,從而實現動態專家路徑選擇以及稀疏、感知輸入的高效推理。具體來說,是針對視覺backbone的MoE,集成四種backbone——Swin Transformer、ResNet、ConvNeXt和PVT,有點類似于模型集成,但通過MoE一次性解決。

最終的實驗結果很不錯,在nuScenes的3D目標檢測任務上,相較于最強的單專家模型,mAP提升了1.6個百分點,NDS提升了4.1個百分點,驗證了所提方法的有效性和實際優勢。

和大模型中的MoE不同,由于是backbone層級的MoE,車端部署難度可能較大,但在云端模型中還是值得嘗試的。未來可以進一步探索多任務、多模態的MoE,同時針對部署做一些專門的優化。?

引言

隨著自動駕駛技術的快速發展,三維感知已成為構建安全、智能和可靠駕駛系統的基礎。在主流解決方案中,基于鳥瞰圖的多模態融合框架(如BEVFusion)展現出巨大潛力,通過將來自相機和激光雷達(LiDAR)的原始傳感器輸入投影到統一的空間表示中,實現了高效的三維感知。這些結構化的BEV特征能夠實現精確的三維目標檢測,并支持一系列下游駕駛任務。盡管取得了成功,但大多數現有方法為每種模態采用固定的單backbone特征提取器。雖然這種設計簡化了訓練流程,但嚴重限制了模型對多樣化和動態變化駕駛環境(如不同光照、天氣和相機視角)的適應能力。此外,單backbone架構有限的建模能力削弱了其捕捉語義豐富且復雜的場景信息的能力,最終導致在領域遷移或任務轉換時性能下降。

為應對這些挑戰,先前的研究探索了自適應模塊,例如動態卷積和可變形注意力。盡管這些技術提高了局部靈活性,但仍局限于剛性的單一網絡結構。由于缺乏粗粒度的架構適應性,此類模型難以根據輸入變化動態重新分配計算資源,從而阻礙了其在安全關鍵型自動駕駛系統中的大規模部署。專家混合(Mixture-of-Experts, MoE)范式提供了一種新的的解決方案。通過基于學習到的路由機制實現動態專家選擇,MoE模型能夠在計算效率和表示豐富性之間靈活平衡。盡管MoE在自然語言處理和視覺-語言任務中取得了顯著成功,但其在基于BEV的三維感知中的潛力尚未得到充分挖掘。特別是,設計適用于多模態融合的異構專家backbone和路由策略,仍面臨獨特挑戰,尚未得到充分解決。

在本研究中,我們提出了CBDES MoE,一種專為BEV感知任務設計的分層解耦專家混合架構。我們的方法引入了多樣化的backbone專家池、輕量級門控路由網絡和稀疏激活機制,以實現高效、自適應和可擴展的3D感知。在nuScenes基準上的綜合實驗表明,我們的方法在復雜和多樣的駕駛場景下持續超越強大的單backbone基線模型。我們的主要貢獻總結如下:

  • CBDES MoE?引入了一種全新的基于專家的架構,包含一個多階段異構backbone設計池。通過支持分層解耦和動態專家選擇,該模型增強了場景適應性和特征表示能力。
  • 開發了一種輕量級、分層的路由機制,集成了卷積操作、自注意力和多層感知機(MLP)。該模塊實現了從輸入到專家的端到端學習映射,支持稀疏激活和高效的動態推理。
  • 在nuScenes數據集上進行了大量實驗,結果表明CBDES MoE在多樣且具有挑戰性的環境條件下持續超越強大的單backbone基線模型。?

相關工作回顧?

多模態BEV感知

隨著自動駕駛系統的發展,多傳感器信息融合已成為提升感知精度與魯棒性的關鍵技術。早期方法通常依賴于獨立的流水線階段或基于點云的融合方法(例如PointPillars、VoxelNet),但這些方法難以充分利用圖像豐富的紋理與語義信息。近年來,由于其統一的空間投影特性,鳥瞰圖(BEV)表示方法日益受到關注。BEVDet、BEVDepth、BEVFormer等方法通過將多視角相機圖像投影到BEV空間,在三維目標檢測和地圖分割任務中展現出顯著的性能提升。

進一步地,BEVFusion等研究提出了特征級多模態融合框架,通過在BEV空間內對齊并聯合建模相機與激光雷達(LiDAR)信息。然而,這些方法通常采用固定的單主干架構(如ResNet、Swin Transformer),缺乏對多樣化和動態變化輸入條件的適應能力。?

動態設計范式

自動駕駛場景具有高度的變異性——包括光照、天氣、視角和道路布局——要求感知系統具備靈活且強大的建模能力。單一的固定架構在受控條件下表現可靠,但在領域遷移或任務轉換時性能往往下降。

近期研究引入了動態卷積和可變形注意力機制,以實現基于輸入特征的自適應參數調整,從而提升模型魯棒性。然而,這些工作主要在單一架構內的細粒度模塊層面進行操作,未能提供宏觀層面的架構多樣性或動態路徑調度能力。在自動駕駛感知研究中,仍迫切需要一種機制,既能實現結構多樣性與動態選擇,又能保持推理效率。?

MoE架構

Jacobs等人最初提出的專家混合(MoE)架構,通過基于輸入依賴的門控機制實現動態專家選擇,從而在增強表示能力的同時控制計算成本。在自然語言處理(NLP)領域,GShard和Switch Transformers等模型已證明,稀疏激活的專家結構可以在不帶來沉重推理開銷的情況下線性擴展模型容量。最近,DeepSeekMoE進一步推動了這一邊界,通過專家稀疏性和優化路由,將MoE模型擴展至超過千億參數,同時保持高效性。在視覺領域,Vision MoE通過引入專家模塊,在分類和檢測等任務中表現出色。

然而,系統性地將MoE集成到自動駕駛的多模態BEV感知中仍處于探索階段。挑戰包括設計合適的專家組合、高效的門控機制,以及在BEV投影空間中保持跨模態一致性。?

自動駕駛中的MoE研究

在自動駕駛領域,已有先驅性工作開始將MoE引入端到端任務學習。例如,ARTEMIS將MoE引入軌跡規劃,利用動態路由解決在模糊引導條件下的性能退化問題,實現了跨場景的魯棒規劃。DriveMoE則提出了一種基于視覺的MoE用于感知,以及一種基于行為的MoE用于決策,實現了多視角處理的解耦和多樣化駕駛技能,并在Bench2Drive基準上取得了最先進的結果。

這些工作證實了MoE能夠增強端到端規劃和決策模塊的多樣性與適應性。然而,上述研究主要聚焦于端到端的規劃和決策層。目前,尚缺乏在多模態BEV感知系統中實現分層、解耦的動態專家選擇的系統性解決方案。?

CBDES MoE算法詳解

在本節中,我們介紹了所提出的CBDES MoE的架構與設計細節,這是一種專為自動駕駛中多模態BEV感知任務設計的新型多專家模型。CBDES MoE模塊被設計為一種即插即用的主干網絡,通過利用架構多樣性與輸入自適應路由機制來增強特征表示能力。

我們的設計通過引入異構專家組合、輸入依賴的動態路由以及BEV空間中的特征級聚合,有效解決了單主干融合網絡的局限性。?

整體框架

CBDES MoE模塊集成于類似BEVFusion的框架中,其中多視角相機圖像被投影到BEV空間,并與激光雷達(LiDAR)/雷達模態融合,以執行三維目標檢測和地圖分割等3D感知任務。我們將傳統的靜態圖像主干替換為一個異構的專家混合(Mixture-of-Experts)模塊,用于在BEV投影前提取圖像特征。每個專家獨立處理輸入圖像,然后利用相機到BEV的視圖變換層將特征投影至BEV空間。所有后續操作,如模態融合和任務頭,均與BEVFusion等標準流水線保持兼容。

如圖1所示,CBDES MoE由四個結構各異的專家網絡、一個輕量級可學習的路由模塊以及一個專家輸出的軟特征融合機制組成。每個組件的設計均以效率、多樣性與輸入適應性為核心,使模型能夠在不同視覺條件和任務需求下選擇性地激活專家路徑。

圖片

異構專家集設計

CBDES MoE的一項主要創新在于專家主干網絡之間的顯式架構異構性。與使用相同架構的專家不同,我們設計了一個由四種不同的視覺主干組成的專家池,每種主干代表深度視覺表示學習中的不同范式:

  • Swin Transformer:一種采用基于窗口的自注意力與移位窗口機制的分層Transformer,特別擅長捕捉大視野場景中的全局空間結構。
  • ResNet:一種使用殘差連接的經典卷積主干。盡管結構簡單,但其為局部結構編碼和邊緣檢測提供了強大的歸納偏置,尤其在光照不足或紋理缺失的條件下表現優異。
  • ConvNeXt:一種受Transformer啟發但保持全卷積設計的現代化卷積網絡架構,在局部性與可擴展性之間取得平衡,以較少的手工先驗提供強大的表示能力。
  • yramid Vision Transformer(PVT):一種專為密集預測任務設計的分層Transformer,通過引入空間縮減注意力機制,在全局上下文建模與計算成本之間實現平衡,適用于多尺度目標建模。

通過集成四種結構差異顯著的專家主干,模型能夠受益于多樣化的歸納偏置與表示能力。這些專家不僅在架構上不同,其感受野特性、參數化模式和計算開銷也各不相同。這種異構性對于建模真實世界自動駕駛場景中巨大的變異性至關重要(例如城市與鄉村、白天與夜晚、晴朗與霧天)。每個專家在捕捉特定圖像模式方面表現出色,從而使系統對動態多變的道路場景更具魯棒性。?

自注意力路由器SAR

為動態地為每張輸入圖像分配最合適的專家,我們提出了一種自注意力路由器(SAR),該路由器結合了卷積特征提取、輕量級自注意力機制和MLP分類器。

SAR接收一個特征圖??作為輸入,其中??為批量大小,?為輸入通道數,?為空間分辨率。該模塊隨后經歷三個主要階段:分層特征提取、自注意力編碼和通過MLP進行專家評分。

分層特征提取。我們首先使用一系列卷積和池化層逐步降低空間分辨率,同時增加通道維度:

其中??為注意力嵌入維度(例如128)。每個ConvModule包含一個卷積層,后接批歸一化(Batch Normalization)和PReLU激活函數。池化操作采用步長為2的最大池化。

自注意力編碼。上一階段的結果??被重塑為一個token序列:

為建模空間token之間的全局交互,我們應用一個多頭自注意力(MHA)層:

該操作使路由器能夠整合空間依賴關系,并學習更豐富的全局場景上下文表示。

隨后,將輸出序列??在token維度上取平均,生成圖像級嵌入:

通過MLP進行專家評分。將上一階段的全局描述符??輸入一個包含PReLU激活的三層MLP,以生成專家logits:

其中??為專家數量。最后,路由器應用softmax函數得到路由概率:

每一行??表示對??個可用專家的圖像級軟分配。

這種圖像級路由機制使模型能夠根據輸入語義調整其計算路徑。例如,雨天場景可能被路由至以Transformer為主的專家,而紋理豐富的城市場景則可能受益于卷積網絡。這種適應性提升了模型對域偏移以及罕見或復雜場景的魯棒性,解決了靜態模型的常見缺陷。

路由器本身結構輕量,僅包含少量卷積層、一個單層多頭自注意力機制和一個緊湊的MLP。盡管結構簡單,它仍能有效匯總全局場景級信息并生成語義上有意義的路由分數。它使系統能夠為每張輸入圖像動態地為每個專家分配不同的權重。這種路由靈活性使模型能夠自動為不同類型的場景、光照條件或空間布局專門化每個專家,而無需人工干預。?

專家特征提取

每個專家接收圖像作為輸入,并生成各自的處理后特征:

其中??表示第??個專家網絡。

值得注意的是,所有專家輸出均保持相同的空間分辨率和通道維度(必要時通過適配器層實現),以確保在融合過程中的兼容性。架構差異導致每個專家在不同的視覺模式上實現專業化——某些專家可能在檢測長距離車輛方面表現出色,而其他專家可能更擅長分割道路邊界。?

軟加權特征融合

在獲得路由分數和專家輸出后,我們使用路由圖在專家間進行加權軟融合。最終的融合特征圖??計算如下:

該機制實現了專家間的平滑過渡,避免了硬路由帶來的不穩定性,同時由于訓練過程中softmax的銳化作用,仍能保持稀疏的激活模式。?

基于稀疏專家激活的高效推理

在推理階段,我們根據路由器的輸出僅激活每個圖像的top-1專家。這種稀疏專家激活策略相比評估所有專家,極大地降低了計算成本,同時由于路由器的判別能力,仍能保持具有競爭力的精度。

形式上,對于批量大小為??的輸入,僅需??次專家主干的前向傳播,而非??次(?為專家數量)。這使得計算成本隨批量大小線性擴展,使系統在邊緣硬件上具備實時應用的可行性。?

負載均衡正則化

MoE模型的一個常見問題是專家坍塌(expert collapse),即路由器持續選擇專家子集,導致其他專家利用率不足。這種不平衡不僅浪費模型容量,還削弱了專家多樣性的優勢。為解決此問題,我們引入了一個負載均衡正則化項,以鼓勵在整個數據集上均勻使用所有專家。

設??為路由概率矩陣,其中??為樣本數(如批次中的圖像數),?為專家數量。每一行??表示第??個樣本分配給??個專家的軟路由概率,滿足?。

專家的平均激活定義為:

每個專家的總路由負載為:

則負載均衡損失定義為:

該公式懲罰了專家使用頻率()與累積負載()之間的聯合偏差。當所有專家在批次中被均勻分配時,該損失達到最小值,從而促進所有專家的公平參與。

該正則化項被集成到整體訓練目標中:

其中??是控制任務性能與路由多樣性之間權衡的超參數。實踐中,較小的?(如0.01)足以促進負載均衡,而不會干擾任務收斂。

該負載均衡正則化確保了所有專家在訓練期間均被激活,從而實現更豐富的專業化,并避免專家利用不足。?

與BEVFusion的集成

融合后的特征圖??被傳遞至BEVFusion中標準的camera-to-BEV投影。該模塊利用相機內參和外參矩陣將2D特征反投影到一個共享的BEV網格中。生成的BEV特征隨后與其他模態(如LiDAR、雷達)融合,并傳遞至特定任務的head,以實現3D目標檢測、語義分割或實例分割。

由于我們設計的即插即用特性,CBDES MoE可以無縫集成到各種基于BEV的感知框架中,而無需修改投影邏輯或下游頭網絡。?

訓練策略

我們使用與標準BEVFusion流水線相同的損失函數(如檢測的focal loss)對CBDES MoE進行端到端訓練,并額外加入專家負載均衡損失以均衡專家使用并促進專業化。

自注意力路由器與模型其余部分聯合訓練。在訓練期間,我們使用軟門控(即所有專家輸出的加權和)以確保可微性。在推理時,我們切換為每張圖像激活top-1專家,以降低計算開銷。除非另有說明,所有結果均在此推理模式下報告。

我們采用混合精度訓練以減少訓練時間和GPU內存消耗。所有專家聯合優化,路由參數通過標準反向傳播進行訓練。?

實驗結果

為評估所提出的CBDES MoE框架的有效性,我們進行了全面的實驗,重點研究自動駕駛場景中的三維目標檢測任務。目標是評估動態異構專家選擇帶來的性能提升以及負載均衡正則化帶來的益處。我們將CBDES MoE與多個強單專家基線模型進行比較,并進行消融研究以分離每個組件的貢獻。?

實驗設置

我們將CBDES MoE集成到官方的BEVFusion代碼庫中進行性能評估。四個專家——Swin Transformer、ResNet、ConvNeXt和PVT——均在ImageNet-1K上進行了預訓練,并被適配以匹配BEVFusion相機分支的輸入-輸出接口。

實驗在nuScenes上展開,具體的評測、計算資源和超參數可以參考原文。?

與單專家模型的比較

圖片

為評估專家多樣性和動態路由的貢獻,我們將CBDES MoE與四個基線模型進行比較,每個基線使用單一的專家主干:Swin Transformer、ResNet、ConvNeXt和PVT。所有模型共享相同的BEV融合、檢測頭和訓練配置,以確保公平比較。單專家變體省略了MoE結構和路由機制。

如表1所示,CBDES MoE在mAP和NDS上均持續優于所有四個單專家基線。這驗證了專家多樣性和自適應路由機制在提升三維檢測性能方面的有效性。

圖片

除了精度指標外,我們還在圖4中比較了訓練過程。CBDES MoE表現出更快的收斂速度,并在整個訓練過程中保持更低的損失,表明其優化穩定性更高,學習效率更優。

圖片

為進一步說明這些定量提升,圖2展示了在四種不同環境條件下代表性場景的BEV 3D目標檢測結果的定性比較。前兩行描繪了能見度良好的正常白天場景,而第三和第四行展示了更具挑戰性的條件:第三行包含雨霧,第四行為夜間拍攝。在所有場景中,CBDES MoE產生的結果與GT更為接近,尤其是在綠色框標出的區域。

在晴朗的白天場景中,CBDES MoE相比單專家模型表現出更強的一致性和更少的漏檢。在惡劣條件下——例如因霧導致能見度低或夜間光照有限——我們的模型通過在基線模型出現誤檢或完全無法定位目標時仍能保持穩健的檢測而優于基線。這些結果凸顯了動態專家路由的優勢:通過為每個輸入選擇最合適的專家,CBDES MoE能夠更好地適應環境變化,并在多樣化的真實世界條件下展現出卓越的泛化能力。?

負載均衡正則化的影響

我們進一步分析了負載均衡正則化對檢測性能的影響。比較了CBDES MoE的兩個變體:一個在訓練中加入了負載均衡損失,另一個沒有。

如表2所示,使用負載均衡正則化的CBDES MoE在mAP和NDS上均顯著優于未使用該正則化的版本。

圖片

為更好地理解負載均衡損失對專家利用率的影響,我們在圖3中可視化了路由器的行為。兩個熱圖分別展示了在有和沒有負載均衡正則化項的情況下,分配給每個專家的軟路由概率。

在沒有負載均衡損失(圖3b)的情況下,路由概率嚴重偏向一個主導專家,導致嚴重的專家不平衡和其余專家的利用不足。相比之下,當應用負載均衡損失(圖3a)時,路由概率在所有四個專家之間分布得更加均勻,最終的選擇表現出更大的多樣性。這證實了正則化項促使路由器探索完整的專家空間,并防止陷入退化的路由模式。

圖片

改進的專家多樣性直接促成了更好的性能,如表2所示,在專家使用均衡的情況下,mAP和NDS均更高。這些結果凸顯了在基于MoE的感知系統中引入負載均衡以充分利用其建模能力的必要性。?

結論

本文提出了CBDES MoE,一種專為自動駕駛功能模塊設計的新型分層解耦MoE框架。通過集成四種結構異構的專家主干——Swin Transformer、ResNet、ConvNeXt和PVT,并引入輕量級的自注意力路由器(SAR)實現圖像級的動態專家選擇,我們的模型能夠為每個輸入自適應地激活最合適的專家。此外,我們還引入了負載均衡正則化項,以防止專家坍塌并確保訓練穩定。在nuScenes數據集上的實驗結果表明,CBDES MoE在mAP和NDS指標上持續優于單專家基線,驗證了所提框架的有效性。

局限性與未來工作:盡管CBDES MoE性能強勁,但仍存在一些局限性。目前,專家路由僅在圖像級別進行;未來的工作可以探索基于圖像塊(patch-wise)或區域感知(region-aware)的路由,以實現更細粒度的適應。未來可以將方法擴展到多任務(例如分割和跟蹤)或引入來自激光雷達的跨模態路由信號,可進一步增強泛化能力。我們還計劃研究自動化的專家架構搜索和面向硬件的模型壓縮,以優化模型的可擴展性和部署效率。?

致謝

本工作得到了國家重點研發計劃項目"自動駕駛數據閉環大模型技術與場景庫構建"(項目編號:2024YFB2505501)和廣西重點科技項目"高性能低成本城市試點駕駛技術研究與產業化"(項目編號:桂科AA24206054)的支持。

#LMAD

復旦最新:邁向可解釋端到端VLM~

概述

隨著自動駕駛技術的快速發展,場景理解與行為可解釋性成為核心研究方向。大型視覺語言模型(VLMs)在連接視覺與語言信息、解釋駕駛行為方面展現出潛力,但現有方法多通過微調VLMs處理車載多視圖圖像和場景推理文本,存在整體場景識別不足、空間感知薄弱等問題,難以應對復雜駕駛場景。

為此,本文提出LMAD框架一種專為自動駕駛設計的視覺語言框架。其借鑒現代端到端駕駛范式,通過引入初步場景交互(Preliminary Interaction,PI)機制和任務專用專家適配器,增強VLMs與自動駕駛場景的對齊性,同時兼容現有VLMs并無縫集成規劃導向的駕駛系統。在DriveLM和nuScenes-QA數據集上的實驗表明,LMAD顯著提升了現有VLMs在駕駛推理任務中的性能,樹立了可解釋自動駕駛的新標準。

核心挑戰與創新

現有方法的局限性

現有基于VLMs的自動駕駛方法存在兩點關鍵缺陷:

  1. 場景理解碎片化:依賴駕駛系統的中間結果或簡單視覺表征,難以捕捉交通元素間的關系,無法形成整體場景認知(figure 1a)。
  2. 空間與運動感知薄弱:在定位和運動估計上表現不足,推理過程中易積累誤差,導致駕駛任務性能不佳。

圖片

LMAD的創新設計

針對上述問題,LMAD的核心創新包括:

  1. 初步場景交互(PI)機制:建模交通參與者的初步關系,降低VLMs的學習復雜度。
  2. 任務專用專家結構:通過并行LoRA(P-LoRA)模塊,使VLMs專注于感知、預測、規劃等特定任務,獲取任務專屬知識。
  3. 端到端系統集成:融合端到端駕駛系統的先驗知識,補充VLMs的空間和運動信息,增強推理能力(figure 1b)。

方法細節

整體框架

LMAD整合端到端駕駛流水線與視覺語言模型,由三部分構成:

  • 視覺語言模型:含視覺編碼器(提取圖像tokens)、分詞器(編碼文本tokens)、語言解碼器(生成響應)。
  • PI編碼器:處理多視圖圖像,建模場景關系。
  • 并行LoRA模塊:整合任務專用知識,適配不同駕駛任務(figure 2)。

圖片

關鍵模塊設計

1. 初步場景交互(PI)編碼器

多視圖圖像獨立處理易產生冗余跨視圖tokens,增加空間關系學習負擔。PI編碼器通過解耦查詢和交替注意力機制解決這一問題(figure 3a):

圖片

  • 解耦查詢:包含個通用視覺查詢(捕捉圖像上下文)和個相機查詢(標識相機視角,輔助空間關系構建)。
  • 交替注意力:奇數塊中,查詢按相機分組,僅組內及與對應圖像特征交互,保留單視圖信息;偶數塊中,所有查詢聯合進行場景級自注意力和交叉注意力,整合多視圖信息。

2. 并行LoRA(P-LoRA)微調

為使VLMs適配多樣化駕駛任務,P-LoRA在FFN塊中替換傳統LoRA為多個并行分支,每個分支對應感知、預測或規劃任務(figure 3b):

  • 注意力塊中的LoRA保持共享,保留通用駕駛知識。
  • 推理時結合Chain-of-Thought(CoT)技術,按端到端方法逐步輸出結果。

與端到端駕駛系統的集成

端到端駕駛系統的感知、預測、規劃特征可為VLMs提供豐富的位置和運動先驗,具體集成方式如下:

  1. 特征提取:收集感知()、預測()、規劃()的輸出特征,結合數值和文本提示增強可理解性。

    其中表示或,為語言模型輸入嵌入編碼的原始文本特征,為用于聚合文本信息的可學習查詢。
  • 數值提示:通過MLP將預測軌跡和 ego 規劃軌跡投影為高維特征和。
  • 文本提示:基于轉向和速度變化生成描述(如“直行,加速”),經多頭注意力(MHA)生成文本特征和。 公式表示為:
  1. 特征整合:通過適配器處理三類特征并對齊語言上下文,拼接為端到端tokens?:

    其中為語言模型特征維度,(為選定目標數量)。

訓練策略

  1. 單分支微調:凍結端到端駕駛分支,僅微調語言分支,采用自回歸交叉熵損失。
  2. 聯合訓練:激活語言分支到端到端分支的梯度流,同時優化文本生成和端到端任務,損失函數為:
    其中為平衡因子,包含檢測、運動預測和規劃損失(按端到端模型默認權重聚合)。

實驗驗證實驗設置

  • 數據集:采用DriveLM(377,956個QA對,涵蓋感知到規劃的漸進式任務)和nuScenes-QA(約460k個QA對,聚焦感知任務)。
  • 基線模型:LLaMA-Adapter、LLaVA-1.5、InternVL2,端到端框架采用VAD-base。
  • 訓練細節:使用AdamW優化器(權重衰減0.01),余弦學習率調度(預熱比0.03),8張A6000 GPU上以 batch size 16訓練2個epoch。

主要結果

  1. DriveLM基準測試:LMAD顯著提升所有基線VLMs的性能。例如,LLaMA-Adapter的準確率提升3.44%,GPT得分提升3.89%;即使是強基線InternVL2,整體指標仍有改善(table 1)。與現有方法相比,LMAD在BLEU4、ROUGE L等指標上表現最優(table 2)。

圖片

圖片

  1. nuScenes-QA測試:在相同基線(LLaMA-Adapter)下,LMAD的整體準確率提升2.57%,H0(零跳推理)和H1(單跳推理)指標分別提升1.99%和3.75%(table 3)。

圖片

消融研究

  • 組件有效性:PI編碼器、P-LoRA和端到端tokens的協同作用顯著提升性能,全組件配置(ID5)的最終得分最高(57.17)(table 4)。
  • P-LoRA設計:任務導向的P-LoRA(感知、預測、規劃分支)在各項指標上表現均衡,優于問題導向和分層模式(table 5)。

圖片

圖片

  • 端到端tokens作用:感知tokens對行為解釋最關鍵,加入預測和規劃tokens后,準確性和交互關系建模進一步提升(table 6)。

圖片

定性分析

  • 感知任務:借助規劃結果中的位置先驗,LMAD能準確識別多數關鍵目標,但對“禁止進入”等不明顯標識仍有困難。
  • 預測任務:聚焦對ego行為影響大的目標(如交通標志),即使預測目標與真值不同,仍能合理影響后續規劃。
  • 規劃任務:結合歷史上下文和端到端結果,輸出符合當前環境的駕駛行為(figure 4)。

圖片

參考

[1]LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving

#VisionTrap

VLM+LLM教會模型利用視覺特征更好實現軌跡預測VisionTrap: Vision-Augmented Trajectory Prediction Guided by Textual Descriptions開源數據集

??https://moonseokha.github.io/VisionTrap??moonseokha.github.io/VisionTrap

摘要

預測其他道路代理的未來軌跡是自動駕駛汽車的一項重要任務。已建立的軌跡預測方法主要使用檢測和跟蹤系統生成的代理軌跡和HD地圖作為輸入。

在這項工作中,我們提出了一種新方法,該方法還結合了來自環視攝像頭的視覺輸入,使模型能夠利用視覺線索,如人類的凝視和手勢、道路狀況、車輛轉向信號等,這些線索在現有方法中通常對模型隱藏。此外,我們使用視覺語言模型(VLM)生成并由大型語言模型(LLM)細化的文本描述作為訓練期間的監督,以指導模型從輸入數據中學習特征。盡管使用了這些額外的輸入,但我們的方法實現了53毫秒的延遲,使其可用于實時處理,這比之前具有類似性能的單代理預測方法快得多。

我們的實驗表明,視覺輸入和文本描述都有助于提高軌跡預測性能,我們的定性分析突出了模型如何利用這些額外的輸入。最后,在這項工作中,我們創建并發布了nuScenes文本數據集,該數據集為每個場景添加了豐富的文本注釋,從而增強了已建立的nuScenes數據集,展示了利用VLM對軌跡預測的積極影響

問題

目前的軌跡預測方法依賴于檢測跟蹤系統的輸出以及 HD 地圖,傳統方法中模型利用視覺線索,如人類的凝視和手勢、道路狀況、車輛轉向信號等,這些線索在現有方法中并沒有很好利用

方法

本文在傳統軌跡預測方法的輸入基礎上引入了環視攝像頭的視覺輸入,使用視覺語言模型(VLM)生成并由大型語言模型(LLM)細化的文本描述作為訓練期間的監督,以指導模型從輸入數據中學習什么

Introduction

傳統軌跡預測的輸入的缺陷——信息不足

傳統軌跡預測方法中只使用檢測跟蹤結果+HD地圖,其存在以下缺點

  • HD高清地圖是靜態的,只能提供預先定義好的信息,限制了他們對于變化環境的適應性,如施工區域以及天氣條件。同時HD地圖不能提供理解agent行為的視覺數據

傳統的軌跡預測中輸入只有HD地圖和agent的歷史軌跡,這些信息是不足的;周圍環境中agent的轉向燈、行人的朝向、天氣情況等信息都是丟失的;而且HD地圖成本很高且是靜態的,假設場景中存在施工區域,這都是無法在HD地圖中體現的。

而視覺圖像中包含了周圍環境中絕大多數信息,將圖像引入軌跡預測中輔助預測自然可以提高軌跡預測的精度。這一點之前的很多工作也都進行了考慮,并提出了自己的方法。

以往引入視覺的軌跡預測方法的不足——圖像處理方式不好 & 僅使用正面圖像

有些工作使用了視覺信息,但同時也存在以下問題

  • 現有的利用視覺語義信息的的軌跡預測方法中要么使用agent所在區域的圖像,要么整個圖像,同時沒有顯式的指示要提取什么信息。導致這些方法只能關注于最顯式的特征,導致了次優;
  • 此外這些方法只使用正面圖像,導致充分認識周圍的駕駛環境變得具有挑戰性。

針對上面提到的兩個問題,本文提出了自己的解決方案。首先肯定要引入圖像信息參與到軌跡預測中,第一個問題得到了解決;

其次,第二個問題的本質就在于如何更好地利用圖像信息,從圖像中提取出有效地信息進行軌跡預測。第二個問題實際上是由于圖像中的信息是稠密的,模型不知道提取哪些有用的信息

本文針對第二個問題,對每個圖像進行文本描述,將每個視覺特征同文本描述對齊,利用文本引導Text-driven作為監督,讓模型能夠更好地利用豐富的視覺語義信息。

在這個過程中,本文順勢提出了nuScenee-Text數據集,包含了nuScenes數據集中每個場景中每個agent的文本描述的數據集。在創建該數據集的過程中,使用了VLM和LLM進行標注

文章中此處描述

“Automating this annotation process, we utilize both a Vision-Language Model (VLM) and a Large-Language Model (LLM)” (Moon 等, 2024, p. 3)

上述描述中提到,為了自動化標注過程,使用VLM。按照此描述,VLM實際上沒有參與到訓練和推理過程,只是在數據集的標注過程中應用了VLM

Related work

本文在描述相關工作時并沒有介紹到近期一些將LLM同軌跡預測結合起來的工作,有些不足

Method

接下來介紹本文提出方法的具體做法。本文提出的模型中包含四個重要部分,Per-agent State Encoder,Visual Semantic Encoder, Text-driven Guidance Module, Trajectory Decoder

下圖為模型的主要結構圖

下面詳細介紹agent的狀態編碼器

提取agent時間特征和agent之間的空間交互特征——Per-agent State Encoder

狀態編碼器的結構如下所示

場景中的agent中的坐標均在自車坐標系(以自車位置及方向為坐標軸)下,使用相對位移,agent i的特征通過以下表達式獲得

圖片

是可學習位置嵌入,用于學習并利用到時間信息的順序

  • 時間維度自注意力+時間維度可學習token編碼時間信息

圖片

  • 空間維度自注意力——建模agent之間的空間交互

為了讓得到的每個agent的特征中具有spatially aware,將時間特征同位置特征相加,如下所示

圖片

其中是agent i在自車坐標系下的坐標,并沒有使用相對坐標來計算

通過上式得到各個agent的特征,然后在作為query,同當前agent周圍的其他agent的特征進行cross attn

圖片

每個agent的狀態編碼器中使用了常見了空間和時間維度的注意力操作來提取特征,值得一提的是此處在時間維度自注意力操作之后,對最新時間的位置進行編碼后疊加到特征上,此處的思想依舊是在What-if一文中說到的”殘差連接“的思想。

基于Bev特征和初步預測軌跡,利用Deformable attn實現Scene-Agent交互——Visual Semantic Encoder

視覺語義編碼器的主要結構如下

視覺語義編碼器的作用就是提取自車周圍環境的圖像特征。

  • bev特征的獲取——BevDepth+rasterized BEV map

圖片

接下來的問題是,如何將代表環境信息的bev特征同上一步得到的agent特征結合,從而讓每個agent的特征能夠包含環境信息。本文利用deformable attn機制來實現此目標

  • 初步軌跡的獲取——Recurrent Trajectory Prediction

agent狀態編碼器得到的agent特征,通過Recurrent Trajectory Prediciton后得到初步的agent未來軌跡,該未來軌跡用于后續步驟中scene-agent的交互建模中,作為deformable attn的參考點

備注:此處Recurrent Trajectory Prediciton具體做法筆者尚不清楚,論文中闡述道,此處的解碼器結構同Section 3.4中描述的解碼器結構相同“utilizes the same architecture as the main trajectory decoder(explained in Sec. 3.4)” (Moon 等, 2024, p. 7)

  • deformable attn機制實現scene-agent交互

將agent的未來初步軌跡作為deformable attn的參考點,將agent特征同reference point + offset處的bev特征進行交互,將環境信息注入此特征中,計算公式如下

圖片

筆者注:這種方式降低的計算的復雜度,只需要關注初步未來軌跡附近一定范圍內的bev 特征,避免了同全局bev特征之間進行注意力計算,是一種可取的思想。同時,筆者也注意到一些工作著力于此處,見后文中的聯系一節中

通過多模態對比學習讓agent的state embedding關注更加細節的語義細節——Text-driven Guidance Module

通過前文的描述可知,本文希望通過文本描述使模型能夠更好地提取來自圖像中的特征,從而提高軌跡預測的精度。現在的問題是如何利用文本描述來增強特征學習?

下圖為此部分結構圖

本文利用多模態對比學習,文本描述編碼得到的特征?和通過時空間注意力得到的agent特征嵌入并不在一個特征空間中,因此使用對比學習。對比學習的理解可見以下鏈接

??https://blog.csdn.net/qq_42018521/article/details/128867539??

??https://blog.csdn.net/jcfszxc/article/details/135381129??

對于來自于同一個agent的文本特征和編碼特征,此兩個特征的組合稱之為正對。我們希望正對中兩個特征的相似度高,追求的訓練目標是正對中的特征相似度高。這就相當于通過文本特征引導(guide) 編碼特征?捕獲到更加豐富的視覺語義特征以區別不同的agent行為。

同時我們還希望負對之間的特征相似度低,負對就是不同agent之間的文本特征和編碼特征組成的特征對,例如agent i 的文本特征和agent j 的編碼特征,即可稱之為負對。追求負對相似度低的原因在于,希望模型能夠學習到不同agent特有的視覺語義特征,區分不同的situation。

論文中提到,為了能夠在一個batch中穩定優化,因此需要限制每個batch中負對的數量。

那么此時引發一個新問題,如何確定需要考慮的負對特征?/如何找到最需要被“關注”的負對?

此外,由于文本的描述是多樣的,因此各個agent的文本特征也是多樣的,這也給如何確定負對帶來了困難。

本文的具體做法,通過BERT對agent的文本描述進行編碼,得到word-level的embedding,然后在word-level embedding之間進行注意力操作,得到sentence-level embedding,然后求解此embedding之間的cosine相似度,篩選出小于閾值()<的嵌入,其中代表閾值,本文取0.8。

按照升序進行排序,從前往后依次得到相似度逐漸遞增的嵌入列表。選擇前k個相似度最低的嵌入{}代表的agent,取出這些agent的編碼特征,組成負對

此部分的訓練目標——正對足夠接近,負對足夠遠離

將agent?的狀態嵌入??和對應的文本描述嵌入??作為正對,agent?的狀態嵌入和 top-k 的其他agent的嵌入??作為負對,使用?InfoNCE 損失來指導agent的狀態嵌入和文本描述。

圖片

下圖為具體的對比學習過程

由上圖可以看到,每張圖片中的agent都對應一個句子描述,首先使用BERT對sentence中的word進行編碼,即上圖中的Text Encoder,得到word-level的embedding,然后使用attention,得到上圖中灰黑色方框的sentence-level的embedding。計算各個sentence-level embedding之間的cos相似度,由相似度確定負對。

筆者注:筆者先前也未了解對比學習,如有概念或理解上有偏差,請務必指出

此外,值得注意的是,此對比學習過程只會在訓練的時候存在,該模塊的作用就是為了讓視覺語義特征編碼器能夠關注到更多有用的細節,故在推理階段時,該對比學習過程是不存在的。

考慮旋轉不變性的GMM參數學習網絡——Trajectory Decoder

  • 為什么需要Transformation Module?

根據HiVT等眾多研究發現,場景元素之間的平移和旋轉不變性對于軌跡預測網絡的性能非常重要。

由于本文使用的是過去歷史軌跡的相對位移,平移不變性得到了保證。但由于本文中agent坐標都是在自車坐標系下的,旋轉不變性并沒有得到保證。

在以往的工作HiVT中,平移不變形和旋轉不變性是直接通過數據預處理實現的,在將數據輸入進神經網絡之前,處理原始歷史軌跡時,轉換為相對位移,以及按照各個local region的中心agent的坐標系進行旋轉,從輸入數據上保證了平移不變性和旋轉不變性。

但現在輸入的數據都是自車坐標系下的,自車的環視攝像頭以及自車周圍其他agent的位置及方向

筆者注:理論上,此處其他agent的坐標完全可以表示為各自坐標系下的形式,類似于Hivt中的做法。筆者推測,由于本文使用自車上的環視攝像頭圖像,為了和圖像特征對齊,就只能使用自車坐標系下的其他agent的坐標和方向。

既然沒辦法從輸入數據入手解決旋轉不變性,那就只能讓模型學習到隱含在數據中的旋轉不變性。因此本文提出了一個Transformation模塊,該模塊就是為了降低與學習旋轉不變性的復雜度。

筆者注:端到端自動駕駛的軌跡預測中的對稱性是一個需要解決的問題,目前尚未看到較好的解決方案。受制于感知環節中的特征都是基于自車坐標系下的,軌跡預測無法很好地利用對稱性。本文雖然提出用學習的方式學習旋轉不變性緩解此問題,但是在端到端的過程中,agent的旋轉方向該如何獲得呢?只能通過接head輸出嗎?

  • 基于前饋神經網絡門控單元的Transformation Module

通過簡單的前饋神經網絡將此agent的方向信息編碼為特征,通過Gate單元將信息注入前述步驟中得到的agent特征中,希望模型能夠學習到旋轉不變性。

筆者注:遺憾的是后文實驗中并沒有單獨對此模塊進行消融實驗,尚不知此模塊的真實效果如何

注入了agent方向信息的特征一方面輸入至解碼器中產生未來軌跡;另一方面輸入至Text-driven Guidance Module中進行對比學習

  • 未來軌跡點分布建模為高斯混合模型——Trajectory Decoder

圖片

本文的解碼器優化一個GMM,概率密度函數如下

圖片

圖片

損失函數

損失函數為負對數似然概率

圖片

筆者注:形式上確實同GMM的負對數似然概率計算公式差不多,但是細節上對不上啊。原文中提到b為scale parameter,應該指的是標準差。系數的分母中的為何沒有?指數系數分母中的為何沒有?下面是一個一維GMM的負對數似然概率公式。

圖片

同時還優化一個輔助損失,該損失也是類似于上式中的負對數似然概率,是基于Recurrent Trajectory Prediction模塊預測的初步軌跡計算的負對數似然概率,表示為。此外,損失中還包含對比學習的損失infoNCE。

最終損失的計算公式如下

圖片

利用Fine-tuned VLM和LLM refine生成軌跡預測文本數據集——nuScenes-Text Dataset

  • DRAMA數據集不適用于預測任務——該數據集對每個場景中只有一個agent的描述,不符合預測任務

DRAMA數據集中只提供了不充分的文本描述,針對每個場景中每個agent只有一個單獨的標題。這種文本描述適合檢測任務,但是不適合預測任務

  • 基于DRAMA對VLM進行fine-tuned+GPT細化文本描述

最初,論文采用預訓練之后的VLM產生每個圖片中的文本描述,但是發現效果不佳;后使用DRAMA數據集對VLM進行微調;將感興趣agent的邊界框區域同原始圖像concat。然后利用微調之后的VLM為場景中每個agent單獨生成一個標題caption

但是生成的描述通常缺乏正確的動作相關的細節,以及提供很多不必要信息。為了解決此問題,本文采用GPT細化VLM產生的文本

產生的文本,agent類型以及機動作為輸入,其中agent的機動是通過規則的方式判斷的;使用提示詞來糾正不合理的描述,希望經過GPT產生的文本能夠提供預測相關的信息,包括agent類型,動作以及邏輯依據。下圖為產生nuScenes-Text數據集的流程。

筆者注:本文是通過規則的方式判斷agent的機動類型,規則算法的具體描述詳見本文后的補充材料中Fig3

  • nuScenes-Text數據集中樣例分析及分析

本文在此處展示了該數據集中典型場景下的文本描述,以及分析數據集,用于說明本文提出的數據集的優勢

下圖展示了agent的行為隨時間變化時,文本描述的變化

下圖展示了生成的文本描述的多樣性以及LLM對文本的細化

實驗

下圖展示了本文提出的軌跡預測方法在不同場景下的表現

上圖展示了視覺語義編碼器+文本驅動模塊對軌跡預測的幫助

筆者注:遺憾的是沒有展示視覺語義編碼器和文本驅動模塊單獨分別生效時的可視化表現,但后文的消融實驗中包含了兩者的消融實驗結果

下面列舉本文對上述實驗結果的一些定性分析

  • 視覺信息對軌跡預測有幫助;通過視覺信息輸入,(a)圖中由于紅燈和相互交談的行人未來的軌跡被預測為保持靜止
  • 行人的注視和身體朝向可以幫助預測行人穿越人行橫道時的意圖;
  • 視覺信息可以提高現有預測的精度;(d)圖中所示
  • 視覺信息可以利用轉向燈的信息;如(e)圖所示

下表為實驗指標的量化結果

上表中可以發現視覺語義編碼器和文本引導模塊對于軌跡預測的精度提升是巨大的,兩者對于結果的提升都是在20%以上,尤其是文本引導模塊。

此外,本文還在整個nuScenes數據集上進行了測試,驗證所提出的各個組件的有效性

為了驗證視覺信息引入和文本描述引導模塊的作用,本文使用UMAP可視化了每個agent的狀態嵌入,可視結果如下所示。可視結果證明了視覺信息和文本語義信息的引入改變了每個agent的狀態嵌入。

當使用視覺和文本語義時,從UMAP圖上可以看到agent狀態嵌入之間的聚合程度得到了提升。在相同cluster中的agent具有相似的文本描述。

筆者注:text-driven模塊的作用之一就在于讓處于類似情況的agent狀態嵌入聚合在一起?

補充 下圖為用于判斷未來機動類型的規則算法

下圖為LLM提示詞樣例

總結

本文提出的方法的關鍵創新點在于,利用文本描述”引導“模型學習圖像語義特征,提高軌跡預測精度。本文的主要內容主要為以下幾個方面:

  • 圖像信息對于軌跡預測很重要;利用BEV編碼器提取bev特征,通過scene-agent交互向agent嵌入中注入來自圖像特征的信息。
  • 基于多模態對比學習,利用文本描述”引導“軌跡預測模型更好地利用圖像信息,提高軌跡預測精度
  • 基于fine-tuned的VLM和LLM創建適用于本文所提方法的text-nuScenes數據集

聯系

近期涌現了很多將LLM同自動駕駛或軌跡預測相結合的工作

On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving——Arxiv 2023

Traj-LLM: A New Exploration for Empowering Trajectory Prediction with Pre-trained Large Language Models——IEEE TIV 2024

iMotion-LLM: Motion Prediction Instruction Tuning——Arxiv 2024

.

#VLM還是VLA?

從現有工作看自動駕駛多模態大模型的發展趨勢~

基于LLM的方法?

基于LLM的方法主要是利用大模型的推理能力描述自動駕駛,輸入自動駕駛和大模型結合的早期階段,但仍然值得學習~

Distilling Multi-modal Large Language Models for Autonomous Driving

  • 論文鏈接:https://arxiv.org/abs/2501.09757
  • 會議名稱:arXiv

LearningFlow: Automated Policy Learning Workflow for Urban Driving with Large Language Models

  • 論文鏈接:https://arxiv.org/pdf/2501.05057
  • 會議名稱:arXiv

CoT-Drive: Efficient Motion Forecasting for Autonomous Driving with LLMs and Chain-of-Thought Prompting

  • 論文鏈接:https://arxiv.org/2503.07234
  • 會議名稱:arXiv

PADriver: Towards Personalized Autonomous Driving

  • 論文鏈接:https://arxiv.org/pdf/2505.05240
  • 會議名稱:arXiv

Towards Human-Centric Autonomous Driving: AFast-Slow Architecture Integrating Large LanguageModel Guidance with Reinforcement Learning

  • 論文鏈接:https://arxiv.org/pdf/2505.06875
  • 項目主頁:https://drive.google.com/drive/folders/1K0WgRw1SdJL-JufvJNaTO1ES5SOuSj6p
  • 會議名稱:arXiv

Driving with Regulation: Interpretable Decision-Making for Autonomous Vehicles with Retrieval-Augmented Reasoning via LLM

  • 論文鏈接:https://arxiv.org/abs/2410.04759
  • 會議名稱:arXiv

Empowering autonomous driving with large language models: A safety perspective

  • 論文鏈接:https://arxiv.org/abs/2312.00812
  • 會議名稱:ICLR 2024

Drive Like a Human: Rethinking Autonomous Driving with Large Language Models

  • 論文鏈接:https://arxiv.org/pdf/2307.07162.pdf
  • 代碼:https://github.com/PJLab-ADG/DriveLikeAHuman
  • 會議名稱:arXiv

Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving

  • 論文鏈接:https://arxiv.org/abs/2310.01957
  • 代碼:https://github.com/wayveai/Driving-with-LLMs
  • 會議名稱:LCRA 2024

A Language Agent for Autonomous Driving

  • 論文鏈接:https://arxiv.org/abs/2311.10813
  • 項目主頁:https://usc-gvl.github.io/Agent-Driver/
  • 會議名稱:arXiv

LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving

  • 論文鏈接:https://arxiv.org/abs/2310.03026
  • 項目主頁:https://sites.google.com/view/llm-mpc
  • 會議名稱:arXiv

Receive, Reason, and React: Drive as You Say with Large Language Models in Autonomous Vehicles

  • 論文鏈接:https://arxiv.org/2310.08034v1
  • 會議名稱:MITS 2024

Dilu: A knowledge-driven approach to autonomous driving with large language models

  • 論文鏈接:https://arxiv.org/abs/2309.16292
  • 項目主頁:https://pjlab-adg.github.io/DiLu/
  • 代碼:https://github.com/PJLab-ADG/DiLu
  • 會議名稱:LCLR 2024

DSDrive: Distilling Large Language Model for Lightweight End-to-End Autonomous Driving with Unified Reasoning and Planning

  • 論文鏈接:https://arxiv.org/pdf/2505.05360
  • 會議名稱:arXiv

TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning

  • 論文鏈接:https://arxiv.org/abs/2502.01387
  • 項目主頁:https://perfectxu88.github.io/TeLL-Drive.github.io/
  • 會議名稱:arXiv?

基于VLM的方法

基于VLM和VLA的算法是當前的主流范式,因為視覺是自動駕駛依賴最多的傳感器,在這個部分我們匯總了當前最新的工作供大家參考和學習~

Drive-R1: Bridging Reasoning and Planning in VLMs for Autonomous Driving with Reinforcement Learning

  • 論文鏈接:https://arxiv.org/abs/2506.18234
  • 會議名稱:arXiv

FutureSightDrive: Visualizing Trajectory Planning with Spatio-Temporal CoT for Autonomous Driving

  • 論文鏈接:https://arxiv.org/abs/2505.17685
  • 代碼:https://github.com/MIV-XJTU/FSDrive
  • 會議名稱:arXiv

Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving

  • 論文鏈接:https://arxiv.org/abs/2501.08861
  • 會議名稱:arXiv

ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation

  • 論文鏈接:https://arxiv.org/abs/2503.19755
  • 代碼:https://github.com/xiaomi-mlab/Orion
  • 會議名稱:arXiv

Training-Free Open-Ended Object Detection and Segmentation via Attention as Prompts

  • 論文鏈接:https://arxiv.org/abs/2410.05963
  • 會議名稱:NeurIPS 2024

LingoQA: Visual Question Answering for Autonomous Driving

  • 論文鏈接:https://arxiv.org/abs/2312.14115
  • 代碼:https://github.com/wayveai/LingoQA/
  • 會議名稱:ECCV 2024

DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

  • 論文鏈接:https://arxiv.org/abs/2402.12289
  • 項目主頁:https://tsinghua-mars-lab.github.io/DriveVLM/
  • 會議名稱:arXiv

Continuously Learning, Adapting, and Improving: A Dual-Process Approach to Autonomous Driving

  • 論文鏈接:https://arxiv.org/abs/2405.15324
  • 代碼:https://github.com/PJLab-ADG/LeapAD
  • 會議名稱:NeurIPS 2024

ADAPT: Action-aware Driving Caption Transformer

  • 論文鏈接:https://arxiv.org/abs/2302.00673
  • 代碼:https://github.com/jxbbb/ADAPT
  • 會議名稱:ICRA 2023

DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model

  • 論文鏈接:https://arxiv.org/abs/2310.01412
  • 項目主頁:https://tonyxuqaq.github.io/projects/DriveGPT4/
  • 會議名稱:RAL 2024

LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving

  • 論文鏈接:https://arxiv.org/abs/2505.00284
  • 代碼:https://github.com/michigan-traffic-lab/LightEMMA
  • 會議名稱:arXiv

TS-VLM: Text-Guided SoftSort Pooling for Vision-Language Models in Multi-View Driving Reasoning

  • 論文鏈接:https://arxiv.org/abs/2505.12670
  • 會議名稱:arXiv

VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision

  • 論文鏈接:https://arxiv.org/pdf/2412.14446
  • 會議名稱:arXiv

OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving

  • 論文鏈接:https://arxiv.org/pdf/2412.15208
  • 代碼:https://github.com/taco-group/OpenEMMA
  • 會議名稱:WACV 2025

CALMM-Drive: Confidence-Aware Autonomous Driving with Large Multi modal Model

  • 論文鏈接:https://arxiv.org/pdf/2412.04209
  • 會議名稱:arXiv

WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model

  • 論文鏈接:https://arxiv.org/2412.09951
  • 項目主頁:https://wyddmw.github.io/WiseAD_demo/
  • 代碼:https://github.com/wyddmw/WiseAD
  • 會議名稱:arXiv

VLM-Assisted Continual learning for Visual Question Answering in Self-Driving

  • 論文鏈接:https://arxiv.org/2502.00843
  • 會議名稱:arXiv

VLM-E2E: Enhancing End-to-End Autonomous Driving with Multi modal Driver Attention Fusion

  • 論文鏈接:https://arxiv.org/2502.18042
  • 會議名稱:arXiv

VLM-MPC: Vision Language Foundation Model (VLM)-Guided Model Predictive Controller (MPC) for Autonomous Driving

  • 論文鏈接:https://arxiv.org/abs/2408.04821
  • 會議名稱:ICML 2025

Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning

  • 論文鏈接:https://arxiv.org/2502.14917
  • 會議名稱:arXiv

AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning

  • 論文鏈接:https://arxiv.org/pdf/2503.07608
  • 代碼:https://github.com/hustvl/AlphaDrive
  • 會議名稱:arXiv

X-Driver: Explainable Autonomous Driving with Vision-Language Models

  • 論文鏈接:https://arxiv.org/pdf/2505.05098
  • 會議名稱:arXiv

Extending Large Vision-Language Model for Diverse Interactive Tasks in Autonomous Driving

  • 論文鏈接:https://arxiv.org/pdf/2505.08725
  • 代碼:https://arxiv.org/pdf/2505.08725
  • 會議名稱:arXiv

LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving

  • 論文鏈接:https://arxiv.org/pdf/2505.00284
  • 代碼:https://github.com/michigan-traffic-lab/LightEMMA
  • 會議名稱:arXiv?

基于VLA的方法

AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning

  • 論文鏈接:https://arxiv.org/abs/2506.13757
  • 項目主頁:https://autovla.github.io/
  • 代碼:https://github.com/ucla-mobility/AutoVLA
  • 會議名稱:arXiv

DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving

  • 論文鏈接:https://arxiv.org/abs/2505.19381
  • 會議名稱:arXiv

Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models

  • 論文鏈接:https://arxiv.org/abs/2505.23757
  • 項目主頁:http://impromptu-vla.c7w.tech/
  • 代碼:https://github.com/ahydchh/Impromptu-VLA
  • 會議名稱:arXiv

DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving

  • 論文鏈接:https://arxiv.org/abs/2505.16278
  • 項目主頁:https://thinklab-sjtu.github.io/DriveMoE/
  • 會議名稱:arXiv

OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model

  • 論文鏈接:https://arxiv.org/pdf/2503.23463
  • 代碼:https://github.com/DriveVLA/OpenDriveVLA
  • 會議名稱:arXiv

#xxx

#xxx
#xxx
#xxx
#xxx
#xxx

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/94097.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/94097.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/94097.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

分級設色地圖/標注式統計地圖-中國地圖繪制

分級設色地圖/標注式統計地圖?1. 這種圖長什么樣&#xff1f;?2. 核心應用場景?3. 工具3.1 自己找數據3.2 智圖小易司3.2 Flourish3.3 鏑數圖表注意事項當你看到一張中國地圖&#xff0c;各省份顏色深淺不一&#xff0c;旁邊還標注著具體數值時&#xff0c;這種圖就是?分級…

2025最新華為云國際版注冊圖文流程-不用綁定海外信用卡注冊

說到華為云&#xff0c;很多人第一反應就是“大廠可靠、服務全”。確實&#xff0c;作為全球知名的云計算服務商&#xff0c;華為云在企業級項目和個人開發者中都挺受歡迎。今天我就帶你一步一步走一遍華為云國際版的注冊流程&#xff0c;讓新手也能輕松上手。下面是最簡單的注…

Android 人臉識別技術全解析

人臉識別作為生物識別技術的核心分支&#xff0c;已廣泛應用于考勤打卡、身份驗證、支付安全等場景。在 Android 平臺&#xff0c;實現人臉識別需要兼顧準確性、實時性和設備兼容性三大挑戰。本文將系統講解 Android 人臉識別的技術選型、核心實現、性能優化及安全加固&#xf…

STM32項目分享:基于STM32單片機駕駛安全監測系統設計

“我們不做一錘子買賣&#xff0c;只做技術成長的長期伙伴&#xff01;” 目錄 一、視頻展示 二、項目簡介 三、原理圖設計 四、PCB硬件設計 五、程序設計 六、資料分享 一、視頻展示 基于stm32單片機駕駛行為監測系統設計 -視頻分享二、項目簡介 題目&#xff1a;基于s…

【GaussDB】使用gdb定位GaussDB編譯package報錯

【GaussDB】使用gdb定位GaussDB編譯package報錯 背景 在某次遷移Oracle到GaussDB時&#xff0c;應用開發人員將改好的package在GaussDB里進行創建&#xff0c;沒有ERROR也沒有WARNING&#xff0c;但是編譯無效對象的時候報錯了。雖然已經找到了是哪個包編譯報錯&#xff0c;但…

One Commander:強大的Windows文件管理器

在日常使用電腦的過程中&#xff0c;文件管理和瀏覽是必不可少的任務。One Commander作為一款功能強大的Windows文件管理器&#xff0c;提供了豐富的功能和便捷的操作方式&#xff0c;幫助用戶更高效地管理和瀏覽文件。它不僅支持多種文件操作&#xff0c;還提供了豐富的自定義…

SPUpDate Application 程序卸載

我安裝了 EzvizStudioSetups.exe 軟件&#xff0c;卸載后會在電腦遺留 SPUpDate Application 程序&#xff1b;在某一時刻會占用 CPU 資源&#xff1b;應用卸載方法一&#xff1a;在任務管理器搜索 SPUpDate Application&#xff1b;定位到文件位置&#xff1b;我的路徑如下C:\…

算法題(187):程序自動分析

審題&#xff1a; 本題需要我們判斷是否可以同時滿足題目給定的若干等式或不等式&#xff0c;判斷出后根據結果輸出YES或NO 思路&#xff1a; 方法一&#xff1a;離散化并查集 使用并查集&#xff1a;其實題目中只存在兩者相等或不等兩種情況&#xff0c;而等于具有傳遞性&…

strcasecmp函數詳解

strcasecmp 是 C 語言中用于不區分大小寫比較兩個字符串的函數&#xff0c;主要用于忽略字符大小寫差異的場景&#xff08;如用戶輸入驗證、不區分大小寫的字符串匹配等&#xff09;。它屬于 POSIX 標準庫&#xff0c;定義在 <string.h> 頭文件中。 一、函數原型與參數 函…

Voronoi圖

本文將詳細解釋 Voronoi 圖&#xff0c;它在空間分析和插值中非常常用。1. 概念 Voronoi 圖是一種空間劃分方法&#xff0c;它把平面&#xff08;或空間&#xff09;劃分成若干個區域&#xff0c;使得每個區域內的任意一點都比該區域外的任何一點更靠近該區域的“生成點”&…

BioScientist Agent:用于藥物重定位和作用機制解析的知識圖譜增強型 LLM 生物醫學代理技術報告

BioScientist Agent:用于藥物重定位和作用機制解析的知識圖譜增強型 LLM 生物醫學代理技術報告 一、項目概述 藥物研發是一個周期長、成本高的過程,平均需要超過 10 年時間和 20 億美元才能將一種新藥推向市場,且 90% 以上的候選藥物最終失敗(1)。這種低成功率主要歸因于對…

5G視頻終端詳解 無人機圖傳 無線圖傳 便攜式5G單兵圖傳

前言單兵圖傳設備&#xff0c;是一種集視頻采集、編碼壓縮、無線傳輸等多種功能于一體的便攜式通信終端。它以嵌入式系統為基礎&#xff0c;搭載高性能 H.265 編解碼處理器&#xff0c;能夠將現場的音視頻信息進行高效處理后&#xff0c;通過無線網絡快速穩定地傳輸至后端指揮中…

【蘋果軟件】Prism Mac 9.4蘋果系統免費安裝包英文版 Graphpad Prism for Mac 9.4軟件免費下載與詳細圖文教程!!

軟件下載與系統要求 軟件&#xff1a;Prism9.4 語言&#xff1a;英文 大小&#xff1a;103.41M 安裝環境&#xff1a;MacOS12.0&#xff08;或更高&#xff0c;支持IntelM芯片&#xff09; MacOS蘋果系統GraphPad Prism&#xff08;科學數據分析與圖形繪制&#xff09;&am…

Redis 奇葩問題

先貼錯誤碼Unexpected exception while processing command這個奇葩的問題查了很久&#xff0c;后面突然頓悟&#xff0c;應該是Redis記住了第一次的數據類型&#xff0c;后面即使換了數據類型也不會改變之前的數據類型。跟代碼發現是codec變成了默認的了后續public RedissonBa…

C ++代碼學習筆記(一)

1、GetStringUTFChars用于將 Java 字符串&#xff08;jstring&#xff09;轉換為 UTF-8 編碼的 C 風格字符串&#xff08;const char*&#xff09;。必須在使用完后調用 ReleaseStringUTFChars 釋放內存&#xff0c;否則可能導致內存泄漏。std::string data_converter::convert…

【學習嵌入式day-29-網絡】

進程和線程的區別&#xff1a;都是系統執行的任務進程是資源分配的基本單位線程是調度執行的最小單位進程的創建和切換的開銷大&#xff0c;速度慢&#xff0c;效率低空間獨立、----- 安全&#xff0c;穩定進程間通信不方便線程創建和切換的開銷小&#xff0c;速度快&#xff0…

Eino 框架組件協作指南 - 以“智能圖書館建設手冊”方式理解

Eino 框架組件關系 - 形象比喻指南 &#x1f3d7;? 項目概覽&#xff1a;構建一個智能圖書館 想象一下&#xff0c;你要建設一個現代化的智能圖書館&#xff0c;能夠幫助用戶快速找到所需信息并提供智能問答服務。Eino 框架就像是這個智能圖書館的建設工具包&#xff0c;每個組…

網絡打印機自動化部署腳本

下面是一個全面的、交互式的PowerShell腳本&#xff0c;用于自動化網絡打印機部署過程。這個腳本提供了圖形化界面&#xff0c;讓用戶可以輕松地搜索、選擇和安裝網絡打印機。 備注&#xff1a;這個腳本未在生產環境測試過&#xff0c;請大家測試一下&#xff0c;有問題或優化&…

探索工業自動化核心:ZMC 系列 EtherCAT 主站控制器

ZLG致遠電子的ZMC系列EtherCAT主站控制器&#xff0c;憑借多元內核、豐富接口、卓越通信能力及開放開發環境&#xff0c;為工業自動化提供全方位解決方案&#xff0c;助力企業智能化升級。 前言在工業自動化領域不斷演進的今天&#xff0c;可靠且高效的控制解決方案成為企業提…

rt-thread使用sfud掛載qspi flash的trace分析

說明 trace log先貼在這里&#xff0c;待分析完成后&#xff0c;完善文章。 [0m[D/drv.sdram] sdram init success, mapped at 0xC0000000, size is 33554432 bytes, data width is 16[0m\ | / - RT - Thread Operating System/ | \ 5.2.0 build Aug 21 2025 14:44:332…