摘要
近年來由于端到端自動駕駛極大簡化了原有傳統自動駕駛模塊化的流程,吸引了來自工業界和學術界的廣泛關注。然而,現有的端到端智駕算法通常采用單一傳感器,使其在處理復雜多樣和具有挑戰性的駕駛場景中受到了限制。而多傳感器融合可以很好的解決這一類問題,來自攝像頭、激光雷達和雷達等不同傳感器的互補信息相互集成,增強了感知的可靠性,并為學習穩健的駕駛策略提供了更豐富的輸入。
??【深藍AI】編譯
論文標題:Gaussian-Based Multi-Sensor Fusion for End-to-End Autonomous Driving
論文作者:Shuai Liu, Quanmin Liang, Zefeng Li, Boyang Li, Kai?Huang
論文鏈接:https://arxiv.org/pdf/2506.00034
原文鏈接:中山大學GaussianFusion:首個將高斯表示引入端到端自動駕駛多傳感器融合的新框架
1、介紹
現有的多傳感器融合方法可以分成如圖1(a)和(b)的兩種類型。(a)采用的是扁平化融合方法,通常將傳感器特征通過注意力機制壓縮到共享的潛在空間。這類方法具備很好的靈活性,并且不依賴傳感器的幾何校準。但由于缺乏明確的三維空間表示,限制了它們的可解釋性,使其在需要精確空間推理的場景中效果不佳。
(b)采用的是將多模態特征投射到一個通用的BEV坐標系中,利用幾何先驗來對齊來自不同傳感器的數據。這種融合方式有助于結構化的空間理解,并提升下游感知任務的性能。但由于BEV表征的密集特性,基于BEV融合的方法會產生較大的計算和內存開銷。
圖1:不同傳感器融合策略示意圖
近年來,3D高斯因其物理可解釋性和固有的稀疏性,在三維場景的表示和重建領域備受關注。然而,在這種背景下應用高斯表示會帶來一些挑戰。首先,由于現有的端到端駕駛數據集缺乏細粒度的三維場景標注,因此難以有效地監督高斯參數。其次,現有方法主要側重于三維場景表示,其在運動規劃任務中的適用性尚未得到充分探索。第三,高效利用高斯表示進行精確的軌跡生成需要精心的架構設計。
針對上述提到的相關問題,本文提出了一個基于高斯的多傳感器融合的算法框架,用于實現端到端的自動駕駛,稱之為GaussianFusion。在NAVSIM和Bench2Drive數據集上的實驗結果表明,本文提出的算法模型均實現了最佳的性能。
本文創新點:
● 本文提出首個將高斯表示引入端到端自動駕駛的多傳感器融合領域,并提出了一種針對以規劃為中心的任務的雙分支融合流程;
● 本文設計了一個專門適用于高斯表示的級聯規劃頭,它通過分層高斯查詢迭代地細化軌跡;
● 本文在開環NAVSIM和閉環Bench2Drive數據集上的廣泛評估證明了 GaussianFusion 的卓越性能和魯棒性。
2、算法模型與實現細節
本文提出的GaussianFusion算法模型的整體框架如圖2所示。可以看出,GaussianFusion包括Gaussian initialization、Gaussian encoder以及Gaussian decoder三個模塊。
圖2:GaussianFusion算法模型的整體網絡結構圖?
Gaussian Initialization
本文考慮到自動駕駛汽車主要在平面上運行,二維高斯足以模擬交通場景。具體來說,本文隨機初始化了一組2D高斯集合。每個高斯函數都具有物理屬性和隱藏特征。其中物理屬性包括均值、尺度、旋轉角度以及語義結果。隱藏特征包括顯示和隱式的特征。?
Gaussian Encoder
為了學習有意義的高斯表示,本文首先利用兩個獨立的主干網絡從圖像和激光雷達點云中提取多尺度特征。然后,這些特征被用于迭代細化高斯的物理屬性和隱藏特征。每次迭代都包含一個點交叉注意力模塊、圖像交叉注意力模塊、高斯自注意力模塊和一個細化模塊。
點交叉注意力模塊
該模塊用于從點特征中提取信息。對于每一個高斯,本文生成了一組查詢點,查詢集包含固定點和可學習點:固定查詢基于其協方差矩陣分布在每個高斯分布周圍,而可學習查詢則被限制在高斯分布的內部。給定多尺度的點特征,應用可變形注意力來聚合這些特征的信息,并更新高斯的顯式特征。
對于隱式特征,本文使用交叉注意力與最后一個尺度點特征建立交互。
圖像交叉注意力
為了整合來自多視角圖像的視覺信息,本文采用了圖像交叉注意力模塊。與點交叉注意力模塊類似,圖像交叉注意模塊為每個高斯函數生成固定和可學習的查詢點。然而,這些查詢還額外加入了高度信息,以便投影到圖像平面。具體而言,給定多尺度的圖像特征,高斯的顯式和隱式特征計算如下。
高斯精修模塊
在聚合了多模態特征的信息后,本文采用了兩個獨立的自注意力層來構建所有高斯之間的交互,一個用于顯式特征,另一個用于隱式特征。
然后,本文采用多層感知機,根據據高斯分布的顯式特征,對物理屬性進行細化:
Gaussian Decoder
為了有效地調節二維高斯分布,本文設計了一個高斯解碼器,它包含兩個部分:地圖構建和級聯規劃。地圖構建模塊顯式地重建交通場景,級聯規劃模塊以級聯的方式生成軌跡預測,其中每個后續輸出都基于前一個輸出進行細化。
具體而言,在級聯規劃任務中,采用基于錨點的規劃策略,根據數據集中觀察到的軌跡分布構建錨點軌跡詞匯表,然后基于Gaussian Encoder模塊輸出的高斯結果,以級聯的形式對錨點軌跡進行修正。
3、實驗
本文在NAVSIM和Bench2Drive數據集上進行了實驗驗證,相關的實驗結果分別如圖3和圖4所示。
?
圖3:各類算法模型在NAVISM上的實驗結果
圖4:各類算法模型在Bench2Drive上的實驗結果
通過在開環和閉環數據集上的實驗結果對比可以看出,本文提出的GaussianFusion算法模型均實現了最佳的表現結果,實現了SOTA的表現性能。其中,GaussianFusion算法模型在NAVSIM數據集上實現了85.0的EPDMS,在Bench2Drive數據集上實現了79.4的DS指標。
此外,本文還進行了消融實驗來驗證提出各個模塊的有效性,如圖5所示。
圖5:消融實驗結果匯總
通過消融實驗結果可以看出,本文提出的各個模塊均實現了穩定漲點,聯合使用實現了最佳的性能表現。
為了更加直觀的展示GaussianFusion算法模型的表現,本文也對相應的實驗結果進行了可視化,如圖6所示。
圖6:預測結果和真值可視化結果
可視化結果也表明了高斯表示的優勢,它提供了一種比傳統密集BEV特征圖更緊湊、適應性更強的替代方案。
結論
本文提出了一種基于高斯分布的多傳感器融合框架GaussianFusion,用于端到端自動駕駛。在NAVSIM和Bench2Drive基準測試集上的實驗表明,GaussianFusion能夠顯著提升規劃性能,并且效率極高。這些結果凸顯了高斯表示在端到端自動駕駛系統中實現高效且可解釋的傳感器融合的潛力。