中山大學GaussianFusion:首個將高斯表示引入端到端自動駕駛多傳感器融合的新框架

摘要

近年來由于端到端自動駕駛極大簡化了原有傳統自動駕駛模塊化的流程,吸引了來自工業界和學術界的廣泛關注。然而,現有的端到端智駕算法通常采用單一傳感器,使其在處理復雜多樣和具有挑戰性的駕駛場景中受到了限制。而多傳感器融合可以很好的解決這一類問題,來自攝像頭、激光雷達和雷達等不同傳感器的互補信息相互集成,增強了感知的可靠性,并為學習穩健的駕駛策略提供了更豐富的輸入。

??【深藍AI】編譯

論文標題:Gaussian-Based Multi-Sensor Fusion for End-to-End Autonomous Driving

論文作者:Shuai Liu, Quanmin Liang, Zefeng Li, Boyang Li, Kai?Huang

論文鏈接:https://arxiv.org/pdf/2506.00034

原文鏈接:中山大學GaussianFusion:首個將高斯表示引入端到端自動駕駛多傳感器融合的新框架

1、介紹

現有的多傳感器融合方法可以分成如圖1(a)和(b)的兩種類型。(a)采用的是扁平化融合方法,通常將傳感器特征通過注意力機制壓縮到共享的潛在空間。這類方法具備很好的靈活性,并且不依賴傳感器的幾何校準。但由于缺乏明確的三維空間表示,限制了它們的可解釋性,使其在需要精確空間推理的場景中效果不佳。

(b)采用的是將多模態特征投射到一個通用的BEV坐標系中,利用幾何先驗來對齊來自不同傳感器的數據。這種融合方式有助于結構化的空間理解,并提升下游感知任務的性能。但由于BEV表征的密集特性,基于BEV融合的方法會產生較大的計算和內存開銷。

圖1:不同傳感器融合策略示意圖

近年來,3D高斯因其物理可解釋性和固有的稀疏性,在三維場景的表示和重建領域備受關注。然而,在這種背景下應用高斯表示會帶來一些挑戰。首先,由于現有的端到端駕駛數據集缺乏細粒度的三維場景標注,因此難以有效地監督高斯參數。其次,現有方法主要側重于三維場景表示,其在運動規劃任務中的適用性尚未得到充分探索。第三,高效利用高斯表示進行精確的軌跡生成需要精心的架構設計。

針對上述提到的相關問題,本文提出了一個基于高斯的多傳感器融合的算法框架,用于實現端到端的自動駕駛,稱之為GaussianFusion。在NAVSIM和Bench2Drive數據集上的實驗結果表明,本文提出的算法模型均實現了最佳的性能。

本文創新點:

● 本文提出首個將高斯表示引入端到端自動駕駛的多傳感器融合領域,并提出了一種針對以規劃為中心的任務的雙分支融合流程;

● 本文設計了一個專門適用于高斯表示的級聯規劃頭,它通過分層高斯查詢迭代地細化軌跡;

● 本文在開環NAVSIM和閉環Bench2Drive數據集上的廣泛評估證明了 GaussianFusion 的卓越性能和魯棒性。

2、算法模型與實現細節

本文提出的GaussianFusion算法模型的整體框架如圖2所示。可以看出,GaussianFusion包括Gaussian initialization、Gaussian encoder以及Gaussian decoder三個模塊。

圖2:GaussianFusion算法模型的整體網絡結構圖?

Gaussian Initialization

本文考慮到自動駕駛汽車主要在平面上運行,二維高斯足以模擬交通場景。具體來說,本文隨機初始化了一組2D高斯集合。每個高斯函數都具有物理屬性和隱藏特征。其中物理屬性包括均值、尺度、旋轉角度以及語義結果。隱藏特征包括顯示和隱式的特征。?

Gaussian Encoder

為了學習有意義的高斯表示,本文首先利用兩個獨立的主干網絡從圖像和激光雷達點云中提取多尺度特征。然后,這些特征被用于迭代細化高斯的物理屬性和隱藏特征。每次迭代都包含一個點交叉注意力模塊、圖像交叉注意力模塊、高斯自注意力模塊和一個細化模塊。

點交叉注意力模塊

該模塊用于從點特征中提取信息。對于每一個高斯,本文生成了一組查詢點,查詢集包含固定點和可學習點:固定查詢基于其協方差矩陣分布在每個高斯分布周圍,而可學習查詢則被限制在高斯分布的內部。給定多尺度的點特征,應用可變形注意力來聚合這些特征的信息,并更新高斯的顯式特征。
$f^{exp} = \sum^{n_q}_{i=1}\textrm{DeAttn}(f^{exp}, \cal{Q}\mathrm{[i]},\cal{M}^p\mathrm{)}$

對于隱式特征,本文使用交叉注意力與最后一個尺度點特征建立交互。
$f^{imp}=\mathrm{CrossAttn}(f^{imp}, \mathrm{M}^p_{n_s})$

圖像交叉注意力

為了整合來自多視角圖像的視覺信息,本文采用了圖像交叉注意力模塊。與點交叉注意力模塊類似,圖像交叉注意模塊為每個高斯函數生成固定和可學習的查詢點。然而,這些查詢還額外加入了高度信息,以便投影到圖像平面。具體而言,給定多尺度的圖像特征,高斯的顯式和隱式特征計算如下。
$\mathrm{f}^{exp} = \sum^{n_q \times n_p}_{i = 1} \mathrm{DeAttn}(\mathrm{f}^{exp}, \cal{Q}_{3d}\mathrm{[i]}, \cal{M}^I\mathrm{)}$
$f^{imp} = \mathrm{CrossAttn}(f^{imp}, \mathrm{M}^I_{n_s})$

高斯精修模塊

在聚合了多模態特征的信息后,本文采用了兩個獨立的自注意力層來構建所有高斯之間的交互,一個用于顯式特征,另一個用于隱式特征。
$\begin{aligned} \{\mathbf{f}_1^{exp\prime},\ldots,\mathbf{f}_P^{exp\prime}\} & =\mathrm{SelfAttn}(\{\mathbf{f}_1^{exp},\ldots,\mathbf{f}_P^{exp}\},\{\mathbf{e}_1,\ldots,\mathbf{e}_P\}), \\ \{\mathbf{f}_1^{imp\prime},\ldots,\mathbf{f}_P^{imp\prime}\} & =\mathrm{SelfAttn}(\{\mathbf{f}_1^{imp},\ldots,\mathbf{f}_P^{imp}\},\{\mathbf{e}_1,\ldots,\mathbf{e}_P\}), \\ \{\mathbf{e}_1,\ldots,\mathbf{e}_P\} & =\mathrm{PosEmbed}(\{\mathbf{m}_1,\ldots,\mathbf{m}_P\}), \end{aligned}$
然后,本文采用多層感知機,根據據高斯分布的顯式特征,對物理屬性進行細化:
$\mathbf{G}^{\prime}=\{\mathbf{m}^{\prime}+\mathbf{m},\mathbf{s}^{\prime},\mathbf{r}^{\prime},\mathbf{c}^{\prime},\mathbf{f}^{exp\prime},\mathbf{f}^{imp\prime}\},\quad(\mathbf{m}^{\prime},\mathbf{s}^{\prime},\mathbf{r}^{\prime},\mathbf{c}^{\prime})=\mathrm{MLP}(\mathbf{f}^{exp\prime}).$

Gaussian Decoder

為了有效地調節二維高斯分布,本文設計了一個高斯解碼器,它包含兩個部分:地圖構建和級聯規劃。地圖構建模塊顯式地重建交通場景,級聯規劃模塊以級聯的方式生成軌跡預測,其中每個后續輸出都基于前一個輸出進行細化。
具體而言,在級聯規劃任務中,采用基于錨點的規劃策略,根據數據集中觀察到的軌跡分布構建錨點軌跡詞匯表,然后基于Gaussian Encoder模塊輸出的高斯結果,以級聯的形式對錨點軌跡進行修正。

3、實驗


本文在NAVSIM和Bench2Drive數據集上進行了實驗驗證,相關的實驗結果分別如圖3和圖4所示。
?

圖3:各類算法模型在NAVISM上的實驗結果

圖4:各類算法模型在Bench2Drive上的實驗結果

通過在開環和閉環數據集上的實驗結果對比可以看出,本文提出的GaussianFusion算法模型均實現了最佳的表現結果,實現了SOTA的表現性能。其中,GaussianFusion算法模型在NAVSIM數據集上實現了85.0的EPDMS,在Bench2Drive數據集上實現了79.4的DS指標。

此外,本文還進行了消融實驗來驗證提出各個模塊的有效性,如圖5所示。

圖5:消融實驗結果匯總

通過消融實驗結果可以看出,本文提出的各個模塊均實現了穩定漲點,聯合使用實現了最佳的性能表現。

為了更加直觀的展示GaussianFusion算法模型的表現,本文也對相應的實驗結果進行了可視化,如圖6所示。

圖6:預測結果和真值可視化結果

可視化結果也表明了高斯表示的優勢,它提供了一種比傳統密集BEV特征圖更緊湊、適應性更強的替代方案。

結論

本文提出了一種基于高斯分布的多傳感器融合框架GaussianFusion,用于端到端自動駕駛。在NAVSIM和Bench2Drive基準測試集上的實驗表明,GaussianFusion能夠顯著提升規劃性能,并且效率極高。這些結果凸顯了高斯表示在端到端自動駕駛系統中實現高效且可解釋的傳感器融合的潛力。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/909166.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/909166.shtml
英文地址,請注明出處:http://en.pswp.cn/news/909166.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

《哈希算法》題集

1、模板題集 滿足差值的數字對 2、課內題集 字符統計 字符串統計 優質數對 3、課后題集 2006 Equations k倍區間 可結合的元素對 滿足差值的數字對 異常頻率 神秘數對 費里的語言 連連看 本題集為作者(英雄哪里出來)在抖音的獨家課程《英雄C入門到精…

Cordova移動應用對云端服務器數據庫的跨域訪問

Cordova移動應用對云端服務器數據庫的跨域訪問 當基于類似 Cordova這樣的跨平臺開發框架進行移動應用的跨平臺開發時,往往需要訪問部署在公網云端服務器上的數據庫,這時就涉及到了跨域數據訪問的問題。 文章目錄 Cordova移動應用對云端服務器數據庫的跨…

mysql知識點3--創建和使用數據庫

mysql知識點3–創建數據庫 創建數據庫 在MySQL中創建數據庫使用CREATE DATABASE語句。語法如下: CREATE DATABASE database_name;其中database_name為自定義的數據庫名稱。例如創建名為test_db的數據庫: CREATE DATABASE test_db;可以添加字符集和排…

林業資源多元監測技術守護綠水青山

在云南高黎貢山的密林中,無人機群正以毫米級精度掃描古樹年輪;福建武夷山保護區,衛星遙感數據實時追蹤著珍稀動植物的棲息地變化;海南熱帶雨林里,AI算法正從億萬條數據中預測下一場山火的風險……這些科幻場景&#xf…

一階/二階Nomoto模型(野本模型)為何“看不到”船速對回轉角速度/角加速度的影響?

提問 圖中的公式反映的是舵角和力矩之間的關系, 其中可以看到力矩(可以理解為角加速度)以及相應導致的回轉角速度和當前的舵速(主要由船速貢獻)有關,那么為什么一階Nomoto模型(一階野本&#xf…

深入剖析 C++ 默認函數:拷貝構造與賦值運算符重載

目錄 1. 簡單認識C 類的默認函數 1.1 默認構造函數 1.2 析構函數 1.3 拷貝構造函數 2. 拷貝構造函數的深入理解 拷貝構造的特點: 實際運用 3. 賦值運算符重載的深入理解 3.1.運算符重載 3.2樣例 1.比較運算符重載 2.算術運算符重載 3.自增和自減運算符重載 4.輸…

板凳-------Mysql cookbook學習 (十--3)

5.16 用短語來進行fulltext查詢 mysql> select count(*) from kjv where match(vtext) against(God); ---------- | count(*) | ---------- | 0 | ---------- 1 row in set (0.00 sec)mysql> select count(*) from kjv where match(vtext) against(sin); -------…

python爬蟲ip封禁應對辦法

目錄 一、背景現象 二、準備工作 三、代碼實現 一、背景現象 最近在做爬蟲項目時,爬取的網站,如果發送請求太頻繁的話,對方網站會先是響應緩慢,最后是封禁一段時間。一直是拒絕連接,導致程序無法正常預期的爬取數據…

【AIGC】Qwen3-Embedding:Embedding與Rerank模型新標桿

Qwen3-Embedding:Embedding與Rerank模型新標桿 一、引言二、技術架構與核心創新1. 模型結構與訓練策略(1)多階段訓練流程(2)高效推理設計(3)多語言與長上下文支持 2. 與經典模型的性能對比 三、…

算法競賽階段二-數據結構(32)數據結構簡單介紹

數據結構的基本概念 數據結構是計算機存儲、組織數據的方式,旨在高效地訪問和修改數據。它是算法設計的基礎,直接影響程序的性能。數據結構可分為線性結構和非線性結構兩大類。 線性數據結構 線性結構中,數據元素按順序排列,每…

Windows桌面圖標修復

新建文本文件,粘入以下代碼,保存為.bat文件,管理員運行這個文件 duecho off taskkill /f /im explorer.exe CD /d %userprofile%\AppData\Local DEL IconCache.db /a start explorer.exe echo 執行完成上面代碼作用是刪除桌面圖標緩存庫&…

13.react與next.js的特性和原理

🟡 一句話總結 React 專注于構建組件,而 Next.js 是基于 React 的全棧框架,提供了頁面路由、服務端渲染和全棧能力,讓你能快速開發現代 Web 應用。 React focuses on building UI components, while Next.js is a full-stack fra…

全棧監控系統架構

全棧監控系統架構 可觀測性從數據層面可分為三類: 指標度量(Metrics):記錄系統的總體運行狀態。事件日志(Logs):記錄系統運行期間發生的離散事件。鏈路追蹤(Tracing):記錄一個請求接入到結束的處理過程,主要用于排查…

云服務運行安全創新標桿:阿里云飛天洛神云網絡子系統“齊天”再次斬獲獎項

引言 為認真落實工信部《工業和信息化部辦公廳關于印發信息通信網絡運行安全管理年實施方案的通知》,2025年5月30日中國信息通信研究院于浙江杭州舉辦了“云服務運行安全高質量發展交流會”,推動正向引導,鞏固云服務安全專項治理成果。會上&a…

刀客doc:WPP走下神壇

一、至暗時刻? 6月11日,快消巨頭瑪氏公司宣布其價值17 億美元,在全球70個市場的廣告業務交給陽獅集團,這其中包括M&Ms、士力架、寶路等知名品牌。 此前,瑪氏公司一直是WPP的大客戶。早在今年3月,WPP就…

進行性核上性麻痹飲食攻略:營養安全雙護航

進行性核上性麻痹是一種罕見的神經系統退行性疾病,主要影響患者的運動、平衡和吞咽功能。除了醫學干預,科學的飲食管理也能在一定程度上減輕癥狀,提高生活質量。 由于患者常出現吞咽困難,食物質地的選擇尤為重要。應避免干硬、大塊…

阿里云可觀測 2025 年 5 月產品動態

本月可觀測熱文回顧 文章一覽: StoreView SQL,讓數據分析不受地域限制 不懂 PromQL?AI 智能體幫你玩轉大規模指標數據分析 DeepWiki LoongCollector:AI 重塑開源代碼理解 從 o11y 2.0 說起,大數據 Pipeline 的「…

React 基礎狀態管理方案

1. useState useState 是 React 提供的最基本的 Hook,用于在函數組件中添加狀態管理。它返回一個狀態變量和一個更新狀態的函數。 1.1. 使用場景 適合管理簡單的狀態。 適合管理組件內部的局部狀態。 1.2. 示例代碼 import React, { useState } from react;function Cou…

VScode中如何創建項目分支

在 VS Code 中為前端項目創建自己的分支是一個常見的開發實踐,以下是詳細步驟: 前提條件 已安裝 Git已安裝 VS Code已有前端項目或克隆了遠程倉庫 創建分支步驟 1. 打開項目 在 VS Code 中打開你的前端項目文件夾。 2. 初始化 Git 倉庫&#xff08…

Flutter 導航與路由管理:Navigator 的深入解析與實踐

在移動應用開發中,頁面導航是用戶體驗的核心組成部分。Flutter 提供了強大而靈活的導航系統,主要通過 Navigator 組件來實現。本文將全面介紹 Flutter 中 Navigator 的使用方法,涵蓋基礎導航操作、進階技巧以及最佳實踐。 一、Flutter 導航系…