北京大學長安汽車發布毫米波與相機融合模型RCBEVDet:最快能達到每秒28幀

Abstract

三維目標檢測是自動駕駛中的關鍵任務之一。為了在實際應用中降低成本,提出了利用低成本的多視角相機進行3D目標檢測,以取代昂貴的LiDAR傳感器。然而,僅依靠相機很難實現高精度和魯棒性的3D目標檢測。解決這一問題的有效方法是將多視角相機與經濟的毫米波雷達傳感器相結合,以實現更可靠的多模態3D目標檢測。在本文中,我們介紹了RCBEVDet,這是一種在鳥瞰視角(BEV)下的雷達-相機融合3D目標檢測方法。具體而言,我們首先設計了RadarBEVNet用于雷達BEV特征提取。RadarBEVNet由一個雙流雷達骨干網和一個RCS(雷達截面)感知的BEV編碼器組成。在雙流雷達骨干網中,提出了基于點的編碼器和基于Transformer的編碼器用于提取雷達特征,并通過注入和提取模塊來促進兩個編碼器之間的通信。RCS感知的BEV編碼器以RCS作為對象大小的先驗信息,將點特征散布在BEV中。此外,我們提出了跨注意力多層融合模塊,利用可變形注意力機制自動對齊來自雷達和相機的多模態BEV特征,然后通過通道和空間融合層進行融合。實驗結果表明,RCBEVDet在nuScenes和view-of-delft(VoD)3D目標檢測基準測試中實現了新的最先進的雷達-相機融合結果。此外,RCBEVDet在21~28 FPS的更快推理速度下,實現了比所有實時相機僅和雷達-相機3D目標檢測器更好的3D檢測結果。源代碼將發布在https://github.com/VDIGPKU/RCBEVDet。

圖片

Introction

3D目標檢測技術在自動駕駛領域迅速發展,多視角相機因其成本效益和提供高分辨率語義信息而受到青睞。但單一相機存在深度信息捕捉不精確和在惡劣環境下性能下降的問題。結合經濟的毫米波雷達傳感器,可以提供距離和速度的高精度測量,且不受天氣和光照影響,實現更可靠的多模態目標檢測。

毫米波雷達雖然數據稀疏且缺乏語義信息,但作為輔助傳感器,與多視角相機結合使用,可提供互補信息,提高3D目標檢測的準確性。近年來,這種融合方法受到廣泛關注。

Method

1、RadarBEVNet

RCBEVDet的整體流程如下圖所示。多視角圖像被發送到圖像編碼器以提取特征。然后,應用視圖轉換模塊將多視角圖像特征轉換為圖像BEV特征。同時,通過提出的RadarBEVNet將對齊的雷達點云編碼為雷達BEV特征。隨后,通過跨注意力多層融合模塊融合圖像和雷達BEV特征。最后,融合的多模態BEV特征用于3D目標檢測任務。

圖片

先前的雷達-相機融合方法主要采用為LiDAR點云設計的雷達編碼器,如PointPillars。相反,我們提出了RadarBEVNet,特別是用于高效的雷達BEV特征提取。

1.1 雙流雷達骨干網(Dual-stream radar backbone:雙流雷達骨干網有兩個骨干網,即基于點的骨干網和基于Transformer的骨干網。基于點的骨干網學習局部雷達特征,而基于Transformer的骨干網捕獲全局信息。具體來說,對于基于點的骨干網,我們采用類似于PointNet的簡單結構。如下圖所示,基于點的骨干網有S個塊,每個塊包含一個MLP和一個最大池化操作。輸入的雷達點特征首先發送到MLP以增加其特征維度。然后,通過對所有雷達點的最大池化操作提取全局信息,并將其與高維雷達特征連接。至于基于Transformer的骨干網,它包含S個標準的Transformer塊,具有注意力機制、前饋網絡和歸一化層,如下圖所示。由于自動駕駛場景的廣泛性,直接使用標準的自注意力機制可能使模型優化變得困難。為了解決這個問題,我們提出了一種距離調制自注意力機制(DMSA),以使模型在早期訓練迭代中聚合鄰近信息,從而促進模型收斂

圖片

圖片

1.2 RCS感知的BEV編碼器:目前的雷達BEV編碼器通常根據點的3D坐標將點特征散布到體素空間,并壓縮z軸以生成BEV特征。然而,生成的BEV特征是稀疏的,也就是說,大多數像素的特征是零。有些像素很難聚集特征,這可能會影響檢測性能。一種解決方案是增加BEV編碼器層的數量,但這通常會導致小物體的特征被背景特征平滑掉。為了解決這個問題,我們提出了一種RCS感知的BEV編碼器。雷達截面積(RCS)衡量物體被雷達檢測到的能力。通常,較大的物體會產生較強的雷達波反射,導致較大的RCS測量值。因此,RCS可以提供物體大小的粗略測量。RCS感知的BEV編碼器的關鍵設計是RCS感知散布操作,它利用RCS作為物體大小的先驗,將一個雷達點的特征散布到多個像素,而不是在BEV空間中的一個像素,如圖5所示。

圖片

2、跨注意力多層融合模塊

2.1 利用跨注意力機制進行多模態特征對齊(Multi-modal Feature Alignment with Cross-Attention)。雷達點云經常受到方位誤差的影響。因此,雷達傳感器可能會獲取超出物體邊界的雷達點。結果,由RadarBEVNet生成的雷達特征可能會分配到相鄰的BEV網格上,導致來自相機和雷達的BEV特征對齊錯誤。為了解決這個問題,我們使用跨注意力機制動態對齊多模態特征。由于未對齊的雷達點會偏離其真實位置一定距離,我們建議使用可變形跨注意力機制來捕捉這種偏差。

圖片

2.2 通道和空間融合(Channel and Spatial Fusion)。在通過交叉注意力對齊來自相機和雷達的BEV特征后,我們提出了通道和空間融合層來聚合多模態BEV特征.

Experiment

1.NuScenes 結果?:我們在 nuScenes 驗證集和測試集上將提出的 RCBEVDet 與之前的最先進的 3D 檢測方法進行了比較,如表 1 和表 2 所示。在各種主干設置下,RCBEVDet 在推理速度更快的情況下顯示出具有競爭力的 3D 物體檢測性能。值得注意的是,與之前最好的僅使用相機的方法(SOLOFusion)和雷達-相機方法(CRN)相比,RCBEVDet 使用 ResNet-50 將速度誤差(mAVE)分別減少了 14.7% 和 37.5%。此外,RCBEVDet 超越了所有基于相機的 3D 檢測方法,展示了使用互補雷達信息以實現更好的 3D 檢測的有效性。

圖片

如表 1 所示,RCBEVDet 尤其在整體指標(NDS)和速度誤差(mAVE)方面顯示出競爭力。具體來說,RCBEVDet 在之前的雷達-相機融合方法中表現出色。

圖片

2.VoD 結果:為了進一步證明 RCBEVDet 的有效性,我們在 4D 毫米波雷達數據集 view-of-delft (VoD) 上訓練了 RCBEVDet。我們在 VoD 驗證集上的結果如表 3 所示。在整個區域內,RCBEVDet 比 RCFusion 高出 0.34 mAP。在感興趣區域,RCBEVDet 也以 69.80 mAP 達到了最先進的結果。

圖片

總結

文章的主要貢獻可以概括為以下幾點:

  1. 提出了一種名為RCBEVDet的雷達-相機多模態3D目標檢測器,旨在實現高精度、高效且魯棒的檢測。
  2. 設計了一種高效的雷達特征提取器RadarBEVNet,它包含雙流雷達骨干網絡,用于提取并編碼雷達特征到鳥瞰視圖(BEV)中。
  3. 引入了跨注意力多層融合模塊,通過可變形跨注意力機制實現雷達和相機特征的魯棒對齊和融合。
  4. RCBEVDet在nuScenes和VoD數據集上取得了雷達-相機多模態3D目標檢測的先進結果,并在實時檢測器中實現了精度和速度的最佳平衡。5. RCBEVDet在傳感器故障情況下展現出良好的魯棒性。

引用CVPR2024文章:?RCBEVDet: Radar-camera Fusion in Bird’s Eye View for 3D Object Detection

歡迎關注我的公眾號auto_driver_ai(Ai fighting), 第一時間獲取更新內容。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/42726.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/42726.shtml
英文地址,請注明出處:http://en.pswp.cn/web/42726.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

C++入門基礎(2)

目錄 一、引用: 1、定義: 2、特性: 3、引用的使用: 4、const引用:控制權限 const引用定義: const引用可以接收3種對象: 1、正常對象: 2、臨時對象: 3、const對象: 總結&…

C++筆試強訓3

提示:文章寫完后,目錄可以自動生成,如何生成可參考右邊的幫助文檔 文章目錄 一、選擇題1-5題6-10題 二、編程題題目一題目二 一、選擇題 1-5題 如圖所示,如圖所示p-3指向的元素是6,printf里面的是%s,從6開…

Java爬蟲翻頁

編寫一個Java爬蟲以進行翻頁通常涉及到使用HTTP客戶端(如Apache HttpClient或OkHttp)來發送請求,解析HTML頁面(如使用Jsoup庫),以及處理分頁邏輯(如通過URL參數或頁面內的鏈接進行翻頁&#xff…

華為機試HJ108求最小公倍數

華為機試HJ108求最小公倍數 題目: 想法: 要找到輸入的兩個數的最小公倍數,這個最小公倍數要大于等于其中最大的那個數值,遍歷最大的那個數值的倍數,最大的最小公倍數就是輸入的兩個數值的乘積 input_number_list i…

C++休眠的方法

Windows的API函數 Sleep(INFINITE); 休眠時間為永久 Linux的API函數sleep 沒有直接表示無限時間的參數,根據POSIX標準,sleep() 函數的參數應該是 unsigned int 類型,因此最大可以接受的參數值是 UINT_MAX,即 4294967295 秒。sleep…

OpenFWI代碼

重點關注文章第4部分 一、代碼模塊概覽 這一部分了解代碼主要實現的功能有哪些。 二、運行 這一部分關注如何跑通。 三、數據集 12個數據集(11個2D1個3D) 對計算機而言,上述輸入、輸出維度大小是按次數定義的。 以“Vel,F…

線程池【開發實踐】

文章目錄 一、為什么要用線程池1.1 單線程的問題1.2 手動創建多線程的問題1.3 線程池的作用(優點)1.4 線程池的使用場景 二、線程池的基礎知識2.1 線程池的核心組件2.2 JUC中的線程池架構2.3 線程池的配置參數2.4 線程池常見的拒絕策略(可自定…

appium 實戰問題 播放視頻時無法定位到元素

背景 在做UI自動化時,有播放詳情頁的用例,但是發現視頻在播放的時候無法定位到元素或者很慢,了解到appium在動態的頁面實時獲取布局元素導致定位變慢。所以只能將視頻暫停在操作元素,點擊到暫停按鈕又是個問題,通過ad…

昇思25天學習打卡營第21天|LSTM+CRF序列標注

1. 學習內容復盤 概述 序列標注指給定輸入序列,給序列中每個Token進行標注標簽的過程。序列標注問題通常用于從文本中進行信息抽取,包括分詞(Word Segmentation)、詞性標注(Position Tagging)、命名實體識別(Named Entity Recognition, NER)等。以命名…

Spring Boot項目中JPA操作視圖會改變原表嗎?

一直有一種認識就是:使用JPA對視圖操作,不會影響到原表。 直觀的原因就是視圖是一種數據庫中的虛擬表,它由一個或多個表中的數據通過SQL查詢組成。視圖不包含數據本身,而是保存了一條SQL查詢,這條查詢是用來展示數據的。 但是在實際項目種的一個場景顛覆和糾正了這個認識…

匯川伺服 (4)FFT、機械特性、閉環、慣量、剛性、抑制振動

一、參數解釋 二、FFT 三、機械特性分析 四、多級配方與對象字典 對機組網配方 對象字典 五、InoServoShop 主要是用于調試620P620N將壓縮報解壓后不需要安裝就可以直接使用 六、InoDriveWorkShop 主要是調試660 670 810 520 等系列 慣量識別 Etune Stune 慣量比調試 大慣…

Error:sql: expected 1 arguments, got 2

一 背景 在測試一個API接口時,看到日志里面突然拋出一個錯誤:Error:sql: expected 1 arguments, got 2 看了下,對應的表里面是有相關數據的,sql語句放在mysql里面執行也是沒問題!那奇了怪了,為啥會產生這樣…

git只列出本地分支

git只列出本地分支 git branch --list git強制刪除本地分支 git branch -D_error: the branch dlx-test is not fully merged. -CSDN博客文章瀏覽閱讀648次。git branch -d 可以通過: git branch 查看所有本地分支及其名字,然后刪除特定分支。git刪除遠程remote分支…

算法之工程化內容(2)—— Git常用命令

目錄 1. git初始化配置 2. 新建倉庫 3. 工作區——>暫存區——>本地倉庫 4. git reset回退版本 5. 查看差異 git diff 6. 刪除文件git rm 7. .gitignore 8. vscode操作git 9. git分支、合并和刪除 10. 解決合并沖突 11. 回退和rebase 12. 添加遠程倉庫 參考鏈接&#xff…

【Go語言】Go語言的占位符

Go語言的占位符 Golang 的字符串占位符在 fmt 包的各種打印函數中使用,如 fmt.Printf、fmt.Sprintf。 變量值與類型的打印 %v: 打印變量的值 %v 會根據變量的類型選擇合適的格式進行打印。對于結構體,%v 會打印出結構體的字段。對于指針類型&#xf…

Linux 網絡--TCP協議收包流程(NAPI機制)

Linux 網絡--TCP協議收包流程(NAPI機制) 平臺環境簡介:宿主機: ubuntu18.04Linux內核源碼版本: Linux-4.15網卡驅動: Intel e1000 (ubuntu 虛擬機默認網卡驅動)協議:TCP協議,本文分析收包過程 本…

緩存新境界:Eureka中服務的分布式緩存實現策略

緩存新境界:Eureka中服務的分布式緩存實現策略 引言 在微服務架構中,服務間的通信和數據交換頻繁,引入分布式緩存可以顯著提高系統性能和響應速度。Eureka作為Netflix開源的服務發現框架,雖然本身不提供緩存機制,但可…

【線程狀態-2】

1、線程禮讓 (1)禮讓線程,讓當前正在執行的線程暫停,但不阻塞 (2)將線程從運行狀態轉為就緒狀態 (3)讓cpu重新調度,禮讓不一定成功!看cpu心情 package st…

單對以太網:工業4.0時代的通信革命

單對以太網連接器概述 單對以太網(Single Pair Ethernet,簡稱SPE)是一種新興的以太網技術,它通過一對雙絞線實現數據傳輸,支持PoDL(Power over Data Line)技術,為終端設備提供電力供…

【AI工具介紹】— webkit簡介

目錄 一、起源與發展 二、核心組件與功能 三、特性與優勢 四、應用與影響 五、結論 一、起源與發展 WebKit起源于蘋果公司,最初是為了開發Safari瀏覽器而創建的。WebKit項目的起源可以追溯到蘋果公司在2001年推出基于Unix的操作系統Mac OS X時,對瀏…