【佳佳怪文獻分享】MVFusion: 利用語義對齊的多視角 3D 物體檢測雷達和相機融合

標題:MVFusion: Multi-View 3D Object Detection with Semantic-aligned Radar and Camera Fusion

作者:Zizhang Wu , Guilian Chen , Yuanzhu Gan , Lei Wang , Jian Pu

來源:2023 IEEE International Conference on Robotics and Automation (ICRA 2023)

這是佳佳怪分享的第2篇文章

摘要

多視角雷達-攝像頭融合三維物體檢測為自動駕駛提供了更遠的檢測范圍和更多有用的功能,尤其是在惡劣天氣下。目前的雷達-相機融合方法提供了多種將雷達信息與相機數據融合的設計。然而,這些融合方法通常采用多模態特征之間的直接串聯操作,忽略了雷達特征的語義一致性和模態之間的充分相關性。在本文中,我們提出了一種新穎的多視圖雷達-攝像機融合方法 MVFusion,以實現雷達特征的語義對齊并增強跨模態信息交互。為此,我們通過語義對齊雷達編碼器(SARE)將語義對齊注入雷達特征,生成圖像引導的雷達特征。然后,我們提出了雷達引導融合變換器(RGFT)來融合雷達和圖像特征,通過交叉注意機制從全局范圍加強兩種模態的相關性。大量實驗表明 MVFusion 在 nuScenes 數據集上實現了最先進的性能(51.7% NDS 和 45.3% mAP)。我們將在論文發表后公布我們的代碼和訓練有素的網絡。

在這里插入圖片描述
圖 1. 基于攝像頭的方法 [13] 和我們的 MVFusion 的探測對比。(a) 圖像和雷達輸入,雷達點的顏色表示與雷達的距離。(b) 3D 檢測地面實況。? 基于攝像頭的方法 [13] 的結果,該方法未能檢測到遠處的汽車和近處的行人。(d) 我們的方法利用語義對齊的雷達信息進行了充分的雷達-攝像機融合,成功檢測到了丟失的汽車和行人。

在這里插入圖片描述
圖 2. 我們提出的 MVFusion 概覽,主要由五個部分組成:雷達預處理模塊、圖像編碼器、語義對齊雷達編碼器(SARE)、雷達引導融合變換器(RGFT)和檢測網絡。SARE 將語義配準注入雷達特征,而 RGFT 則 RGFT 融合雷達和圖像特征,旨在從全局范圍充分促進兩種模態的互動。多視角雷達表示法參考了文獻[15]。

在這里插入圖片描述
圖 3. 雷達特征提取器(RFE)的結構圖,其中包括 用于稀疏雷達特征的殘差特征卷積塊。
在這里插入圖片描述
圖 4. 圖像制導雷達變換器(IGRT)概覽。IGRT 為雷達特征分配可學習的位置編碼,以通過多頭自注意機制進一步增強 空間信息。
在這里插入圖片描述
圖 5. 雷達引導融合變換器(RGFT)概述。RGFT 融合了高級雷達和圖像特征,在交叉注意機制下實現了充分的相關性。
在這里插入圖片描述
圖 6. 我們的方法與之前的方法 [13] 的環視檢測結果對比。我們用 黃色圓圈表示我們的方法,藍色圓圈表示 [13] 的方法。我們的方法在不同視角下都能實現正確的目標檢測,而我們的方法在不同視角下都能實現充分的目標檢測。在不同視角下,我們的方法都能正確檢測到物體,其中語義對齊的雷達特征與視覺特征之間充分的雷達-相機互動為三維檢測提供了更多有用的線索。
在這里插入圖片描述
表1. 在 nuscenes 測試集上使用不同模態的單幀最先進作品比較。表示采用 dd3d [42] 預訓練 v2-99 [43] 主干網
在這里插入圖片描述
表2. 采用不同骨干網和模態對 nuscenes val 集進行的單幀最新研究成果比較。? 表示采用 dd3d [42] 預先訓練的 v2-99 [43] 骨架。
在這里插入圖片描述
表3. 對擬議組件的值集進行消融研究。sare "表示語義對齊雷達編碼器,"rgft "表示雷達制導融合變換器。
在這里插入圖片描述
表4. 語義對齊雷達編碼器(SARE)閥值集消融實驗。si "表示語義指示器。igt "表示圖像制導雷達變換器。

在這里插入圖片描述
表5. 雷達制導融合變壓器(RGFT)閥組燒蝕研究 變壓器(RGFT)。w "表示 “有”,"w/o "表示 “無”。表示 “無”。q’、‘k’、‘v’表示查詢、鍵、值。IMG. 表示圖像。concat.’ 表示 “連接”。

結論

本文提供了一種用于三維物體檢測的新型多視圖雷達-攝像機融合方法 MVFusion,該方法實現了語義對齊雷達特征和魯棒跨模態信息交互。具體來說,我們提出了語義對齊雷達編碼器(SARE)來提取圖像引導的雷達特征。在提取雷達特征后,我們提出了雷達引導融合變換器(RGFT),將增強的雷達特征與高級圖像特征進行融合。在 nuScenes 數據集上進行的大量實驗驗證了我們的模型達到了單幀雷達-攝像機融合的最先進性能。未來,我們將匯集多視角相機的時空信息,進一步促進雷達-相機融合。??

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/38475.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/38475.shtml
英文地址,請注明出處:http://en.pswp.cn/news/38475.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

kubernetes企業級高可用部署

目錄 1、Kubernetes高可用項目介紹 2、項目架構設計 2.1、項目主機信息 2.2、項目架構圖 1、Kubernetes高可用項目介紹 2、項目架構設計 2.1、項目主機信息 2.2、項目架構圖 2.3、項目實施思路 3、項目實施過程 3.1、系統初始化 3.2、配置部署keepalived服務 3.3、…

強制Edge或Chrome使用獨立顯卡【WIN10】

現代瀏覽器通常將圖形密集型任務卸載到 GPU,以改善你的網頁瀏覽體驗,從而釋放 CPU 資源用于其他任務。 如果你的系統有多個 GPU,Windows 10 可以自動決定最適合 Microsoft Edge 自動使用的 GPU,但這并不一定意味著最強大的 GPU。 …

Linux/centos上如何配置管理NFS服務器?

Linux/centos上如何配置管理NFS服務器? 1 NFS基礎了解1.1 NFS概述1.2 NFS工作流程 2 安裝和啟動NFS服務2.1 安裝NFS服務器2.2 啟動NFS服務 3 配置NFS服務器和客戶端3.1 配置NFS服務器3.2 配置NFS客戶端 4 實際示例4.1 基本要求4.2 案例實現 1 NFS基礎了解 NFS&…

LAXCUS如何通過技術創新管理數千臺服務器

隨著互聯網技術的不斷發展,服務器已經成為企業和個人獲取信息、進行計算和存儲的重要工具。然而,隨著服務器數量的不斷增加,傳統的服務器管理和運維方式已經無法滿足現代企業的需求。LAXCUS做為專注服務器集群的【數存算管】一體化平臺&#…

Jtti:Windows server如何備份與還原注冊表

在 Windows Server 中,備份和還原注冊表是一項重要的任務,可以幫助你在系統配置更改之前創建一個恢復點,以防止出現問題。以下是在 Windows Server 上備份和還原注冊表的步驟: 備份注冊表: 1.打開“運行”對話框&…

企業數據庫遭到360后綴勒索病毒攻擊,360勒索病毒解密

在當今數字化時代,企業的數據安全變得尤為重要。隨著數字化辦公的推進,企業的生產運行效率得到了很大提升,然而針對網絡安全威脅,企業也開始慢慢引起重視。近期,我們收到很多企業的求助,企業的服務器遭到了…

代理模式(Java實現)

代理模式是常見的設計模式之一,顧名思義,代理模式就是代理對象具備真實對象的功能,并代替真實對象完成相應操作,并能夠在操作執行的前后,對操作進行增強處理。(為真實對象提供代理,然后供其他對…

threejs使用gui改變相機的參數

調節相機遠近角度 定義相機的配置: const cameraConfg reactive({ fov: 45 }) gui中加入調節fov的方法 const gui new dat.GUI();const cameraFolder gui.addFolder("相機屬性設置");cameraFolder.add(cameraConfg, "fov", 0, 100).name(…

YOLO格式數據集(.txt)如何轉換為VOC格式數據集(.xml)

前言: 安裝好python環境與編譯器 轉換: 將標注文件從文本格式(.txt)轉換為 XML 格式(.xml)可以通過以下步驟完成: 解析文本標注文件:打開 .txt 文件,逐行讀取每個標注…

Gin模板語法

Gin模板語法 文章目錄 <center> Gin模板語法前提提醒Gin框架啟動服務器模板解析模板渲染遇到不同目錄下相同的文件如何加載和渲染自定義函數加載靜態文件 前提提醒 由于有了前面template包的基礎,所以該筆記不再過多詳細分析 Gin框架啟動服務器 語法: r:gin.Default()/…

Medical Isolated Power Supply System in Angola

安科瑞 華楠 Abstract: Diagnosis and treatment in modern hospitals are inseparable from advanced medical equipment, which are inseparable from safe and reliable power supply. Many operations often last for several hours, and the consequences of a sudden pow…

【UE4 RTS】07-Camera Boundaries

前言 本篇實現的效果是當CameraPawn移動到地圖邊緣時會被阻擋。 效果 步驟 1. 打開項目設置&#xff0c;在“引擎-碰撞”中&#xff0c;點擊“新建Object通道” 新建通道命名為“MapBoundaries”&#xff0c;然后點擊接受 2. 向視口中添加 阻擋體積 調整阻擋體積的縮放 向四…

【TypeScript】this指向,this內置組件

this類型 TypeScript可推導的this類型函數中this默認類型對象中的函數中的this明確this指向 怎么指定this類型 this相關的內置工具類型轉換ThisParameterType<>ThisParameterType<>ThisType TypeScript可推導的this類型 函數中this默認類型 對象中的函數中的this…

華為OD機試-字符串序列判定

題目描述 給定兩個字符串 s和 t &#xff0c;判斷 s是否為 t 的子序列。 你可以認為 s 和 t 中僅包含英文小寫字母。字符串 t 可能會很長&#xff08;長度n ~ 500,000&#xff09;&#xff0c;而 s 是個短字符串&#xff08;長度 <100&#xff09;。字符串的一個子序列是原…

Docker容器:docker基礎及安裝

文章目錄 一.docker容器概述1.什么是容器2. docker與虛擬機的區別2.1 docker虛擬化產品有哪些及其對比2.2 Docker與虛擬機的區別 3.Docker容器的使用場景4.Docker容器的優點5.Docker 的底層運行原理6.namespace的六項隔離7.Docker核心概念 二.Docker安裝 及管理1.安裝 Docker1.…

【科研論文配圖繪制】task1 掌握科研繪圖的基本知識

【科研論文配圖繪制】task1 掌握科研繪圖的基本知識 寫在最前 8月份Datawhale組隊學習&#xff0c;寫下該博客記錄學習內容 1.科研論文配圖的分類與構成 2.科研論文配圖的格式和尺寸 3.科研論文配圖中的字體和字號設置 4.科研論文配圖的版式設計、結構布局和顏色搭配 占個…

機器學習筆記 - 基于C++的??深度學習 三、實現成本函數

機器學習中的建模 作為人工智能工程師,我們通常將每個任務或問題定義為一個函數。 例如,如果我們正在開發面部識別系統,我們的第一步是將問題定義為將輸入圖像映射到標識符的函數F(X)。但是問題是如何知道F(X)公式? 事實上,使用公式或一系列固有規則來定義F(X)是不可行的(…

【Go 基礎篇】Go語言指針解析:深入理解內存與引用的奧秘

介紹 指針是計算機編程中的重要概念&#xff0c;它提供了直接訪問內存地址的能力&#xff0c;為程序的數據處理和內存管理提供了靈活性和效率。在Go語言&#xff08;Golang&#xff09;中&#xff0c;指針也是一種重要的數據類型&#xff0c;用于處理變量的引用和修改。本篇博…

GraphQL(六)登錄態校驗Directive

GraphQL Directive&#xff08;指令&#xff09;是GraphQL中的一種特殊類型&#xff0c;它允許開發者在GraphQL schema中添加元數據&#xff0c;以控制查詢和解析操作的行為 Directive的詳細說明及使用可見GraphQL&#xff08;五&#xff09;指令[Directive]詳解 本文將介紹通過…

勘探開發人工智能技術:機器學習(6)

0 提綱 7.1 循環神經網絡RNN 7.2 LSTM 7.3 Transformer 7.4 U-Net 1 循環神經網絡RNN 把上一時刻的輸出作為下一時刻的輸入之一. 1.1 全連接神經網絡的缺點 現在的任務是要利用如下語料來給apple打標簽&#xff1a; 第一句話&#xff1a;I like eating apple!(我喜歡吃蘋…