BEVDet4D

1. BEVDet4D算法動機及開創性思路

1)BEVDet算法概述

  • 輸入輸出:輸入為6視角圖像(NuScenes數據集),輸出為3D檢測結果

  • 核心模塊:

    • 圖像編碼器:由Backbone網絡和多尺度特征融合網絡組成,處理多視角圖像
    • 視角轉換器:實現2D到3D的映射,生成Camera BEV特征
    • BEV編碼器:結構與圖像編碼器相似,但輸入為BEV特征,輸出任務特定特征
    • 檢測頭:完成3D目標檢測任務
  • 細節優化:

    • 過擬合問題:因BEV編碼器輸入特征量(單張BEV圖)遠小于圖像編碼器輸入(6張原圖),導致訓練不均衡
    • SMS優化:通過尺度縮放優化后處理模塊性能

2)BEVDet4D算法動機

  • 核心改進:在BEVDet基礎上引入T-1、T、T+1等時序幀
  • 輸入變化:從單幀輸入擴展為時序多幀輸入
  • 網絡結構:保持BEVDet四大模塊不變,新增時序特征處理模塊
  • 關鍵挑戰:不同時刻BEV特征存在空間不對齊問題
    • 示例說明:自車運動導致靜止車輛在BEV空間中的相對位置變化
    • 錯誤示范:直接相加會導致同一物體在多個位置重復出現

3)時序特征融合的挑戰與對齊方法

  • 對齊必要性:

    • BEV空間以自車為坐標原點建立
    • 自車運動導致歷史幀BEV特征空間錯位
  • 解決方案:

    • 兩階段處理:先做空間對齊(Align),再進行特征拼接(Concatenate)
    • 數學原理:通過自車運動轉換矩陣消除坐標偏差

2. BEVDet4D主體結構

在這里插入圖片描述

1)核心思路與時序信息

  • 時序價值:
    • 提供車輛朝向、速度等運動先驗
    • 增強檢測連續性(如歷史軌跡預測當前狀態)
  • 實現路徑:
    • 各時刻獨立生成BEV特征
    • 通過對齊模塊實現時空一致性

2)BEV特征獲取與對齊

  • 特征生成:
    • 各時刻沿用BEVDet流程:圖像編碼→視角轉換→BEV編碼
  • 對齊操作:
    • 靜態物體:通過自車運動補償實現位置校正
    • 動態物體:結合自身運動軌跡進行對齊

3)時序對齊模塊詳解

在這里插入圖片描述

  • 坐標系系統:
    • Og:全局坐標系(世界坐標),比如經緯度坐標
    • Oe:自車坐標系(ego vehicle), 以自車為原點
    • Os:靜止物體坐標系
    • Om:運動物體坐標系
  • 空間關系:
    靜止物體:全局坐標不變,自車運動導致相對位置變化
    運動物體:全局坐標和相對位置均變化

如圖中所示,如果直接把前后兩幀concate起來,會導致同一個靜態的物體出現在兩個不同的位置。(圖中第一行的示意圖)

如果先對齊再concate,就不會有問題了。

4)對齊公式推導與理解

  • 位置偏差公式:
    在這里插入圖片描述

  • 關鍵推導:
    引入自車運動轉換矩陣
    證明偏差主要來自自車運動
    在這里插入圖片描述

  • 工程實現:
    對歷史幀BEV特征應用運動補償矩陣
    確保特征疊加時的空間一致性

5)BEVDet4D整體流程總結

  • 標準流程:
    • 各時刻獨立生成BEV特征
    • 通過Align模塊對齊歷史特征
    • Concatenate融合時序特征
    • BEV編碼后送入檢測頭
  • 創新要點:
    • 首次在BEV框架中系統處理時序融合
    • 提出基于運動補償的特征對齊方案
    • 保持基礎網絡結構不變的情況下提升性能

3. BEVDet4D損失函數

  • 通用性:采用通用檢測損失函數設計,未引入特殊創新
  • 核心改進:關鍵在于特征對齊操作,解決時序融合時的空間不匹配問題

4. BEVDet4D性能對比

1)BEVDet4D訓練環境與設置

在這里插入圖片描述

  • 硬件配置:使用8張NVIDIA 3090顯卡
  • 訓練參數:Batch size:8(實際photo batch為64)
  • 訓練周期:20個epoch
  • 性能優勢:相比BEVFormer、DETR3D等模型,在輕量化版本和標準版本上均表現出競爭力

2)消融研究:基線與方法對比

  • 基線模型:輕量化BEVDet(mAP 0.312)
  • 直接級聯問題:
    • 方法A:直接級聯多幀特征(無對齊)
    • 性能下降:導致空間不匹配,mAP和NDS指標均降低
  • 平移對齊:
    • 方法T:僅考慮自車平移變化
    • 效果:相比基線有輕微提升(0.312→0.315)

3)消融研究:對齊操作的影響

  • 偏移量預測:
    • 方法B→C:引入額外模塊預測目標位置偏移量
    • 改進方式:從speed預測變為offset預測
  • 旋轉對齊:
    • 方法E→F:增加自車旋轉量(R)對齊
    • 效果提升:完整對齊(平移+旋轉)帶來顯著性能增益

4)消融研究:額外模塊與增廣的影響

  • 額外BEV編碼器:
    • 方法C→D:增加額外BEVEncoder(Extra)
    • 功能:專門用于編碼融合特征
  • 權重調整:
    • 方法D→E:損失權重從0.2調整到1.0
  • 時序增廣:
    • 創新點:在時間維度進行采樣跨度增廣
    • 作用:增強模型對歷史BEV特征選擇的魯棒性

5)時序融合位置的討論

在這里插入圖片描述

  • 融合位置選擇:
    • Extra BEVEncoder:獨立編碼融合特征
    • Before/After BEVEncoder:在編碼器前后進行融合
    • BEVQuery階段:在查詢階段進行特征融合
  • 工程價值:實驗設計系統全面,對工程實現具有明確指導意義

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/94184.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/94184.shtml
英文地址,請注明出處:http://en.pswp.cn/web/94184.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

當 AI 學會 “理解” 人類:自然語言處理的進化與倫理邊界

大家可以去我的資源看看,有很多關于AI的免費資源可以下載,不下載也可以看看,真的對你有用引言:從 “對話” 到 “理解”——AI 語言能力的時代躍遷現實錨點:以日常場景切入(如 ChatGPT 流暢回應復雜問題、A…

WPF控件隨窗體大寬度高度改變而改變

前臺控件中:Width"{Binding RelativeSource{RelativeSource AncestorTypeWindow}, PathWidth}"后臺代碼:定義在加載事件里面this.SizeChanged ProductData_SizeChanged;private void ProductData_SizeChanged(object sender, SizeChangedEven…

E10 通過RPC實現賬號批量鎖定與解鎖

需求背景:賬號信息由三方系統管理,包含賬號狀態,所以需要通過提供給三方的 Rest 接口中,實現賬號鎖定與解鎖。參考基線版本:10.0.2506.01,過低的版本可能無法使用。 鎖定分為兩種: (…

什么是AI寵物

什么是AI寵物AI寵物是由AI大腦驅動的生命體AI產品。它能主動產生情緒和意圖,并通過情緒和意圖去驅動自己的動作和行為。它根據自己的意愿和用戶互動,不受用戶控制。從一定意義上講,它擁有了人工生命和自由意志。它有自己的行為邏輯&#xff0…

簡單AI:搜狐公司旗下AI繪畫產品

本文轉載自:簡單AI:搜狐公司旗下AI繪畫產品 - Hello123工具導航 ** 一、平臺定位與技術特性 搜狐簡單 AI 是搜狐推出的多模態 AI 創作平臺,基于自研大模型提供文生圖、文生文等能力。它專注于零門檻內容生成,用戶無需專業技能即…

vue3 3d餅圖

完整3D餅圖項目下載 https://download.csdn.net/download/weixin_54645059/91716476 只有一個vue文件 直接下滑到完整代碼就闊以 本文介紹了如何使用ECharts和ECharts-GL插件實現3D餅圖效果,并提出了數值顯示未解決的問題。主要包含以下內容: 安裝所需…

全球電商業財一體化趨勢加速,巨益科技助力品牌出海精細化運營

行業背景:跨境電商進入品牌化發展新階段隨著國內電商市場競爭日趨激烈,跨境電商已成為中國品牌尋求增長突破的重要賽道,在TikTok、Temu等平臺出海浪潮推動下,越來越多的中國品牌開始布局全球市場。然而,從單一市場的鋪…

【序列晉升】13 Spring Cloud Bus微服務架構中的消息總線

Spring Cloud Bus作為微服務架構中的關鍵組件,通過消息代理實現分布式系統中各節點的事件廣播與狀態同步,解決了傳統微服務架構中配置刷新效率低下、系統級事件傳播復雜等問題。它本質上是一個輕量級的事件總線,將Spring Boot Actuator的端點…

[激光原理與應用-314]:光學設計 - 光學系統設計與電子電路設計的相似或相同點

光學系統設計與電子電路設計雖分屬不同工程領域,但在設計理念、方法論和工程實踐中存在諸多相似或相同點。這些共性源于兩者均需解決復雜系統的優化問題,并遵循工程設計的通用規律。以下是具體分析:一、設計流程的相似性需求分析與規格定義光…

Linux學習:信號的保存

目錄1. 進程的異常終止與core dump標志位1.1 進程終止的方式1.2 core方案的作用與使用方式2. 信號的保存2.1 信號的阻塞2.2 操作系統中的sigset_t信號集類型2.3 進程PCB中修改block表的系統調用接口2.4 信號阻塞的相關問題驗證1. 進程的異常終止與core dump標志位 1.1 進程終止…

數據分析編程第二步: 最簡單的數據分析嘗試

2.1 數據介紹有某公司的銷售數據表 sales.csv 如下:第一行是標題,解釋每一列存了什么東西。第二行開始每一行是一條數據,對應一個訂單。這種數據有個專業的術語,叫結構化數據。這是現代數據處理中最常見的數據類型。整個表格的數據統稱為一個…

UDP報文的數據結構

主要內容參照https://doc.embedfire.com/net/lwip/zh/latest/doc/chapter14/chapter14.html#id6,整理出來自用。 1. UDP 報文首部結構體(udp_hdr) 為清晰定義 UDP 報文首部的各個字段,LwIP 設計了udp_hdr結構體,其包含…

圖論與最短路學習筆記

圖論與最短路在數學建模中的應用 一、圖論模型圖 G(V,E)G(V,E)G(V,E) VVV:頂點集合EEE:邊集合每條邊 (u,v)(u,v)(u,v) 賦予權值 w(u,v)w(u,v)w(u,v),可用 鄰接矩陣 或 鄰接表 表示。二、最短路問題的數學形式 目標:尋找從源點 sss…

第九節 Spring 基于構造函數的依賴注入

當容器調用帶有一組參數的類構造函數時,基于構造函數的 DI 就完成了,其中每個參數代表一個對其他類的依賴。接下來,我們將通過示例來理解 Spring 基于構造函數的依賴注入。示例:下面的例子顯示了一個類 TextEditor,只能…

【數據庫】PostgreSQL詳解:企業級關系型數據庫

文章目錄什么是PostgreSQL?核心特性1. 標準兼容性2. 擴展性3. 高級功能4. 可靠性數據類型1. 基本數據類型2. 高級數據類型基本操作1. 數據庫操作2. 表操作3. 數據操作高級查詢1. 連接查詢2. 子查詢3. 窗口函數JSON操作1. JSON數據類型2. JSON查詢3. JSON索引全文搜索…

FFMPEG相關解密,打水印,合并,推流,

1:ffmepg進行打水印解密 前提ffmepg安裝利用靜態版就可以這個什么都有,不用再配置其他信息:(這個利用ffmpeg終端命令是沒問題的,但是如果要是再C中調用ffmpeg庫那么還需要從新編譯安裝下) 各個版本 Inde…

MySql知識梳理之DML語句

注意: 插入數據時,指定的字段順序需要與值的順序是一一對應的。 字符串和日期型數據應該包含在引號中。 插入的數據大小,應該在字段的規定范圍內注意:修改語句的條件可以有,也可以沒有,如果沒有條件,則會修改整張表的所…

GaussDB GaussDB 數據庫架構師修煉(十八)SQL引擎-SQL執行流程

1 SQL執行流程查詢解析:詞法分析、語法分析、 語義分析 查詢重寫:視圖和規則展開、基于規則的查詢優化 計劃生成:路徑搜索和枚舉、選出最優執行計劃 查詢執行:基于優化器生成的物理執行計劃對數據進行獲取和計算2 解析器和優化器S…

grpc 1.45.2 在ubuntu中的編譯

要在 Ubuntu 上編譯 gRPC 1.45.2,需要按照以下步驟操作。以下指南基于 gRPC 官方文檔和相關資源,確保環境配置正確并成功編譯。請確保你有管理員權限(sudo)以安裝依賴項和執行相關命令。 1. 準備環境 確保你的 Ubuntu 系統已安裝…

lesson45:Linux基礎入門指南:從內核到實踐操作全解析

目錄 一、Linux簡介與核心概念 1.1 Linux的起源與發展 1.2 內核與發行版的關系 二、Linux內核版本解析 2.1 內核版本命名規則 2.2 2025年主流內核版本 三、主流Linux發行版對比 3.1 桌面用戶首選 Ubuntu 24.04 LTS Linux Mint 22 3.2 技術愛好者之選 Fedora 41 Ar…