PETR/PETRv2

PE: position embedding

一、PETR算法動機回歸

1.1 DETR

輸入組成:包含2D位置編碼和Object Query
核心流程:通過Object Query直接索引2D特征圖,結合位置編碼迭代更新Query
特點:整體流程簡潔,每個Query代表一個潛在目標

1.2 DETR3D

特征采樣機制:通過Query生成3D參考點,反投影到2D圖像采樣特征
存在問題

  • 投影偏差:參考點位置出錯會導致特征采樣失效
  • 特征局限性:僅使用單點特征導致全局信息學習不足
  • 流程復雜度:需要反復投影和特征重采樣,影響落地效率

二、PETR網絡結構

三種結構的對比

在這里插入圖片描述
核心改進:引入3D位置編碼生成3D感知特征
關鍵技術

  • 特征融合:將2D圖像特征與3D位置編碼結合形成
  • 流程簡化:省略反投影步驟,直接建立3D語義環境
  • 優勢:避免特征采樣偏差,增強全局特征學習能力

PETR網絡結構

在這里插入圖片描述

1. Image-view Encoder設計流程

輸入輸出:處理6視角圖像(如nuScenes數據集),輸出多尺度特征
Backbone選擇:支持ResNet/Swin Transformer等架構
特征處理

  • 初始特征:維度為(原始圖像) 3HW
  • 輸出特征:通過FPN得到的多尺度融合特征 C * Hf * Wf
2. 3D Coordinates Generator設計流程

在這里插入圖片描述
空間離散化:將相機視錐空間劃分為三維網格
坐標轉換
公式:(為相機轉換矩陣)
實現步驟

  • 像素坐標與深度值構成網格點
  • 通過相機內外參轉換到世界坐標系
  • 對6視角結果進行歸一化處理

輸出特性:不同視角轉換結果存在重疊區域,共同構成完整3D空間

3. 3D Position Encoder設計流程

在這里插入圖片描述

雙支路處理

  • 圖像特征支路:使用1×1卷積進行通道降維
  • 坐標支路:通過3D PE模塊對齊維度

特征融合

  • 操作方式:將處理后的2D特征與3D坐標特征相加
  • 輸出特性:生成具有位置感知的3D特征

后續處理:展平后與Object Query共同輸入Decoder進行預測

三、PETR損失函數

損失組成: 包含分類損失和回歸框損失等標準3D檢測損失
結構特點: 與DETR3D等模型采用相同的損失函數設計
訓練穩定性: 通過CBGS(Class Balanced Grouping and Sampling)策略進行訓練優化

四、PETR性能對比

在這里插入圖片描述

分辨率影響: 高分辨率圖像(如1600×900)性能明顯優于低分辨率(1056×384)
Backbone影響: ResNet101性能優于ResNet50,Swin Transformer表現最佳
收斂特性: 相比DETR3D收斂速度較慢,需要更長訓練時間
位置編碼優勢: 3D位置編碼(3D PE)相比傳統2D PE帶來顯著性能提升

五、PETR V2

5.1 網絡結構

在這里插入圖片描述

核心改進: 引入時序建模和多任務學習兩大創新點
時序建模: 通過姿態變換對齊歷史幀3D坐標,實現隱式時序特征融合,如圖中模塊1
多任務擴展: 新增分割頭和車道線檢測任務,形成統一感知框架,如圖中模塊3

5.2 多任務學習

任務類型: 同時支持3D檢測、BEV分割和車道線檢測
查詢設計: 針對不同任務設計專用Query(Det/Seg/Lane queries)
性能優勢: 多任務聯合訓練帶來各任務性能的協同提升

5.3 網絡結構與輸入輸出

輸入保持: 延續多視角RGB圖像輸入
輸出擴展: 除3D檢測框外,新增分割mask和車道線輸出
特征提取: 支持ResNet/Swin Transformer等多種backbone

5.4 特征提取與融合

2D特征提取: 通過共享backbone提取多視角圖像特征
3D坐標生成: 將視錐空間坐標轉換為世界坐標系
特征融合: 通過改進的position encoder融合2D特征和3D坐標

5.5 時序信息處理

關鍵創新: 通過實現歷史幀3D坐標對齊
性能驗證: 時序建模顯著提升運動物體檢測精度

5.6 檢測任務擴展

檢測頭改進: 在原有檢測頭基礎上增加分割分支
查詢機制: 不同任務使用獨立可學習的query向量
聯合優化: 通過多任務損失函數實現端到端訓練

5.7 實驗性能與結論

綜合性能: 在nuScenes等基準測試中達到SOTA水平
計算效率: 保持實時性(FPS>10)的同時提升精度
框架優勢: 驗證了統一感知框架的可行性

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/94396.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/94396.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/94396.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

計算機大數據畢業設計推薦:基于Spark的氣候疾病傳播可視化分析系統【Hadoop、python、spark】

精彩專欄推薦訂閱:在下方主頁👇🏻👇🏻👇🏻👇🏻 💖🔥作者主頁:計算機畢設木哥🔥 💖 文章目錄 一、項目介紹二、…

英偉達顯卡GPU驅動的本質

我們來深入、詳細地探討一下英偉達(NVIDIA)GPU驅動程序的本質。 普通用戶眼中的驅動程序可能只是一個“讓顯卡工作的軟件”,但它的本質遠比這復雜和深刻。我們可以從幾個層面來理解它。 核心比喻:翻譯官、指揮官與優化大師 如果說…

算法 ---哈希表

一、哈希介紹 是什么 存儲數據的容器 什么用 快速查找某個元素 什么時候用哈希表 頻繁的查找某一個數的時候 怎么用哈希表 (1)容器(哈希表) (2)用數組模擬哈希表(字符串的字符&#xf…

基于分布式環境的令牌桶與漏桶限流算法對比與實踐指南

基于分布式環境的令牌桶與漏桶限流算法對比與實踐指南 在高并發的分布式系統中,限流是保障服務可用性和穩定性的核心手段。本文聚焦于令牌桶算法與漏桶算法在分布式環境下的實現與優化,對多種解決方案進行橫向對比,分析各自的優缺點&#xff…

WPF MVVM入門系列教程(TabControl綁定到列表并單獨指定每一頁內容)

在以前的開發過程中&#xff0c;對于TabControl控件&#xff0c;我一般是習慣直接定義TabItem&#xff0c;在TabItem下布局&#xff0c;并進行綁定。 類似這樣 1 <TabControl ItemsSource"{Binding TabList}" SelectedIndex"0">2 <TabItem…

L2CAP 面向連接信道(CoC)在 BLE 中的應用:建立、流控與數據傳輸

在物聯網(IoT)蓬勃發展的今天,低功耗藍牙(BLE)技術因其高效節能、低成本等特性,成為短距離無線通信的首選方案。作為 BLE 協議棧的核心組件,邏輯鏈路控制與適配協議(L2CAP)的面向連接信道(CoC)承擔著數據傳輸的關鍵任務。本文將深入解析 L2CAP CoC 在 BLE 中的應用,…

醫療AI與醫院數據倉庫的智能化升級:異構采集、精準評估與高效交互的融合方向(上)

摘要: 隨著醫療信息化建設的深入,醫院數據倉庫(Data Warehouse, DW)作為醫療AI應用的核心數據底座,其效能直接決定智能化轉型的深度與廣度。本文聚焦醫療AI驅動下醫院數據倉庫的三大關鍵升級功能——異構采集支持數據庫體檢與智能SQL分析、評估引擎重構實現六大數據庫精準…

2015-2018年咸海流域1km歸一化植被指數8天合成數據集

數據集摘要數據集包含2015年-2018年咸海流域NDVI 8天均值數據。提取美國國家航空航天局中分辨率成像光譜儀MOD13A2產品第一波段作為歸一化植被指數數據&#xff0c;乘以比例因子0.0001&#xff0c;疊加咸海流域邊界數據&#xff0c;裁切后得到咸海流域范圍內的NDVI月均值數據。…

Kafka消息持久化機制全解析:存儲原理與實戰場景

目錄 引言? 一、Kafka消息持久化的核心目標 二、底層存儲機制深度剖析 1.【文件系統分層】——日志分組 日志段 核心結構 示例目錄結構 2.【消息寫入流程】——從內存到磁盤的旅程?? 3.【默認存儲參數】——生產環境的黃金比例 三、典型應用場景與案例實戰 案例1…

Python訓練營打卡Day41-Grad-CAM與Hook函數

知識點回顧回調函數lambda函數hook函數的模塊鉤子和張量鉤子Grad-CAM的示例 作業&#xff1a;理解下今天的代碼即可 在深度學習中&#xff0c;我們經常需要查看或修改模型中間層的輸出或梯度。然而&#xff0c;標準的前向傳播和反向傳播過程通常是一個黑盒&#xff0c;我們很難…

使用VBA宏批量修改Word中表格題注格式

目錄&#x1f4c2; 使用步驟? 方式一&#xff1a;應用已有樣式&#xff08;推薦&#xff09;代碼實現說明? 方式二&#xff1a;手動設置字體格式&#xff08;無需預定義樣式&#xff09;代碼實現參數說明如何運行宏&#xff1f;補充建議總結在撰寫論文、技術文檔或報告時&…

Redis面試精講 Day 27:Redis 7.0/8.0新特性深度解析

【Redis面試精講 Day 27】Redis 7.0/8.0新特性深度解析 在“Redis面試精講”系列的第27天&#xff0c;我們將聚焦Redis最新版本——7.0與8.0的核心新特性。隨著Redis從內存數據庫向云原生、高可用、高性能中間件持續演進&#xff0c;7.0和8.0版本引入了多項顛覆性改進&#xf…

使用自制的NTC測量模塊測試Plecs的熱仿真效果

之前構建的 NTC 溫度測量模型是進行 PLECS 熱仿真的完美起點和核心組成部分。 PLECS 的強大之處在于它能夠進行多域仿真,特別是電-熱聯合仿真。您可以將電路仿真(包括您的 NTC 測量模型)與熱仿真(散熱器、熱容、熱阻等)無縫地結合起來。 電-熱聯合仿真原理 整個仿真閉環…

C語言初學者筆記【動態內存管理】

、 文章目錄一、為什么需要動態內存分配&#xff1f;二、malloc 和 free1. malloc2. free三、calloc 和 realloc1. calloc2. realloc四、常見的動態內存錯誤1. 對 NULL 解引用2. 越界訪問3. 對非動態內存使用 free4. 釋放部分動態內存5. 多次釋放同一塊內存6. 內存泄漏五、動態…

AI模型部署 - 大語言模型(LLM)部署技術與框架

目錄 一、 大語言模型部署的核心挑戰與關鍵技術 二、 主流開源部署框架深度解析 2.1. Ollama:本地部署的極簡主義者 2.2. Hugging Face TGI (Text Generation Inference) 2.3. vLLM:為吞吐量而生 2.4. sglang:面向復雜提示與結構化輸出的革新者 三、 特定硬件與云平臺…

Windows11 GeForce GTX 1060 CUDA+CUDNN+Pytorch 下載及安裝

一、查看顯卡型號信息 系統&#xff1a;Windows11 顯卡&#xff1a;GeForce GTX 1060 型號&#xff1a; &#xff08;1&#xff09;搜索 NVIDIA&#xff0c;選擇 NVIDIA Control Panel&#xff08;2&#xff09;打開 NVIDIA control Panel&#xff0c;打開系統信息&#xff0c;…

在通義靈碼中配置MCP服務

目錄 查找mcp列表 通義靈碼中配置MCP 使用方式 STDIO (Standard Input/Output) 組成部分&#xff1a; SSE (Server-Sent Events) 特點&#xff1a; 主要區別對比 配置方式 配置優先級 個人設置 項目設置 驗證 通過MCP調用高德地圖 查找mcp列表 打開ModelScope - …

網絡中的IO問題(五種常見的IO方式)

什么是高效的IO&#xff1f; 正常情況下&#xff0c;IO等拷貝 高效的IO拷貝&#xff08;即讓IO盡量不等&#xff09; 為什么我們平常玩電腦的時候&#xff0c;感覺不到等待的過程呢&#xff1f; 任何通信場景&#xff0c;IO通信場景&#xff0c;效率一定是有上限的. 花盆里&am…

JAVA核心基礎篇-修飾符

Java 修飾符主要用于定義類、方法或變量&#xff0c;通常放在語句的最前端&#xff0c;可分為訪問修飾符和非訪問修飾符兩類。一、訪問修飾符public&#xff1a;對所有類可見&#xff0c;可用于類、接口、變量和方法。被聲明為 public 的類、方法、構造方法和接口能夠被任何其他…

筆試——Day46

文章目錄第一題題目思路代碼第二題題目思路代碼第三題題目思路代碼第一題 題目 AOE還是單體&#xff1f; 思路 貪心 剩余怪物數量 >x時&#xff0c;使用AOE&#xff1b;否則使用單體 代碼 #include <iostream> #include <algorithm> using namespace std;…