【論文閱讀】Far3D: Expanding the Horizon for Surround-view 3D Object Detection

標題: Far3D: Expanding the Horizon for Surround-view 3D Object Detection

motivation

作者覺得市面上的方法對遠處的long-range 的3d-od檢測沒有深入研究,于是作者提出FAR3D. 基于環視圖像的3D物體檢測取得了顯著進展,且其部署成本較低。然而,大多數研究主要集中在近距離感知范圍內,而對遠距離檢測的探索較少。直接將現有方法擴展到覆蓋遠距離面臨著高計算成本和不穩定收斂等挑戰。為了解決這些限制,本文提出了一種新穎的稀疏查詢基礎框架,稱為Far3D。通過利用高質量的2D物體先驗,我們生成與3D全局查詢互補的3D自適應查詢。為了有效捕捉不同視角和尺度下的具有區分性的特征以應對遠距離物體,我們引入了一個感知視角聚合模塊。此外,我們提出了一種范圍調制3D去噪方法,以解決查詢誤差傳播并緩解遠距離任務中的收斂問題。值得注意的是,Far3D在挑戰性的Argoverse 2數據集上表現出最先進的性能,覆蓋150米的廣泛范圍,超越了多個基于LiDAR的方法。
[代碼] ( https://github.com/megvii-research/Far3D )

methods

  • 將環視圖像輸入主干網絡和 FPN 層,編碼得到 2D 圖像特征,并將其與相機參數進行編碼。
  • 利用 2D 檢測器和深度預測網絡,生成可靠的 2D 物體框及其相應深度,然后通過相機變換投影到 3D 空間。
  • 生成的3D adaptive query 與初始的 3D global query 相結合,由解碼器層迭代回歸,以預測 3D 物體框。更進一步,該模型可通過長時序的 query 傳播實現時序建模。

在這里插入圖片描述
背景介紹: 現有的環視感知方法可以大致分為兩類:基于BEV表征和基于稀疏查詢表征的方法。基于BEV表征的方法由于需要計算密集的BEV特征,計算量非常大,難以擴展到遠距離場景。而基于稀疏查詢表征的方法會從訓練數據中學習到全局的3D查詢,計算量相對較小,且具有較強的擴展性。然而,它也存在一些弱點,盡管可以避免查詢數量的平方增長,但全局固定查詢不易適應動態場景,在遠距離檢測中通常會遺漏目標。
在遠距離檢測中,基于稀疏 query 表征的方法有兩個主要挑戰

  • 首先是召回性能較差。由于 query 在 3D 空間分布的稀疏性,在遠距離范圍只能產生少量匹配的 positive query。如上圖所示,3D 檢測的召回率較低,而現有 2D 檢測的召回率要高得多,兩者之間存在明顯的性能差距。因此,利用高質量的 2D 物體先驗來改進 3D query 是一種很有潛力的方法,它有利于實現物體的精確定位和全面覆蓋。
  • 其次,直接引入 2D 檢測結果來幫助 3D 檢測會面臨誤差傳播的問題。如下圖所示,兩種主要來源是 1) 由于深度預測不準的物體定位誤差;2) 隨著距離的增大,視錐變換中的 3D 位置誤差也會增大。這些 noisy query 會影響訓練的穩定性,需要有效的去噪方法來優化。此外,在訓練過程中,模型會表現出對密集的近距離物體過度擬合的傾向,而忽略稀疏分布的遠距離物體。

Adaptive Query Generation
具體方法:在 FPN 頸部之后,我們將圖像特征輸入 YOLOX 的無錨檢測頭和一個輕量級深度估計網絡,輸出 2D 框坐標、得分和深度圖。2D 檢測頭遵循原始設計,而深度估計則通過將深度離散化為多個區間被視為分類任務。然后,我們將 2D 框和相應的深度配對。為了避免低質量提議的干擾,我們設定了一個得分閾值 τ(例如 0.1),僅保留可靠的proposals。對于每個視圖 i,來自 2D 預測的框中心 (cw, ch) 和深度圖中的深度 depth 被組合并, 投影到 3D-proposal中心 c3d。
在這里插入圖片描述
K,I內外參。
然后把它編碼到query中去:
在這里插入圖片描述
生成的3D adaptive query 與初始的 3D global query 相結合,由解碼器層迭代回歸,以預測 3D 物體框。

Perspective-aware Aggregation

為了給遠距離檢測模型引入多尺度特征,作者應用了 3D spatial deformable attention。它先在 query 對應的 3D 位置附近進行偏移采樣,而后通過 3D-2D 視圖變換聚合圖像特征。這種方法替代 PETR 系列中的 global attention 的優勢在于,計算量可以大幅降低。具體地,對于 3D 空間中的每個 query 的參考點,模型會學習其周圍的 M 個采樣偏移,并將這些偏移點投影到不同的 2D 視圖特征中。
在這里插入圖片描述
接下來,3D對象查詢根據上述的2D參考點P2d,與F 中的多尺度采樣特征進行交互。通過這種方式,來自不同視覺和尺度的多樣特征通過考慮它們的相對重要性聚合到3D查詢中。

Range-modulated 3D Denoising
不同距離的 3D query 具有不同的回歸難度,這不同于現有的 2D Denoising 方法(如 DN-DETR, 通常同等對待的2D query)。難度差異來自于 query 匹配密度和誤差傳播。一方面,與遠處物體相對應的 query 匹配度低于近處物體。另一方面,在 3D adaptive query 中引入二維先驗時,2D 物體框的微小誤差會被放大,更不用說這種影響會隨著物體距離的增加而增大。因此,GT 框附近的一些 query 可被視為 positive query,而其他有明顯偏差則應被視為 negative query。本文提出一種 3D Denoising 方法,旨在優化那些正樣本,并直接舍棄負樣本。
作者通過同時添加正樣本和負樣本組來構建基于 GT 的嘈雜查詢。對于這兩種類型,都會根據物體的位置和大小應用隨機噪聲,以促進遠距離感知中的去噪學習。具體來說,正樣本是在3D框內的隨機點,而負樣本則在GT上施加更大的偏移,偏移范圍隨著物體的距離變化。這種方法可以在訓練過程中模擬有噪聲的候選正樣本和誤報樣本;
在這里插入圖片描述在這里插入圖片描述

experiments

Far3D 在 150m 感知范圍的 Argoverse 2 上取得了最高的性能。并且模型 scale up 之后,可以達到幾個 Lidar-based 方法的性能,展現了純視覺方法的潛力。
為了驗證泛化性能,作者也在 nuScenes 數據集上做了實驗,表明其在驗證集和測試集上都達到 SoTA 性能。

在這里插入圖片描述
就是看的遠,好好好!

【完結】

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/96612.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/96612.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/96612.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Redis分布式鎖的try-with-resources實現

Redis分布式鎖的try-with-resources實現 在Java中,try-with-resources是一種自動資源管理機制,適用于實現了AutoCloseable接口的類。通過結合Redis分布式鎖和try-with-resources,可以確保鎖的自動釋放,避免因異常或忘記釋放鎖導致…

上傳文件接口設計,SpringBoot + MinIO/S3 文件服務實現:FileService 接口與 FileServiceImpl 詳解

在企業項目中,文件上傳和管理是非常常見的需求。本文基于 芋道源碼 的實現,介紹如何封裝一個通用的 文件服務 FileService,支持:文件上傳(保存數據庫記錄 存儲文件到 S3/MinIO 等對象存儲)文件下載與刪除文…

MVC 依賴注入(DI)與服務全解析(附避坑實戰)

依賴注入的核心概念 依賴注入(DI)是一種設計模式,通過將對象的依賴關系從內部創建轉移到外部傳遞,實現解耦。在 MVC 框架中,DI 容器負責管理對象的生命周期和依賴關系,開發者只需聲明依賴,容器…

【實證分析】上市公司經營風險數據集-含代碼(2000-2022年)

數據簡介:上市公司經營風險涉及多維度、多層次的復雜因素,本文章參考王竹泉-經營風險與營運資金融資決策對上市公司經驗風險進行測算,經營風險是該公司息稅折舊攤銷前利潤率的標準差,經營風險是該公司息稅折舊攤銷前利潤率的標準差…

領碼方案|Windows 下 PLT → PDF 轉換服務超級完整版:異步、權限、進度

摘要 面向 Windows 平臺,使用 ASP.NET Core Web API 結合 Ghostscript.NET 庫,實現 PLT(HPGL)→PDF 的純庫調用轉換,無需外部進程。支持同步與異步模式,采用 JWTRBAC 進行權限治理,任務狀態存儲…

瀏覽器兼容性問題全解:CSS 前綴、Grid/Flex 布局兼容方案與跨瀏覽器調試技巧

1. 瀏覽器兼容性與前綴問題 不同瀏覽器(尤其是老版本 IE、Edge、Safari)對新特性(比如 CSS 變量、Grid、Flex 等)的支持程度不一,需要使用廠商前綴(-webkit-、-moz- 等)或降級方案。新手往往忽…

【Android View】事件分發機制

參考文獻 https://juejin.cn/post/6844904041487532045https://juejin.cn/post/6844903894103883789#heading-12https://www.jianshu.com/p/dea72779a6b7 文章目錄

【大數據相關】ClickHouse命令行與SQL語法詳解

ClickHouse命令行與SQL語法詳解一、ClickHouse命令行與SQL語法詳解第一部分:ClickHouse SQL 命令行客戶端 (clickhouse-client)1. 基礎連接2. 核心命令行參數3. 數據導入與導出實戰第二部分:ClickHouse SQL 語法詳解1. DDL (數據定義語言)2. DML (數據操…

學習日記-CSS-day53-9.11

1.CSS介紹知識點核心內容重點CSS定義層疊樣式表,用于內容修飾和樣式展現英文全稱cascading style sheetsCSS作用實現HTML內容與樣式分離,提高開發效率對比傳統HTML元素單獨設置樣式的低效方式學習建議掌握常用功能即可,重點在打通前后端數據通…

Maven中optional的作用

目的: 控制依賴傳遞 :將依賴標記為可選,這樣當其他模塊依賴common-component時,不會自動繼承Elasticsearch依賴。這遵循了"依賴最小化"原則,避免不必要的庫被引入到不需要它們的模塊中。模塊化設計 &#xf…

藍橋杯算法之基礎知識(7)---排序題的快排和歸并排序

一、快排》快排方法,就三步1.隨便選一個值作為基準值x2.拿選中的這個x值劃分隊列為左右兩個區間(左邊的都小于x,右邊的都大于x)3.然后遞歸左區間和右區間就行》代碼舉例:#qs排序#1 6 7 8 6 5 4 #先找比較點&#xff0c…

緩存未命中

緩存未命中(Cache Miss) 發生在 CPU 訪問某塊內存時,該地址不在當前緩存(L1/L2/L3)中,導致程序被迫從更慢的內存(RAM)讀取數據,嚴重拖慢程序執行速度。 📍 一…

AR眼鏡:化工安全生產的技術革命

在石化企業的壓縮機組巡檢中,佩戴AR眼鏡的巡檢員眼前實時顯示著設備溫度場分布和振動頻譜曲線,單臺設備巡檢時間從45分鐘縮短至18分鐘。這不僅是效率的提升,更是化工安全生產的一場智能革命。一、行業痛點:傳統化工巡檢的困境與挑…

消息中間件RabbitMQ(從入門到精通)

RabbitMQ概念_MQ 消息隊列 MQ全稱Message Queue(消息隊列),是在消息的傳輸過程中保存消息的容器。多用于系統之間的異步通信。 同步通信相當于兩個人當面對話,你一言我一語。必須及時回復 異步通信相當于通過第三方轉述對話,可能有消息的延遲,但不需要二人時刻保持聯系。…

前端學習之后端java小白(五)之多表查詢/事務

一、多表查詢概念二、概述 1. 內連接隱式內連接 SELECT 字段列表 FROM 表1,表2... WHERE 條件顯示內連接SELECT 字段列表 FROM 表1 [INNER] JOIN 表2 ON 條件2. 外連接 左外連接SELECT 列名 FROM 左表 LEFT [OUTER] JOIN 右表 ON 連接條件;右外連接SELECT 列名…

Java全棧學習筆記34

# JDBCjava database connection Java 數據庫連接技術## JDBC 驅動程序如果需要通過jdbc技術連接關系型數據庫,就需要為jdbc提供一個該數據庫的驅動。驅動程序由對應的數據庫廠商提供。mysql提供了針對于各種語言的驅動程序。去官網下載和java相關的驅動即可## JDB…

如何為MySQL中的JSON字段設置索引

背景 MySQL在2015年中發布的5.7.8版本中首次引入了JSON數據類型。自此,它成了一種逃離嚴格列定義的方式,可以存儲各種形狀和大小的JSON文檔,例如審計日志、配置信息、第三方數據包、用戶自定義字段等。 雖然MySQL提供了讀寫JSON數據的函數&am…

【學習日記】

1.上午看了會面經,八股,很多看不懂1.5排查本地mysql服務啟動問題2.刷了兩道題翻轉二叉樹的Dfs和bfs遞歸方法,看了幾分鐘看懂了,一開始刷題,沒有這種感覺,可能思維上升了3.下午做了會ppt4.看了ssm的一個gith…

本地大模型部署指南-Ollama與HuggingFace對比

在本地部署大模型時,用 Ollama 和 Hugging Face (HF) 確實有很大區別,涉及系統、硬件、訓練、推理方式,以及能否查看模型源代碼。下面我分幾個維度說明: 系統和安裝 Ollama 定位是「開箱即用」的本地大模型運行環境。 自帶運行時&…

河北周邊有哪些比較靠譜的智算中心?

河北省通過算力普惠、綠色能源、數據開放、金融支持四大支柱政策,推動智算中心高質量發展。河北及周邊地區的智算中心已形成高可靠性、先進技術和戰略協同的布局。那么,河北周邊有哪些比較靠譜的智算中心?一、河北周邊智算中心盤點?1、尚航懷…