[2025CVPR-目標檢測方向]FSHNet:一種用于3D物體檢測的全稀疏混合網絡。

1. ?簡介?

論文提出了FSHNet(Fully Sparse Hybrid Network),一種用于3D物體檢測的全稀疏混合網絡。FSHNet旨在解決現有稀疏3D檢測器的兩大核心問題:長距離交互能力弱和網絡優化困難。稀疏檢測器(如VoxelNeXt和SAFDNet)雖能高效處理點云數據(僅操作非空體素),但在長距離檢測任務中表現不足。FSHNet通過結合稀疏卷積的高效性和注意力機制的長距離交互能力,實現了在多個基準數據集(Waymo、nuScenes、Argoverse2)上的SOTA性能。主要創新包括SlotFormer塊、動態稀疏標簽分配策略和稀疏上采樣模塊。


2. ?核心問題與動機?

稀疏3D檢測器僅從非空體素提取特征,導致兩個關鍵挑戰:

  • ?長距離交互弱(Long-range interaction weakness)??:稀疏體素間的交互依賴于卷積核的局部范圍,當體素距離超出核尺寸時(例如,兩個遙遠體素無法通過中間空體素橋接),特征提取能力受限。這削弱了全局場景感知,尤其影響大型物體(如車輛)的檢測。
  • ?中心特征缺失(Center feature missing)??:物體中心區域常為空體素(尤其在大物體中),但中心特征對對象檢測至關重要(如作為代理)。缺失中心特征阻礙網絡優化,導致訓練不穩定和性能下降。

圖1直觀比較了稀疏與稠密檢測器的體素交互差異:在稀疏檢測器中,遙遠體素無交互;在稠密檢測器中,空體素充當“橋梁”,實現擴散交互。

傳統解決方案(如增大卷積核)會增加計算開銷,而基于Transformer的方法(如DSVT)受限于窗口尺寸。FSHNet通過混合架構解決這些問題。?

3. ?FSHNet方法細節?

FSHNet的整體框架如圖2所示,包括輸入處理、稀疏卷積編碼器、SlotFormer塊、稀疏上采樣模塊和動態稀疏頭。框架以點云為輸入,轉換為稀疏體素后,通過多階段處理生成預測。

?

3.1 ?SlotFormer塊(解決長距離交互問題)??
  • ?核心思想?:SlotFormer取代傳統窗口分區,使用“槽位分區”(slot partition)。每個槽沿X或Y軸覆蓋整個場景(無限邊長),提供更大的感受野(全局范圍)。相比窗口分區(如DSVT),槽位分區能處理更長的距離交互。
  • ?機制?:體素按槽索引分組(Eq.1),采用線性注意力(linear attention)而非自注意力,計算復雜度從O(N2)降至O(N)。具體步驟:

    • 體素分組:基于坐標計算槽索引(d_i^x 和 d_i^y)。
    • 線性注意力:生成查詢(Q)、鍵(K)、值(V)矩陣(Eq.2),計算KV矩陣(Eq.3),并通過歸一化輸出新特征(Eq.4)。最后,通過前饋網絡更新特征(Eq.5)。

  • ?優勢?:SlotFormer與現有稀疏編碼器(如SAFDNet)結合,實現高效全局交互。在FSHNet中,多層SlotFormer交替槽方向(X/Y軸),增強全局連接。
3.2 ?稀疏上采樣模塊(增強細粒度細節)??
  • ?問題?:稀疏編碼器下采樣導致小物體細節丟失(如行人)。
  • ?機制?:輸入體素坐標加倍(Eq.6),創建更細粒度的體素網格。隨后應用稀疏卷積層(核尺寸3,步幅1)擴散特征(Eq.7),恢復下采樣中丟失的細節。

  • ?優勢?:保留小物體的細粒度信息,提升檢測精度。實驗表明,該模塊對行人等小物體效果顯著(見表7對比)。

?

3.3 ?動態稀疏標簽分配(優化網絡訓練)??
  • ?問題?:現有方法(如中心最近分配)僅選最近體素作為正樣本,忽略高質量候選,導致優化不足。
  • ?策略?:為每個標注框中心,動態選擇候選體素。如圖3所示,計算候選體素(n個最近體素)的選擇成本(Eq.8),基于分類和回歸損失(IoU加權)選擇top-k正樣本(Eq.9)。成本計算包括預測框與真實框的IoU。

?

  • 損失函數?:回歸使用旋轉加權IoU損失;分類使用焦點損失(focal loss),正樣本權重為1,負樣本權重基于IoU設置。
  • ?優勢?:提供更多高質量正樣本,緩解中心缺失問題,優化網絡訓練。消融實驗顯示,候選數n=5時效果最佳(見表8)。

4. ?實驗驗證?

FSHNet在三大數據集評估,使用FSHNet_light(基于VoxelNeXt)和FSHNet_base(基于SAFDNet)變體。關鍵結果:

4.1 ?Waymo數據集?
  • ?驗證集?(表1):FSHNet_base在LEVEL 2 mAP/mAPH上達77.1/74.9,優于SOTA方法(如ScatterFormer的75.7/73.8)。在車輛和行人類別提升顯著(如車輛AP 82.2 vs. SAFDNet的80.6)。
  • ?測試集?(表2):FSHNet_base的LEVEL 2 mAP/mAPH為77.4/75.2,刷新SOTA記錄。SlotFormer對大型物體(車輛)效果突出。
4.2 ?nuScenes數據集?
  • ?驗證集?(表3):FSHNet_base在NDS和mAP上達71.7和68.1,超越TransFusion-L和SAFDNet。訓練僅36輪(無CBGS策略),顯示高效性。
4.3 ?Argoverse2數據集?
  • ?驗證集?(表4):針對長距離檢測(范圍200米),FSHNet_base的mAP為40.2,顯著優于SAFDNet(38.7)。小物體(行人mAP +3.2%)和大物體(巴士mAP +1.0%)均有提升。
4.4 ?消融研究?
  • ?組件貢獻?(表5):SlotFormer提升大型物體性能(車輛AP +2.4%);動態標簽分配優化訓練(行人AP +1.8%);稀疏上采樣增強小物體檢測。

  • ?分區方式對比?(表6):槽位分區 + 線性注意力效果最佳(優于窗口分區)。

  • ?上采樣策略?(表7):SP-SU(稀疏卷積擴散)優于SM-SU(特征重復)。

  • ?參數分析?(表8):候選數n=5時動態標簽分配最優。


5. ?主要貢獻與限制?

  • ?貢獻?:
    • 提出首個結合稀疏卷積和注意力的混合模型FSHNet,平衡效率與性能。
    • 設計SlotFormer塊,實現全局范圍體素交互。
    • 引入動態稀疏標簽分配,深度優化網絡。
    • 稀疏上采樣模塊保留細粒度細節,提升小物體檢測。
    • 實驗證明泛化性強,在多個基準達到SOTA。
  • ?限制?:SlotFormer增加延遲(FSHNet_base從94ms增至123ms),未來需優化效率。

6. ?結論?

FSHNet通過創新混合架構解決了稀疏3D檢測器的核心瓶頸,在長距離交互和網絡優化上取得突破。實驗驗證了其在Waymo、nuScenes和Argoverse2的優越性,為自動駕駛感知提供了高效解決方案。代碼開源促進了社區應用。

?論文地址:https://openaccess.thecvf.com/content/CVPR2025/papers/Liu_FSHNet_Fully_Sparse_Hybrid_Network_for_3D_Object_Detection_CVPR_2025_paper.pdf

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/92579.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/92579.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/92579.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

MySql 8.0.42 zip版安裝教程和使用

今天要裝個MySQL,就按照自己以前的教程來做,不知道是不是版本更新了的原因,又遇到了一點小阻礙,于是再記錄一下吧。 下載MySQL 下載鏈接:MySQL :: Download MySQL Community Serverhttps://dev.mysql.com/downloads/…

【lucene】實現knn

在 Lucene 中,可以通過 KnnFloatVectorQuery 和 KnnFloatVectorField 來實現 KNN(k-Nearest Neighbors)搜索。以下是具體介紹:1. 功能原理KnnFloatVectorQuery 是 Lucene 用于執行最近鄰搜索的查詢類,它可以在一個字段…

RabbitMQ實踐學習筆記

RabbitMQ實踐 以下是關于RabbitMQ實踐的整理,涵蓋常見場景和示例代碼(基于Markdown格式)。內容按模塊分類,避免步驟詞匯,直接提供可操作的方法: 基礎連接與隊列聲明 使用Python的pika庫建立連接并聲明隊列: import pikaconnection = pika.BlockingConnection(pika.C…

量子生成對抗網絡:量子計算與生成模型的融合革命

引言:當生成對抗網絡遇上量子計算在人工智能與量子計算雙重浪潮的交匯處,量子生成對抗網絡(Quantum Generative Adversarial Networks, QGAN)正成為突破經典算力瓶頸的關鍵技術。傳統生成對抗網絡(GAN)在圖…

VBA 多個選項,將選中的選項錄入當前選中的單元格

1、使用LISTBOX插件&#xff0c;選中后回車錄入 維護好數據&#xff0c;并新增一個activeX列表框插件 Private Sub Worksheet_SelectionChange(ByVal Target As Range)If Target.Count > 1 Then Exit SubIf Target.Row > 2 And Target.Row < 10 And Target.Column 2…

【NLP輿情分析】基于python微博輿情分析可視化系統(flask+pandas+echarts) 視頻教程 - 主頁-微博點贊量Top6實現

大家好&#xff0c;我是java1234_小鋒老師&#xff0c;最近寫了一套【NLP輿情分析】基于python微博輿情分析可視化系統(flaskpandasecharts)視頻教程&#xff0c;持續更新中&#xff0c;計劃月底更新完&#xff0c;感謝支持。今天講解主頁-微博點贊量Top6實現 視頻在線地址&…

SAP調用外部API

SAP需求將中文字符轉化為對應的拼音具體思路,由于sap中沒有將中文字符轉化為拼音的函數或方法類,則以http請求訪問外部服務器發布的API服務,然后獲取其返回值即可1.調用外部網站上提供的api缺點:免費次數有限,后需要充值這里是用www格式的json報文*&----------------------…

(12)機器學習小白入門YOLOv:YOLOv8-cls 模型微調實操

YOLOv8-cls 模型微調實操 (1)機器學習小白入門YOLOv &#xff1a;從概念到實踐 (2)機器學習小白入門 YOLOv&#xff1a;從模塊優化到工程部署 (3)機器學習小白入門 YOLOv&#xff1a; 解鎖圖片分類新技能 (4)機器學習小白入門YOLOv &#xff1a;圖片標注實操手冊 (5)機器學習小…

基于Matlab傳統圖像處理技術的車輛車型識別與分類方法研究

隨著計算機視覺和圖像處理技術的發展&#xff0c;車輛檢測與識別已經成為智能交通系統中的一個重要研究方向。傳統圖像處理方法通過對圖像進行預處理、特征提取、分類與識別&#xff0c;提供了一種無需復雜深度學習模型的解決方案。本研究基于MATLAB平臺&#xff0c;采用傳統圖…

未來趨勢:LeafletJS 與 Web3/AI 的融合

引言 LeafletJS 作為一個輕量、靈活的 JavaScript 地圖庫&#xff0c;以其模塊化設計和高效渲染能力在 Web 地圖開發中占據重要地位。隨著 Web3 和人工智能&#xff08;AI&#xff09;的興起&#xff0c;地圖應用的開發范式正在發生變革。Web3 技術&#xff08;如區塊鏈、去中…

Spring AI 系列之二十一 - EmbeddingModel

之前做個幾個大模型的應用&#xff0c;都是使用Python語言&#xff0c;后來有一個項目使用了Java&#xff0c;并使用了Spring AI框架。隨著Spring AI不斷地完善&#xff0c;最近它發布了1.0正式版&#xff0c;意味著它已經能很好的作為企業級生產環境的使用。對于Java開發者來說…

LFU算法及優化

繼上一篇的LRU算法的實現和講解&#xff0c;這一篇來講述LFU最近使用頻率高的數據很大概率將會再次被使用,而最近使用頻率低的數據,將來大概率不會再使用。做法&#xff1a;把使用頻率最小的數據置換出去。這種算法更多是從使用頻率的角度&#xff08;但是當緩存滿時&#xff0…

關于原車一鍵啟動升級手機控車的核心信息及注意事項

想知道如何給原車已經有一鍵啟動功能的車輛加裝手機遠程啟動。這是個很實用的汽車改裝需求&#xff0c;尤其適合想在冬天提前熱車、夏天提前開空調的車主。一、適配方案與核心功能 ?升級專車專用4G手機控車模塊?&#xff0c;推薦安裝「移動管家YD361-3」系統&#xff0c;該方…

數據結構與算法:類C語言有關操作補充

數據結構與算法:類C語言操作補充 作為老師,我將詳細講解類C語言(如C或C++)中的關鍵操作,包括動態內存分配和參數傳遞。這些內容在數據結構與算法中至關重要,例如在實現動態數組、鏈表或高效函數調用時。我會用通俗易懂的語言和代碼示例逐步解釋,確保你輕松掌握。內容基…

Go 并發(協程,通道,鎖,協程控制)

一.協程&#xff08;Goroutine&#xff09;并發&#xff1a;指程序能夠同時執行多個任務的能力&#xff0c;多線程程序在一個核的cpu上運行&#xff0c;就是并發。并行&#xff1a;多線程程序在多個核的cpu上運行&#xff0c;就是并行。并發主要由切換時間片來實現"同時&q…

圖機器學習(15)——鏈接預測在社交網絡分析中的應用

圖機器學習&#xff08;15&#xff09;——鏈接預測在社交網絡分析中的應用0. 鏈接預測1. 數據處理2. 基于 node2vec 的鏈路預測3. 基于 GraphSAGE 的鏈接預測3.1 無特征方法3.2 引入節點特征4. 用于鏈接預測的手工特征5. 結果對比0. 鏈接預測 如今&#xff0c;社交媒體已成為…

每日一算:華為-批薩分配問題

題目描述"吃貨"和"饞嘴"兩人到披薩店點了一份鐵盤&#xff08;圓形&#xff09;披薩&#xff0c;并囑咐店員將披薩按放射狀切成大小相同的偶數個小塊。但是粗心的服務員將披薩切成了每塊大小都完全不同的奇數塊&#xff0c;且肉眼能分辨出大小。由于兩人都…

Transfusion,Show-o and Show-o2論文解讀

目錄 一、Transfusion 1、概述 2、方法 二、Show-o 1、概述 2、方法 3、訓練 三、Show-o2 1、概述 2、模型架構 3、訓練方法 4、實驗 一、Transfusion 1、概述 Transfusion模型應該是Show系列&#xff0c;Emu系列的前傳&#xff0c;首次將文本和圖像生成統一到單…

聊聊 Flutter 在 iOS 真機 Debug 運行出現 Timed out *** to update 的問題

最近剛好有人在問&#xff0c;他的 Flutter 項目在升級之后出現 Error starting debug session in Xcode: Timed out waiting for CONFIGURATION_BUILD_DIR to update 問題&#xff0c;也就是真機 Debug 時始終運行不了的問題&#xff1a; 其實這已經是一個老問題了&#xff0c…

《R for Data Science (2e)》免費中文翻譯 (第1章) --- Data visualization(2)

寫在前面 本系列推文為《R for Data Science (2)》的中文翻譯版本。所有內容都通過開源免費的方式上傳至Github&#xff0c;歡迎大家參與貢獻&#xff0c;詳細信息見&#xff1a; Books-zh-cn 項目介紹&#xff1a; Books-zh-cn&#xff1a;開源免費的中文書籍社區 r4ds-zh-cn …