1. ?簡介?
論文提出了FSHNet(Fully Sparse Hybrid Network),一種用于3D物體檢測的全稀疏混合網絡。FSHNet旨在解決現有稀疏3D檢測器的兩大核心問題:長距離交互能力弱和網絡優化困難。稀疏檢測器(如VoxelNeXt和SAFDNet)雖能高效處理點云數據(僅操作非空體素),但在長距離檢測任務中表現不足。FSHNet通過結合稀疏卷積的高效性和注意力機制的長距離交互能力,實現了在多個基準數據集(Waymo、nuScenes、Argoverse2)上的SOTA性能。主要創新包括SlotFormer塊、動態稀疏標簽分配策略和稀疏上采樣模塊。
2. ?核心問題與動機?
稀疏3D檢測器僅從非空體素提取特征,導致兩個關鍵挑戰:
- ?長距離交互弱(Long-range interaction weakness)??:稀疏體素間的交互依賴于卷積核的局部范圍,當體素距離超出核尺寸時(例如,兩個遙遠體素無法通過中間空體素橋接),特征提取能力受限。這削弱了全局場景感知,尤其影響大型物體(如車輛)的檢測。
- ?中心特征缺失(Center feature missing)??:物體中心區域常為空體素(尤其在大物體中),但中心特征對對象檢測至關重要(如作為代理)。缺失中心特征阻礙網絡優化,導致訓練不穩定和性能下降。
圖1直觀比較了稀疏與稠密檢測器的體素交互差異:在稀疏檢測器中,遙遠體素無交互;在稠密檢測器中,空體素充當“橋梁”,實現擴散交互。
傳統解決方案(如增大卷積核)會增加計算開銷,而基于Transformer的方法(如DSVT)受限于窗口尺寸。FSHNet通過混合架構解決這些問題。?
3. ?FSHNet方法細節?
FSHNet的整體框架如圖2所示,包括輸入處理、稀疏卷積編碼器、SlotFormer塊、稀疏上采樣模塊和動態稀疏頭。框架以點云為輸入,轉換為稀疏體素后,通過多階段處理生成預測。
?
3.1 ?SlotFormer塊(解決長距離交互問題)??
- ?核心思想?:SlotFormer取代傳統窗口分區,使用“槽位分區”(slot partition)。每個槽沿X或Y軸覆蓋整個場景(無限邊長),提供更大的感受野(全局范圍)。相比窗口分區(如DSVT),槽位分區能處理更長的距離交互。
- ?機制?:體素按槽索引分組(Eq.1),采用線性注意力(linear attention)而非自注意力,計算復雜度從O(N2)降至O(N)。具體步驟:
- 體素分組:基于坐標計算槽索引(d_i^x 和 d_i^y)。
- 線性注意力:生成查詢(Q)、鍵(K)、值(V)矩陣(Eq.2),計算KV矩陣(Eq.3),并通過歸一化輸出新特征(Eq.4)。最后,通過前饋網絡更新特征(Eq.5)。
-
- ?優勢?:SlotFormer與現有稀疏編碼器(如SAFDNet)結合,實現高效全局交互。在FSHNet中,多層SlotFormer交替槽方向(X/Y軸),增強全局連接。
3.2 ?稀疏上采樣模塊(增強細粒度細節)??
- ?問題?:稀疏編碼器下采樣導致小物體細節丟失(如行人)。
- ?機制?:輸入體素坐標加倍(Eq.6),創建更細粒度的體素網格。隨后應用稀疏卷積層(核尺寸3,步幅1)擴散特征(Eq.7),恢復下采樣中丟失的細節。
-
- ?優勢?:保留小物體的細粒度信息,提升檢測精度。實驗表明,該模塊對行人等小物體效果顯著(見表7對比)。
?
3.3 ?動態稀疏標簽分配(優化網絡訓練)??
- ?問題?:現有方法(如中心最近分配)僅選最近體素作為正樣本,忽略高質量候選,導致優化不足。
- ?策略?:為每個標注框中心,動態選擇候選體素。如圖3所示,計算候選體素(n個最近體素)的選擇成本(Eq.8),基于分類和回歸損失(IoU加權)選擇top-k正樣本(Eq.9)。成本計算包括預測框與真實框的IoU。
?
- 損失函數?:回歸使用旋轉加權IoU損失;分類使用焦點損失(focal loss),正樣本權重為1,負樣本權重基于IoU設置。
- ?優勢?:提供更多高質量正樣本,緩解中心缺失問題,優化網絡訓練。消融實驗顯示,候選數n=5時效果最佳(見表8)。
4. ?實驗驗證?
FSHNet在三大數據集評估,使用FSHNet_light(基于VoxelNeXt)和FSHNet_base(基于SAFDNet)變體。關鍵結果:
4.1 ?Waymo數據集?
- ?驗證集?(表1):FSHNet_base在LEVEL 2 mAP/mAPH上達77.1/74.9,優于SOTA方法(如ScatterFormer的75.7/73.8)。在車輛和行人類別提升顯著(如車輛AP 82.2 vs. SAFDNet的80.6)。
- ?測試集?(表2):FSHNet_base的LEVEL 2 mAP/mAPH為77.4/75.2,刷新SOTA記錄。SlotFormer對大型物體(車輛)效果突出。
4.2 ?nuScenes數據集?
- ?驗證集?(表3):FSHNet_base在NDS和mAP上達71.7和68.1,超越TransFusion-L和SAFDNet。訓練僅36輪(無CBGS策略),顯示高效性。
4.3 ?Argoverse2數據集?
- ?驗證集?(表4):針對長距離檢測(范圍200米),FSHNet_base的mAP為40.2,顯著優于SAFDNet(38.7)。小物體(行人mAP +3.2%)和大物體(巴士mAP +1.0%)均有提升。
4.4 ?消融研究?
- ?組件貢獻?(表5):SlotFormer提升大型物體性能(車輛AP +2.4%);動態標簽分配優化訓練(行人AP +1.8%);稀疏上采樣增強小物體檢測。
- ?分區方式對比?(表6):槽位分區 + 線性注意力效果最佳(優于窗口分區)。
- ?上采樣策略?(表7):SP-SU(稀疏卷積擴散)優于SM-SU(特征重復)。
- ?參數分析?(表8):候選數n=5時動態標簽分配最優。
5. ?主要貢獻與限制?
- ?貢獻?:
- 提出首個結合稀疏卷積和注意力的混合模型FSHNet,平衡效率與性能。
- 設計SlotFormer塊,實現全局范圍體素交互。
- 引入動態稀疏標簽分配,深度優化網絡。
- 稀疏上采樣模塊保留細粒度細節,提升小物體檢測。
- 實驗證明泛化性強,在多個基準達到SOTA。
- ?限制?:SlotFormer增加延遲(FSHNet_base從94ms增至123ms),未來需優化效率。
6. ?結論?
FSHNet通過創新混合架構解決了稀疏3D檢測器的核心瓶頸,在長距離交互和網絡優化上取得突破。實驗驗證了其在Waymo、nuScenes和Argoverse2的優越性,為自動駕駛感知提供了高效解決方案。代碼開源促進了社區應用。
?論文地址:https://openaccess.thecvf.com/content/CVPR2025/papers/Liu_FSHNet_Fully_Sparse_Hybrid_Network_for_3D_Object_Detection_CVPR_2025_paper.pdf