【論文筆記】FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels

原文鏈接：https://arxiv.org/abs/2308.03755

1. 引言

完全稀疏檢測器在基于激光雷達的3D目標檢測中有較高的效率和有效性，特別是對于長距離場景而言。

但是，由于點云的稀疏性，完全稀疏檢測器面臨的一大困難是中心特征丟失（CFM），即因為點云往往分布在物體表面，物體的中心特征通常會缺失。FSD引入實例級表達，通過聚類獲取實例，并提取實例級特征進行邊界框預測，以避免使用物體中心特征。但由于實例級表達有較強的歸納偏好，其泛化性不足。例如，聚類時需要對各類預定義閾值，且難以找到最優值；在擁擠的場景中可能使得多個實例被識別為一個實體，導致漏檢。

本文提出FSDv2，丟棄了FSD中的實例級表達，以追求更高的泛化性。本文引入虛擬體素以替代FSD中的實例，這些虛擬體素通過體素化投票中心得到。為減輕投票質量低帶來的影響，虛擬體素被輸入輕量級的稀疏虛擬體素混合器（VVM）增強特征，聚合屬于同一物體不同虛擬體素的特征，得到覆蓋整個實例的特征。VVM模擬了FSD中的實例級特征提取，但不顯式地生成實例，以避免產生手工的歸納偏好。由于虛擬體素位于物體中心附近，可將虛擬體素作為“錨點”，從中預測邊界框；這可減輕正負樣本的不平衡性。

2. 相關工作

2.1 密集檢測器

密集檢測器（如VoxelNet和PointPillars）將點云轉化為密集的3D體素或2D BEV，并使用密集的3D卷積或2D卷積處理。

2.2 半密集檢測器

半密集檢測器（如SECOND和CenterPoint）將點云轉化為稀疏3D體素，使用稀疏3D卷積處理后得到2D密集BEV特征，輸入檢測頭進行檢測。其余方法使用Transformer結構增強稀疏主干。

2.3 完全稀疏檢測器

完全稀疏檢測器（如PointRCNN和VoteNet）基于點云進行檢測，無需將點云轉化為體素。FSD避免了點云處理中耗時的操作。

3. 準備知識

3.1 FSDv1的整體設計

FSDv1主要包含3部分：（1）點特征提取：使用稀疏體素特征提取器提取體素特征，然后使用基于MLP的頸部網絡將體素特征轉化為點特征。最后使用輕量級的逐點MLP進行逐點分類和中心投票。（2）聚類：將連接組件標簽（CCL）應用在投票的中心，以將點聚類為實例。（3）實例特征提取和邊界框預測：詳見下文。

3.2 稀疏實例識別

FSDv1實例特征提取的核心是稀疏實例識別（SIR）。

首先，初始的實例點特征輸入MLP，并通過最大池化得到實例特征，與實例各點的特征拼接，輸入到另一MLP壓縮通道維度。迭代執行上述步驟后，將最大池化的結果用于邊界框預測。該方法類似一系列PointNet層。

4. 方法

4.1 總體結構

如下圖所示，首先使用稀疏體素特征提取器作為主干，并使用MLP用于逐點分類和中心投票（與FSDv1相同）。FSDv2使用虛擬體素化替代聚類，并使用虛擬體素混合器混合不同虛擬體素的特征，用于預測邊界框。
在這里插入圖片描述

4.2 虛擬體素化

4.2.1 虛擬體素

使用投票中心創建虛擬體素。具體來說，對于每個前景點，預測偏移量得到投票中心。然后將各投票中心與原始點云的并集體素化。虛擬體素即至少包含一個投票中心的體素，而僅含真實點的體素則稱為真實體素。

雖然投票中心可能有很多，但虛擬體素一般較少，因為投票中心往往彼此接近，且體素大小會設置得比通常更大（主干已經捕捉了細粒度特征，此處無需高分辨率）。

4.2.2 虛擬體素特征編碼

引入虛擬體素編碼器，類似FSDv1中的SIR結構，區別在于FSDv1提取實例特征而本文提取體素特征。首先為投票中心生成特征，此處將生成投票中心的點的（經過主干編碼后的）特征作為投票中心特征，并將預測偏移量作為額外特征以與真實點區分。對于真實點則設置虛擬偏移量0。然后使用SIR結構聚合虛擬體素內真實點和虛擬點的特征。

4.3 虛擬體素混合器

虛擬體素混合器（VVM）用于混合虛擬體素特征、真實體素特征和主干輸出的多尺度特征。

4.3.1 混合虛擬體素特征的動機

當中心投票效果不佳時，一個物體的中心附近可能會有多個虛擬體素，但這些體素沒有交互。

4.3.2 混合虛擬體素與真實體素的動機

由于虛擬體素來自預測的前景點，當預測不準時會有前景信息損失。

4.3.3 混合多尺度特征

多尺度特征包含主干輸出的多尺度真實體素特征和4.1節中得到的虛擬/真實體素特征。由于特征是稀疏而不規則的，多尺度特征融合不能像圖像一樣進行通道維度的拼接。

設（相對于虛擬體素特征的）步長 $s$ 下的稀疏特征為 $F_s\in\mathbb{R}^{N_s\times C_s}$ ，其中 $N_s$ 為體素數， $C_s$ 為通道數。體素的坐標為 $I_s\in\mathbb{R}^{N_s\times 3}$ ，轉化到 $\tilde{s}$ 步長下的坐標為 $I_s^{\tilde{s}}$ 。虛擬體素化得到的特征為 $F_1$ 。首先將 $I_s$ 轉化為 $I_s^1$ ：
$I_s^1=I_s\times s+\lfloor{s/2}\rfloor$
按下式得到聚合的稀疏特征和體素坐標：
$F_{agg}=\text{Concat}(\text{Linear}(F_1),\text{Linear}(F_2),\cdots,\text{Linear}(F_L))\\ I_{agg}=\text{Concat}(I_1,I_2^1,\cdots,I_L^1)$
其中線性層用于將特征轉換為相同的通道數。

注意 $I_{agg}$ 可能包含重復元素，因為不同尺寸的體素可能有相同的坐標。本文使用動態池化操作DP來去除重復坐標，將重復坐標對應的特征求取均值，得到單一特征。

4.3.4 VVM的模型結構

使用SparseUNet處理上述聚合結果。

4.4 討論：聚類v.s.虛擬體素

當中心投票一致時，所有投票中心位于同一虛擬體素內，假設聚類是完美的，則本文的虛擬體素化方法與FSDv1的實例表達類似。

但當中心投票不一致時，會導致多個虛擬體素，每個體素編碼了物體的部分形狀。虛擬體素混合器使得虛擬體素之間可以交互，以編碼完整幾何信息。此時也與FSDv1的實例表達類似。

總的來說，本文的方法可以避免SIR中的手工參數設計，使得模型更簡單通用。

4.5 虛擬體素分配

4.5.1 潛在的設計選擇

傳統的分配方法對于虛擬體素而言是次優的。因為：

虛擬體素不總是填充物體中心，特別是對于遠處或大型物體。因此，基于中心的分配方法是不可行的。
基于錨框的方法需要逐類的超參數（如錨框大小），這和本文提高泛化性的設計思路沖突。
最近體素分配方法（將離中心最近的體素分配給對應的物體）會導致模糊性且阻礙優化。因為多個虛擬體素可能位于同一物體中心附近，但只有一個能作為匹配結果。

4.5.2 本文的方法：邊界框內體素分配

本文將邊界框內的所有虛擬體素作為正樣本。

由于虛擬體素數遠少于真實體素數，不會導致不同物體的正樣本數不平衡。且能提高點很少的物體的召回率。
由于虛擬體素分布于物體中心附近，考慮所有虛擬體素不會導致回歸目標有較大方差。
由于真實的邊界框標注不會重疊，且點云的稀疏性保證邊界框內不包含背景噪聲，使得這種分配方法可靠。這解釋了為什么基于圖像的2D檢測需要更加復雜的策略。

4.5.3 虛擬體素位置定義

直接的方法是將體素的幾何中心作為虛擬體素的位置，但會導致不精確性和模糊性，因為體素的大小可能會超過一些小物體的大小。

本文考慮體素內點的分布，將體素的位置定義為所含點的加權中心：
$\bar{x}=\frac{\sum_{i=0}^{N-1}I(x_i)x_i}{\sum_{i=0}^{N-1}I(x_i)}$
其中
$I(x)=\left\{\begin{matrix}1,& 若x\in \mathbb{F}\\\alpha,&若x\notin \mathbb{F}\end{matrix}\right.$
其中 $\mathbb{F}$ 為前景點（包含原始點和投票中心）集合， $\alpha\in[0,1]$ 。