論文閱讀-Correlate and Excite

文章目錄

1 背景
2 創新點
3 方法
- 3.1 總體結構
- 3.2 代價體計算
- 3.3 引導式代價體激勵（GCE）
- 3.4 TopK視差回歸
4 效果
參考資料

1 背景

在IGEV中構建幾何編碼體 $C_G$ 時用到了本文將要描述的CoEx，IGEV中沒有說明為什么要這樣做，本文就是對代價體激勵這部分內容進行說明。
基于3D卷積的立體匹配算法通常計算左右輸入圖像之間的特征互相關或將左右圖的特征直接拼接來構建代價體。我們這里將前者稱為相關體，后者稱為成本體，兩者統稱為代價體。
相關體將輸入左右圖像的特征 $\times W \times C$ 轉變為左右圖的余弦相似度特征 $\times W \times D$ ， $D$ 為最大視差，這樣可以減少后續融合模型的計算量。然而，這降低了神經網絡的表示能力，并且效果不如成本體。
成本體根據最大視差將左右圖的特征進行拼接，維度為 $\times W \times D \times 2C$ 。然而，深度堆疊的3D卷積運算不僅計算成本高昂，還存在內存占用效率低下的問題。近期研究嘗試采用空間變化聚合技術來優化成本聚合步驟的效率。盡管這些改進方案在精度上有所提升，但同時也導致計算成本和內存消耗顯著增加，并且在實現過程中需要應對額外的復雜性。
本文提出了一種有效且直接的方法來改進代價聚合，該方法利用基于注意力機制提取的圖像特征來進行優化，該方法已被證明可以改善圖像分類網絡。在給定代價體特征圖的情況下，引導式代價體激勵（GCE）會根據參考圖像特征計算權重，并對代價體通道進行激勵。這些計算出的權重會在視差通道中共享，因此該操作輕量且易于實現。該模塊使3D卷積能夠從代價體中提取幾何特征，并利用圖像引導的權重來激勵相關特征。作者通過實驗證明，這一操作在不顯著增加計算成本的情況下，能顯著提升效果。作者證明該模塊讓相關體利用倒了圖像特征，并且最終效果與成本體類似。這樣一來就可以得到一個基于相關體的輕量且效果好的立體匹配模型。
除此之外，作者還優化了最終視差回歸的方式。在基于代價體的模型中，soft-argmin計算從成本體聚合獲得的每個像素點的視差分布的期望值。然而，在多數情況下，視差分布有多個峰值，特別是邊緣區域，甚至是無紋理的區域。正因如此，在非單峰分布情況下采用期望值來估算視差可能并非最佳選擇。為此，作者提出僅使用分布中的top-k個峰值來計算視差圖。研究表明，這種看似簡單卻別具一格的方法能獲得更精準的深度估計結果，并且適用于所有基于代價體模型的系統。

2 創新點

（1）提出了引導式代價體激勵（GCE），僅使用相關體就可以達到和成本體接近的效果。
（2）提出了top-k視差回歸方法來替代soft-argmin。

3 方法

3.1 總體結構

基于代價體的模型一般包括代價體計算，代價體聚合，視差回歸三個部分。本文提出的引導式代價體激勵（GCE）模塊與top-k soft-argmin視差回歸模塊可無縫集成到基于代價體的立體匹配方法中，且不會顯著增加立體匹配模型的計算開銷。如圖3-1所示，通過采用這些模塊構建的實時端到端立體匹配模型，在性能表現上達到了與當前最先進方法相媲美的水平。
整體模型結構

圖3-1 整體模型結構

3.2 代價體計算

給定左右輸入的立體圖像對 $\times W \times 3$ ，通過共享特征提取模塊從兩者中提取特征圖。采用MobileNetV2作為骨干特征提取器，因為它具有輕量化特性。在每個尺度層級構建具有長跳連接的U-Net風格上采樣模塊。該特征提取模塊會提取各尺度特征，后續作為空間變化相關體聚合的引導信號。為構建相關體，使用左右圖像四分之一尺度提取的特征圖，通過相關層輸出 $H /4 \times W /4 \times D /4$ 相關體，其中 $D = 192$ 是網絡設置的最大視差。

3.3 引導式代價體激勵（GCE）

3D卷積技術在現代神經網絡架構中被用于聚合構建的代價體數據，使神經網絡能夠從數據中捕捉幾何特征。近期研究通過引入空間變化模塊來增強3D卷積效果，從而獲得更優效果。具體而言，該技術基于參考圖像特征圖計算權重，進而聚合代價體生成的三維特征表示。這些模塊會在每個位置為感興趣像素及其周邊鄰域計算權重，以空間依賴的方式實現鄰域聚合。
作者認為，3D卷積在代價體聚合中的應用已能有效捕捉鄰域信息。無需進行鄰域聚合，僅需對代價體特征圖進行空間變化更新即可滿足需求，且效率顯著提升。具體實現方式如下：對于具有 $c$ 個特征通道的代價體，作者將等比例縮放的圖像特征圖輸入引導子網絡，輸出每個像素對應的 $c$ 個權重值。通過這種設計，3D卷積可捕捉代價體的幾何信息，而引導權重則能激發相關幾何特征。在代價體的比例尺度( $s$ )下
$α=σ(F2D(I(s)))C0(s)=α×Ci(s)(3-1)\alpha = \sigma(F^{2D}(I^{(s)})) \\ C^{(s)}_0 = \alpha \times C^{(s)}_i \tag{3-1}$

其中 $F^{2D}$ 通過2D逐點卷積實現，σ表示sigmoid函數。引導權重在視差維度上共享，式3-1中的乘法運算采用廣播式乘法。整個工作流如圖3-1下方所示。由于該模塊需要利用參考圖像特征圖計算的權重來激勵成本體素特征作為引導，因此將此模塊命名為“引導式代價體激勵”（Guided cost volume excitation，簡稱GCE）。
在本文的CoEx模型中，代價體聚合架構沿用了GC-Net的設計方案，采用沙漏形3D卷積結構，但通過減少通道數量和網絡深度來降低計算成本。隨后在代價體的每個尺度上添加了提出的GCE模塊（圖3-1）。包含GCE的整體代價聚合模塊詳見表3-1。該模塊輸出的4D代價體，分辨率僅為原始圖像的1/4。

表3-1 代價聚合模塊

這個方法本質上是一種特征縮放。假設當前的特征 $Ci(s)C^{(s)}_i$ 的維度是 $(B, C, D, H, W)$ ，那么 $α\alpha$ 的維度就是 $(B, C, 1, H, W)$ ，對于所有視差維度上的縮放系數是相同的。

3.4 TopK視差回歸

通過上述步驟生成的4D代價體，為每個像素在不同視差層級上獲得了對應的置信度值。這些數值可通過對視差值進行Softmax操作轉換為概率分布。在先前的研究中，通常采用soft-argmin運算來計算視差值——即通過對該概率分布求期望值得出結果：
$d^=∑d=0Dd×Softmax(cd)(3-2)\hat{d} = \sum_{d=0}^{D} d \times Softmax(c_d) \tag{3-2}$

式3-2其實寫的有點歧義。既然說是argmin，怎么算的是argmax呢？這其實是因為soft-argmin想表達的意思是代價最小的視差值，因此有些地方也會寫作 $Softmax(-c_d)$ 。
然后這個Softmax的輸入，怎么是 $c_d$ 呢？到底是在對什么進行Softmax呢？這點可以參考這篇博客，總而言之，就是每個像素上所有的 $D$ 加權和為1。
僅有單個峰值的視差分布可能為視差預測提供足夠估計。但在某些情況下，可能存在多個峰值或相對均勻的分布，比如在物體的邊緣，一個像素會包括前景和背景，因此會有遠的視差和近的視差兩個峰值。在此類情形下，匹配成本分布的期望值可能與實際真實值存在顯著偏差。
為解決這一問題，作者不再對整個分布取期望值，而是僅在每個像素處使用聚合代價體的前 $k$ 個值。作者將這種回歸策略稱為TopK soft-argmin視差回歸。具體來說，在每個像素位置，通過前 $k$ 個權重計算出對應的視差期望值。
當 $k$ 等于最大視差 $D$ 時，TopK回歸本質上就是一種soft-argmin操作。當D大于 $k$ 且 $k > 1$ 時，系統僅使用每個像素中排名前 $k$ 的值來計算估計視差。具體實現是通過掩碼處理這前 $k$ 個值，并對它們執行 $so f t ma x$ 歸一化操作，從而獲得權重之和為1的特征向量。隨后將這些權重與其對應的視差索引相乘，而其余值則被掩碼屏蔽。最終計算結果即為前 $k$ 個視差候選的加權平均值，該操作可視為與 $k ? ma x$ 池化類似。當 $k = 1$ 時，TopK回歸退化為argmax操作——此時最大索引的權重固定為1。這種情況下算法不具備可訓練性，這也是早期研究采用soft-argmax的原因。盡管實現簡單，但本文的實驗表明，TopK soft-argmax回歸具有顯著優勢。