論文閱讀-Correlate and Excite

文章目錄

  • 1 背景
  • 2 創新點
  • 3 方法
    • 3.1 總體結構
    • 3.2 代價體計算
    • 3.3 引導式代價體激勵(GCE)
    • 3.4 TopK視差回歸
  • 4 效果
  • 參考資料

1 背景

在IGEV中構建幾何編碼體CGC_GCG?時用到了本文將要描述的CoEx,IGEV中沒有說明為什么要這樣做,本文就是對代價體激勵這部分內容進行說明。
基于3D卷積的立體匹配算法通常計算左右輸入圖像之間的特征互相關將左右圖的特征直接拼接來構建代價體。我們這里將前者稱為相關體,后者稱為成本體,兩者統稱為代價體。
相關體將輸入左右圖像的特征H×W×CH \times W \times CH×W×C轉變為左右圖的余弦相似度特征H×W×DH \times W \times DH×W×DDDD為最大視差,這樣可以減少后續融合模型的計算量。然而,這降低了神經網絡的表示能力,并且效果不如成本體。
成本體根據最大視差將左右圖的特征進行拼接,維度為H×W×D×2CH \times W \times D \times 2CH×W×D×2C。然而,深度堆疊的3D卷積運算不僅計算成本高昂,還存在內存占用效率低下的問題。近期研究嘗試采用空間變化聚合技術來優化成本聚合步驟的效率。盡管這些改進方案在精度上有所提升,但同時也導致計算成本和內存消耗顯著增加,并且在實現過程中需要應對額外的復雜性。
本文提出了一種有效且直接的方法來改進代價聚合,該方法利用基于注意力機制提取的圖像特征來進行優化,該方法已被證明可以改善圖像分類網絡。在給定代價體特征圖的情況下,引導式代價體激勵(GCE)會根據參考圖像特征計算權重,并對代價體通道進行激勵。這些計算出的權重會在視差通道中共享,因此該操作輕量且易于實現。該模塊使3D卷積能夠從代價體中提取幾何特征,并利用圖像引導的權重來激勵相關特征。作者通過實驗證明,這一操作在不顯著增加計算成本的情況下,能顯著提升效果。作者證明該模塊讓相關體利用倒了圖像特征,并且最終效果與成本體類似。這樣一來就可以得到一個基于相關體的輕量且效果好的立體匹配模型。
除此之外,作者還優化了最終視差回歸的方式。在基于代價體的模型中,soft-argmin計算從成本體聚合獲得的每個像素點的視差分布的期望值。然而,在多數情況下,視差分布有多個峰值,特別是邊緣區域,甚至是無紋理的區域。正因如此,在非單峰分布情況下采用期望值來估算視差可能并非最佳選擇。為此,作者提出僅使用分布中的top-k個峰值來計算視差圖。研究表明,這種看似簡單卻別具一格的方法能獲得更精準的深度估計結果,并且適用于所有基于代價體模型的系統。

2 創新點

(1)提出了引導式代價體激勵(GCE),僅使用相關體就可以達到和成本體接近的效果。
(2)提出了top-k視差回歸方法來替代soft-argmin。

3 方法

3.1 總體結構

基于代價體的模型一般包括代價體計算,代價體聚合,視差回歸三個部分。本文提出的引導式代價體激勵(GCE)模塊與top-k soft-argmin視差回歸模塊可無縫集成到基于代價體的立體匹配方法中,且不會顯著增加立體匹配模型的計算開銷。如圖3-1所示,通過采用這些模塊構建的實時端到端立體匹配模型,在性能表現上達到了與當前最先進方法相媲美的水平。
整體模型結構

圖3-1 整體模型結構

3.2 代價體計算

給定左右輸入的立體圖像對 H×W×3H \times W \times 3H×W×3,通過共享特征提取模塊從兩者中提取特征圖。采用MobileNetV2作為骨干特征提取器,因為它具有輕量化特性。在每個尺度層級構建具有長跳連接的U-Net風格上采樣模塊。該特征提取模塊會提取各尺度特征,后續作為空間變化相關體聚合的引導信號。為構建相關體,使用左右圖像四分之一尺度提取的特征圖,通過相關層輸出H/4×W/4×D/4H/4×W/4×D/4H/4×W/4×D/4相關體,其中D=192D=192D=192是網絡設置的最大視差。

3.3 引導式代價體激勵(GCE)

3D卷積技術在現代神經網絡架構中被用于聚合構建的代價體數據,使神經網絡能夠從數據中捕捉幾何特征。近期研究通過引入空間變化模塊來增強3D卷積效果,從而獲得更優效果。具體而言,該技術基于參考圖像特征圖計算權重,進而聚合代價體生成的三維特征表示。這些模塊會在每個位置為感興趣像素及其周邊鄰域計算權重,以空間依賴的方式實現鄰域聚合。
作者認為,3D卷積在代價體聚合中的應用已能有效捕捉鄰域信息。無需進行鄰域聚合,僅需對代價體特征圖進行空間變化更新即可滿足需求,且效率顯著提升。具體實現方式如下:對于具有ccc個特征通道的代價體,作者將等比例縮放的圖像特征圖輸入引導子網絡,輸出每個像素對應的ccc個權重值。通過這種設計,3D卷積可捕捉代價體的幾何信息,而引導權重則能激發相關幾何特征。在代價體的比例尺度(sss)下
α=σ(F2D(I(s)))C0(s)=α×Ci(s)(3-1)\alpha = \sigma(F^{2D}(I^{(s)})) \\ C^{(s)}_0 = \alpha \times C^{(s)}_i \tag{3-1} α=σ(F2D(I(s)))C0(s)?=α×Ci(s)?(3-1)

其中F2DF^{2D}F2D通過2D逐點卷積實現,σ表示sigmoid函數。引導權重在視差維度上共享,式3-1中的乘法運算采用廣播式乘法。整個工作流如圖3-1下方所示。由于該模塊需要利用參考圖像特征圖計算的權重來激勵成本體素特征作為引導,因此將此模塊命名為“引導式代價體激勵”(Guided cost volume excitation,簡稱GCE)。
在本文的CoEx模型中,代價體聚合架構沿用了GC-Net的設計方案,采用沙漏形3D卷積結構,但通過減少通道數量和網絡深度來降低計算成本。隨后在代價體的每個尺度上添加了提出的GCE模塊(圖3-1)。包含GCE的整體代價聚合模塊詳見表3-1。該模塊輸出的4D代價體,分辨率僅為原始圖像的1/4。
代價聚合模塊

表3-1 代價聚合模塊

這個方法本質上是一種特征縮放。假設當前的特征Ci(s)C^{(s)}_iCi(s)?的維度是(B,C,D,H,W)(B, C, D, H, W)(B,C,D,H,W),那么α\alphaα的維度就是(B,C,1,H,W)(B, C, 1, H, W)(B,C,1,H,W),對于所有視差維度上的縮放系數是相同的。

3.4 TopK視差回歸

通過上述步驟生成的4D代價體,為每個像素在不同視差層級上獲得了對應的置信度值。這些數值可通過對視差值進行Softmax操作轉換為概率分布。在先前的研究中,通常采用soft-argmin運算來計算視差值——即通過對該概率分布求期望值得出結果:
d^=∑d=0Dd×Softmax(cd)(3-2)\hat{d} = \sum_{d=0}^{D} d \times Softmax(c_d) \tag{3-2} d^=d=0D?d×Softmax(cd?)(3-2)

式3-2其實寫的有點歧義。既然說是argmin,怎么算的是argmax呢?這其實是因為soft-argmin想表達的意思是代價最小的視差值,因此有些地方也會寫作Softmax(?cd)Softmax(-c_d)Softmax(?cd?)
然后這個Softmax的輸入,怎么是cdc_dcd?呢?到底是在對什么進行Softmax呢?這點可以參考這篇博客,總而言之,就是每個像素上所有的DDD加權和為1。
僅有單個峰值的視差分布可能為視差預測提供足夠估計。但在某些情況下,可能存在多個峰值或相對均勻的分布,比如在物體的邊緣,一個像素會包括前景和背景,因此會有遠的視差和近的視差兩個峰值。在此類情形下,匹配成本分布的期望值可能與實際真實值存在顯著偏差。
為解決這一問題,作者不再對整個分布取期望值,而是僅在每個像素處使用聚合代價體的前kkk個值。作者將這種回歸策略稱為TopK soft-argmin視差回歸。具體來說,在每個像素位置,通過前kkk個權重計算出對應的視差期望值。
kkk等于最大視差DDD時,TopK回歸本質上就是一種soft-argmin操作。當D大于kkkk>1k > 1k>1時,系統僅使用每個像素中排名前kkk的值來計算估計視差。具體實現是通過掩碼處理這前kkk個值,并對它們執行softmaxsoftmaxsoftmax歸一化操作,從而獲得權重之和為1的特征向量。隨后將這些權重與其對應的視差索引相乘,而其余值則被掩碼屏蔽。最終計算結果即為前kkk個視差候選的加權平均值,該操作可視為與k?maxk-maxk?max池化類似。當k=1k=1k=1時,TopK回歸退化為argmax操作——此時最大索引的權重固定為1。這種情況下算法不具備可訓練性,這也是早期研究采用soft-argmax的原因。盡管實現簡單,但本文的實驗表明,TopK soft-argmax回歸具有顯著優勢。

4 效果

作者對比了本文提出的模型與其他SOTA模型的效果和速度,如下表4-1所示。
CoEx與SOTA效果和速度對比

表4-1 CoEx與SOTA效果和速度對比

不同模型之間,不同模塊的速度對比如下表4-2所示,單位是ms。
不同模塊的速度對比

表4-2 不同模塊的速度對比

參考資料

[1] Correlate-and-Excite: Real-Time Stereo Matching via Guided Cost Volume Excitation

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/98735.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/98735.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/98735.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

探索大語言模型(LLM):Open-WebUI的安裝

前言 Open-WebUI 是一款專為大模型設計的開源可視化交互工具,它通過類 ChatGPT 的直觀界面,讓用戶無需代碼即可管理、調試和調用本地或云端的大語言模型(LLMs),成為私有化部署的便捷工具,本文將介紹如何部…

企業遠程訪問方案選擇:何時選內網穿透,何時需要反向代理?

企業遠程訪問需求日益增長,無論是遠程辦公、分支互聯還是服務發布,選擇合適的網絡方案都至關重要。內網穿透和反向代理是兩種常見的技術手段,但它們的設計目標和適用場景截然不同。本文將客觀分析兩者的特點,幫助企業做出更合理的…

ARM指令集(Instruction Set)細節

ARM指令集(Instruction Set)細節 本文旨在深入探討 ARM 指令集(Instruction Set)的細節。這是一個非常廣泛的主題,我會將其分解為關鍵概念、不同版本的區別以及核心特性,并提供一些示例。 ARM 指令集的核心在于 RISC(精簡指令集計算機&#x…

Vue基礎知識-Vue集成 Element UI全量引入與按需引入

一、方式一:全量引入 Element UI全量引入即一次性加載 Element UI 所有組件和樣式,優點是配置簡單,適合快速開發;缺點是打包體積較大,生產環境可能存在冗余。1. 安裝 Element UI全量引入只需安裝 Element UI 核心依賴&…

leetcode26(字母異位詞分組)

給你一個字符串數組,請你將 字母異位詞 組合在一起。可以按任意順序返回結果列表。示例 1:輸入: strs ["eat", "tea", "tan", "ate", "nat", "bat"]輸出: [["bat"],["nat","…

光平面標定 (Laser Plane Calibration) 的原理和流程

光平面標定 (Laser Plane Calibration) 是線激光3D相機系統中最為關鍵且精巧的一步,它直接決定了最終的測量精度。 核心目標 光平面標定的目標是:精確地求出激光器發射出的那個扇形激光平面,在相機坐標系下的數學方程。 這個方程通常表示為一般式: Ax + By + Cz + D = 0…

項目1——單片機程序審查,控制系統項目評估總結報告

執行摘要 本報告對基于STM32F103RET6的老虎機控制系統進行了全面的技術評估。通過深入分析代碼結構、系統架構、安全機制和潛在風險,為項目的進一步開發和部署提供專業建議。 核心發現 ? 系統架構: 設計合理,模塊化程度高?? 安全性: 存在輸入驗證和并…

【Qt應用程序】

Qt應用程序摘要概述快速開始Qt在線下載與安裝Visual Studio開發Qt項目VS配置Qt擴展VS創建Qt項目配置qDebug調試信息配置源程序的字符集項目結構對象樹與內存回收基礎數據類型信號槽定時器窗口QWidgetQMainWindowQDialog窗口布局窗口中添加右鍵菜單控件按鈕類容器類自定義控件事…

機器學習實戰(一): 什么是機器學習

機器學習:讓機器學會思考的魔法前言 在當今數字化的浪潮中,人工智能無疑是最引人注目的技術之一,而機器學習正是其核心驅動力。它不再是科幻電影中的遙遠設想,而是已經滲透到我們日常生活的方方面面,從智能推薦到自動駕…

java流水號生成方式

1、基于時間戳生成流水號利用當前時間戳生成流水號,可以確保唯一性。通過格式化時間戳,可以生成固定位數的流水號。SimpleDateFormat sdf new SimpleDateFormat("yyyyMMddHHmmssSSS"); String serialNumber sdf.format(new Date());特點&…

前端工具大全:前端開發工具、前端調試工具、前端性能優化工具與構建工具的對比與最佳實踐

在現代前端開發中,工具鏈已經成為開發效率與代碼質量的關鍵。無論是 編輯器與 IDE、構建與打包工具、調試工具 還是 性能優化工具,每一個環節都有成熟的解決方案。 然而,工具太多也容易讓團隊選擇困難:該選 VS Code 還是 WebStorm…

ABAP 使用ECHARTS實現圖表展示

最近發現ECHARTS可以整合到SAP中的開源項目,可以絲滑的在SAP中展示各種圖表,還是相當驚艷的。 ECHARTS官方網站:https://echarts.apache.org/examples/zh/index.html 今天順手在開發環境成功安裝了,做下記錄: 1、ABA…

hot100-貪心算法(附圖解思路)

貪心算法的核心,就是用局部最優去代替全局最優。一般的步驟就是去試思路,然后舉反例,如果舉不出反例,基本可以看作是正確的方法。121. 買賣股票的最佳時機(Best Time to Buy and Sell Stock)難度&#xff1…

從齒輪到智能:機器人如何重塑我們的世界【科普類】

新晉碼農一枚,小編會定期整理一些寫的比較好的代碼和知識點,作為自己的學習筆記,試著做一下批注和補充,轉載或者參考他人文獻會標明出處,非商用,如有侵權會刪改!歡迎大家斧正和討論!…

python超市購物 2025年6月電子學會python編程等級考試一級真題答案解析

python超市購物 2025年6月 python編程等級考試一級真題 博主推薦 所有考級比賽學習相關資料合集【推薦收藏】 1、Python比賽 信息素養大賽Python編程挑戰賽 藍橋杯python選拔賽真題詳解

淺談代理流程自動化 (APA)

一、什么是APA Agentic Process Automation (APA)APA 利用大型語言模型 (LLM) 自動執行復雜的動態工作流程。它可以自主構建、執行和調整工作流程,同時將人員干預降至最低。與依賴基于規則的系統的傳統機器人流程自動化 (RPA&…

LeetCode - 和為K的子數組 / 爬樓梯

?歡迎光臨小站:致橡樹 和為K的子數組 給你一個整數數組 nums 和一個整數 k ,請你統計并返回 該數組中和為 k 的子數組的個數 。 子數組是數組中元素的連續非空序列。 示例 1: 輸入:nums [1,1,1], k 2 輸出:2示例…

day40 SQLite3單詞查詢程序設計與實現

day40 SQLite3單詞查詢程序設計與實現 核心知識點 SQLite3 C接口應用:使用sqlite3_open、sqlite3_exec等函數操作數據庫回調函數機制:通過回調函數處理查詢結果集SQL語句構建:動態生成SELECT、INSERT等SQL語句事務處理:使用BEGIN …

GitHub 熱榜項目 - 日榜(2025-09-08)

GitHub 熱榜項目 - 日榜(2025-09-08) 生成于:2025-09-08 統計摘要 共發現熱門項目:17 個 榜單類型:日榜 本期熱點趨勢總結 本期GitHub熱榜呈現三大技術趨勢:AI智能體與LLM應用持續爆發(emcie-co/parlant、coleam00…

設計模式-工廠方法原型模板方法外觀

設計模式概述 - 工廠方法 & 原型 & 模板方法 & 外觀 工廠方法模式簡述 工廠方法模式(Factory Method Pattern)是一種創建型設計模式,它定義了一個用于創建對象的接口,但由子類決定實例化哪個類。工廠方法將類的實例化…