論文閱讀《High-frequency Stereo Matching Network》

論文地址:https://openaccess.thecvf.com/content/CVPR2023/papers/Zhao_High-Frequency_Stereo_Matching_Network_CVPR_2023_paper.pdf
源碼地址: https://github.com/David-Zhao-1997/High-frequency-Stereo-Matching-Network


概述

?? 在立體匹配研究領域,當前的方法在估計視差圖的細微特征方面表現不足,尤其是在對象的邊緣性能方面。此外,弱紋理區域的混淆匹配和細小物體的錯誤匹配也是模型性能表現不佳的重要因素。在迭代式的方法中,現有的基于GRU的結構存在一定局限性,用于生成視差圖更新的信息與GRU的隱藏狀態信息耦合在一起,使得在隱藏狀態中保持細微的細節變得困難。
??為了解決該問題,本文提出了 DLNR (Stereo Matching Network with Decouple LSTM and Normalization Refinement),改方法可以在迭代過程中保留更多的細節信息。同時,為了進一步提取高頻的細節信息,本文提出了一個視差歸一化細化模塊,將視差值歸一化為圖像寬度上的視差比例,有效地減輕了模型跨域性能下降的問題。此外,為了克服傳統resNet的特征提取瓶頸,本文引入了一個多尺度多層級的特征提取骨干網絡,通過通道級自注意力機制來增強模型的特征提取能力。實驗結果表明,本文在多個數據集上達到了最先進的水平。


模型架構

Channel-Attention Transformer extractor

?? 受到 Restormer 的啟發,作者設計了一個多階段、多尺度的通道注意力transformer特征提取結構用于提取像素長程依賴特征與高頻細節特征,如圖3所示:
在這里插入圖片描述

高頻細節特征獲取

?? 文中采用 Pixel Unshuffle 來替代池化操作對圖像進行下采樣至原始大小的1/4,并擴展通道數,同時不丟失任何高頻信息。原始圖像的形狀是 [ C , H ? r , W ? r ] [C, H * r, W * r] [C,H?r,W?r],經過Pixel Unshuffle后reshape為 [ C ? r 2 , H , W ] [C * r^2, H, W] [C?r2,H,W]。這樣可以在降低圖像分辨率的同時,保留圖像中的高頻細節信息。

通道注意力機制

?? 文中提出了CWSA模塊(來源于Restromer中的MDTA)用于通道注意力,以減少原始通道注意力帶來的計算量激增問題。

多尺度解耦LSTM正則化

?? 在每次迭代中,迭代單元結合特征提取器從多尺度和多階段信息 F l F_l Fl? F m F_m Fm? F h F_h Fh?,以及上一次迭代產生的隱藏狀態 h i ? 1 h_{i-1} hi?1? C i ? 1 C_{i-1} Ci?1? 和先前的視差圖 D i ? 1 D_{i-1} Di?1?,預測視差圖的殘差圖 Δ D i \Delta D_i ΔDi?

多尺度結構

??為了解決立體匹配中弱紋理區域的匹配難題,文中使用多尺度的迭代模塊來充分利用1/4,1/8和1/16分辨率下的視圖信息。每個子模塊都與其余相鄰的分辨率進行交互,低分辨率可以獲得更大的感受野用于處理弱紋理區域的混淆匹配。高分辨率尺度可以提供更多的高頻細節信息,為物體的邊緣和角落提供更多細節。

解耦機制

??傳統的GRU結構的隱藏層特征 h h h 用于預測視差殘差圖,同時用于GRU模塊之間的狀態轉移,導致模型無法保留更多的細節信息。為此,文中引入一個新的隱藏特征 C C C,如圖4所示。
在這里插入圖片描述
??隱藏狀態 h h h 用于通過視差頭生成更新矩陣,而新引入的隱藏狀態 C C C 僅用于在迭代之間傳遞信息。該設計將更新矩陣和隱藏狀態解耦,可以在迭代過程中保留更多有效的語義信息。

視差歸一化細化

?? 為了緩解模型在地分辨率下細化導致的高頻細節信息丟失問題,文中引入一個視差細化模塊,如圖5所示:
在這里插入圖片描述
??1/4尺度的視差圖經過可學習的上采樣模塊上采樣到原分辨率,繼而將右視圖根據視差圖warp到左視圖,用于計算誤差圖:
D f r = l e a r n e d U p s a m p l e ( D l r , u p M a s k ) I l ′ = w a r p ( I r , d i s p ) E l = I l ′ ? I l (1) \begin{aligned} D^{fr}& =learnedUpsample(D^{lr},upMask) \\ I_{l}^{'}& =warp(I_r,disp) \\ E_{l}& =I_{l}^{'}-I_{l} \end{aligned}\tag{1} DfrIl?El??=learnedUpsample(Dlr,upMask)=warp(Ir?,disp)=Il??Il??(1)
??上采樣后的視差圖被縮放到0到1之間,且 D f r D^{fr} Dfr 的最小值通常為0。文中使用圖像的寬度來作為最大視差值將所有像素點的視差值歸一化:
D N o r m f r = D f r ? m i n ( D f r ) w i d t h ( I l ) (2) D_{Norm}^{fr}=\frac{D^{fr}-min(D^{fr})}{width(I_l)}\tag{2} DNormfr?=width(Il?)Dfr?min(Dfr)?(2)
??將歸一化視差圖 D N o r m f r D_{Norm}^{fr} DNormfr?,誤差圖 E l E_{l} El? 與左視圖 I l I_l Il? 送入視差細化模塊中得到正則化后的視差圖 D f r ′ D^{fr'} Dfr:
I e r r = C o n v 3 × 3 ( [ E l , I l ] ) D f r ′ = h o u r g l a s s ( [ I e r r , C o n v 3 × 3 ( D N o r m f r ) ] ) (3) \begin{aligned}I_{err}&=Conv_{3\times3}([E_l,I_l])\\D^{fr'}&=hourglass([I_{err},Conv_{3\times3}(D_{Norm}^{fr})])\end{aligned}\tag{3} Ierr?Dfr?=Conv3×3?([El?,Il?])=hourglass([Ierr?,Conv3×3?(DNormfr?)])?(3)
最后根據歸一化視差圖計算原始視差圖:
D r e f i n e d = D f r ′ × w i d t h ( I l ) + m i n ( D f r ′ ) (4) D_{refined}=D^{fr^{\prime}}\times width(I_l)+min(D^{fr^{\prime}})\tag{4} Drefined?=Dfr×width(Il?)+min(Dfr)(4)


損失函數

L = ∑ i = 1 n ? 1 γ n ? i L 1 + L r e f i n e , w h e r e γ = 0.9. L 1 = ∣ ∣ d g t ? d i ∣ ∣ 1 L r e f i n e = ∣ ∣ d g t ? d r e f i n e d ∣ ∣ 1 (5) \begin{aligned} \text{L}& =\sum_{i=1}^{n-1}\gamma^{n-i}L_1+L_{refine},where\gamma=0.9. \\ L_{1}& =\left|\left|d_{gt}-d_i\right|\right|_1 \\ L_{refine}& =\left|\left|d_{gt}-d_{refined}\right|\right|_1 \end{aligned}\tag{5} LL1?Lrefine??=i=1n?1?γn?iL1?+Lrefine?,whereγ=0.9.=dgt??di?1?=dgt??drefined?1??(5)


實驗結果

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/215816.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/215816.shtml
英文地址,請注明出處:http://en.pswp.cn/news/215816.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

web漏洞原理與防御策略,web漏洞怎么挖掘

目錄 Web安全的重要性 ?編輯常見的Web漏洞類型及其原理: 1、跨站腳本攻擊(XSS): 2、SQL注入: 3、跨站請求偽造(CSRF): 4、遠程文件包含(RFI)和本地文件包含(LFI):…

Spring Boot實現接口冪等

Spring Boot實現接口冪等 1、pom依賴 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http:…

大創項目推薦 協同過濾電影推薦系統

文章目錄 1 簡介1 設計概要2 課題背景和目的3 協同過濾算法原理3.1 基于用戶的協同過濾推薦算法實現原理3.1.1 步驟13.1.2 步驟23.1.3 步驟33.1.4 步驟4 4 系統實現4.1 開發環境4.2 系統功能描述4.3 系統數據流程4.3.1 用戶端數據流程4.3.2 管理員端數據流程 4.4 系統功能設計 …

【軟件安裝】VMware安裝Centos7虛擬機并且設置靜態IP,實現Windows和Centos7網絡互相訪問

這篇文章&#xff0c;主要介紹VMware安裝Centos7虛擬機并且設置靜態IP&#xff0c;實現Windows和Centos7網絡互相訪問。 目錄 一、VMware安裝Centos7 1.1、下載Centos7鏡像 1.2、安裝Centos7系統 二、設置靜態IP地址 2.1、查看虛擬機網絡IP 2.2、禁用NetworkManager服務 …

每天五分鐘計算機視覺:VGG網絡相對于AlexNet網絡有哪些不同?

本文重點 在前面的課程中&#xff0c;我們已經學習了VGG網絡模型&#xff0c;也學習了AlexNet網絡模型&#xff0c;AlexNet模型先于VGG網絡模型產生&#xff0c;所以VGG在一定程度上要優于AlexNet模型&#xff0c;二者來看一下&#xff0c;二者究竟有什么不同&#xff1f; 深度…

Qt的坐標系系統 - 3個坐標系,2個變換

參考&#xff1a; https://zhuanlan.zhihu.com/p/584048811https://www.zhihu.com/tardis/zm/art/634951149?source_id1005 小談Qt的坐標系系統 Qt中有三個坐標系 設備坐標系窗口坐標系邏輯坐標系 設備坐標系: 即Device坐標系。也是物理坐標系。即真實的的物理坐標系。 …

給鼠標描述符打上注釋防止忘記

static uint8_t g_mouse_hid_desc[] { //通用桌面設備 0x05, 0x01, // USAGE_PAGE (Generic Desktop) //鼠標設備 0x09, 0x02, // USAGE (Mouse) //應用集合 0xa1, 0x01, // COLLECTION (Application) //指針設備 0x09, 0x01, // USAGE (Pointer) //物理集合 0xa1, 0x00, // C…

【Linux】free命令使用

free命令 ?free是指查看當前系統內存的使用情況&#xff0c;它顯示系統中剩余及已用的物理內存和交換內存&#xff0c;以及共享內存和被核心使用的緩沖區。 作者 作者&#xff1a;Brian Edmonds。 語法 free [參數] free 命令 -Linux手冊頁 命令選項及作用 執行令 &am…

【二分查找】【滑動窗口】LeeCode2528:最大化城市的最小電量

作者推薦 【動態規劃】【廣度優先】LeetCode2258:逃離火災 本文涉及的基礎知識點 二分查找算法合集 滑動窗口 題目 給你一個下標從 0 開始長度為 n 的整數數組 stations &#xff0c;其中 stations[i] 表示第 i 座城市的供電站數目。 每個供電站可以在一定 范圍 內給所有城…

Java學習總結

1. Java集合體系框架 java.util中包含 Java 最常用的the collections framework。 Java集合類主要由兩個根接口Collection和Map派生出來的。 Collection 接口派生出了三個子接口List、Set、Queue。Map 接口 因此Java集合大致也可分成List、Set、Queue、Map四種接口體系。 …

CDH6.3.2安裝

文章目錄 [toc]一、CM簡介1、ClouderaManager的概念2、ClouderaManager的功能3、ClouderaManager的架構 二、準備清單1、部署步驟2、集群規劃3、軟件環境準備 三、安裝清單1、操作系統iso包2、JDK包3、MySQL包4、CM和CDH包5、部署ansible 四、基礎環境準備1、配置網絡2、配置ho…

Java項目開發,業務比較復雜如何減少bug

Java項目開發&#xff0c;業務比較復雜如何減少bug 當Java開發工作涉及復雜業務時&#xff0c;可以采取以下方法來減少bug的數量&#xff1a; 1、深入了解業務需求 充分了解業務需求&#xff0c;與業務人員進行充分的溝通和交流&#xff0c;確保對需求的理解正確。在需求分析…

el-collapse 默認展開第一個(實測有效)

<el-collapse accordion v-model"activeCollapse"> <el-collapse-item v-for"(item, index) in assetList" :name"index" :key"item.id" > 我這個是通過循環, 只需要v-model 綁定的值和 name 相等,就可以實現展開 然后就…

重新認識Word——給圖、表、公式等自動編號

重新認識Word——給圖、表、公式等自動編號 給圖增加題注題注失敗的情況給圖添加“如圖xx-xx所示” 給公式插入題注第一步——先加題注第二步——設置兩個制表符 解決題注“圖一-1”的問題 前面我們已經學習了如何引用多級列表自動編號了&#xff0c;現在我們有第二個問題&…

大數據湖體系規劃與建設方案:PPT全文51頁,附下載

關鍵詞&#xff1a;大數據解決方案&#xff0c;數據湖解決方案&#xff0c;數據數倉建設方案&#xff0c;大數據湖建設規劃&#xff0c;大數據湖發展趨勢 一、大數據湖體系規劃與建設背景 在傳統的企業信息化建設中&#xff0c;各個業務系統通常是獨立建設的&#xff0c;導致…

學習筆記10——Mysql的DDL語句

學習筆記系列開頭慣例發布一些尋親消息 鏈接&#xff1a;https://baobeihuijia.com/bbhj/contents/3/197161.html 數據庫創建&#xff1a; CREATE DATABASE books&#xff1b; CREATE DATABASE IF NOT EXISTS books;更改字符集 ALTER DATABASE books CHARACTER SET gbk;庫的刪…

FFmpeg之AVFilterLink

這個結構體主要是用來link兩個filter的,它存在于每個AVFilterContext中 struct AVFilterContext {const AVClass *av_class; ///< needed for av_log() and filters common optionsconst AVFilter *filter; ///< the AVFilter of which this is an inst…

XX.push is not a function

錯誤通常發生在嘗試在非數組類型的變量上使用push方法 問題&#xff1a;定義了數組類型&#xff0c;用push方法一直報錯&#xff0c;感覺哪里都沒毛病 原因&#xff1a;雖然剛開始定義了數組類型&#xff0c;但可能是因為在代碼的某個地方將其重新賦值為了非數組類型的值。 …

【計算機網絡基礎2】IP地址和子網掩碼

1、IP地址 網絡地址 IP地址由網絡號&#xff08;包括子網號&#xff09;和主機號組成&#xff0c;網絡地址的主機號為全0&#xff0c;網絡地址代表著整個網絡。 廣播地址 廣播地址通常稱為直接廣播地址&#xff0c;是為了區分受限廣播地址。 廣播地址與網絡地址的主機號正…

Mybatis-Plus基礎之框架基礎

文章目錄 Mybatis-Plus 框架基礎引入 maven 依賴定義實體類&#xff0c;并標注注解定義 Mapper 接口&#xff0c;要求繼承自特定父接口使用 MapperScan 注解&#xff0c;掃描 mapper 接口所在位置驗證 Mybatis-Plus 框架基礎 MyBatis-Plus 是 MyBatis 的一種增強框架&#xff…