《Robust Synthetic-to-Real Transfer for Stereo Matching》

論文地址:https://arxiv.org/pdf/2403.07705
源碼地址:https://github.com/jiaw-z/DKT-Stereo


概述

通過在合成數據上預訓練的模型在未見領域上表現出強大的魯棒性。然而,在現實世界場景中對這些模型進行微調時,其領域泛化能力可能會嚴重下降。本文探討了在不損害模型對未見領域泛化能力的前提下,如何微調立體匹配網絡。研究動機來源于比較真實標簽(GT)與偽標簽(PL)在微調過程中的差異:GT會退化,但PL能夠保持領域泛化能力。通過實驗發現,GT與PL之間的差異包含了有價值的信息,這些信息可以在微調過程中對網絡進行正則化。文章還提出了一種框架,該框架包括一個凍結的教師網絡、一個指數移動平均(EMA)教師網絡和一個學生網絡。核心思想是利用EMA教師網絡來衡量學生網絡學到的內容,并動態改進GT和PL以進行微調。作者將該框架與最先進的網絡集成,并在多個真實世界數據集上評估了其有效性。本文的貢獻如下:

  • 首次嘗試解決微調立體匹配網絡時領域泛化能力下降的問題。我們基于真實標注和偽標注之間的差異將像素分為一致和不一致區域,并展示了它們在微調期間的不同作用。我們進一步分析了它們的作用,確定了導致領域泛化能力下降的兩個主要原因:在沒有足夠正則化的情況下學習新知識和過度擬合真實標注細節。
  • 提出了F&E模塊來解決這兩個原因,過濾掉不一致區域以避免正則化不足,并在一致區域集成視差以防止過度擬合真實標注細節。
  • 引入了通過結合指數移動平均教師來動態調整不同區域的方法,實現了在保留領域泛化能力和學習目標域知識之間的平衡。
  • 開發了DKT微調框架,可以輕松應用于現有網絡,顯著提高了它們對未見領域的魯棒性,并同時實現了有競爭力的目標域性能。

方法

在這里插入圖片描述

定義

文中將像素劃分為三類區域:
一致區域 X c ( τ ) X_c(\tau) Xc?(τ):偽標簽 D ^ ( x i ) \hat{D}(x_i) D^(xi?)與真實標簽 D ( x i ) D^(x_i) D(xi?)差異小于閾值 τ \tau τ的區域
X c ( τ ) = x ∣ ∣ D ^ ( x i ) ? D ( x i ) ∣ < τ X_c(\tau) = {x \mid |\hat{D}(x_i) - D^(x_i)| < \tau} Xc?(τ)=xD^(xi?)?D(xi?)<τ
該區域代表GT與PL高度對齊。
不一致區域 X i n c ( τ ) X_{inc}(\tau) Xinc?(τ):GT與PL差異大于等于 τ \tau τ的區域
X i n c ( τ ) = x ∣ ∣ D ^ ( x i ) ? D ? ( x i ) ∣ ≥ τ X_{inc}(\tau) = {x \mid |\hat{D}(x_i) - D^*(x_i)| \geq \tau} Xinc?(τ)=xD^(xi?)?D?(xi?)τ
網絡在該區域可能遇到預訓練未見的新挑戰。
無效區域 X i n v a l i d X_{invalid} Xinvalid?:因GT稀疏性導致無標注的區域

關鍵發現

GT微調的問題

  • 不一致區域:網絡學習新知識但缺乏正則化,導致域泛化能力下降。
  • 一致區域:網絡可能過擬合GT的細節。

PL的優勢

  • 一致區域:使用 X c ( 3 ) X_c(3) Xc?(3)的PL微調可保留域泛化能力。
  • 無效區域:PL在無標注區域的預測能提升泛化能力。

聯合訓練:直接聯合GT和PL效果不佳,但通過Filter and Ensemble (F&E)模塊動態優化標簽后,可平衡目標域性能和模型原有泛化能力。

DKT Framework

凍結教師:

??生成初始偽標簽,微調過程中參數凍結,保留預訓練模型的原始知識。

EMA教師:

??通過學生網絡權重動態更新
θ T ′ = m ? θ T ′ + ( 1 ? m ) ? θ S ( m ∈ [ 0 , 1 ] ) \theta_{T'} = m \cdot \theta_{T'} + (1-m) \cdot \theta_S \quad (m \in [0,1]) θT?=m?θT?+(1?m)?θS?(m[0,1])
EMA教師模型可以量化Student已掌握的知識,作為區域劃分依據來衡量一致/不一致區域。

學生模型:

??使用改進后的GT和PL進行訓練,最終用于推理,通過動態調整學習區域防止過擬合。

F&E模塊:

F&E-GT(處理真實標注)
??區域劃分:基于閾值τ(默認τ=3)將GT劃分為:
????1)不一致區域( X i n c X_{inc} Xinc?):|GT - EMA預測| ≥ τ。
????2)一致區域( X c X_c Xc?):|GT - EMA預測| < τ
??動態處理機制:
???? 1) X i n c X_{inc} Xinc?區域:以概率 p = 1 ? ∣ X i n c ∣ ∣ X v a l i d ∣ p=1-\frac{|X_{inc}|}{|X_{valid}|} p=1?Xvalid?Xinc??隨機保留,減少高難度區域對學習過程的干擾。
???? 2) X c X_c Xc?區域:通過隨機權重α對GT和EMA預測進行線性插值:
D ˉ c ? = α ? D ? + ( 1 ? α ) ? D ^ T ′ ( α ~ U ( 0 , 1 ) ) \bar{D}^*_c = \alpha \cdot D^* + (1-\alpha) \cdot \hat{D}^{T'} \quad (\alpha \sim U(0,1)) Dˉc??=α?D?+(1?α)?D^T(αU(0,1))
此外,將其限制輸出與GT的偏差在±1像素內,且添加細粒度擾動防止細節過擬合。

F&E-PL(處理偽標簽)

??區域篩選:通過掩碼 M ^ = ∣ D ^ T ? D ^ T ′ ∣ < τ \hat{M} = \vert \hat{D}^{T} - \hat{D}^{T'} \vert < \tau M^=D^T?D^T<τ 過濾不一致區域。

??精度提升機制:在一致區域使用隨機權重β集成兩個Teacher的預測,漸進式提升PL質量:
D T = β ? D ^ T + ( 1 ? β ) ? D ^ T ′ ( β ~ U ( 0 , 1 ) ) D_T = \beta \cdot \hat{D}T + (1-\beta) \cdot \hat{D}{T'} \quad (\beta \sim U(0,1)) DT?=β?D^T+(1?β)?D^T(βU(0,1))

訓練策略
最終損失函數結合改進后的GT和PL監督:
L = L d i s p ( D ^ , D ˉ ? , M ? ) + λ L d i s p ( D ^ , D ˉ T , M ^ ) L = L_{disp}(\hat{D}, \bar{D}^* ,M^*) + \lambda L_{disp}(\hat{D}, \bar{D}^T, \hat{M}) L=Ldisp?(D^,Dˉ?,M?)+λLdisp?(D^,DˉT,M^)
EMA重置機制:每5k步將EMA Teacher權重重置為當前Student, 使區域劃分隨學習進度動態更新。


實驗

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/73629.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/73629.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/73629.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

藍橋杯第10屆 后綴表達式

題目描述 給定 N 個加號、M 個減號以及 NM1 個整數 A1,A2,???,ANM1?&#xff0c;小明想知道在所有由這N 個加號、M 個減號以及 NM1 個整數湊出的合法的 后綴表達式中&#xff0c;結果最大的是哪一個&#xff1f; 請你輸出這個最大的結果。 例如使用 1 2 3 -&#xff0c…

C++前綴和

個人主頁&#xff1a;[PingdiGuo_guo] 收錄專欄&#xff1a;[C干貨專欄] 大家好&#xff0c;今天我們來了解一下C的一個重要概念&#xff1a;前綴和 目錄 1.什么是前綴和 2.前綴和的用法 1.前綴和的定義 2.預處理前綴和數組 3.查詢區間和 4.數組中某個區間的和是否為特定…

uni app跨端開發遇到的問題

技術棧 uni app&#xff0c;vue3&#xff0c;uview puls&#xff0c;map… nvue 因為項目中有地圖&#xff0c;要使用到map標簽&#xff0c;所以考慮用原生nvue開發&#xff0c;它是有痛點的&#xff0c;首先瀏覽器不支持&#xff0c;我是要開發ios和Android&#xff0c;所以…

SQL注入操作

sql注入 一&#xff0c;SQL注入分類按照注入的網頁功能類型分類按照注入點值的屬性分類基于從服務器返回內容按照注入的程度和順序 一&#xff0c;SQL注入分類 按照注入的網頁功能類型分類 登錄注入cms注入 cms邏輯&#xff1a;index.php首頁展示內容&#xff0c;具有文章列表…

微信 MMTLS 協議詳解(五):加密實現

常用的解密算法&#xff0c;對稱非對稱 加密&#xff0c;密鑰協商&#xff0c; 帶消息認證的加解密 #生成RSA 密鑰對 void GenerateRsaKeypair(std::string& public_key,std::string& private_key) {RSA* rsa RSA_new();BIGNUM* bn BN_new();// 生成 RSA 密鑰對BN_s…

ROS melodic 安裝 python3 cv_bridge

有時候&#xff0c;我們需要處理這些兼容性問題。此處列舉我的過程&#xff0c;以供參考 mkdir -p my_ws_py39/src cd my_ws_py39 catkin_make_isolated-DPYTHON_EXECUTABLE/usr/bin/python3 \-DPYTHON_INCLUDE_DIR/usr/include/python3.8 \-DPYTHON_LIBRARY/usr/lib/x86_64-l…

深入學習:SpringQuartz的配置方式!

全文目錄&#xff1a; 開篇語前言摘要概述1. 基于 XML 的傳統配置配置步驟1.1 Maven 依賴1.2 XML 配置文件1.3 實現 Job 類 2. 基于 Java Config 的現代配置方式配置步驟2.1 Maven 依賴2.2 配置類2.3 實現 Job 類 3. 動態任務調度動態添加任務動態刪除任務 4. Quartz 持久化配置…

ClickHouse與TiDB實操對比:從入門到實戰的深度剖析

ClickHouse與TiDB實操對比&#xff1a;從入門到實戰的深度剖析 寶子們&#xff0c;在當今數據驅動的時代&#xff0c;選擇合適的數據庫對于處理海量數據和支撐業務發展至關重要。ClickHouse和TiDB作為兩款備受關注的數據庫&#xff0c;各自有著獨特的優勢和適用場景。今天&…

element-ui messageBox 組件源碼分享

messageBox 彈框組件源碼分享&#xff0c;主要從以下兩個方面&#xff1a; 1、messageBox 組件頁面結構。 2、messageBox 組件屬性。 一、組件頁面結構。 二、組件屬性。 2.1 title 標題&#xff0c;類型為 string&#xff0c;無默認值。 2.2 message 消息正文內容&#xf…

睡眠健康領域的智能硬件設備未來的發展趨勢

隨著社會節奏的不斷加快&#xff0c;人們的睡眠問題愈發多了起來&#xff0c;主要表現有以下幾個方面&#xff1a; 睡眠質量下降 淺睡眠增多&#xff1a;現代生活中&#xff0c;人們面臨著各種壓力源&#xff0c;如工作壓力、生活瑣事、經濟壓力等&#xff0c;這些壓力會導致大…

支付頁面安全與E-Skimming防護----淺談PCI DSS v4.0.1要求6.4.3與11.6.1的實施

關鍵詞&#xff1a;支付頁面安全、E-Skimming、PCI DSS v4.0.1、第三方腳本、風險管理、持卡人數據、數據安全、第三方服務提供商、TPSP、內容安全、網頁監控、惡意腳本攻擊 本文為atsec和作者技術共享類文章&#xff0c;旨在共同探討信息安全的相關話題。轉載請注明&#xff…

【gradio】從零搭建知識庫問答系統-Gradio+Ollama+Qwen2.5實現全流程

從零搭建大模型問答系統-GradioOllamaQwen2.5實現全流程&#xff08;一&#xff09; 前言一、界面設計&#xff08;計劃&#xff09;二、模塊設計1.登錄模塊2.注冊模塊3. 主界面模塊4. 歷史記錄模塊 三、相應的接口&#xff08;前后端交互&#xff09;四、實現前端界面的設計co…

案例分享|樹莓派媒體播放器,重構商場廣告的“黃金三秒”

研究顯示&#xff0c;與傳統戶外廣告相比&#xff0c;數字戶外廣告在消費者心中的記憶率提高了17%&#xff0c;而動態戶外廣告更是能提升16%的銷售業績&#xff0c;整體廣告效率提升了17%。這一顯著優勢&#xff0c;使得越來越多資源和技術流入數字廣告行業。 戶外裸眼3D廣告 無…

23種設計模式-裝飾器(Decorator)設計模式

裝飾器設計模式 &#x1f6a9;什么是裝飾器設計模式&#xff1f;&#x1f6a9;裝飾器設計模式的特點&#x1f6a9;裝飾器設計模式的結構&#x1f6a9;裝飾器設計模式的優缺點&#x1f6a9;裝飾器設計模式的Java實現&#x1f6a9;代碼總結&#x1f6a9;總結 &#x1f6a9;什么是…

[Vue]事件修飾符

文章目錄 一、語法介紹二、添加代碼三、結果展示四、參考文獻 如有錯誤&#xff0c;請指正&#xff01;&#xff01;&#xff01; 一、語法介紹 1、問題來源 我們在處理網頁時&#xff0c;當點擊按鈕時會觸發對應事件&#xff0c;但是有時并不想觸發該時間&#xff0c…

Go 語言 sync 包使用教程

Go 語言 sync 包使用教程 Go 語言的 sync 包提供了基本的同步原語&#xff0c;用于在并發編程中協調 goroutine 之間的操作。 1. 互斥鎖 (Mutex) 互斥鎖用于保護共享資源&#xff0c;確保同一時間只有一個 goroutine 可以訪問。 特點&#xff1a; 最基本的同步原語&#x…

ubuntu22.04安裝搜狗輸入法保姆教程~

一、添加中文語言支持 1.首先打開設置,找到Language and Region 2.點擊Manage Installed Languages 3.點擊 Install/Remove Languages... 4.選中Chinese (simplified),點擊Apply

docker中間件部署

1.docker安裝 # 1.卸載舊版本 yum remove docker \docker-client \docker-client-latest \docker-common \docker-latest \docker-latest-logrotate \docker-logrotate \docker-engine# 2.需要的安裝包 yum install -y yum-utils# 3.設置鏡像的倉庫 # 3.1.默認是國外的&#x…

python康復日記-request庫的使用,爬蟲自動化測試

一&#xff0c;request的簡單應用 #1請求地址 URLhttps://example.com/login #2參數表單 form_data {username: admin,password: secret } #3返回的響應對象response response requests.post(URL,dataform_data,timeout5 ) #4處理返回結果&#xff0c;這里直接打印返回網頁的…

強化學習和智能決策:Q-Learning和Deep Q-Learning算法

強化學習(Reinforcement Learning, RL)是機器學習的一個重要分支,它通過智能體(Agent)與環境交互來學習最優決策策略,旨在最大化智能體的長期累積獎勵。Q-Learning和Deep Q-Learning是強化學習中的兩種關鍵算法,它們在智能決策領域發揮著重要作用。 一、強化學習基礎 …