論文地址:https://arxiv.org/pdf/2403.07705
源碼地址:https://github.com/jiaw-z/DKT-Stereo
概述
通過在合成數據上預訓練的模型在未見領域上表現出強大的魯棒性。然而,在現實世界場景中對這些模型進行微調時,其領域泛化能力可能會嚴重下降。本文探討了在不損害模型對未見領域泛化能力的前提下,如何微調立體匹配網絡。研究動機來源于比較真實標簽(GT)與偽標簽(PL)在微調過程中的差異:GT會退化,但PL能夠保持領域泛化能力。通過實驗發現,GT與PL之間的差異包含了有價值的信息,這些信息可以在微調過程中對網絡進行正則化。文章還提出了一種框架,該框架包括一個凍結的教師網絡、一個指數移動平均(EMA)教師網絡和一個學生網絡。核心思想是利用EMA教師網絡來衡量學生網絡學到的內容,并動態改進GT和PL以進行微調。作者將該框架與最先進的網絡集成,并在多個真實世界數據集上評估了其有效性。本文的貢獻如下:
- 首次嘗試解決微調立體匹配網絡時領域泛化能力下降的問題。我們基于真實標注和偽標注之間的差異將像素分為一致和不一致區域,并展示了它們在微調期間的不同作用。我們進一步分析了它們的作用,確定了導致領域泛化能力下降的兩個主要原因:在沒有足夠正則化的情況下學習新知識和過度擬合真實標注細節。
- 提出了F&E模塊來解決這兩個原因,過濾掉不一致區域以避免正則化不足,并在一致區域集成視差以防止過度擬合真實標注細節。
- 引入了通過結合指數移動平均教師來動態調整不同區域的方法,實現了在保留領域泛化能力和學習目標域知識之間的平衡。
- 開發了DKT微調框架,可以輕松應用于現有網絡,顯著提高了它們對未見領域的魯棒性,并同時實現了有競爭力的目標域性能。
方法
定義
文中將像素劃分為三類區域:
一致區域 X c ( τ ) X_c(\tau) Xc?(τ):偽標簽 D ^ ( x i ) \hat{D}(x_i) D^(xi?)與真實標簽 D ( x i ) D^(x_i) D(xi?)差異小于閾值 τ \tau τ的區域
X c ( τ ) = x ∣ ∣ D ^ ( x i ) ? D ( x i ) ∣ < τ X_c(\tau) = {x \mid |\hat{D}(x_i) - D^(x_i)| < \tau} Xc?(τ)=x∣∣D^(xi?)?D(xi?)∣<τ
該區域代表GT與PL高度對齊。
不一致區域 X i n c ( τ ) X_{inc}(\tau) Xinc?(τ):GT與PL差異大于等于 τ \tau τ的區域
X i n c ( τ ) = x ∣ ∣ D ^ ( x i ) ? D ? ( x i ) ∣ ≥ τ X_{inc}(\tau) = {x \mid |\hat{D}(x_i) - D^*(x_i)| \geq \tau} Xinc?(τ)=x∣∣D^(xi?)?D?(xi?)∣≥τ
網絡在該區域可能遇到預訓練未見的新挑戰。
無效區域 X i n v a l i d X_{invalid} Xinvalid?:因GT稀疏性導致無標注的區域
關鍵發現
GT微調的問題:
- 不一致區域:網絡學習新知識但缺乏正則化,導致域泛化能力下降。
- 一致區域:網絡可能過擬合GT的細節。
PL的優勢:
- 一致區域:使用 X c ( 3 ) X_c(3) Xc?(3)的PL微調可保留域泛化能力。
- 無效區域:PL在無標注區域的預測能提升泛化能力。
聯合訓練:直接聯合GT和PL效果不佳,但通過Filter and Ensemble (F&E)模塊動態優化標簽后,可平衡目標域性能和模型原有泛化能力。
DKT Framework
凍結教師:
??生成初始偽標簽,微調過程中參數凍結,保留預訓練模型的原始知識。
EMA教師:
??通過學生網絡權重動態更新
θ T ′ = m ? θ T ′ + ( 1 ? m ) ? θ S ( m ∈ [ 0 , 1 ] ) \theta_{T'} = m \cdot \theta_{T'} + (1-m) \cdot \theta_S \quad (m \in [0,1]) θT′?=m?θT′?+(1?m)?θS?(m∈[0,1])
EMA教師模型可以量化Student已掌握的知識,作為區域劃分依據來衡量一致/不一致區域。
學生模型:
??使用改進后的GT和PL進行訓練,最終用于推理,通過動態調整學習區域防止過擬合。
F&E模塊:
F&E-GT(處理真實標注)
??區域劃分:基于閾值τ(默認τ=3)將GT劃分為:
????1)不一致區域( X i n c X_{inc} Xinc?):|GT - EMA預測| ≥ τ。
????2)一致區域( X c X_c Xc?):|GT - EMA預測| < τ
??動態處理機制:
???? 1) X i n c X_{inc} Xinc?區域:以概率 p = 1 ? ∣ X i n c ∣ ∣ X v a l i d ∣ p=1-\frac{|X_{inc}|}{|X_{valid}|} p=1?∣Xvalid?∣∣Xinc?∣?隨機保留,減少高難度區域對學習過程的干擾。
???? 2) X c X_c Xc?區域:通過隨機權重α對GT和EMA預測進行線性插值:
D ˉ c ? = α ? D ? + ( 1 ? α ) ? D ^ T ′ ( α ~ U ( 0 , 1 ) ) \bar{D}^*_c = \alpha \cdot D^* + (1-\alpha) \cdot \hat{D}^{T'} \quad (\alpha \sim U(0,1)) Dˉc??=α?D?+(1?α)?D^T′(α~U(0,1))
此外,將其限制輸出與GT的偏差在±1像素內,且添加細粒度擾動防止細節過擬合。
F&E-PL(處理偽標簽)
??區域篩選:通過掩碼 M ^ = ∣ D ^ T ? D ^ T ′ ∣ < τ \hat{M} = \vert \hat{D}^{T} - \hat{D}^{T'} \vert < \tau M^=∣D^T?D^T′∣<τ 過濾不一致區域。
??精度提升機制:在一致區域使用隨機權重β集成兩個Teacher的預測,漸進式提升PL質量:
D T = β ? D ^ T + ( 1 ? β ) ? D ^ T ′ ( β ~ U ( 0 , 1 ) ) D_T = \beta \cdot \hat{D}T + (1-\beta) \cdot \hat{D}{T'} \quad (\beta \sim U(0,1)) DT?=β?D^T+(1?β)?D^T′(β~U(0,1))
訓練策略
最終損失函數結合改進后的GT和PL監督:
L = L d i s p ( D ^ , D ˉ ? , M ? ) + λ L d i s p ( D ^ , D ˉ T , M ^ ) L = L_{disp}(\hat{D}, \bar{D}^* ,M^*) + \lambda L_{disp}(\hat{D}, \bar{D}^T, \hat{M}) L=Ldisp?(D^,Dˉ?,M?)+λLdisp?(D^,DˉT,M^)
EMA重置機制:每5k步將EMA Teacher權重重置為當前Student, 使區域劃分隨學習進度動態更新。
實驗