今天讀一篇ICCV 2025的文章,關注的是Generalizable Gaussian Splatting,作者來自華中科技大學。
文章鏈接:arxiv
代碼倉庫:https://github.com/EuclidLou/MuGS(摘要中的鏈接,但暫時404)
文章目錄
- 1 Introduction
- 2 Related Work
- 3 Preliminary
- 4 Method
- 4.2 MDE-based Depth Refining
- (a) Projection & Sampling Consistency
- (b) Probability Refinement
- 4.3 Feature Enhancement & Gaussian Regression
- (a) Feature Enhancement
- (b) Expectation & Heads
- 4.4 Multi-View Rendering & Reference Loss
- 5 Experiments
- 5.1 Settings
- 5.2 結Results
- 5.3 Ablation
1 Introduction
3D-GS渲染高效,但傳統做法需逐場景優化;已有可泛化方法通常只對小基線或大基線其中一種場景友好,跨基線(不同相機間基線長度差異大)時效果不穩。
- 核心目標:提出一個無需per-scene優化、能在稀疏視角下同時適配小/大基線的通用3D-GS重建框架。
- 關鍵思路:以深度準確性為切入點,聯合利用MVS的幾何一致性與單目深度(MDE)的先驗魯棒性;通過投影-采樣一致性細化粗深度概率體,使高斯的空間放置更穩定,從而提升跨基線泛化與渲染質量。
- 主要貢獻:
- 多基線通用的可泛化3D-GS pipeline(純前向推理)
- 投影-采樣一致性模塊,細化深度概率體
- 特征增強(融合MVS/MDE特征)→ 穩定回歸高斯參數
- 參考視角監督(Reference-view loss)→ 強化幾何 & 加速收斂
2 Related Work
- 傳統/學習式MVS:前者依賴手工相似度與隨機擾動;后者用代價體+網絡正則,效率/泛化與精度存在權衡。跨大基線時,遮擋/視差分布與重疊區域不足會削弱匹配可靠性。
- 可泛化NVS/3D-GS:已有方法多在深度估計不穩(尤其低紋理、鏡面、寬基線)時退化,導致高斯位置/尺度不準、渲染模糊。
- 單目深度(MDE):提供結構先驗,但存在尺度/偏移誤差;直接用作幾何會引入系統性偏差。MuGS通過與MVS的投影-采樣一致性來“相互校正”。
3 Preliminary
4 Method
- 輸入:參考視角(目標渲染視角)+ 若干源視角(通常稀疏,多基線分布)。
- 雙分支特征與深度:
- MVS 分支:構建目標視角的粗深度概率體 (V_p)(基于多視角特征/代價體)。
- MDE 分支:對每個源視角輸出單目深度圖 (D_i) 與單目特征。
- 投影-采樣一致性:把 (V_p) 中候選深度點投影到各源視角,與 (D_i) 上采樣到的深度對比,得到一致性線索,用于細化 (V_p\rightarrow V_p^{\text{fine}})。
- 特征增強與回歸:
- 將 MVS 與 MDE 特征對齊聚合為VfV_fVf?
- 以 VpfineV_p^{\text{fine}}Vpfine?的分布在深度維求期望,獲得期望深度/特征
- 通過多頭 MLP 回歸每像素的高斯參數 {μ,s,r,α,c}\{\mu,s,r,\alpha,c\}{μ,s,r,α,c}
- 渲染與監督:渲染目標視角與若干源視角(參考監督),計算重建損失
4.2 MDE-based Depth Refining
(a) Projection & Sampling Consistency
- 對粗概率體 VpV_pVp? 中的每個候選點 PPP(在目標視角坐標系):
- 投影到源視角 (i):
Pi??dpi=Ki(RiP+ti)P_{i}^{*} \cdot d_{p}^{i} = K_{i} (R_{i} P + t_{i})Pi???dpi?=Ki?(Ri?P+ti?)
得到投影深度dpid_{p}^{i}dpi?與像素Pi?P_{i}^{*}Pi?? - 在單目深度圖DiD_iDi?的Pi?P_{i}^{*}Pi??處雙線性采樣得到采樣深度dsid_s^idsi?。
- 一致性線索:利用 (dpi,dsi,dsi/dpi)(d_{p}^{i}, d_{s}^{i}, d_{s}^{i}/d_{p}^{i})(dpi?,dsi?,dsi?/dpi?) 以及區域上下文,經卷積網絡得到體素級一致性體VciV_{c}^{i}Vci?。
- 投影到源視角 (i):
- 直覺:若候選點靠近真實表面,投影深度 ≈ 采樣深度;偏離表面時差異增加。一致性越高,越應當提升該深度候選的概率。
(b) Probability Refinement
- 聚合多視角一致性。
- 以VcV_cVc?作為Query、VpV_pVp?作為Key/Value做深度向注意力(或門控融合):
Vpfine=Attention(Vc,Vp,Vp)+VpV_{p}^{\text{fine}}=\text{Attention}(V_c, V_p, V_p)+V_pVpfine?=Attention(Vc?,Vp?,Vp?)+Vp?
在保留可靠 MVS 證據的同時,重點提高接近真實表面的概率質量。
4.3 Feature Enhancement & Gaussian Regression
(a) Feature Enhancement
- 將源視角的 MDE 特征 與 MVS 特征 扭曲對齊到目標視角的等深平面/錐體,再沿視角維/深度維做聚合,得到特征體。
- VpfineV_p^{\text{fine}}Vpfine? 提供幾何先驗,引導VfV_fVf?的深度選擇與融合。
(b) Expectation & Heads
- 期望深度/特征:以VpfineV_p^{\text{fine}}Vpfine?作為權重,在深度維求期望獲得D^\hat{D}D^與F^\hat{F}F^。
- 逐像素回歸高斯參數(多頭 MLP):
- 幾何放置:將像素(u,v)(u,v)(u,v)結合D^\hat{D}D^反投影到3D得中心 μ\muμ,與 (s,r,α,c)(s,r,\alpha,c)(s,r,α,c)共同組成像素對齊高斯用于渲染。
4.4 Multi-View Rendering & Reference Loss
- 目標視角損失:顏色重建L1L_1L1?、結構相似LSSIML_{\text{SSIM}}LSSIM?、感知損失LLPIPSL_{\text{LPIPS}}LLPIPS?等。
- 參考視角損失:用目標視角生成的高斯直接渲染源視角圖像,施加L1L_1L1?等重建約束,從而:
- 強化跨視角幾何一致性;
- 在相同訓練步數下更快收斂(顯著提升早期PSNR)。
5 Experiments
5.1 Settings
- 數據:小基線(如 DTU)、大基線(如 RealEstate10K 兩幀間隔大)、以及零樣本評測(LLFF / Mip-NeRF360)。
- 單目分支:采用強魯棒的通用單目深度(如 Depth-Anything v2)以增強先驗泛化。
- 評價:渲染質量(PSNR/SSIM/LPIPS)、幾何(深度誤差/F-score)、速度(FPS/吞吐)。
5.2 結Results
- 小基線(DTU):在 2/3 視角輸入下較既有可泛化方法取得更高 PSNR/SSIM,邊緣與細節更干凈。
- 大基線(RealEstate10K):在 2 視角且幀間距很大時,仍保持清晰結構與正確尺度關系,PSNR 明顯領先。
- 零樣本(LLFF / Mip-NeRF360):無需微調即具備穩定質量與幾何一致性,表明跨場景泛化良好。
- 速度與穩定性:顯式高斯渲染帶來較高推理效率;參考監督幫助訓練更快到達高質量解。
5.3 Ablation
- 去除投影-采樣一致性:深度概率體變寬/錯峰,幾何抖動增大,PSNR/深度精度明顯下降。
- 去除特征增強:顏色一致性與紋理細節降低,邊界模糊。
- 去除參考監督:相同訓練步數下 PSNR 降低、收斂變慢;最終幾何也更差。