【論文簡讀】MuGS

在這里插入圖片描述

今天讀一篇ICCV 2025的文章,關注的是Generalizable Gaussian Splatting,作者來自華中科技大學。

文章鏈接:arxiv
代碼倉庫:https://github.com/EuclidLou/MuGS(摘要中的鏈接,但暫時404)

文章目錄

  • 1 Introduction
  • 2 Related Work
  • 3 Preliminary
  • 4 Method
    • 4.2 MDE-based Depth Refining
      • (a) Projection & Sampling Consistency
      • (b) Probability Refinement
    • 4.3 Feature Enhancement & Gaussian Regression
      • (a) Feature Enhancement
      • (b) Expectation & Heads
    • 4.4 Multi-View Rendering & Reference Loss
  • 5 Experiments
    • 5.1 Settings
    • 5.2 結Results
    • 5.3 Ablation

1 Introduction

3D-GS渲染高效,但傳統做法需逐場景優化;已有可泛化方法通常只對小基線大基線其中一種場景友好,跨基線(不同相機間基線長度差異大)時效果不穩。

  • 核心目標:提出一個無需per-scene優化、能在稀疏視角下同時適配小/大基線通用3D-GS重建框架。
  • 關鍵思路:以深度準確性為切入點,聯合利用MVS的幾何一致性與單目深度(MDE)的先驗魯棒性;通過投影-采樣一致性細化粗深度概率體,使高斯的空間放置更穩定,從而提升跨基線泛化與渲染質量。
  • 主要貢獻
    1. 多基線通用的可泛化3D-GS pipeline(純前向推理)
    2. 投影-采樣一致性模塊,細化深度概率體
    3. 特征增強(融合MVS/MDE特征)→ 穩定回歸高斯參數
    4. 參考視角監督(Reference-view loss)→ 強化幾何 & 加速收斂

2 Related Work

  • 傳統/學習式MVS:前者依賴手工相似度與隨機擾動;后者用代價體+網絡正則,效率/泛化與精度存在權衡。跨大基線時,遮擋/視差分布與重疊區域不足會削弱匹配可靠性。
  • 可泛化NVS/3D-GS:已有方法多在深度估計不穩(尤其低紋理、鏡面、寬基線)時退化,導致高斯位置/尺度不準、渲染模糊。
  • 單目深度(MDE):提供結構先驗,但存在尺度/偏移誤差;直接用作幾何會引入系統性偏差。MuGS通過與MVS的投影-采樣一致性來“相互校正”。

3 Preliminary

4 Method

在這里插入圖片描述

  • 輸入:參考視角(目標渲染視角)+ 若干源視角(通常稀疏,多基線分布)。
  • 雙分支特征與深度
    • MVS 分支:構建目標視角的粗深度概率體 (V_p)(基于多視角特征/代價體)。
    • MDE 分支:對每個源視角輸出單目深度圖 (D_i) 與單目特征
  • 投影-采樣一致性:把 (V_p) 中候選深度點投影到各源視角,與 (D_i) 上采樣到的深度對比,得到一致性線索,用于細化 (V_p\rightarrow V_p^{\text{fine}})
  • 特征增強與回歸
    • 將 MVS 與 MDE 特征對齊聚合為VfV_fVf?
    • VpfineV_p^{\text{fine}}Vpfine?的分布在深度維求期望,獲得期望深度/特征
    • 通過多頭 MLP 回歸每像素的高斯參數 {μ,s,r,α,c}\{\mu,s,r,\alpha,c\}{μ,s,r,α,c}
  • 渲染與監督:渲染目標視角與若干源視角(參考監督),計算重建損失

4.2 MDE-based Depth Refining

(a) Projection & Sampling Consistency

  • 對粗概率體 VpV_pVp? 中的每個候選點 PPP(在目標視角坐標系):
    1. 投影到源視角 (i)
      Pi??dpi=Ki(RiP+ti)P_{i}^{*} \cdot d_{p}^{i} = K_{i} (R_{i} P + t_{i})Pi???dpi?=Ki?(Ri?P+ti?)
      得到投影深度dpid_{p}^{i}dpi?與像素Pi?P_{i}^{*}Pi??
    2. 在單目深度圖DiD_iDi?Pi?P_{i}^{*}Pi??雙線性采樣得到采樣深度dsid_s^idsi?
    3. 一致性線索:利用 (dpi,dsi,dsi/dpi)(d_{p}^{i}, d_{s}^{i}, d_{s}^{i}/d_{p}^{i})(dpi?,dsi?,dsi?/dpi?) 以及區域上下文,經卷積網絡得到體素級一致性體VciV_{c}^{i}Vci?
  • 直覺:若候選點靠近真實表面,投影深度 ≈ 采樣深度;偏離表面時差異增加。一致性越高,越應當提升該深度候選的概率。

(b) Probability Refinement

  • 聚合多視角一致性。
  • VcV_cVc?作為Query、VpV_pVp?作為Key/Value做深度向注意力(或門控融合):
    Vpfine=Attention(Vc,Vp,Vp)+VpV_{p}^{\text{fine}}=\text{Attention}(V_c, V_p, V_p)+V_pVpfine?=Attention(Vc?,Vp?,Vp?)+Vp?
    在保留可靠 MVS 證據的同時,重點提高接近真實表面的概率質量。

4.3 Feature Enhancement & Gaussian Regression

(a) Feature Enhancement

  • 將源視角的 MDE 特征MVS 特征 扭曲對齊到目標視角的等深平面/錐體,再沿視角維/深度維做聚合,得到特征體。
  • VpfineV_p^{\text{fine}}Vpfine? 提供幾何先驗,引導VfV_fVf?的深度選擇與融合。

(b) Expectation & Heads

  • 期望深度/特征:以VpfineV_p^{\text{fine}}Vpfine?作為權重,在深度維求期望獲得D^\hat{D}D^F^\hat{F}F^
  • 逐像素回歸高斯參數(多頭 MLP):
  • 幾何放置:將像素(u,v)(u,v)(u,v)結合D^\hat{D}D^反投影到3D得中心 μ\muμ,與 (s,r,α,c)(s,r,\alpha,c)(s,r,α,c)共同組成像素對齊高斯用于渲染。

4.4 Multi-View Rendering & Reference Loss

  • 目標視角損失:顏色重建L1L_1L1?、結構相似LSSIML_{\text{SSIM}}LSSIM?、感知損失LLPIPSL_{\text{LPIPS}}LLPIPS?等。
  • 參考視角損失:用目標視角生成的高斯直接渲染源視角圖像,施加L1L_1L1?等重建約束,從而:
    • 強化跨視角幾何一致性
    • 在相同訓練步數下更快收斂(顯著提升早期PSNR)。

5 Experiments

5.1 Settings

  • 數據:小基線(如 DTU)、大基線(如 RealEstate10K 兩幀間隔大)、以及零樣本評測(LLFF / Mip-NeRF360)。
  • 單目分支:采用強魯棒的通用單目深度(如 Depth-Anything v2)以增強先驗泛化。
  • 評價:渲染質量(PSNR/SSIM/LPIPS)、幾何(深度誤差/F-score)、速度(FPS/吞吐)。

5.2 結Results

  • 小基線(DTU):在 2/3 視角輸入下較既有可泛化方法取得更高 PSNR/SSIM,邊緣與細節更干凈。
  • 大基線(RealEstate10K):在 2 視角且幀間距很大時,仍保持清晰結構與正確尺度關系,PSNR 明顯領先。
  • 零樣本(LLFF / Mip-NeRF360):無需微調即具備穩定質量與幾何一致性,表明跨場景泛化良好。
  • 速度與穩定性:顯式高斯渲染帶來較高推理效率;參考監督幫助訓練更快到達高質量解。

5.3 Ablation

  • 去除投影-采樣一致性:深度概率體變寬/錯峰,幾何抖動增大,PSNR/深度精度明顯下降。
  • 去除特征增強:顏色一致性與紋理細節降低,邊界模糊。
  • 去除參考監督:相同訓練步數下 PSNR 降低、收斂變慢;最終幾何也更差。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/94685.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/94685.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/94685.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于SpringBoot和百度人臉識別API開發的保安門禁系統

角色: 管理員、保安 技術: Spring Boot, MyBatis, MySQL, PageHelper, Bootstrap, jQuery, JavaScript, CSS3, HTML5, JSP, 百度人臉識別API 核心功能: 小區保安門禁系統是一個基于Spring Boot技術棧開發的綜合性平臺,旨在實現小區…

抖音電商首創最嚴珠寶玉石質檢體系,推動行業規范與消費擴容

8月27日,“抖音電商開放日質檢專場”活動在廣州華林國際舉行。活動上,抖音電商首次對外介紹了質檢倉配一體化中心(QIC)的運作流程,并發布了服務升級計劃。這一行業首創的“先鑒定后發貨”模式,被認為推動了…

SpringBoot整合Spring WebFlux棄用自帶的logback,使用log4j2,并啟動異步日志處理

第一步&#xff1a;修改pom文件<!-- Spring Boot Starter WebFlux (排除默認日志) --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-webflux</artifactId><version>${spring-boot.vers…

理解虛擬 DOM:前端開發中的高效渲染利器

在前端開發中&#xff0c;我們經常聽到 虛擬 DOM&#xff08;Virtual DOM&#xff09; 這個概念。它是 React、Vue 等框架的核心機制之一&#xff0c;用來提升性能和簡化開發。那么&#xff0c;虛擬 DOM 到底是什么&#xff1f;為什么要用它&#xff1f;又是如何工作的呢&#…

GraphRAG數據可視化

GraphRAG數據可視化

vue/react項目如何跳轉到一個已經寫好的html頁面

如果是一個你copy的別人的網站&#xff0c;某些頁面是已經可以直接使用的&#xff0c;但是有些頁面需要在vue/react項目中重新二次調整加工&#xff0c;這個時候&#xff0c;就需要將html文件和vue/react項目結合&#xff0c;當某些頁面可以直接使用&#xff0c;就直接跳轉到這…

MYSQL-表的約束(下)

目錄 自增長 唯一鍵 外鍵 自增長 MySQL自增長&#xff08;Auto-Increment&#xff09; 是一種字段屬性&#xff0c;用于為表中的記錄自動生成唯一的連續整數&#xff0c;常作為主鍵或唯一標識字段使用&#xff0c;避免手動輸入重復值。 核心特性 1. 自動賦值&#xff1a…

《UE5_C++多人TPS完整教程》學習筆記44 ——《P45 傾斜與側向移動(Leaning And Strafing)》

本文為B站系列教學視頻 《UE5_C多人TPS完整教程》 —— 《P45 傾斜與側向移動&#xff08;Leaning And Strafing&#xff09;》 的學習筆記&#xff0c;該系列教學視頻為計算機工程師、程序員、游戲開發者、作家&#xff08;Engineer, Programmer, Game Developer, Author&…

使用docker搭建嵌入式Linux開發環境

文章目錄1、前言2、安裝docker3、編寫容器管理腳本4、創建容器1、前言 在日常開發全志、rk等不同平臺時&#xff0c;大多數時候只有一個編譯主機&#xff0c;但不同sdk所需要的編譯環境可能不同。所以本文將記錄使用docker為每個平臺創建獨立的開發環境。 2、安裝docker # 1…

【開題答辯全過程】以基于Android的校園跳蚤市場交易系統的設計與實現為例,包含答辯的問題和答案

個人簡介一名14年經驗的資深畢設內行人&#xff0c;語言擅長Java、php、微信小程序、Python、Golang、安卓Android等開發項目包括大數據、深度學習、網站、小程序、安卓、算法。平常會做一些項目定制化開發、代碼講解、答辯教學、文檔編寫、也懂一些降重方面的技巧。感謝大家的…

【學習筆記】GB 42250-2022標準解析

隨著數字化轉型的加速推進和網絡安全威脅的日益復雜化&#xff0c;網絡安全專用產品作為保護關鍵信息基礎設施的第一道防線&#xff0c;其安全性和可靠性受到國家的高度重視。GB 42250-2022《信息安全技術 網絡安全專用產品安全技術要求》作為一項強制性國家標準&#xff0c;于…

QML開發踩坑記:從MVVM到QWidget的掙扎

如題&#xff1a;最近這一周在開發的時候被qml不友好的前端框架打敗了。首先&#xff0c;我沒深入&#xff08;系統的&#xff09;學習過前端的內容&#xff0c;就是在學習Qt的時候了解到了qwidget&#xff0c;后來發現美化不太足的樣子&#xff0c;外加AI十分推崇基于QML的MVV…

[Mysql數據庫] 知識點總結5

1. 什么是“最少權限原則”&#xff1f;答&#xff1a;應用最少權限原則就是僅為用戶授予高效地完成任務所需的權限&#xff0c;除此之外的任何權限均不能授 予&#xff0c;這可以降低用戶修改或查看&#xff08;無意或惡意&#xff09;他們無權修改或查看的數據的機率&#xf…

儲能變流器學習之MPPT

MPPT最大功率點追蹤技術詳解 引言 在可再生能源系統中&#xff0c;最大化能量捕獲效率是核心目標。無論是光伏發電系統還是儲能變流器&#xff08;PCS&#xff09;&#xff0c;最大功率點追蹤&#xff08;MPPT&#xff09; 技術都是實現這一目標的關鍵。本文將深入探討MPPT技術…

qData 數據中臺完整功能介紹 —— 商業版與開源版功能對比

一、qData 數據中臺概覽 在數字化轉型的大背景下&#xff0c;數據已經成為企業最核心、最具價值的資產。qData 數據中臺&#xff0c;作為企業數據治理與應用的關鍵平臺&#xff0c;憑借高性能與創新理念脫穎而出。它秉持 “高效、安全、靈活、開放” 的設計原則&#xff0c;致力…

Xshell 自動化腳本大賽技術文章大綱

一、引言1.1 大賽背景與意義介紹 Xshell 在運維、開發等領域的廣泛應用&#xff0c;強調自動化腳本對于提升效率、減少錯誤的重要性。闡述大賽旨在激發用戶創新&#xff0c;挖掘 Xshell 自動化腳本更多潛力&#xff0c;促進技術交流與共享。1.2 目標受眾明確文章面向熟悉基本 L…

Python 數據分析學習筆記:Pandas 邏輯運算

&#x1f539; DA9&#xff1a;2020年畢業且使用Java的用戶&#x1f4cc; 題目描述篩選出 2020年畢業 且 常用語言為 Java 的用戶&#xff0c;輸出他們的全部信息&#xff0c;并設置顯示選項以完整顯示數據。? 正確代碼import pandas as pd# 讀取數據 Nowcoder pd.read_csv(N…

圖像邊緣檢測

目錄 一.圖像邊緣檢測 1.圖像邊緣檢測概述 2.Sobel算子原理與實現 3.Scharr算子 4.Laplacian算子 5.Canny邊緣檢測&#xff08;重點&#xff09; 6.效果對比 一.圖像邊緣檢測 1.圖像邊緣檢測概述 2.Sobel算子原理與實現 代碼是實現步驟&#xff1a; 邊緣檢測是圖像處…

zookeeper-znode解析

一. 數據模型&#xff1a;ZK擁有一個命名空間就像一個精簡的文件系統&#xff0c;不同的是它的命名空間中的每個節點擁有它自己或者它下面子節點相關聯的數據。ZK中必須使用絕對路徑也就是使用“/”開頭。二. znode&#xff1a;zk目錄樹中每個節點對應一個znode。每個znode維護…

Redis 高可用篇

主從復制是怎么實現的&#xff1f; 如果服務器發生了宕機&#xff0c;由于數據恢復是需要點時間&#xff0c;那么這個期間是無法服務新的請求的&#xff1b;如果這臺服務器的硬盤出現了故障&#xff0c;可能數據就都丟失了。 要避免這種單點故障&#xff0c;最好的辦法是將數據…