A Survey on 3D Gaussian Splatting——3D高斯領域綜述

原文鏈接:[2401.03890] A Survey on 3D Gaussian Splatting

動態更新的GitHub倉庫(包含性能對比與最新文獻追蹤):

https://github.com/guikunchen/3DGS-Benchmarks

https://github.com/guikunchen/Awesome3DGS

摘要:3D高斯 splatting(GS)已成為顯式輻射場和計算機圖形學領域的一種變革性技術。這種創新方法的特點是使用數百萬個可學習的3D高斯,它與主流神經輻射場方法有顯著區別——后者主要使用基于坐標的隱式模型將空間坐標映射到像素值。3D GS憑借其顯式場景表示和可微渲染算法,不僅有望實現實時渲染能力,還引入了前所未有的可編輯性水平。這使得3D GS成為下一代3D重建和表示領域的潛在游戲規則改變者。在本文中,我們首次系統概述了3D GS領域的最新發展和關鍵貢獻。我們首先詳細探討3D GS的基本原理及其興起的驅動力,為理解其重要性奠定基礎。我們討論的一個重點是3D GS的實際適用性。通過實現前所未有的渲染速度,3D GS開辟了從虛擬現實到互動媒體等眾多應用場景。此外,我們還對領先的3D GS模型進行了對比分析,通過各種基準任務對其進行評估,以突出它們的性能和實用價值。本綜述最后指出了當前面臨的挑戰,并提出了未來研究的潛在方向。通過本次綜述,我們旨在為新手和資深研究人員提供有價值的資源,以促進顯式輻射場領域的進一步探索和發展。

關鍵詞:3D高斯 splatting、顯式輻射場、實時渲染、場景理解

1.引言

背景與挑戰?
3D場景重建是計算機視覺和圖形學領域的核心問題,旨在從圖像或視頻中生成可編輯的數字3D模型,其應用涵蓋虛擬現實、自動駕駛、文物保護等。傳統方法如運動恢復結構(SfM)和多視圖立體視覺(MVS)雖取得進展,但在處理復雜場景、光照條件及紋理缺失時仍存在局限。神經輻射場(NeRF)的提出標志著重大突破,通過神經網絡隱式建模場景的輻射場,實現了逼真的新視圖合成。然而,NeRF存在兩大瓶頸:一是計算成本高昂,訓練和渲染耗時;二是隱式表示難以直接編輯,限制了實際應用靈活性。

3D高斯潑濺的革新性??
3D高斯潑濺(3D GS)通過顯式表示場景實現了范式轉換。其核心思想是利用數百萬個可學習的3D高斯橢球體建模場景,結合可微渲染和基于點的渲染技術,在保持NeRF級視覺質量的同時顯著提升效率。3D GS的優勢在于: ?

  1. 高效渲染:通過并行化管線避免NeRF中耗時的光線步進計算,支持實時渲染(如VR/AR應用); ?
  2. 顯式可編輯性:直接操作3D高斯參數(位置、尺度、旋轉等)即可調整幾何與外觀,解決了隱式模型難以編輯的問題; ?
  3. 動態場景適應性:為復雜動態場景(如光照變化、物體運動)提供了靈活建模工具。 ?

未來展望
盡管3D GS已展現出巨大潛力,仍需解決以下開放問題: ?

  1. 計算效率的進一步優化:尤其在移動端和邊緣設備上的部署; ?
  2. 大規模場景擴展性:當前方法對內存和顯存需求較高; ?
  3. 動態建模的通用性:如何統一處理非剛性變形、流體等復雜動態; ?
  4. 與生成式AI的結合:探索3D GS與擴散模型等技術的協同創新。 ?

總結
3D高斯潑濺通過顯式表示與高效渲染的融合,推動了3D重建領域的范式演進。其兼具高質量輸出與實時性能的特點,為工業界和學術界開辟了新方向。本綜述不僅為初學者提供入門指南,也為資深研究者揭示了技術脈絡與潛在突破點,助力這一快速發展的領域持續創新。

2.背景

2.1輻射場(Radiance Field)

隱式輻射場(Implicit Radiance Field)

隱式輻射場不顯式定義場景幾何,而是通過連續函數(如神經網絡)建模光場分布。在深度學習時代,典型代表是神經輻射場(NeRF)。NeRF(圖3a)使用多層感知機(MLP)將空間坐標 (x, y, z) 和觀察方向 (θ, φ) 映射到顏色 c 和體積密度 σ:

(𝑐,𝜎)←MLP(𝑥,𝑦,𝑧,𝜃,𝜙)

這種表示具有可微性和緊湊性,但依賴體積光線步進(ray marching),計算開銷大。需注意,顏色 c 通常與視角相關,而密度 σ 僅與位置相關。

顯式輻射場(Explicit Radiance Field)

顯式輻射場通過離散結構(如體素網格或點云)直接存儲光場數據,其形式為:
(𝑐,𝜎)←DataStructure(𝑥,𝑦,𝑧,𝜃,𝜙).

其中 DataStructure 可以是體素、點云等,其顏色編碼方式分為兩類:高維特征+輕量MLP解碼:先存儲特征向量,再通過小型MLP解碼出顏色;方向基函數系數(如球諧函數、球面高斯):直接存儲基函數系數,通過視角方向計算最終顏色。
顯式方法訪問數據更快,但內存占用高且分辨率受限。

3D高斯潑濺(3D GS):融合隱式與顯式優勢

3D GS 是一種顯式輻射場,但吸收了隱式場的優點。其核心創新在于:

  1. 可學習3D高斯作為基本單元:每個高斯直接編碼不透明度 α(而非傳統方法先計算密度 σ 再轉換);
  2. 混合優化策略:結合神經網絡的優化能力與顯式數據存儲結構,在可微渲染管線中通過多視圖圖像監督優化高斯參數;
  3. 高效與高質量兼顧:避免了NeRF的昂貴光線步進,支持實時渲染,同時訓練時間更短,尤其適合復雜場景和高分辨率輸出。
Fig.3

2.2 上下文與術語

體渲染(Volumetric Rendering)

目標是通過沿相機光線積分輻射值,將3D體積表示轉換為2D圖像。一條相機光線?r(t)?可參數化為:

其中 o 是光線起點(相機中心),d 是光線方向,t 表示沿光線的距離范圍。像素顏色 C(r) 的計算公式為:

其中:

σ(r(t)) 是點 r(t) 處的體積密度;

c(r(t), d) 是該點沿方向 d 的顏色;

T(t) 是透射率(衡量光線未被遮擋的概率)。

光線步進(Raymarching) 是體渲染的離散近似方法,沿光線逐步采樣并計算積分。NeRF 采用類似方法,但引入重要性采樣(importance sampling) 和位置編碼(positional encoding) 以提高渲染質量。然而,光線步進計算成本高昂,尤其在高分辨率渲染時效率較低。

基于點的渲染(Point-Based Rendering)

與體渲染不同,基于點的渲染算法直接對點云進行光柵化。傳統方法(如固定大小的點渲染)容易產生空洞和偽影,而改進方法包括:

  1. 空間擴展的潑濺(Splatting):為點賦予空間范圍(如橢球或高斯分布),減少渲染瑕疵
  2. 神經點特征(Neural Point Features):在點中嵌入神經特征,再通過網絡解碼渲染。

3D GS 的創新點:

  • 采用3D高斯作為基本渲染單元,顯式存儲顏色、不透明度等屬性(而非隱式神經特征);
  • 使用基于點的α混合(Point-Based α-Blending),其成像模型與NeRF體渲染(Eq. 3)數學等效,但計算方式不同:NeRF 需沿光線密集采樣計算積分,計算量大;3D GS 通過光柵化直接渲染高斯點,天然適合并行計算,速度優勢顯著。

核心差異總結

3. 3DGS原理

3.1?用學習得到的 3D 高斯進行渲染

這一部分主要講述:如何利用 3D 高斯表示進行圖像渲染,并對比 NeRF 的體積渲染方式,介紹 3DGS 中的三個關鍵技術環節:高斯定義、視錐剔除、Splatting 渲染

? 渲染任務目標:

  • 輸入:一個由數百萬個 3D 高斯表示組成的場景

  • 輸出:從某一相機視角(camera pose)渲染生成的圖像

🔁 NeRF 與 3DGS 渲染方式的對比:

方法NeRF3D Gaussian Splatting
渲染機制每像素沿射線進行體積采樣(raymarching)將 3D 高斯投影到 2D 平面(splatting)
效率渲染慢,難以實時渲染快,支持實時甚至高分辨率
應用限制對資源要求高,難上移動端更適用于實時系統、AR/VR

兩者幾乎可視為“逆過程”:NeRF 從像素回溯采樣 3D,3DGS 從 3D 投影到像素。

渲染流程詳解

1?? 定義:3D 高斯的屬性(Learned 3D Gaussian)

一個 3D 高斯是渲染中的最小單位,具備以下屬性:

屬性說明
μ中心點位置(position)
α不透明度(opacity)
Σ3D 空間協方差矩陣(形狀/范圍)
c顏色(color),通過球諧函數(spherical harmonics)建模視角相關顏色

所有屬性均可學習,并通過反向傳播進行優化。


2?? 視錐剔除(Frustum Culling)

  • 目的:排除那些位于相機視錐體(frustum)之外的高斯點,減少無效計算。

  • 做法:依據當前相機位姿,僅保留處于視錐內的高斯參與后續投影。


3?? Splatting(投影渲染)

? 概念:

  • 將 3D 高斯(橢球)投影成圖像平面上的 2D 高斯(橢圓)

  • 核心過程分兩步:

    1. 坐標變換:將世界坐標系下的高斯轉換到相機坐標系(使用相機視角變換矩陣 W)

    2. 高斯投影:使用仿射近似進行透視變換,將其從 3D 投影到 2D 圖像平面

? 數學公式:

給定 3D 協方差矩陣 Σ 和相機變換矩陣 W,2D 投影后的協方差矩陣 Σ′ 為:

其中:

  • W:3D 到相機空間的變換矩陣

  • J:透視變換的仿射近似雅可比矩陣(Jacobian)

  • J 來自透視投影的泰勒展開前兩項(參見文獻 [39])

?? 標準的相機內參矩陣無法直接作用于協方差 Σ,因為透視變換是非線性的。3DGS 采用一種仿射近似方法,可在數學上保持可微性和高效性。

? 小結:

3D Gaussian Splatting 利用“splatting”而非“raymarching”進行圖像生成,大幅減少渲染計算量。其核心渲染流程包括:

  1. 表示場景為多個可學習的 3D 高斯點

  2. 剔除視野外無效高斯

  3. 投影 + 排序 + 累積實現圖像生成

該流程支持高速、可微、實時渲染,是 NeRF 的一種高效替代范式。

逐像素渲染機制(Rendering by Pixels)

👉 渲染步驟:
  1. 像素與高斯距離計算
    對于圖像中某一像素點 x,計算其與所有重疊高斯之間的深度距離(通過視圖變換矩陣 W 得到),形成一個深度排序的高斯列表 N

  2. Alpha 混合(α-Blending)
    使用如下公式計算像素的最終顏色 C:

  • c_{n}?:第 n 個高斯的顏色

  • \alpha _{n}^{'}?:加權不透明度,結合高斯函數與可學習參數定義如下:

    ?
    • \alpha _{n}:可學習的不透明度

    • \mu _{n}^{'}?、x′:投影空間中的高斯中心和像素位置

    • \Sigma _{n}^{'}?:投影空間下的協方差矩陣

?? 存在問題:

該方法逐像素地遍歷并排序高斯點,難以并行化,效率遠低于 NeRF 的統一射線采樣,因此不能滿足實時渲染需求。

提升策略一:圖像切塊(Tiles / Patches)

為突破效率瓶頸,3DGS 借鑒了**基于瓦片的光柵化(tile-based rasterization)**思想:

👉 思路:

  • 將圖像劃分為多個 不重疊的 tile(塊),通常大小為 16×16 像素

  • 對每個 tile,判斷哪些高斯投影與其發生重疊

👉 實現:

  • 高斯復制(Gaussian Replication)
    一個高斯可能同時影響多個 tile,因此需“復制”高斯,分別賦予每個副本對應 tile 的 ID,供后續并行渲染使用。

提升策略二:并行渲染(Parallel Rendering)

3DGS 接下來通過 tile ID + 深度構造一個可排序的鍵值結構,用于高效并行渲染。

👉 核心做法:

  • 將高斯的 tile ID 放在高位、深度值放在低位,組成一個 byte 序列

  • 使用該結構進行排序后,可直接用于 alpha compositing(即逐層疊加計算像素顏色)

👉 優點:

  • 每個 tile 可獨立渲染,tile 內的像素也可并行執行

  • 每個 tile 的像素共享緩存,提升 memory 訪問效率

  • 映射到 CUDA 架構中:

    • tile ? block

    • pixel ? thread

📸 多張照片│  ▼
🧠 SFM重建 → 稀疏點云 + 相機位姿│    |  (得到:幾千到幾萬個 3D 點、每個點的位置、每個相機的位置和朝向(相機矩陣))|▼
🌐 初始化為數萬個 3D 高斯(位置+顏色+透明度+形狀)│|  𝜇:3D 空間中的位置中心點|  Σ:3×3 的協方差矩陣,表示它的形狀(橢球的方向和大小)|  α:不透明度,控制它“在圖像中是否顯著”   |  c:顏色,一般用球諧函數表示(支持視角相關)|  📌 初始時這些值是隨機或規則初始化的,隨后都會通過優化學習得到最優值▼
🎯 優化高斯參數(訓練過程)│  用一種 NeRF 類似的思想:從不同視角拍的真實照片中,來優化這些高斯的參數|  步驟:1.從某個相機視角“看向”這些高斯 → 把它們投影到 2D 圖像上||        2.使用一種叫 高斯濺射(Gaussian Splatting) 的方法進行渲染,得到一個合成圖像||        3.把合成圖像和真實照片進行對比(L1 / L2 損失 + 結構損失等)||        4.用梯度下降不斷更新所有高斯的參數(位置、透明度、形狀、顏色)|| 這整個過程會遍歷很多張圖片,優化所有高斯,直到生成圖像和真實照片盡量一致。|▼
🧃 投影到圖像平面(splatting)│   |  3D Gaussian Splatting 做的事就是:把 3D 空間中的高斯點,在某個相機視角下“投影”成 2D 圖像上 |  的“模糊光斑”(橢圓形),過程如下:|       1.投影 Projection:每個 3D 高斯通過相機矩陣被投影到圖像平面上(變成一個 2D 高斯),協 |         方差矩陣也從 3D 轉換為 2D,變成橢圓大小和方向|       2.排序 Sorting:對所有落在某個像素或 tile 上的高斯點,按深度從近到遠排序|       3.混合 Alpha blending:使用公式把顏色和透明度混合出這個像素的最終顏色|                             (越近的點影響越大,越透明的點權重越小)|▼
🎨 混合出顏色(alpha blending)|▼
🧠 提速:tile-based 并行渲染(支持實時)
“按塊算”(Tile-based rendering):整張圖像被分成多個小 tile(例如 16x16),每個 tile 分配一組高斯;所有 tile 并行處理,每個 tile 內部也并行處理每個像素。這樣就能完美使用 GPU 的 CUDA block/thread 架構,實現 實時渲染!
最后渲染結果:從任意角度、任意距離實時查看場景;不需要像 NeRF 那樣“采樣 + MLP + raymarch”,渲染速度快幾十倍!保持較高畫質,還能動態加載(比如 Niantic 的 SPZ 格式就是這么做的)
3D GS 的正向過程圖示(參見第 3.1 節)(a) 展開步驟將 3D 高斯投影到圖像空間中。(b) 3D GS 將圖像劃分為多個不重疊的塊,即平鋪。(c) 3D GS 復制覆蓋多個瓦片的高斯分布,為每個副本分配一個標識符,即瓦片 ID。(d) 通過渲染排序的高斯分布,我們可以獲得瓦片內的所有像素。請注意,像素和切片的計算工作流程是獨立的,可以并行完成。

3.2 3D 高斯 Splatting 的優化流程

3.2.1 參數優化(Parameter Optimization)

目標: 利用可微 splatting 渲染,將合成圖像與真實照片對齊,并通過梯度下降更新所有高斯參數。

損失函數:結合 L1 / L2 顏色誤差 + D-SSIM 結構相似度,控制逼真效果和平滑度,可以寫為:

  • 優化的參數包括

    • 每個高斯的 位置 μ\muμ、透明度 α\alphaα、

    • 顏色球諧系數 ccc(支持視角依賴)

    • 協方差矩陣 Σ\SigmaΣ

  • 協方差矩陣的穩定優化

    • 直接訓練 Σ\SigmaΣ 容易讓其失去正定屬性,影響物理意義。

    • 解決方案:學習一個 四元數表示的旋轉 qqq 和一個 3D 縮放向量 sss;
      然后通過:

來生成穩定的協方差矩陣 。

效率優化

  • 相比自動求導整個流程,通過推導公式顯式計算梯度,加快優化速度 。

3.2.2 自適應密度控制(Density Control)

場景中適當的 Gaussian 數量不同,3DGS 設計了 動態增加(densification)和刪減(pruning) 的迭代機制:

🟢 增加高斯密度(Point Densification)
  • 議題:場景中某些區域出現幾何缺失或點過稀時,需要補點。

  • 方式

    • 尋找 視空間位置梯度大 的高斯(表示重建不足),然后:

      • 復制高斯 并沿梯度方向初始激活;

      • 分裂一個大 Gaussian 為兩個更小個體,通過縮放分裂策略刷新;

  • 目的:重建細節區域,使重建更均勻豐富 arxiv.org+15arxiv.org+15arxiv.org+15。

🔴 刪減冗余節點(Point Pruning)
  • 動機:避免不必要的計算開銷與視覺誤差。

  • 策略

    • 刪去 幾乎透明 的 Gaussian(α 很小);

    • 去除在世界空間或視空間中顯得異常巨大的 Gaussian;

    • 在訓練中期時,將靠相機非常近的 Gaussian α 降為接近 0,防止攝像機附近節點過度密集 。

  • 目標:提升表示效率,控制粒子數量并保持訓練穩定、表達完整。

🔁 兩者交替進行 🎯

上述兩個過程會在訓練中交替進行

  1. 優化參數,強化節點對當前視角的視覺準確性;

  2. 根據梯度與 α 信息動態增加或刪除高斯;

  3. 重復以上步驟直至畫質收斂。

總結一覽

模塊方法效果 / 目的
參數優化學習 μ、α、c、q(旋轉)、s(縮放)生成可優化的協方差,提升畫質與穩定性
損失函數L1 + D?SSIM保證結構與視覺一致性
協方差處理四元數 + 縮放分解避免 Σ 非正定
加密 / 分裂高斯依據位置梯度克隆或分裂大高斯點重建場景細節
刪除冗余高斯移除透明或過大節點,控制局部密度降低計算與存儲開銷

4.發展方向

4.1 針對稀疏輸入的 3D Gaussian Splatting

問題背景:

3D Gaussian Splatting(簡稱 3D GS)在可觀察視角有限時(如拍攝角度少),容易在圖像重建中產生幾何畸變或紋理缺失的問題。

這是輻射場重建(Radiance Field Rendering)中的通病 —— 當輸入圖像稀疏時,模型很難還原完整的場景幾何與外觀。

現有解決方案可分為兩類:

一類:基于正則化的方法(Regularization-based)

通過引入先驗約束(如深度)來增強稀疏條件下的建模效果。

  • DNGaussian?:加入深度正則項,有效緩解幾何退化;

  • FSGS:設計了 Gaussian Unpooling 的初始化機制,同時引入深度約束;

  • MVSplat:構建了 cost volume 表征,用于提供幾何提示。

🧨 不足:當視角數量極少(如僅有一張圖)時,這類方法的性能顯著下降,魯棒性不足。


二類:基于泛化建模的方法(Generalizability-based)

通過學習先驗模型,提高模型從少量視圖中生成完整場景的能力。

  • 生成視圖補全(View Synthesis):借助生成模型(如 NeRF-W)生成更多視圖,然后并入重建流程;

    • 🧨 缺點:計算開銷大,且效果依賴于生成模型的泛化能力。

  • 前饋式高斯建模(Feed-forward Gaussian Models)

    • PixelSplat?:從密集概率分布中采樣高斯;

    • Splatter Image:通過圖像到高斯的映射網絡,將 2D 圖像像素轉換為 3D 高斯。

🧨 問題:這些方法生成的高斯是像素對齊、均勻分布的,難以精準覆蓋細節區域和光滑曲面。


🧭 當前挑戰與展望:

  • 核心挑戰:如何在“過擬合視圖”“先驗泛化”之間做平衡;

  • 未來方向:

    • 引入置信度機制:基于上下文或用戶偏好動態選擇建模先驗;

    • 擴展到動態場景:考慮時間一致性、運動模糊等因素,是重要研究前沿。

4.2 內存高效的 3D GS(Memory-efficient 3D GS)

問題背景:

與 NeRF 相比,3D GS 不需要 MLP 網絡,但需要大量高斯點(上百萬個)來表達場景,導致:

  • 內存開銷大(遠高于存儲一個小型神經網絡);

  • 大規模場景(如室外城市)渲染和訓練時資源瓶頸明顯。

兩類優化方向:


① 減少高斯數量

  • 體素掩膜裁剪(volume-based masking) [58]:

    • 刪除視覺影響小的高斯點,降低數量和渲染冗余。

  • 共享屬性(共享 anchor)表示

    • 鄰近高斯共享顏色等屬性,減少重復存儲:

      • 如:局部錨點共享(local anchor)

      • 哈希網格共享(hash-grid) [62];

      • 聚類共享 [22]。


② 壓縮高斯屬性

  • 代碼本壓縮(codebook compression)

    • 如 [61] 將顏色和協方差編碼進壓縮表(codebook),再通過靈敏度指標進行微調。

  • 自適應量化(adaptive quantization)

    • HAC [62]:對高斯屬性分布進行建模后進行可學習的量化壓縮。

📌 這些策略可以組合使用,即一套系統可同時做高斯裁剪 + 屬性壓縮。


🧭 面臨的挑戰:

  • 訓練過程中的內存優化尚不成熟(如量化感知訓練仍在探索中);

  • 如何構建通用場景的可復用壓縮字典(codebook)

  • 如何在壓縮率與渲染質量之間取得更好的折中

4.3 Photorealistic 3D Gaussian Splatting(真實感提升)

背景:

當前的 3D GS 渲染流程(見第 3.1 節)雖然計算高效,但在圖像質量方面仍有不足,主要問題包括:

  • 可見性算法過于簡單 → 導致深度順序切換不自然;

  • 存在混疊、反射效果差、模糊等問題;

  • 渲染真實感仍遠遜于傳統渲染或高質量 NeRF。

當前研究集中優化的三個視覺質量方向:

① 混疊問題(Aliasing)

  • 原因:3D GS 使用點采樣(每像素視為一個點),在多分辨率/邊緣區域導致鋸齒或模糊。

  • 訓練階段改進

    • Multi-scale Gaussian [67]:多尺度建模,兼顧不同分辨率;

    • Mip Filter [65]:借鑒傳統渲染的層級模糊濾波;

    • Logistic Function 調制 [78]:對密度函數做平滑處理。

  • 推理階段改進

    • Scale-adaptive Filtering [80]:自動調整濾波大小以匹配分辨率變化,兼容所有框架。


② 反射效果差(Reflection)

  • 反射物體難以建模,一直是重建領域的難題。

  • 新研究:

    • 提出 可重光照高斯(relightable Gaussians) [23];

    • 建模鏡面反射材質 [68][73][99];

    • 但要實現物理準確的鏡面反射仍然十分困難。


③ 模糊問題(Blur)

  • 實際數據集中常出現運動模糊、失焦模糊等問題。

  • 解決方案:

    • 模糊建模:顯式在訓練中考慮模糊核;

    • 如:

      • Coarse-to-fine 模糊核優化 [74];

      • Photometric Bundle Adjustment [75]:多幀聯合優化照片一致性。


🎯 總結思路:

  • 當前解決方案多為“一對一解決策略”:即哪個問題就解決哪個;

  • 更理想的做法應是建立自動檢測問題 → 自動選擇優化方式的機制;

  • 目標是構建一個全能型重建系統,或是從頭重建 3D GS 渲染管線。

4.4 Improved Optimization Algorithms(優化算法改進)

🎯 背景:

3D GS 的優化過程存在以下關鍵問題:

  • 收斂慢;

  • 高斯點分布不均,造成有些區域重建過密、有些區域模糊或缺失

  • 正則化不足,導致結構不清晰外觀失真


🔍 目前優化算法的三個方向:


① 正則化增強(Regularization)

  • 頻率正則化 [84]:限制高頻信息,避免過擬合;

  • 幾何正則化

    • 使用 anchor 點 [22]、深度/表面約束 [100]~[102];

    • 引入高斯體積建模(Gaussian Volumes)[103],保持幾何一致性。


② 優化策略增強(Optimization Procedure)

  • 原始方法(見第 3.2 節)雖有效,但還可提升:

    • 例如:GaussianPro [44] 針對大場景/光滑區域提出更穩健的 densification 策略;

    • 改進點初始化方式、避免貼圖區域稀疏。


③ 約束松弛(Constraint Relaxation)

  • 當前依賴 SfM 等工具初始化,誤差較大,限制性能上限;

  • 新研究探索 “COLMAP-free” 方法

    • 如基于連續流(stream continuity)的直接高斯建模;

    • 支持從互聯網視頻中自動學習場景


🧠 未來方向探索:

  • 多數研究集中在“從零優化高斯表示”,但忽略了更具潛力的

    • ? 少量樣本重建(few-shot reconstruction)

    • ? 元表示學習(meta representation)

      • 即:融合“場景通用知識”與“場景特定信息”,進行快速適應。

4.5 Augmented 3D Gaussians:加入更多屬性的3DGS

雖然3D Gaussians 最初只為 新視角合成(novel view synthesis) 設計,但研究者發現它還能通過融合更多屬性信息,拓展到語義理解、語言交互、時空建模等多領域任務。

三類擴展屬性與應用方向:

① 語言嵌入場景建模(Language Embedded Scene Representation)

  • 高維語言嵌入成本高,Shi 等人 [87] 提出:

    • 壓縮嵌入(quantized language embedding)

    • 結合語義不確定性引導的平滑機制

    • 提升跨視角語義一致性與開放詞匯查詢準確度


② 語義理解與編輯(Scene Understanding & Editing)

  • Feature 3DGS [90]:從2D大模型中蒸餾語義特征;

  • 構建低維語義場 → 用小型卷積解碼器上采樣;

  • 應用包括:

    • 場景語義分割、

    • 文本引導編輯(text-guided editing)、

    • 快速訓練與實時渲染。


③ 時空建模(Spatiotemporal Modeling)

  • Yang 等人提出 [93]:

    • 4D 高斯點(帶時間維度)

    • 統一建模動態場景的時空變化;

    • 渲染支持任意旋轉 + 時序變化

    • 可進行端到端訓練。

4.6 Hybrid Representations:混合式表示增強任務適應性

除了直接擴展屬性,另一方向是將 3D Gaussians 與結構化信息(如 MLP、網格等)融合,提升其對特定任務的適配能力。


三類典型混合表示場景:

① 表情建模(Facial Expression Modeling)

  • Gaussian Head Avatar [96]:

    • 使用可控 3D Gaussians + MLP形變場

    • 同時優化“中性面部高斯”與“動態變形”;

    • 實現稀疏視角下高保真表情建模。


② 動態建模(Spatiotemporal Modeling)

  • Yang 等人 [94]:

    • 引入形變高斯點,學習在 canonical 空間;

    • 使用 空間 MLP 表示時空動態;

    • 增加“退火平滑機制”提升時間一致性,且無額外計算開銷。


③ 風格遷移(Style Transfer)

  • GS in Style [107]:

    • 利用預訓練高斯點 + 多分辨率哈希網格 + 小型 MLP;

    • 實現實時場景風格化;

    • 保證多視角一致性與高渲染速度。

總結:

結構信息作為“外骨骼”填補高斯點的稀疏性與無序性短板,使其更適用于編輯、風格化、動畫等任務。

4.7 新型渲染算法:從光柵化到光線追蹤

雖然 3DGS 的光柵化渲染方式(基于排序 + 局部高斯加權)非常高效,但仍存在多個結構性缺陷,尤其在復雜相機/光效/幾何重疊等場景下表現不足。


🔧 主要問題:

  • 難以處理:

    • 畸變相機(如魚眼、Rolling Shutter)

    • 二次光線(反射、陰影)

    • 隨機采樣(如光照模擬)

  • 高斯點之間常常 重疊,僅靠中心排序會導致:

    • “圖像跳躍”(popping artifacts)

    • 時序不一致(Temporal instability)


🌟 替代性方案:光線追蹤(Ray Tracing)3D Gaussian 渲染


① GaussianTracer [108]

  • 首次提出“高斯光線追蹤渲染管線”;

  • 為非均勻高斯分布設計高效加速策略

  • 支持不連續密度和交叉分布的快速遍歷。


② EVER [109]

  • 提出物理精確的“恒定密度橢球體”表示;

  • 可以精確求解體積渲染積分,避免近似;

  • 消除跳幀與邊緣模糊問題。

展望與潛能:

新能力說明
? 全光照支持反射、折射、全局光照等
? 復雜相機建模支持魚眼鏡頭、運動快門等
? 高物理精度渲染真正支持方向性外觀估計(非 tile approximation)
? 可用于逆向渲染與材質建模支持物理場景理解、可重光照等

但目前仍存在計算成本高的問題,是未來研究的關鍵方向之一。

5.未來研究方向(Future Research Directions)

盡管 3D Gaussian Splatting(3DGS)已經在多項任務上取得顯著成就,但目前仍存在大量尚未開發的潛力和研究空白,主要可歸納為以下五大研究前沿:

1?? 物理與語義感知的場景表示(Physics- and Semantics-aware Scene Representation)

  • 核心觀點:將物理規則與語義信息整合到3D GS中,可大幅提升幾何、紋理、光照等方面的表示質量。

  • 當前現狀:已有不少單獨研究關注物理或語義建模,但兩者的協同融合仍屬空白領域。

  • 潛在價值

    • 改善建模質量(幾何/表面重建等)

    • 支持動態建模、場景編輯與生成任務

    • 降低訓練視角數量需求(利用先驗知識)

  • 應用方向:場景理解、計算創作(computational creativity)、增強現實等。


2?? 基于大規模數據學習物理先驗(Learning Physical Priors from Large-scale Data)

  • 目標:從2D/3D大規模數據中提取通用物理屬性,用于更好地建模現實世界。

  • 應用前景

    • 快速適配新物體和新環境(few-shot learning)

    • 提高虛擬場景的交互性與動態表現力,尤其適用于 AR/VR 領域。

  • 挑戰

    • 當前從數據中提取物理知識的研究仍較稀缺。

    • 有價值的路徑包括:real2simsim2real 橋接。

  • 已有探索:連續力學(continuum mechanics)方法、基于MVS的高斯表示等。


3?? 建模對象內部結構(Modeling Internal Structures of Objects)

  • 現有問題

    • 當前3D GS通過點云“濺射”(splatting)構建表示,無法準確對齊物體內部結構

    • 這對需要體積建模(如CT掃描、醫學影像)等應用是重大限制。

  • 已有嘗試

    • Li 等使用密度控制不使用 splatting 建模體積;

    • X-Gaussian使用 splatting 但無法生成體積結構。

  • 未來方向

    • 建立適用于體積建模的 3D GS 框架;

    • 支持真實結構建模與分析。


4?? 3D GS 在自動駕駛仿真等場景中的應用(3D GS for Simulation in Autonomous Driving and Beyond)

  • 問題背景

    • 自動駕駛數據獲取成本高,仿真成為替代方案。

  • 關鍵挑戰

    • 構建高質量、可控、真實感強的虛擬數據生成器。

  • 當前探索:已有初步嘗試重建城市街景(如 [188]–[190]),但尚處于初級階段。

  • 需進一步突破的點

    • 支持用戶定義模型

    • 模擬物理變化(如輪胎轉動)

    • 多光照、多環境模擬

  • 應用展望

    • 計算空間理解

    • Embodied AI(具身智能)

    • 世界模型(World Models)


5?? 賦予3D GS更多功能與屬性(Empowering 3D GS with More Possibilities)

  • 方向一:增強屬性

    • 引入更多信息:語言(linguistic)、時空(spatiotemporal)屬性等

  • 方向二:結構建模

    • 融入空間MLP、網格結構(如 Sec. 4.6)以提升表達能力

  • 已探索應用

    • 點云配準(Point Cloud Registration)

    • 圖像表示與壓縮

    • 流體合成(Fluid Synthesis)

  • 強調:鼓勵跨學科深入探索,打開新的研究與應用邊界。


?總結

雖然3D Gaussian Splatting已在新視圖合成等領域取得顯著進展,但其潛力遠未完全釋放。未來的研究可以圍繞物理與語義感知表示從大數據中學習物理先驗建模內部結構用于自動駕駛仿真以及增強功能屬性與跨學科擴展等方面展開。這些方向不僅將提升模型的準確性與表達力,也將促進3D GS在計算機視覺、機器人、AR/VR、醫學影像等多個領域的應用落地。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/85064.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/85064.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/85064.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

計算機網絡 期末實訓 eNSP 校園網

eNSP 綜合實訓 小型校園網 計算機網絡期末實訓 01 搭建拓撲 1.設計任務 構建一個小型校園網絡,涵蓋以下設備與區域: 學生宿舍區:50臺計算機辦公樓區:30臺計算機(細分為財務部門、人事部門及其他科室)圖書館:10臺計算機教學樓:30臺計算機服務器集群:2臺服務器,分別用…

Smart Form Adobe form 強制更改內表:TNAPR

強制更改內表:TNAPR se16-> Smart Form總覽 Smart form 變量格式說明: &symbol& (括號中,小寫字母為變量) &symbol& 屏蔽從第一位開始的N位 &symbol (n)& 只顯示前N位 &symbol (S)& 忽略正負號 &symbol (<)& 符號在…

頁面配置文件pages.json和小程序配置

頁面配置文件pages.json和小程序配置 pages.jsonpagesstyle-navigationBarBackgroundColorstyle-navigationBarTitleTextstyle-navigationStylestyle-enablePullDownRefresh注意事項不同平臺區分配置新建頁面 globalStyletabBar代碼 manifest.json授權web配置代理 pages.json …

Linux網絡配置工具ifconfig與ip命令的全面對比

在Linux網絡管理中&#xff0c;ifconfig和 ip命令是最常用的兩個工具。隨著時間的推移&#xff0c;ip命令逐漸取代了 ifconfig&#xff0c;成為更強大和靈活的網絡配置工具。本文將對這兩個工具進行全面對比&#xff0c;幫助您理解它們的區別和各自的優勢。 一、ifconfig命令 …

STM32 實現解析自定義協議

一、環形隊列設計與實現&#xff08;核心緩沖機制&#xff09; 數據結構設計&#xff1a; #define BUFFER_SIZE 512 #define BUFFER_MASK (BUFFER_SIZE - 1) typedef struct {volatile uint8_t buffer[BUFFER_SIZE]; // 環形緩沖區&#xff08;大小可配置&#xff09;volati…

NGINX 四層上游模塊`ngx_stream_upstream_module` 實戰指南

一、模塊定位與引入 模塊名稱&#xff1a;ngx_stream_upstream_module 首次引入&#xff1a;NGINX 1.9.0&#xff08;2015-08-04&#xff09; 編譯選項&#xff1a;啟用 --with-stream&#xff08;含此模塊&#xff09; 作用&#xff1a; 定義后端服務器組&#xff08;upstr…

WinUI3入門2:DataGrid動態更新 添加刪除和修改字段

初級代碼游戲的專欄介紹與文章目錄-CSDN博客 我的github&#xff1a;codetoys&#xff0c;所有代碼都將會位于ctfc庫中。已經放入庫中我會指出在庫中的位置。 這些代碼大部分以Linux為目標但部分代碼是純C的&#xff0c;可以在任何平臺上使用。 源碼指引&#xff1a;github源…

基于Python學習《Head First設計模式》第十三章 現實世界中的模式

定義設計模式 設計模式要素 模式名稱、分類意圖&#xff1a;描述模式是什么動機&#xff1a;描述什么時候使用這個模式&#xff0c;具體場景適用性&#xff1a;描述什么地方使用這個模式&#xff0c;用在什么場合結構&#xff1a;類圖參與者&#xff1a;類和對象的責任和角色…

線性代數(1)線性方程組的多種解法

求解線性方程組是線性代數的核心問題之一&#xff0c;根據方程組的類型&#xff08;如齊次/非齊次、方陣/非方陣、稀疏/稠密等&#xff09;&#xff0c;可以采用不同的解法。以下是常見的線性方程組解法分類及簡要說明&#xff1a; 一、直接解法&#xff08;精確解&#xff09…

肝臟/肝臟腫瘤圖像分割數據集(貓臉碼客第261期)

探秘肝臟/肝臟腫瘤圖像分割&#xff1a;醫學影像技術的新突破 一、引言 肝臟/肝臟腫瘤圖像分割在醫學領域占據著愈發重要的地位&#xff0c;為肝臟疾病的精準診斷與有效治療提供了關鍵技術支撐。隨著醫學成像技術的飛速進步&#xff0c;如磁共振成像&#xff08;MRI&#xff…

【LLM05---位置編碼】

文章目錄 位置編碼引出Transformer中位置編碼方法:Sinusoidal functions兩個重要性質位置編碼 最近在學習位置編碼,想找一個講的比較透徹的文章或視頻,找了半天,滿意的一個也沒有,所以自己記錄一下。 注意,本篇筆記只作為自己的學習記錄用,更好的講解的內容請看鏈接:位…

pikachu——ssrf

概念補充&#xff1a; 內網&#xff1a;局部范圍內的私有網絡&#xff0c;比如局域網就是一個小范圍的內網&#xff0c;有私有IP&#xff0c;并且內網受防火墻的保護&#xff0c;外網無法直接訪問 外網&#xff1a;全球范圍的公共網絡&#xff0c;公有ip ip地址&#xff1a;…

java 設計模式_行為型_13備忘錄模式

13.備忘錄模式 模式定義 備忘錄模式&#xff08;Memento Pattern&#xff09;模式的定義&#xff1a;在不破壞封裝性的前提下&#xff0c;捕獲一個對象的內部狀態&#xff0c;并在該對象之外保存這個狀態&#xff0c;以便以后當需要時能將該對象恢復到原先保存的狀態。該模式又…

創建postgres數據庫失敗

異常&#xff1a; postgres# CREATE DATABASE deepflow_agent2; ERROR: source database "template1" is being accessed by other users DETAIL: There are 2 other sessions using the database 如何斷聯這兩個session 要解決 PostgreSQL 中因 template1 數據庫…

臥安機器人闖上市:深耕AI具身技術,“大疆教父”李澤湘再落子

撰稿|行星 來源|貝多財經 又一家機器人企業&#xff0c;現身港股資本市場。貝多財經了解到&#xff0c;臥安機器人&#xff08;深圳&#xff09;股份有限公司&#xff08;下稱“臥安機器人”&#xff09;于6月8日向港交所提交了上市申請&#xff0c;國泰君安國際、華泰國際為…

基于GNU Radio Companion搭建的AM信號實驗

目錄 實驗目的和要求 1、AM收發系統仿真和實際接收 調制過程 2、Lab 2.1實驗過程AM信號的產生 AM信號的表達式 調制深度的概念 3、Lab2.2 AM信號的解調 4、Lab2.3 實際用RTLSDR接收一個ISM(912MHz)頻率的AM信號,信號的AM調制為音頻為48KHz的音樂信號 實驗目的和要求 …

【go】(僅思路)使用go實現一款簡單的關系型數據庫gosql

文章目錄 背景給navicate回復版本號建立連接數據庫list新建數據庫刪除數據庫刪除表查詢表數據總結roadmapnavicate連接適配 背景 使用go很容易編譯出一個二進制文件&#xff0c;已經有人用純go實現了sqlite3的驅動&#xff08;go get github.com/glebarez/sqlite&#xff09;&…

echarts開發 | 數據可視化 -- 第二篇 echart進階配置項學習

文章目錄 一、數據標記(markLine、markPoint)1.1 markLine&#xff08;標記線&#xff09;1.2 markPoint&#xff08;標記點&#xff09; 一、數據標記(markLine、markPoint) 支持兩類標記方式 markLine 和 markPoint 分別用于標示趨勢線和特定數據點&#xff0c;以加強數據表…

Kafka數據寫入流程源碼深度剖析(Broker篇)

在Kafka數據寫入流程中&#xff0c;Broker端負責接收客戶端發送的消息&#xff0c;并將其持久化存儲&#xff0c;是整個流程的關鍵環節。本文將深入Kafka Broker的源碼&#xff0c;詳細解析消息接收、處理和存儲的具體實現。 一、網絡請求接收與解析 Broker通過Processor線程…

名稱 深度學習(監督學習) Iteration 一次 mini-batch 前向+反向傳播更新 Epoch 所有數據集訓練一遍。這兩個概念不一樣嗎?

你的問題非常專業&#xff0c;確實容易混淆&#xff0c;下面我用科研術語 通俗比喻來清晰地區分&#xff1a; ? 簡明對照表&#xff1a;Iteration vs. Epoch&#xff08;在監督學習中&#xff09; 名稱專業術語解釋通俗理解是否屬于監督學習&#xff08;深度學習&#xff09…