原文鏈接:[2401.03890] A Survey on 3D Gaussian Splatting
動態更新的GitHub倉庫(包含性能對比與最新文獻追蹤):
https://github.com/guikunchen/3DGS-Benchmarks
https://github.com/guikunchen/Awesome3DGS
摘要:3D高斯 splatting(GS)已成為顯式輻射場和計算機圖形學領域的一種變革性技術。這種創新方法的特點是使用數百萬個可學習的3D高斯,它與主流神經輻射場方法有顯著區別——后者主要使用基于坐標的隱式模型將空間坐標映射到像素值。3D GS憑借其顯式場景表示和可微渲染算法,不僅有望實現實時渲染能力,還引入了前所未有的可編輯性水平。這使得3D GS成為下一代3D重建和表示領域的潛在游戲規則改變者。在本文中,我們首次系統概述了3D GS領域的最新發展和關鍵貢獻。我們首先詳細探討3D GS的基本原理及其興起的驅動力,為理解其重要性奠定基礎。我們討論的一個重點是3D GS的實際適用性。通過實現前所未有的渲染速度,3D GS開辟了從虛擬現實到互動媒體等眾多應用場景。此外,我們還對領先的3D GS模型進行了對比分析,通過各種基準任務對其進行評估,以突出它們的性能和實用價值。本綜述最后指出了當前面臨的挑戰,并提出了未來研究的潛在方向。通過本次綜述,我們旨在為新手和資深研究人員提供有價值的資源,以促進顯式輻射場領域的進一步探索和發展。
關鍵詞:3D高斯 splatting、顯式輻射場、實時渲染、場景理解
1.引言
背景與挑戰?
3D場景重建是計算機視覺和圖形學領域的核心問題,旨在從圖像或視頻中生成可編輯的數字3D模型,其應用涵蓋虛擬現實、自動駕駛、文物保護等。傳統方法如運動恢復結構(SfM)和多視圖立體視覺(MVS)雖取得進展,但在處理復雜場景、光照條件及紋理缺失時仍存在局限。神經輻射場(NeRF)的提出標志著重大突破,通過神經網絡隱式建模場景的輻射場,實現了逼真的新視圖合成。然而,NeRF存在兩大瓶頸:一是計算成本高昂,訓練和渲染耗時;二是隱式表示難以直接編輯,限制了實際應用靈活性。
3D高斯潑濺的革新性??
3D高斯潑濺(3D GS)通過顯式表示場景實現了范式轉換。其核心思想是利用數百萬個可學習的3D高斯橢球體建模場景,結合可微渲染和基于點的渲染技術,在保持NeRF級視覺質量的同時顯著提升效率。3D GS的優勢在于: ?
- 高效渲染:通過并行化管線避免NeRF中耗時的光線步進計算,支持實時渲染(如VR/AR應用); ?
- 顯式可編輯性:直接操作3D高斯參數(位置、尺度、旋轉等)即可調整幾何與外觀,解決了隱式模型難以編輯的問題; ?
- 動態場景適應性:為復雜動態場景(如光照變化、物體運動)提供了靈活建模工具。 ?
未來展望
盡管3D GS已展現出巨大潛力,仍需解決以下開放問題: ?
- 計算效率的進一步優化:尤其在移動端和邊緣設備上的部署; ?
- 大規模場景擴展性:當前方法對內存和顯存需求較高; ?
- 動態建模的通用性:如何統一處理非剛性變形、流體等復雜動態; ?
- 與生成式AI的結合:探索3D GS與擴散模型等技術的協同創新。 ?
總結
3D高斯潑濺通過顯式表示與高效渲染的融合,推動了3D重建領域的范式演進。其兼具高質量輸出與實時性能的特點,為工業界和學術界開辟了新方向。本綜述不僅為初學者提供入門指南,也為資深研究者揭示了技術脈絡與潛在突破點,助力這一快速發展的領域持續創新。
2.背景
2.1輻射場(Radiance Field)
隱式輻射場(Implicit Radiance Field)
隱式輻射場不顯式定義場景幾何,而是通過連續函數(如神經網絡)建模光場分布。在深度學習時代,典型代表是神經輻射場(NeRF)。NeRF(圖3a)使用多層感知機(MLP)將空間坐標 (x, y, z) 和觀察方向 (θ, φ) 映射到顏色 c 和體積密度 σ:
(𝑐,𝜎)←MLP(𝑥,𝑦,𝑧,𝜃,𝜙)
這種表示具有可微性和緊湊性,但依賴體積光線步進(ray marching),計算開銷大。需注意,顏色 c 通常與視角相關,而密度 σ 僅與位置相關。
顯式輻射場(Explicit Radiance Field)
顯式輻射場通過離散結構(如體素網格或點云)直接存儲光場數據,其形式為:
(𝑐,𝜎)←DataStructure(𝑥,𝑦,𝑧,𝜃,𝜙).
其中 DataStructure 可以是體素、點云等,其顏色編碼方式分為兩類:高維特征+輕量MLP解碼:先存儲特征向量,再通過小型MLP解碼出顏色;方向基函數系數(如球諧函數、球面高斯):直接存儲基函數系數,通過視角方向計算最終顏色。
顯式方法訪問數據更快,但內存占用高且分辨率受限。
3D高斯潑濺(3D GS):融合隱式與顯式優勢
3D GS 是一種顯式輻射場,但吸收了隱式場的優點。其核心創新在于:
- 可學習3D高斯作為基本單元:每個高斯直接編碼不透明度 α(而非傳統方法先計算密度 σ 再轉換);
- 混合優化策略:結合神經網絡的優化能力與顯式數據存儲結構,在可微渲染管線中通過多視圖圖像監督優化高斯參數;
- 高效與高質量兼顧:避免了NeRF的昂貴光線步進,支持實時渲染,同時訓練時間更短,尤其適合復雜場景和高分辨率輸出。

2.2 上下文與術語
體渲染(Volumetric Rendering)
目標是通過沿相機光線積分輻射值,將3D體積表示轉換為2D圖像。一條相機光線?r(t)?可參數化為:
其中 o 是光線起點(相機中心),d 是光線方向,t 表示沿光線的距離范圍。像素顏色 C(r) 的計算公式為:
其中:
σ(r(t)) 是點 r(t) 處的體積密度;
c(r(t), d) 是該點沿方向 d 的顏色;
T(t) 是透射率(衡量光線未被遮擋的概率)。
光線步進(Raymarching) 是體渲染的離散近似方法,沿光線逐步采樣并計算積分。NeRF 采用類似方法,但引入重要性采樣(importance sampling) 和位置編碼(positional encoding) 以提高渲染質量。然而,光線步進計算成本高昂,尤其在高分辨率渲染時效率較低。
基于點的渲染(Point-Based Rendering)
與體渲染不同,基于點的渲染算法直接對點云進行光柵化。傳統方法(如固定大小的點渲染)容易產生空洞和偽影,而改進方法包括:
- 空間擴展的潑濺(Splatting):為點賦予空間范圍(如橢球或高斯分布),減少渲染瑕疵
- 神經點特征(Neural Point Features):在點中嵌入神經特征,再通過網絡解碼渲染。
3D GS 的創新點:
- 采用3D高斯作為基本渲染單元,顯式存儲顏色、不透明度等屬性(而非隱式神經特征);
- 使用基于點的α混合(Point-Based α-Blending),其成像模型與NeRF體渲染(Eq. 3)數學等效,但計算方式不同:NeRF 需沿光線密集采樣計算積分,計算量大;3D GS 通過光柵化直接渲染高斯點,天然適合并行計算,速度優勢顯著。
核心差異總結
3. 3DGS原理
3.1?用學習得到的 3D 高斯進行渲染
這一部分主要講述:如何利用 3D 高斯表示進行圖像渲染,并對比 NeRF 的體積渲染方式,介紹 3DGS 中的三個關鍵技術環節:高斯定義、視錐剔除、Splatting 渲染。
? 渲染任務目標:
-
輸入:一個由數百萬個 3D 高斯表示組成的場景
-
輸出:從某一相機視角(camera pose)渲染生成的圖像
🔁 NeRF 與 3DGS 渲染方式的對比:
方法 | NeRF | 3D Gaussian Splatting |
---|---|---|
渲染機制 | 每像素沿射線進行體積采樣(raymarching) | 將 3D 高斯投影到 2D 平面(splatting) |
效率 | 渲染慢,難以實時 | 渲染快,支持實時甚至高分辨率 |
應用限制 | 對資源要求高,難上移動端 | 更適用于實時系統、AR/VR |
兩者幾乎可視為“逆過程”:NeRF 從像素回溯采樣 3D,3DGS 從 3D 投影到像素。
渲染流程詳解
1?? 定義:3D 高斯的屬性(Learned 3D Gaussian)
一個 3D 高斯是渲染中的最小單位,具備以下屬性:
屬性 | 說明 |
---|---|
μ | 中心點位置(position) |
α | 不透明度(opacity) |
Σ | 3D 空間協方差矩陣(形狀/范圍) |
c | 顏色(color),通過球諧函數(spherical harmonics)建模視角相關顏色 |
所有屬性均可學習,并通過反向傳播進行優化。
2?? 視錐剔除(Frustum Culling)
-
目的:排除那些位于相機視錐體(frustum)之外的高斯點,減少無效計算。
-
做法:依據當前相機位姿,僅保留處于視錐內的高斯參與后續投影。
3?? Splatting(投影渲染)
? 概念:
-
將 3D 高斯(橢球)投影成圖像平面上的 2D 高斯(橢圓)
-
核心過程分兩步:
-
坐標變換:將世界坐標系下的高斯轉換到相機坐標系(使用相機視角變換矩陣 W)
-
高斯投影:使用仿射近似進行透視變換,將其從 3D 投影到 2D 圖像平面
-
? 數學公式:
給定 3D 協方差矩陣 Σ 和相機變換矩陣 W,2D 投影后的協方差矩陣 Σ′ 為:
其中:
-
W:3D 到相機空間的變換矩陣
-
J:透視變換的仿射近似雅可比矩陣(Jacobian)
-
J 來自透視投影的泰勒展開前兩項(參見文獻 [39])
?? 標準的相機內參矩陣無法直接作用于協方差 Σ,因為透視變換是非線性的。3DGS 采用一種仿射近似方法,可在數學上保持可微性和高效性。
? 小結:
3D Gaussian Splatting 利用“splatting”而非“raymarching”進行圖像生成,大幅減少渲染計算量。其核心渲染流程包括:
-
表示場景為多個可學習的 3D 高斯點
-
剔除視野外無效高斯
-
投影 + 排序 + 累積實現圖像生成
該流程支持高速、可微、實時渲染,是 NeRF 的一種高效替代范式。
逐像素渲染機制(Rendering by Pixels)
👉 渲染步驟:
-
像素與高斯距離計算:
對于圖像中某一像素點 x,計算其與所有重疊高斯之間的深度距離(通過視圖變換矩陣 W 得到),形成一個深度排序的高斯列表 N。 -
Alpha 混合(α-Blending):
使用如下公式計算像素的最終顏色 C:
-
?:第 n 個高斯的顏色
-
?:加權不透明度,結合高斯函數與可學習參數定義如下:
?-
:可學習的不透明度
-
?、x′:投影空間中的高斯中心和像素位置
-
?:投影空間下的協方差矩陣
-
?? 存在問題:
該方法逐像素地遍歷并排序高斯點,難以并行化,效率遠低于 NeRF 的統一射線采樣,因此不能滿足實時渲染需求。
提升策略一:圖像切塊(Tiles / Patches)
為突破效率瓶頸,3DGS 借鑒了**基于瓦片的光柵化(tile-based rasterization)**思想:
👉 思路:
-
將圖像劃分為多個 不重疊的 tile(塊),通常大小為 16×16 像素
-
對每個 tile,判斷哪些高斯投影與其發生重疊
👉 實現:
-
高斯復制(Gaussian Replication):
一個高斯可能同時影響多個 tile,因此需“復制”高斯,分別賦予每個副本對應 tile 的 ID,供后續并行渲染使用。
提升策略二:并行渲染(Parallel Rendering)
3DGS 接下來通過 tile ID + 深度構造一個可排序的鍵值結構,用于高效并行渲染。
👉 核心做法:
-
將高斯的 tile ID 放在高位、深度值放在低位,組成一個 byte 序列
-
使用該結構進行排序后,可直接用于 alpha compositing(即逐層疊加計算像素顏色)
👉 優點:
-
每個 tile 可獨立渲染,tile 內的像素也可并行執行
-
每個 tile 的像素共享緩存,提升 memory 訪問效率
-
映射到 CUDA 架構中:
-
tile ? block
-
pixel ? thread
-
📸 多張照片│ ▼
🧠 SFM重建 → 稀疏點云 + 相機位姿│ | (得到:幾千到幾萬個 3D 點、每個點的位置、每個相機的位置和朝向(相機矩陣))|▼
🌐 初始化為數萬個 3D 高斯(位置+顏色+透明度+形狀)│| 𝜇:3D 空間中的位置中心點| Σ:3×3 的協方差矩陣,表示它的形狀(橢球的方向和大小)| α:不透明度,控制它“在圖像中是否顯著” | c:顏色,一般用球諧函數表示(支持視角相關)| 📌 初始時這些值是隨機或規則初始化的,隨后都會通過優化學習得到最優值▼
🎯 優化高斯參數(訓練過程)│ 用一種 NeRF 類似的思想:從不同視角拍的真實照片中,來優化這些高斯的參數| 步驟:1.從某個相機視角“看向”這些高斯 → 把它們投影到 2D 圖像上|| 2.使用一種叫 高斯濺射(Gaussian Splatting) 的方法進行渲染,得到一個合成圖像|| 3.把合成圖像和真實照片進行對比(L1 / L2 損失 + 結構損失等)|| 4.用梯度下降不斷更新所有高斯的參數(位置、透明度、形狀、顏色)|| 這整個過程會遍歷很多張圖片,優化所有高斯,直到生成圖像和真實照片盡量一致。|▼
🧃 投影到圖像平面(splatting)│ | 3D Gaussian Splatting 做的事就是:把 3D 空間中的高斯點,在某個相機視角下“投影”成 2D 圖像上 | 的“模糊光斑”(橢圓形),過程如下:| 1.投影 Projection:每個 3D 高斯通過相機矩陣被投影到圖像平面上(變成一個 2D 高斯),協 | 方差矩陣也從 3D 轉換為 2D,變成橢圓大小和方向| 2.排序 Sorting:對所有落在某個像素或 tile 上的高斯點,按深度從近到遠排序| 3.混合 Alpha blending:使用公式把顏色和透明度混合出這個像素的最終顏色| (越近的點影響越大,越透明的點權重越小)|▼
🎨 混合出顏色(alpha blending)|▼
🧠 提速:tile-based 并行渲染(支持實時)
“按塊算”(Tile-based rendering):整張圖像被分成多個小 tile(例如 16x16),每個 tile 分配一組高斯;所有 tile 并行處理,每個 tile 內部也并行處理每個像素。這樣就能完美使用 GPU 的 CUDA block/thread 架構,實現 實時渲染!
最后渲染結果:從任意角度、任意距離實時查看場景;不需要像 NeRF 那樣“采樣 + MLP + raymarch”,渲染速度快幾十倍!保持較高畫質,還能動態加載(比如 Niantic 的 SPZ 格式就是這么做的)

3.2 3D 高斯 Splatting 的優化流程
3.2.1 參數優化(Parameter Optimization)
目標: 利用可微 splatting 渲染,將合成圖像與真實照片對齊,并通過梯度下降更新所有高斯參數。
損失函數:結合 L1 / L2 顏色誤差 + D-SSIM 結構相似度,控制逼真效果和平滑度,可以寫為:
-
優化的參數包括:
-
每個高斯的 位置 μ\muμ、透明度 α\alphaα、
-
顏色球諧系數 ccc(支持視角依賴)
-
協方差矩陣 Σ\SigmaΣ
-
-
協方差矩陣的穩定優化:
-
直接訓練 Σ\SigmaΣ 容易讓其失去正定屬性,影響物理意義。
-
解決方案:學習一個 四元數表示的旋轉 qqq 和一個 3D 縮放向量 sss;
然后通過:
-
來生成穩定的協方差矩陣 。
效率優化:
-
相比自動求導整個流程,通過推導公式顯式計算梯度,加快優化速度 。
3.2.2 自適應密度控制(Density Control)
場景中適當的 Gaussian 數量不同,3DGS 設計了 動態增加(densification)和刪減(pruning) 的迭代機制:
🟢 增加高斯密度(Point Densification)
-
議題:場景中某些區域出現幾何缺失或點過稀時,需要補點。
-
方式:
-
尋找 視空間位置梯度大 的高斯(表示重建不足),然后:
-
復制高斯 并沿梯度方向初始激活;
-
或 分裂一個大 Gaussian 為兩個更小個體,通過縮放分裂策略刷新;
-
-
-
目的:重建細節區域,使重建更均勻豐富 arxiv.org+15arxiv.org+15arxiv.org+15。
🔴 刪減冗余節點(Point Pruning)
-
動機:避免不必要的計算開銷與視覺誤差。
-
策略:
-
刪去 幾乎透明 的 Gaussian(α 很小);
-
去除在世界空間或視空間中顯得異常巨大的 Gaussian;
-
在訓練中期時,將靠相機非常近的 Gaussian α 降為接近 0,防止攝像機附近節點過度密集 。
-
-
目標:提升表示效率,控制粒子數量并保持訓練穩定、表達完整。
🔁 兩者交替進行 🎯
上述兩個過程會在訓練中交替進行:
-
優化參數,強化節點對當前視角的視覺準確性;
-
根據梯度與 α 信息動態增加或刪除高斯;
-
重復以上步驟直至畫質收斂。
總結一覽
模塊 | 方法 | 效果 / 目的 |
---|---|---|
參數優化 | 學習 μ、α、c、q(旋轉)、s(縮放) | 生成可優化的協方差,提升畫質與穩定性 |
損失函數 | L1 + D?SSIM | 保證結構與視覺一致性 |
協方差處理 | 四元數 + 縮放分解 | 避免 Σ 非正定 |
加密 / 分裂高斯 | 依據位置梯度克隆或分裂大高斯點 | 重建場景細節 |
刪除冗余高斯 | 移除透明或過大節點,控制局部密度 | 降低計算與存儲開銷 |
4.發展方向
4.1 針對稀疏輸入的 3D Gaussian Splatting
問題背景:
3D Gaussian Splatting(簡稱 3D GS)在可觀察視角有限時(如拍攝角度少),容易在圖像重建中產生幾何畸變或紋理缺失的問題。
這是輻射場重建(Radiance Field Rendering)中的通病 —— 當輸入圖像稀疏時,模型很難還原完整的場景幾何與外觀。
現有解決方案可分為兩類:
一類:基于正則化的方法(Regularization-based)
通過引入先驗約束(如深度)來增強稀疏條件下的建模效果。
-
DNGaussian?:加入深度正則項,有效緩解幾何退化;
-
FSGS:設計了 Gaussian Unpooling 的初始化機制,同時引入深度約束;
-
MVSplat:構建了 cost volume 表征,用于提供幾何提示。
🧨 不足:當視角數量極少(如僅有一張圖)時,這類方法的性能顯著下降,魯棒性不足。
二類:基于泛化建模的方法(Generalizability-based)
通過學習先驗模型,提高模型從少量視圖中生成完整場景的能力。
-
生成視圖補全(View Synthesis):借助生成模型(如 NeRF-W)生成更多視圖,然后并入重建流程;
-
🧨 缺點:計算開銷大,且效果依賴于生成模型的泛化能力。
-
-
前饋式高斯建模(Feed-forward Gaussian Models):
-
如 PixelSplat?:從密集概率分布中采樣高斯;
-
Splatter Image:通過圖像到高斯的映射網絡,將 2D 圖像像素轉換為 3D 高斯。
-
🧨 問題:這些方法生成的高斯是像素對齊、均勻分布的,難以精準覆蓋細節區域和光滑曲面。
🧭 當前挑戰與展望:
-
核心挑戰:如何在“過擬合視圖”和“先驗泛化”之間做平衡;
-
未來方向:
-
引入置信度機制:基于上下文或用戶偏好動態選擇建模先驗;
-
擴展到動態場景:考慮時間一致性、運動模糊等因素,是重要研究前沿。
-
4.2 內存高效的 3D GS(Memory-efficient 3D GS)
問題背景:
與 NeRF 相比,3D GS 不需要 MLP 網絡,但需要大量高斯點(上百萬個)來表達場景,導致:
-
內存開銷大(遠高于存儲一個小型神經網絡);
-
大規模場景(如室外城市)渲染和訓練時資源瓶頸明顯。
兩類優化方向:
① 減少高斯數量
-
體素掩膜裁剪(volume-based masking) [58]:
-
刪除視覺影響小的高斯點,降低數量和渲染冗余。
-
-
共享屬性(共享 anchor)表示:
-
鄰近高斯共享顏色等屬性,減少重復存儲:
-
如:局部錨點共享(local anchor);
-
哈希網格共享(hash-grid) [62];
-
聚類共享 [22]。
-
-
② 壓縮高斯屬性
-
代碼本壓縮(codebook compression):
-
如 [61] 將顏色和協方差編碼進壓縮表(codebook),再通過靈敏度指標進行微調。
-
-
自適應量化(adaptive quantization):
-
HAC [62]:對高斯屬性分布進行建模后進行可學習的量化壓縮。
-
📌 這些策略可以組合使用,即一套系統可同時做高斯裁剪 + 屬性壓縮。
🧭 面臨的挑戰:
-
訓練過程中的內存優化尚不成熟(如量化感知訓練仍在探索中);
-
如何構建通用場景的可復用壓縮字典(codebook);
-
如何在壓縮率與渲染質量之間取得更好的折中。
4.3 Photorealistic 3D Gaussian Splatting(真實感提升)
背景:
當前的 3D GS 渲染流程(見第 3.1 節)雖然計算高效,但在圖像質量方面仍有不足,主要問題包括:
-
可見性算法過于簡單 → 導致深度順序切換不自然;
-
存在混疊、反射效果差、模糊等問題;
-
渲染真實感仍遠遜于傳統渲染或高質量 NeRF。
當前研究集中優化的三個視覺質量方向:
① 混疊問題(Aliasing)
-
原因:3D GS 使用點采樣(每像素視為一個點),在多分辨率/邊緣區域導致鋸齒或模糊。
-
訓練階段改進:
-
Multi-scale Gaussian [67]:多尺度建模,兼顧不同分辨率;
-
Mip Filter [65]:借鑒傳統渲染的層級模糊濾波;
-
Logistic Function 調制 [78]:對密度函數做平滑處理。
-
-
推理階段改進:
-
Scale-adaptive Filtering [80]:自動調整濾波大小以匹配分辨率變化,兼容所有框架。
-
② 反射效果差(Reflection)
-
反射物體難以建模,一直是重建領域的難題。
-
新研究:
-
提出 可重光照高斯(relightable Gaussians) [23];
-
建模鏡面反射材質 [68][73][99];
-
但要實現物理準確的鏡面反射仍然十分困難。
-
③ 模糊問題(Blur)
-
實際數據集中常出現運動模糊、失焦模糊等問題。
-
解決方案:
-
模糊建模:顯式在訓練中考慮模糊核;
-
如:
-
Coarse-to-fine 模糊核優化 [74];
-
Photometric Bundle Adjustment [75]:多幀聯合優化照片一致性。
-
-
🎯 總結思路:
-
當前解決方案多為“一對一解決策略”:即哪個問題就解決哪個;
-
更理想的做法應是建立自動檢測問題 → 自動選擇優化方式的機制;
-
目標是構建一個全能型重建系統,或是從頭重建 3D GS 渲染管線。
4.4 Improved Optimization Algorithms(優化算法改進)
🎯 背景:
3D GS 的優化過程存在以下關鍵問題:
-
收斂慢;
-
高斯點分布不均,造成有些區域重建過密、有些區域模糊或缺失;
-
正則化不足,導致結構不清晰、外觀失真。
🔍 目前優化算法的三個方向:
① 正則化增強(Regularization)
-
頻率正則化 [84]:限制高頻信息,避免過擬合;
-
幾何正則化:
-
使用 anchor 點 [22]、深度/表面約束 [100]~[102];
-
引入高斯體積建模(Gaussian Volumes)[103],保持幾何一致性。
-
② 優化策略增強(Optimization Procedure)
-
原始方法(見第 3.2 節)雖有效,但還可提升:
-
例如:GaussianPro [44] 針對大場景/光滑區域提出更穩健的 densification 策略;
-
改進點初始化方式、避免貼圖區域稀疏。
-
③ 約束松弛(Constraint Relaxation)
-
當前依賴 SfM 等工具初始化,誤差較大,限制性能上限;
-
新研究探索 “COLMAP-free” 方法:
-
如基于連續流(stream continuity)的直接高斯建模;
-
支持從互聯網視頻中自動學習場景。
-
🧠 未來方向探索:
-
多數研究集中在“從零優化高斯表示”,但忽略了更具潛力的:
-
? 少量樣本重建(few-shot reconstruction)
-
? 元表示學習(meta representation)
-
即:融合“場景通用知識”與“場景特定信息”,進行快速適應。
-
-
4.5 Augmented 3D Gaussians:加入更多屬性的3DGS
雖然3D Gaussians 最初只為 新視角合成(novel view synthesis) 設計,但研究者發現它還能通過融合更多屬性信息,拓展到語義理解、語言交互、時空建模等多領域任務。
三類擴展屬性與應用方向:
① 語言嵌入場景建模(Language Embedded Scene Representation)
-
高維語言嵌入成本高,Shi 等人 [87] 提出:
-
壓縮嵌入(quantized language embedding);
-
結合語義不確定性引導的平滑機制;
-
提升跨視角語義一致性與開放詞匯查詢準確度。
-
② 語義理解與編輯(Scene Understanding & Editing)
-
Feature 3DGS [90]:從2D大模型中蒸餾語義特征;
-
構建低維語義場 → 用小型卷積解碼器上采樣;
-
應用包括:
-
場景語義分割、
-
文本引導編輯(text-guided editing)、
-
快速訓練與實時渲染。
-
③ 時空建模(Spatiotemporal Modeling)
-
Yang 等人提出 [93]:
-
4D 高斯點(帶時間維度);
-
統一建模動態場景的時空變化;
-
渲染支持任意旋轉 + 時序變化;
-
可進行端到端訓練。
-
4.6 Hybrid Representations:混合式表示增強任務適應性
除了直接擴展屬性,另一方向是將 3D Gaussians 與結構化信息(如 MLP、網格等)融合,提升其對特定任務的適配能力。
三類典型混合表示場景:
① 表情建模(Facial Expression Modeling)
-
Gaussian Head Avatar [96]:
-
使用可控 3D Gaussians + MLP形變場;
-
同時優化“中性面部高斯”與“動態變形”;
-
實現稀疏視角下高保真表情建模。
-
② 動態建模(Spatiotemporal Modeling)
-
Yang 等人 [94]:
-
引入形變高斯點,學習在 canonical 空間;
-
使用 空間 MLP 表示時空動態;
-
增加“退火平滑機制”提升時間一致性,且無額外計算開銷。
-
③ 風格遷移(Style Transfer)
-
GS in Style [107]:
-
利用預訓練高斯點 + 多分辨率哈希網格 + 小型 MLP;
-
實現實時場景風格化;
-
保證多視角一致性與高渲染速度。
-
總結:
結構信息作為“外骨骼”填補高斯點的稀疏性與無序性短板,使其更適用于編輯、風格化、動畫等任務。
4.7 新型渲染算法:從光柵化到光線追蹤
雖然 3DGS 的光柵化渲染方式(基于排序 + 局部高斯加權)非常高效,但仍存在多個結構性缺陷,尤其在復雜相機/光效/幾何重疊等場景下表現不足。
🔧 主要問題:
-
難以處理:
-
畸變相機(如魚眼、Rolling Shutter);
-
二次光線(反射、陰影);
-
隨機采樣(如光照模擬);
-
-
高斯點之間常常 重疊,僅靠中心排序會導致:
-
“圖像跳躍”(popping artifacts)
-
時序不一致(Temporal instability)
-
🌟 替代性方案:光線追蹤(Ray Tracing)3D Gaussian 渲染
① GaussianTracer [108]
-
首次提出“高斯光線追蹤渲染管線”;
-
為非均勻高斯分布設計高效加速策略;
-
支持不連續密度和交叉分布的快速遍歷。
② EVER [109]
-
提出物理精確的“恒定密度橢球體”表示;
-
可以精確求解體積渲染積分,避免近似;
-
消除跳幀與邊緣模糊問題。
展望與潛能:
新能力 | 說明 |
---|---|
? 全光照支持 | 反射、折射、全局光照等 |
? 復雜相機建模支持 | 魚眼鏡頭、運動快門等 |
? 高物理精度渲染 | 真正支持方向性外觀估計(非 tile approximation) |
? 可用于逆向渲染與材質建模 | 支持物理場景理解、可重光照等 |
但目前仍存在計算成本高的問題,是未來研究的關鍵方向之一。
5.未來研究方向(Future Research Directions)
盡管 3D Gaussian Splatting(3DGS)已經在多項任務上取得顯著成就,但目前仍存在大量尚未開發的潛力和研究空白,主要可歸納為以下五大研究前沿:
1?? 物理與語義感知的場景表示(Physics- and Semantics-aware Scene Representation)
-
核心觀點:將物理規則與語義信息整合到3D GS中,可大幅提升幾何、紋理、光照等方面的表示質量。
-
當前現狀:已有不少單獨研究關注物理或語義建模,但兩者的協同融合仍屬空白領域。
-
潛在價值:
-
改善建模質量(幾何/表面重建等)
-
支持動態建模、場景編輯與生成任務
-
降低訓練視角數量需求(利用先驗知識)
-
-
應用方向:場景理解、計算創作(computational creativity)、增強現實等。
2?? 基于大規模數據學習物理先驗(Learning Physical Priors from Large-scale Data)
-
目標:從2D/3D大規模數據中提取通用物理屬性,用于更好地建模現實世界。
-
應用前景:
-
快速適配新物體和新環境(few-shot learning)
-
提高虛擬場景的交互性與動態表現力,尤其適用于 AR/VR 領域。
-
-
挑戰:
-
當前從數據中提取物理知識的研究仍較稀缺。
-
有價值的路徑包括:real2sim、sim2real 橋接。
-
-
已有探索:連續力學(continuum mechanics)方法、基于MVS的高斯表示等。
3?? 建模對象內部結構(Modeling Internal Structures of Objects)
-
現有問題:
-
當前3D GS通過點云“濺射”(splatting)構建表示,無法準確對齊物體內部結構。
-
這對需要體積建模(如CT掃描、醫學影像)等應用是重大限制。
-
-
已有嘗試:
-
Li 等使用密度控制不使用 splatting 建模體積;
-
X-Gaussian使用 splatting 但無法生成體積結構。
-
-
未來方向:
-
建立適用于體積建模的 3D GS 框架;
-
支持真實結構建模與分析。
-
4?? 3D GS 在自動駕駛仿真等場景中的應用(3D GS for Simulation in Autonomous Driving and Beyond)
-
問題背景:
-
自動駕駛數據獲取成本高,仿真成為替代方案。
-
-
關鍵挑戰:
-
構建高質量、可控、真實感強的虛擬數據生成器。
-
-
當前探索:已有初步嘗試重建城市街景(如 [188]–[190]),但尚處于初級階段。
-
需進一步突破的點:
-
支持用戶定義模型
-
模擬物理變化(如輪胎轉動)
-
多光照、多環境模擬
-
-
應用展望:
-
計算空間理解
-
Embodied AI(具身智能)
-
世界模型(World Models)
-
5?? 賦予3D GS更多功能與屬性(Empowering 3D GS with More Possibilities)
-
方向一:增強屬性
-
引入更多信息:語言(linguistic)、時空(spatiotemporal)屬性等
-
-
方向二:結構建模
-
融入空間MLP、網格結構(如 Sec. 4.6)以提升表達能力
-
-
已探索應用:
-
點云配準(Point Cloud Registration)
-
圖像表示與壓縮
-
流體合成(Fluid Synthesis)
-
-
強調:鼓勵跨學科深入探索,打開新的研究與應用邊界。
?總結
雖然3D Gaussian Splatting已在新視圖合成等領域取得顯著進展,但其潛力遠未完全釋放。未來的研究可以圍繞物理與語義感知表示、從大數據中學習物理先驗、建模內部結構、用于自動駕駛仿真以及增強功能屬性與跨學科擴展等方面展開。這些方向不僅將提升模型的準確性與表達力,也將促進3D GS在計算機視覺、機器人、AR/VR、醫學影像等多個領域的應用落地。