A Survey on 3D Gaussian Splatting—

原文鏈接：[2401.03890] A Survey on 3D Gaussian Splatting

動態更新的GitHub倉庫（包含性能對比與最新文獻追蹤）：

https://github.com/guikunchen/3DGS-Benchmarks

https://github.com/guikunchen/Awesome3DGS

摘要：3D高斯 splatting（GS）已成為顯式輻射場和計算機圖形學領域的一種變革性技術。這種創新方法的特點是使用數百萬個可學習的3D高斯，它與主流神經輻射場方法有顯著區別——后者主要使用基于坐標的隱式模型將空間坐標映射到像素值。3D GS憑借其顯式場景表示和可微渲染算法，不僅有望實現實時渲染能力，還引入了前所未有的可編輯性水平。這使得3D GS成為下一代3D重建和表示領域的潛在游戲規則改變者。在本文中，我們首次系統概述了3D GS領域的最新發展和關鍵貢獻。我們首先詳細探討3D GS的基本原理及其興起的驅動力，為理解其重要性奠定基礎。我們討論的一個重點是3D GS的實際適用性。通過實現前所未有的渲染速度，3D GS開辟了從虛擬現實到互動媒體等眾多應用場景。此外，我們還對領先的3D GS模型進行了對比分析，通過各種基準任務對其進行評估，以突出它們的性能和實用價值。本綜述最后指出了當前面臨的挑戰，并提出了未來研究的潛在方向。通過本次綜述，我們旨在為新手和資深研究人員提供有價值的資源，以促進顯式輻射場領域的進一步探索和發展。

關鍵詞：3D高斯 splatting、顯式輻射場、實時渲染、場景理解

1.引言

背景與挑戰?
3D場景重建是計算機視覺和圖形學領域的核心問題，旨在從圖像或視頻中生成可編輯的數字3D模型，其應用涵蓋虛擬現實、自動駕駛、文物保護等。傳統方法如運動恢復結構（SfM）和多視圖立體視覺（MVS）雖取得進展，但在處理復雜場景、光照條件及紋理缺失時仍存在局限。神經輻射場（NeRF）的提出標志著重大突破，通過神經網絡隱式建模場景的輻射場，實現了逼真的新視圖合成。然而，NeRF存在兩大瓶頸：一是計算成本高昂，訓練和渲染耗時；二是隱式表示難以直接編輯，限制了實際應用靈活性。

3D高斯潑濺的革新性??
3D高斯潑濺（3D GS）通過顯式表示場景實現了范式轉換。其核心思想是利用數百萬個可學習的3D高斯橢球體建模場景，結合可微渲染和基于點的渲染技術，在保持NeRF級視覺質量的同時顯著提升效率。3D GS的優勢在于： ?

高效渲染：通過并行化管線避免NeRF中耗時的光線步進計算，支持實時渲染（如VR/AR應用）； ?
顯式可編輯性：直接操作3D高斯參數（位置、尺度、旋轉等）即可調整幾何與外觀，解決了隱式模型難以編輯的問題； ?
動態場景適應性：為復雜動態場景（如光照變化、物體運動）提供了靈活建模工具。 ?

未來展望
盡管3D GS已展現出巨大潛力，仍需解決以下開放問題： ?

計算效率的進一步優化：尤其在移動端和邊緣設備上的部署； ?
大規模場景擴展性：當前方法對內存和顯存需求較高； ?
動態建模的通用性：如何統一處理非剛性變形、流體等復雜動態； ?
與生成式AI的結合：探索3D GS與擴散模型等技術的協同創新。 ?

總結
3D高斯潑濺通過顯式表示與高效渲染的融合，推動了3D重建領域的范式演進。其兼具高質量輸出與實時性能的特點，為工業界和學術界開辟了新方向。本綜述不僅為初學者提供入門指南，也為資深研究者揭示了技術脈絡與潛在突破點，助力這一快速發展的領域持續創新。

2.背景

2.1輻射場（Radiance Field）

隱式輻射場（Implicit Radiance Field）

隱式輻射場不顯式定義場景幾何，而是通過連續函數（如神經網絡）建模光場分布。在深度學習時代，典型代表是神經輻射場（NeRF）。NeRF（圖3a）使用多層感知機（MLP）將空間坐標 (x, y, z) 和觀察方向 (θ, φ) 映射到顏色 c 和體積密度 σ：

(𝑐,𝜎)←MLP(𝑥,𝑦,𝑧,𝜃,𝜙)

這種表示具有可微性和緊湊性，但依賴體積光線步進（ray marching），計算開銷大。需注意，顏色 c 通常與視角相關，而密度 σ 僅與位置相關。

顯式輻射場（Explicit Radiance Field）

顯式輻射場通過離散結構（如體素網格或點云）直接存儲光場數據，其形式為：
(𝑐,𝜎)←DataStructure(𝑥,𝑦,𝑧,𝜃,𝜙).

其中 DataStructure 可以是體素、點云等，其顏色編碼方式分為兩類：高維特征+輕量MLP解碼：先存儲特征向量，再通過小型MLP解碼出顏色；方向基函數系數（如球諧函數、球面高斯）：直接存儲基函數系數，通過視角方向計算最終顏色。
顯式方法訪問數據更快，但內存占用高且分辨率受限。

3D高斯潑濺（3D GS）：融合隱式與顯式優勢

3D GS 是一種顯式輻射場，但吸收了隱式場的優點。其核心創新在于：

可學習3D高斯作為基本單元：每個高斯直接編碼不透明度 α（而非傳統方法先計算密度 σ 再轉換）；
混合優化策略：結合神經網絡的優化能力與顯式數據存儲結構，在可微渲染管線中通過多視圖圖像監督優化高斯參數；
高效與高質量兼顧：避免了NeRF的昂貴光線步進，支持實時渲染，同時訓練時間更短，尤其適合復雜場景和高分辨率輸出。

2.2 上下文與術語

體渲染（Volumetric Rendering）

目標是通過沿相機光線積分輻射值，將3D體積表示轉換為2D圖像。一條相機光線?r(t)?可參數化為：

其中 o 是光線起點（相機中心），d 是光線方向，t 表示沿光線的距離范圍。像素顏色 C(r) 的計算公式為：

其中：

σ(r(t)) 是點 r(t) 處的體積密度；

c(r(t), d) 是該點沿方向 d 的顏色；

T(t) 是透射率（衡量光線未被遮擋的概率）。

光線步進（Raymarching） 是體渲染的離散近似方法，沿光線逐步采樣并計算積分。NeRF 采用類似方法，但引入重要性采樣（importance sampling）和位置編碼（positional encoding） 以提高渲染質量。然而，光線步進計算成本高昂，尤其在高分辨率渲染時效率較低。

基于點的渲染（Point-Based Rendering）

與體渲染不同，基于點的渲染算法直接對點云進行光柵化。傳統方法（如固定大小的點渲染）容易產生空洞和偽影，而改進方法包括：

空間擴展的潑濺（Splatting）：為點賦予空間范圍（如橢球或高斯分布），減少渲染瑕疵
神經點特征（Neural Point Features）：在點中嵌入神經特征，再通過網絡解碼渲染。

3D GS 的創新點：

采用3D高斯作為基本渲染單元，顯式存儲顏色、不透明度等屬性（而非隱式神經特征）；
使用基于點的α混合（Point-Based α-Blending），其成像模型與NeRF體渲染（Eq. 3）數學等效，但計算方式不同：NeRF 需沿光線密集采樣計算積分，計算量大；3D GS 通過光柵化直接渲染高斯點，天然適合并行計算，速度優勢顯著。

核心差異總結

3. 3DGS原理

3.1?用學習得到的 3D 高斯進行渲染

這一部分主要講述：如何利用 3D 高斯表示進行圖像渲染，并對比 NeRF 的體積渲染方式，介紹 3DGS 中的三個關鍵技術環節：高斯定義、視錐剔除、Splatting 渲染。

? 渲染任務目標：

輸入：一個由數百萬個 3D 高斯表示組成的場景
輸出：從某一相機視角（camera pose）渲染生成的圖像

🔁 NeRF 與 3DGS 渲染方式的對比：

方法	NeRF	3D Gaussian Splatting
渲染機制	每像素沿射線進行體積采樣（raymarching）	將 3D 高斯投影到 2D 平面（splatting）
效率	渲染慢，難以實時	渲染快，支持實時甚至高分辨率
應用限制	對資源要求高，難上移動端	更適用于實時系統、AR/VR

兩者幾乎可視為“逆過程”：NeRF 從像素回溯采樣 3D，3DGS 從 3D 投影到像素。

渲染流程詳解

1?? 定義：3D 高斯的屬性（Learned 3D Gaussian）

一個 3D 高斯是渲染中的最小單位，具備以下屬性：

屬性	說明
μ	中心點位置（position）
α	不透明度（opacity）
Σ	3D 空間協方差矩陣（形狀/范圍）
c	顏色（color），通過球諧函數（spherical harmonics）建模視角相關顏色

所有屬性均可學習，并通過反向傳播進行優化。

2?? 視錐剔除（Frustum Culling）

目的：排除那些位于相機視錐體（frustum）之外的高斯點，減少無效計算。
做法：依據當前相機位姿，僅保留處于視錐內的高斯參與后續投影。

3?? Splatting（投影渲染）

? 概念：

將 3D 高斯（橢球）投影成圖像平面上的 2D 高斯（橢圓）
核心過程分兩步：
1. 坐標變換：將世界坐標系下的高斯轉換到相機坐標系（使用相機視角變換矩陣 W）
2. 高斯投影：使用仿射近似進行透視變換，將其從 3D 投影到 2D 圖像平面

? 數學公式：

給定 3D 協方差矩陣 Σ 和相機變換矩陣 W，2D 投影后的協方差矩陣 Σ′ 為：

其中：

W：3D 到相機空間的變換矩陣
J：透視變換的仿射近似雅可比矩陣（Jacobian）
J 來自透視投影的泰勒展開前兩項（參見文獻 [39]）

?? 標準的相機內參矩陣無法直接作用于協方差 Σ，因為透視變換是非線性的。3DGS 采用一種仿射近似方法，可在數學上保持可微性和高效性。

? 小結：

3D Gaussian Splatting 利用“splatting”而非“raymarching”進行圖像生成，大幅減少渲染計算量。其核心渲染流程包括：

表示場景為多個可學習的 3D 高斯點
剔除視野外無效高斯
投影 + 排序 + 累積實現圖像生成

該流程支持高速、可微、實時渲染，是 NeRF 的一種高效替代范式。

逐像素渲染機制（Rendering by Pixels）

👉 渲染步驟：

像素與高斯距離計算：
對于圖像中某一像素點 x，計算其與所有重疊高斯之間的深度距離（通過視圖變換矩陣 W 得到），形成一個深度排序的高斯列表 N。
Alpha 混合（α-Blending）：
使用如下公式計算像素的最終顏色 C：

$c_{n}$ ?：第 n 個高斯的顏色
$\alpha _{n}^{'}$ ?：加權不透明度，結合高斯函數與可學習參數定義如下：

?
- $\alpha _{n}$ ：可學習的不透明度
- $\mu _{n}^{'}$ ?、x′：投影空間中的高斯中心和像素位置
- $\Sigma _{n}^{'}$ ?：投影空間下的協方差矩陣

?? 存在問題：

該方法逐像素地遍歷并排序高斯點，難以并行化，效率遠低于 NeRF 的統一射線采樣，因此不能滿足實時渲染需求。

提升策略一：圖像切塊（Tiles / Patches）

為突破效率瓶頸，3DGS 借鑒了**基于瓦片的光柵化（tile-based rasterization）**思想：

👉 思路：

將圖像劃分為多個 不重疊的 tile（塊），通常大小為 16×16 像素
對每個 tile，判斷哪些高斯投影與其發生重疊

👉 實現：

高斯復制（Gaussian Replication）：
一個高斯可能同時影響多個 tile，因此需“復制”高斯，分別賦予每個副本對應 tile 的 ID，供后續并行渲染使用。

提升策略二：并行渲染（Parallel Rendering）

3DGS 接下來通過 tile ID + 深度構造一個可排序的鍵值結構，用于高效并行渲染。

👉 核心做法：

將高斯的 tile ID 放在高位、深度值放在低位，組成一個 byte 序列
使用該結構進行排序后，可直接用于 alpha compositing（即逐層疊加計算像素顏色）

👉 優點：

每個 tile 可獨立渲染，tile 內的像素也可并行執行
每個 tile 的像素共享緩存，提升 memory 訪問效率
映射到 CUDA 架構中：
- tile ? block
- pixel ? thread

📸 多張照片│  ▼
🧠 SFM重建 → 稀疏點云 + 相機位姿│    |  （得到：幾千到幾萬個 3D 點、每個點的位置、每個相機的位置和朝向（相機矩陣））|▼
🌐 初始化為數萬個 3D 高斯（位置+顏色+透明度+形狀）│|  𝜇：3D 空間中的位置中心點|  Σ：3×3 的協方差矩陣，表示它的形狀（橢球的方向和大小）|  α：不透明度，控制它“在圖像中是否顯著”   |  c：顏色，一般用球諧函數表示（支持視角相關）|  📌 初始時這些值是隨機或規則初始化的，隨后都會通過優化學習得到最優值▼
🎯 優化高斯參數（訓練過程）│  用一種 NeRF 類似的思想：從不同視角拍的真實照片中，來優化這些高斯的參數|  步驟：1.從某個相機視角“看向”這些高斯 → 把它們投影到 2D 圖像上||        2.使用一種叫 高斯濺射（Gaussian Splatting） 的方法進行渲染，得到一個合成圖像||        3.把合成圖像和真實照片進行對比（L1 / L2 損失 + 結構損失等）||        4.用梯度下降不斷更新所有高斯的參數（位置、透明度、形狀、顏色）|| 這整個過程會遍歷很多張圖片，優化所有高斯，直到生成圖像和真實照片盡量一致。|▼
🧃 投影到圖像平面（splatting）│   |  3D Gaussian Splatting 做的事就是：把 3D 空間中的高斯點，在某個相機視角下“投影”成 2D 圖像上 |  的“模糊光斑”（橢圓形），過程如下：|       1.投影 Projection：每個 3D 高斯通過相機矩陣被投影到圖像平面上（變成一個 2D 高斯），協 |         方差矩陣也從 3D 轉換為 2D，變成橢圓大小和方向|       2.排序 Sorting：對所有落在某個像素或 tile 上的高斯點，按深度從近到遠排序|       3.混合 Alpha blending：使用公式把顏色和透明度混合出這個像素的最終顏色|                             （越近的點影響越大，越透明的點權重越小）|▼
🎨 混合出顏色（alpha blending）|▼
🧠 提速：tile-based 并行渲染（支持實時）
“按塊算”（Tile-based rendering）：整張圖像被分成多個小 tile（例如 16x16），每個 tile 分配一組高斯；所有 tile 并行處理，每個 tile 內部也并行處理每個像素。這樣就能完美使用 GPU 的 CUDA block/thread 架構，實現 實時渲染！
最后渲染結果：從任意角度、任意距離實時查看場景；不需要像 NeRF 那樣“采樣 + MLP + raymarch”，渲染速度快幾十倍！保持較高畫質，還能動態加載（比如 Niantic 的 SPZ 格式就是這么做的）

3D GS 的正向過程圖示（參見第 3.1 節）（a）展開步驟將 3D 高斯投影到圖像空間中。（b） 3D GS 將圖像劃分為多個不重疊的塊，即平鋪。（c） 3D GS 復制覆蓋多個瓦片的高斯分布，為每個副本分配一個標識符，即瓦片 ID。（d）通過渲染排序的高斯分布，我們可以獲得瓦片內的所有像素。請注意，像素和切片的計算工作流程是獨立的，可以并行完成。

3.2 3D 高斯 Splatting 的優化流程

3.2.1 參數優化（Parameter Optimization）

目標： 利用可微 splatting 渲染，將合成圖像與真實照片對齊，并通過梯度下降更新所有高斯參數。

損失函數：結合 L1 / L2 顏色誤差 + D-SSIM 結構相似度，控制逼真效果和平滑度，可以寫為：

優化的參數包括：
- 每個高斯的位置 μ\muμ、透明度 α\alphaα、
- 顏色球諧系數 ccc（支持視角依賴）
- 協方差矩陣 Σ\SigmaΣ
協方差矩陣的穩定優化：
- 直接訓練 Σ\SigmaΣ 容易讓其失去正定屬性，影響物理意義。
- 解決方案：學習一個 四元數表示的旋轉 qqq 和一個 3D 縮放向量 sss；
  然后通過：

來生成穩定的協方差矩陣。

效率優化：

相比自動求導整個流程，通過推導公式顯式計算梯度，加快優化速度。

3.2.2 自適應密度控制（Density Control）

場景中適當的 Gaussian 數量不同，3DGS 設計了 動態增加（densification）和刪減（pruning） 的迭代機制：

🟢 增加高斯密度（Point Densification）

議題：場景中某些區域出現幾何缺失或點過稀時，需要補點。
方式：
- 尋找 視空間位置梯度大 的高斯（表示重建不足），然后：
  - 復制高斯 并沿梯度方向初始激活；
  - 或 分裂一個大 Gaussian 為兩個更小個體，通過縮放分裂策略刷新；
目的：重建細節區域，使重建更均勻豐富 arxiv.org+15arxiv.org+15arxiv.org+15。

🔴 刪減冗余節點（Point Pruning）

動機：避免不必要的計算開銷與視覺誤差。
策略：
- 刪去 幾乎透明 的 Gaussian（α 很小）；
- 去除在世界空間或視空間中顯得異常巨大的 Gaussian；
- 在訓練中期時，將靠相機非常近的 Gaussian α 降為接近 0，防止攝像機附近節點過度密集。
目標：提升表示效率，控制粒子數量并保持訓練穩定、表達完整。

🔁 兩者交替進行 🎯

上述兩個過程會在訓練中交替進行：

優化參數，強化節點對當前視角的視覺準確性；
根據梯度與 α 信息動態增加或刪除高斯；
重復以上步驟直至畫質收斂。

總結一覽

模塊	方法	效果 / 目的
參數優化	學習 μ、α、c、q（旋轉）、s（縮放）	生成可優化的協方差，提升畫質與穩定性
損失函數	L1 + D?SSIM	保證結構與視覺一致性
協方差處理	四元數 + 縮放分解	避免 Σ 非正定
加密 / 分裂高斯	依據位置梯度克隆或分裂大高斯點	重建場景細節
刪除冗余高斯	移除透明或過大節點，控制局部密度	降低計算與存儲開銷

4.發展方向

4.1 針對稀疏輸入的 3D Gaussian Splatting

問題背景：

3D Gaussian Splatting（簡稱 3D GS）在可觀察視角有限時（如拍攝角度少），容易在圖像重建中產生幾何畸變或紋理缺失的問題。

這是輻射場重建（Radiance Field Rendering）中的通病 —— 當輸入圖像稀疏時，模型很難還原完整的場景幾何與外觀。

現有解決方案可分為兩類：

一類：基于正則化的方法（Regularization-based）

通過引入先驗約束（如深度）來增強稀疏條件下的建模效果。

DNGaussian?：加入深度正則項，有效緩解幾何退化；
FSGS：設計了 Gaussian Unpooling 的初始化機制，同時引入深度約束；
MVSplat：構建了 cost volume 表征，用于提供幾何提示。

🧨 不足：當視角數量極少（如僅有一張圖）時，這類方法的性能顯著下降，魯棒性不足。

二類：基于泛化建模的方法（Generalizability-based）

通過學習先驗模型，提高模型從少量視圖中生成完整場景的能力。

生成視圖補全（View Synthesis）：借助生成模型（如 NeRF-W）生成更多視圖，然后并入重建流程；
- 🧨 缺點：計算開銷大，且效果依賴于生成模型的泛化能力。
前饋式高斯建模（Feed-forward Gaussian Models）：
- 如 PixelSplat?：從密集概率分布中采樣高斯；
- Splatter Image：通過圖像到高斯的映射網絡，將 2D 圖像像素轉換為 3D 高斯。

🧨 問題：這些方法生成的高斯是像素對齊、均勻分布的，難以精準覆蓋細節區域和光滑曲面。

🧭 當前挑戰與展望：

核心挑戰：如何在“過擬合視圖”和“先驗泛化”之間做平衡；
未來方向：
- 引入置信度機制：基于上下文或用戶偏好動態選擇建模先驗；
- 擴展到動態場景：考慮時間一致性、運動模糊等因素，是重要研究前沿。

4.2 內存高效的 3D GS（Memory-efficient 3D GS）

問題背景：

與 NeRF 相比，3D GS 不需要 MLP 網絡，但需要大量高斯點（上百萬個）來表達場景，導致：

內存開銷大（遠高于存儲一個小型神經網絡）；
大規模場景（如室外城市）渲染和訓練時資源瓶頸明顯。

兩類優化方向：

① 減少高斯數量

體素掩膜裁剪（volume-based masking） [58]：
- 刪除視覺影響小的高斯點，降低數量和渲染冗余。
共享屬性（共享 anchor）表示：
- 鄰近高斯共享顏色等屬性，減少重復存儲：
  - 如：局部錨點共享（local anchor）；
  - 哈希網格共享（hash-grid） [62]；
  - 聚類共享 [22]。

② 壓縮高斯屬性

代碼本壓縮（codebook compression）：
- 如 [61] 將顏色和協方差編碼進壓縮表（codebook），再通過靈敏度指標進行微調。
自適應量化（adaptive quantization）：
- HAC [62]：對高斯屬性分布進行建模后進行可學習的量化壓縮。

📌 這些策略可以組合使用，即一套系統可同時做高斯裁剪 + 屬性壓縮。

🧭 面臨的挑戰：

訓練過程中的內存優化尚不成熟（如量化感知訓練仍在探索中）；
如何構建通用場景的可復用壓縮字典（codebook）；
如何在壓縮率與渲染質量之間取得更好的折中。

4.3 Photorealistic 3D Gaussian Splatting（真實感提升）

背景：

當前的 3D GS 渲染流程（見第 3.1 節）雖然計算高效，但在圖像質量方面仍有不足，主要問題包括：

可見性算法過于簡單 → 導致深度順序切換不自然；
存在混疊、反射效果差、模糊等問題；
渲染真實感仍遠遜于傳統渲染或高質量 NeRF。

當前研究集中優化的三個視覺質量方向：

① 混疊問題（Aliasing）

原因：3D GS 使用點采樣（每像素視為一個點），在多分辨率/邊緣區域導致鋸齒或模糊。
訓練階段改進：
- Multi-scale Gaussian [67]：多尺度建模，兼顧不同分辨率；
- Mip Filter [65]：借鑒傳統渲染的層級模糊濾波；
- Logistic Function 調制 [78]：對密度函數做平滑處理。
推理階段改進：
- Scale-adaptive Filtering [80]：自動調整濾波大小以匹配分辨率變化，兼容所有框架。

② 反射效果差（Reflection）

反射物體難以建模，一直是重建領域的難題。
新研究：
- 提出 可重光照高斯（relightable Gaussians） [23]；
- 建模鏡面反射材質 [68][73][99]；
- 但要實現物理準確的鏡面反射仍然十分困難。

③ 模糊問題（Blur）

實際數據集中常出現運動模糊、失焦模糊等問題。
解決方案：
- 模糊建模：顯式在訓練中考慮模糊核；
- 如：
  - Coarse-to-fine 模糊核優化 [74]；
  - Photometric Bundle Adjustment [75]：多幀聯合優化照片一致性。

🎯 總結思路：

當前解決方案多為“一對一解決策略”：即哪個問題就解決哪個；
更理想的做法應是建立自動檢測問題 → 自動選擇優化方式的機制；
目標是構建一個全能型重建系統，或是從頭重建 3D GS 渲染管線。

4.4 Improved Optimization Algorithms（優化算法改進）

🎯 背景：

3D GS 的優化過程存在以下關鍵問題：

收斂慢；
高斯點分布不均，造成有些區域重建過密、有些區域模糊或缺失；
正則化不足，導致結構不清晰、外觀失真。

🔍 目前優化算法的三個方向：

① 正則化增強（Regularization）

頻率正則化 [84]：限制高頻信息，避免過擬合；
幾何正則化：
- 使用 anchor 點 [22]、深度/表面約束 [100]~[102]；
- 引入高斯體積建模（Gaussian Volumes）[103]，保持幾何一致性。

② 優化策略增強（Optimization Procedure）

原始方法（見第 3.2 節）雖有效，但還可提升：
- 例如：GaussianPro [44] 針對大場景/光滑區域提出更穩健的 densification 策略；
- 改進點初始化方式、避免貼圖區域稀疏。

③ 約束松弛（Constraint Relaxation）

當前依賴 SfM 等工具初始化，誤差較大，限制性能上限；
新研究探索 “COLMAP-free” 方法：
- 如基于連續流（stream continuity）的直接高斯建模；
- 支持從互聯網視頻中自動學習場景。

🧠 未來方向探索：

多數研究集中在“從零優化高斯表示”，但忽略了更具潛力的：
- ? 少量樣本重建（few-shot reconstruction）
- ? 元表示學習（meta representation）
  - 即：融合“場景通用知識”與“場景特定信息”，進行快速適應。

4.5 Augmented 3D Gaussians：加入更多屬性的3DGS

雖然3D Gaussians 最初只為 新視角合成（novel view synthesis） 設計，但研究者發現它還能通過融合更多屬性信息，拓展到語義理解、語言交互、時空建模等多領域任務。

三類擴展屬性與應用方向：

① 語言嵌入場景建模（Language Embedded Scene Representation）

高維語言嵌入成本高，Shi 等人 [87] 提出：
- 壓縮嵌入（quantized language embedding）；
- 結合語義不確定性引導的平滑機制；
- 提升跨視角語義一致性與開放詞匯查詢準確度。

② 語義理解與編輯（Scene Understanding & Editing）

Feature 3DGS [90]：從2D大模型中蒸餾語義特征；
構建低維語義場 → 用小型卷積解碼器上采樣；
應用包括：
- 場景語義分割、
- 文本引導編輯（text-guided editing）、
- 快速訓練與實時渲染。

③ 時空建模（Spatiotemporal Modeling）

Yang 等人提出 [93]：
- 4D 高斯點（帶時間維度）；
- 統一建模動態場景的時空變化；
- 渲染支持任意旋轉 + 時序變化；
- 可進行端到端訓練。

4.6 Hybrid Representations：混合式表示增強任務適應性

除了直接擴展屬性，另一方向是將 3D Gaussians 與結構化信息（如 MLP、網格等）融合，提升其對特定任務的適配能力。

三類典型混合表示場景：

① 表情建模（Facial Expression Modeling）

Gaussian Head Avatar [96]：
- 使用可控 3D Gaussians + MLP形變場；
- 同時優化“中性面部高斯”與“動態變形”；
- 實現稀疏視角下高保真表情建模。

② 動態建模（Spatiotemporal Modeling）

Yang 等人 [94]：
- 引入形變高斯點，學習在 canonical 空間；
- 使用 空間 MLP 表示時空動態；
- 增加“退火平滑機制”提升時間一致性，且無額外計算開銷。

③ 風格遷移（Style Transfer）

GS in Style [107]：
- 利用預訓練高斯點 + 多分辨率哈希網格 + 小型 MLP；
- 實現實時場景風格化；
- 保證多視角一致性與高渲染速度。

總結：

結構信息作為“外骨骼”填補高斯點的稀疏性與無序性短板，使其更適用于編輯、風格化、動畫等任務。

4.7 新型渲染算法：從光柵化到光線追蹤

雖然 3DGS 的光柵化渲染方式（基于排序 + 局部高斯加權）非常高效，但仍存在多個結構性缺陷，尤其在復雜相機/光效/幾何重疊等場景下表現不足。

🔧 主要問題：

難以處理：
- 畸變相機（如魚眼、Rolling Shutter）；
- 二次光線（反射、陰影）；
- 隨機采樣（如光照模擬）；
高斯點之間常常重疊，僅靠中心排序會導致：
- “圖像跳躍”（popping artifacts）
- 時序不一致（Temporal instability）

🌟 替代性方案：光線追蹤（Ray Tracing）3D Gaussian 渲染

① GaussianTracer [108]

首次提出“高斯光線追蹤渲染管線”；
為非均勻高斯分布設計高效加速策略；
支持不連續密度和交叉分布的快速遍歷。

② EVER [109]

提出物理精確的“恒定密度橢球體”表示；
可以精確求解體積渲染積分，避免近似；
消除跳幀與邊緣模糊問題。

展望與潛能：

新能力	說明
? 全光照支持	反射、折射、全局光照等
? 復雜相機建模支持	魚眼鏡頭、運動快門等
? 高物理精度渲染	真正支持方向性外觀估計（非 tile approximation）
? 可用于逆向渲染與材質建模	支持物理場景理解、可重光照等

但目前仍存在計算成本高的問題，是未來研究的關鍵方向之一。

5.未來研究方向（Future Research Directions）

盡管 3D Gaussian Splatting（3DGS）已經在多項任務上取得顯著成就，但目前仍存在大量尚未開發的潛力和研究空白，主要可歸納為以下五大研究前沿：

1?? 物理與語義感知的場景表示（Physics- and Semantics-aware Scene Representation）

核心觀點：將物理規則與語義信息整合到3D GS中，可大幅提升幾何、紋理、光照等方面的表示質量。
當前現狀：已有不少單獨研究關注物理或語義建模，但兩者的協同融合仍屬空白領域。
潛在價值：
- 改善建模質量（幾何/表面重建等）
- 支持動態建模、場景編輯與生成任務
- 降低訓練視角數量需求（利用先驗知識）
應用方向：場景理解、計算創作（computational creativity）、增強現實等。

2?? 基于大規模數據學習物理先驗（Learning Physical Priors from Large-scale Data）

目標：從2D/3D大規模數據中提取通用物理屬性，用于更好地建模現實世界。
應用前景：
- 快速適配新物體和新環境（few-shot learning）
- 提高虛擬場景的交互性與動態表現力，尤其適用于 AR/VR 領域。
挑戰：
- 當前從數據中提取物理知識的研究仍較稀缺。
- 有價值的路徑包括：real2sim、sim2real 橋接。
已有探索：連續力學（continuum mechanics）方法、基于MVS的高斯表示等。

3?? 建模對象內部結構（Modeling Internal Structures of Objects）

現有問題：
- 當前3D GS通過點云“濺射”（splatting）構建表示，無法準確對齊物體內部結構。
- 這對需要體積建模（如CT掃描、醫學影像）等應用是重大限制。
已有嘗試：
- Li 等使用密度控制不使用 splatting 建模體積；
- X-Gaussian使用 splatting 但無法生成體積結構。
未來方向：
- 建立適用于體積建模的 3D GS 框架；
- 支持真實結構建模與分析。

4?? 3D GS 在自動駕駛仿真等場景中的應用（3D GS for Simulation in Autonomous Driving and Beyond）

問題背景：
- 自動駕駛數據獲取成本高，仿真成為替代方案。
關鍵挑戰：
- 構建高質量、可控、真實感強的虛擬數據生成器。
當前探索：已有初步嘗試重建城市街景（如 [188]–[190]），但尚處于初級階段。
需進一步突破的點：
- 支持用戶定義模型
- 模擬物理變化（如輪胎轉動）
- 多光照、多環境模擬
應用展望：
- 計算空間理解
- Embodied AI（具身智能）
- 世界模型（World Models）

5?? 賦予3D GS更多功能與屬性（Empowering 3D GS with More Possibilities）

方向一：增強屬性
- 引入更多信息：語言（linguistic）、時空（spatiotemporal）屬性等
方向二：結構建模
- 融入空間MLP、網格結構（如 Sec. 4.6）以提升表達能力
已探索應用：
- 點云配準（Point Cloud Registration）
- 圖像表示與壓縮
- 流體合成（Fluid Synthesis）
強調：鼓勵跨學科深入探索，打開新的研究與應用邊界。

?總結

雖然3D Gaussian Splatting已在新視圖合成等領域取得顯著進展，但其潛力遠未完全釋放。未來的研究可以圍繞物理與語義感知表示、從大數據中學習物理先驗、建模內部結構、用于自動駕駛仿真以及增強功能屬性與跨學科擴展等方面展開。這些方向不僅將提升模型的準確性與表達力，也將促進3D GS在計算機視覺、機器人、AR/VR、醫學影像等多個領域的應用落地。