【論文筆記】BlockGaussian：巧妙解決大規模場景重建中的偽影問題

論文地址：https://arxiv.org/pdf/2504.09048

大規模場景的重建方法不僅僅對于高空航拍數據有效，而且對于地面大中場景也有增強效果，故專門來學習一下這一方向的知識。感謝作者大佬們的great work。

Abstract

三維高斯潑濺（3DGS）技術的最新進展在新視角合成任務中展現出非凡潛力。分治策略雖已實現大規模場景重建，但在場景分區、優化與融合環節仍存在顯著挑戰。本文提出BlockGaussian創新框架，通過內容感知的場景分割策略和可見性感知的區塊優化技術，實現高效優質的大規模場景重建。具體而言，我們的方法基于不同區域的內容復雜度差異進行動態分區，從而平衡計算負載，提升重建效率。針對區塊獨立優化時的監督失配問題，我們在單個區塊優化過程中引入輔助點以對齊真實監督信號，顯著提升重建質量。此外，偽視角幾何約束有效緩解了區塊融合時因空域漂浮物導致的渲染質量下降。在大規模場景上的實驗表明，本方法在重建效率和渲染質量上均達到最先進水平：優化速度提升5倍，在多個基準測試中平均PSNR提高1.21 dB。值得注意的是，BlockGaussian大幅降低了計算資源需求，僅需單塊24GB顯存設備即可完成大規模場景重建。

1.INTRODUCTION

大規模場景的高保真實時新視角合成對自動駕駛[1]–[3]、虛擬現實[4][5]、遙感攝影測量[6][7]以及具身智能等應用至關重要。當前主流新視角合成方法主要分為兩類：基于神經輻射場（NeRF）的方法[8]–[11]與基于高斯潑濺的技術[12]–[14]。神經輻射場（NeRF）[8]憑借隱式表示實現高保真渲染的能力，已被擴展至大規模場景重建任務[15]–[17]。盡管Block-NeRF[17]完成了舊金山街區的大規模重建，但以MLP網絡為最小單元的場景表示缺乏靈活性且渲染速度緩慢。作為替代方案，3D高斯潑濺[12]展現出更顯著潛力，其顯式點云場景表示對大規模場景更具可擴展性[18]–[21]，尤其是快速的渲染速度。

[18] B. Kerbl, A. Meuleman, G. Kopanas, M. Wimmer, A. Lanvin, and
G. Drettakis, “A hierarchical 3d gaussian representation for real-time
rendering of very large datasets,” ACM Transactions on Graphics (TOG),
vol. 43, no. 4, pp. 1–15, 2024.
[19] J. Lin, Z. Li, X. Tang, J. Liu, S. Liu, J. Liu, Y. Lu, X. Wu, S. Xu, Y. Yan
et al., “Vastgaussian: Vast 3d gaussians for large scene reconstruction,”
in Proceedings of the IEEE/CVF Conference on Computer Vision and
Pattern Recognition, 2024, pp. 5166–5175.
[20] Y. Liu, C. Luo, L. Fan, N. Wang, J. Peng, and Z. Zhang, “Citygaussian:
Real-time high-quality large-scale scene rendering with gaussians,” in
European Conference on Computer Vision. Springer, 2024, pp. 265–282.
[21] Y. Chen and G. H. Lee, “Dogs: Distributed-oriented gaussian splatting
for large-scale 3d reconstruction via gaussian consensus,” Advances in
Neural Information Processing Systems, vol. 37, pp. 34 487–34 512, 2025.

[15] H. Turki, D. Ramanan, and M. Satyanarayanan, “Mega-nerf: Scalable
construction of large-scale nerfs for virtual fly-throughs,” in Proceedings
of the IEEE/CVF conference on computer vision and pattern recognition,
2022, pp. 12 922–12 931.

在顯存資源限制下，分治范式[15][19][20]已成為大規模場景新視角合成的主流方法。通過將場景劃分為子區域，多GPU并行顯著提升了重建速度。該范式包含三個關鍵階段：場景分區、獨立區塊優化和區塊重建結果融合。這些階段存在嚴格的順序依賴性——每個后續階段的輸入完全依賴于前序階段的輸出。最終重建質量取決于各階段的有效性。現有研究方法雖已建立基線，但這些步驟仍存在挑戰：區塊間重建復雜度不均衡、區塊優化中的監督失配以及融合結果的質量退化。以下是對這三種挑戰的解讀：

a）區塊間重建復雜度不均衡

區塊間重建復雜度不均衡源于不合理的場景劃分，這會降低大規模場景重建效率（尤其在多GPU設備上）。如圖2(a)所示，均勻網格劃分忽略了不同區域的內容差異（有的地方建筑物密集，有的地方稀疏）。場景劃分需考慮兩個關鍵因素：區塊劃分的粒度與跨區塊計算負載。前者需關注不同場景區域的復雜度，對高興趣度或更復雜區域采用更細粒度；后者旨在平衡跨區塊計算負載，從而減少多GPU下整體場景的訓練時間。VastGaussian[19]提出漸進式數據劃分策略（基于相機位姿劃分場景），DOGS[21]則改進該方法，通過遞歸方式平衡跨區塊計算負載。但基于相機位姿的劃分受限于相機空間分布，難以推廣至視角分布更復雜的場景。CityGaussian[20]首次訓練粗粒度高斯作為場景先驗，并據此進行網格劃分，但該方法需預訓練粗粒度高斯模型，未能完全解耦場景規模與優化過程。

b）區塊優化中的監督失配

區塊優化中的監督失配會導致區塊內偽影，降低場景重建質量。在大規模場景重建的分治范式下，全局場景表示的缺失導致獨立區塊優化時出現可見性問題。如圖2(b)所示，場景劃分后，訓練視圖的內容可能分布于多個區塊，單個區塊僅對應圖像范圍的部分區域。因此在重建目標區塊時，損失計算會出現渲染圖像與訓練視圖的失配，原因包括：a)目標區塊的渲染過程忽略區塊間遮擋關系；b)未優化區塊表示難以計算精確邊界。噪聲監督會干擾高斯參數在端到端優化中的梯度，導致重建結果退化。

b)說的太抽象了，沒有必要，重新解釋一下：

總結：

1）目標區塊的渲染過程忽略區塊間遮擋關系：全局場景中，數據集的某些視圖中具有遮擋是一個很常見的情況，我們考慮這種情況，如果分出來的局部區塊剛好就只有前面那些視圖中被遮擋的對象，也就是說，該局部區塊的高斯球在渲染過程中，這個被遮擋對象是完全可見無遮擋的，如果忽略，那么也就意味著全局監督信號出現了錯亂：“某些視圖中該區域到底該不該遮擋？”，導致偽影。

2）未優化區塊表示難以計算精確邊界：邊界問題很重要，因為局部區塊只渲染該區塊可見，相當于其他區域是空的（如果訓練過程中單獨渲染該區塊，出來的圖像應該是該區域之外一片黑），因此渲染的圖片中沒有其他區域的信息，但是訓練視圖是包含所有信息的！

有的人可能會想，我給訓練圖像中當前分塊區域之外加個mask，不計算入loss不行就行了，這個想法很自然，但是如果考慮具體實現的話，這個想法就有點簡單了，因為我們劃分區塊是按照稀疏點云，我們如何能精準的知道圖片中的mask呢？這是一個復雜低效的工程！

因此我們無法避免這個局部區域邊界的問題。

c）避免質量退化的無縫場景融合

避免質量退化的無縫場景融合是另一關鍵挑戰。獨立區塊優化因缺乏精確幾何監督易在空域產生漂浮物，導致退化解（如圖2(c)），這會顯著降低區塊融合后的渲染質量。因此，充分的空域監督對場景訓練至關重要。VastGaussian[19]嘗試通過增加訓練視圖并設計空域感知的可見性計算方法（基于區塊邊界投影多邊形比例選擇視角）來解決該問題，但該方法存在兩局限：忽略區塊間遮擋關系，且所選視角易引入區塊外額外區域，造成視角選擇與充分監督間的矛盾。

d）本文做法與效果

針對這些挑戰，我們提出BlockGaussian框架。場景劃分階段，我們提出基于空間的內容感知場景劃分方法（Content-Aware Scene Partition），根據運動恢復結構（SfM）[22]先驗過程輸出的稀疏點云動態精細劃分場景，同時統籌多區塊計算負載。為緩解獨立區塊重建的監督失配問題，我們重構單區塊優化問題并提出可見性感知優化算法：在優化過程中引入輔助點云自適應表示訓練視圖的不可見區域。實驗驗證了輔助點云的有效性。針對空域監督，鑒于場景遮擋關系的復雜性，直接選擇能為當前區塊提供充分空域監督的視角具有挑戰性。不同于VastGaussian[19]，我們設計偽視角幾何約束（Pseudo-View Geometry Constraint）：擾動訓練相機位姿生成偽視角，利用渲染深度圖將真實圖像從原始視角變形，并計算偽視角渲染圖像的損失。該約束顯著提升了區塊融合質量（尤其對交互式渲染）。

實驗表明，BlockGaussian有效解決了大規模場景重建的挑戰。如圖1所示，在重建質量與速度方面，本方法在多個場景中均達到最先進水平（SOTA）：優化速度提升5倍，平均PSNR提高1.21 dB。可在單塊24GB顯存GPU上順序執行或跨多GPU并行。此外，本方法在航拍場景與街景中均表現優異。我們的貢獻可總結為：

提出基于空間劃分范式的BlockGaussian框架，動態平衡區塊劃分粒度與跨區塊計算負載；
重構單區塊訓練過程，通過引入輔助點云解決渲染圖像與監督視角的失配問題；
設計偽視角幾何約束監督空域，有效緩解區塊融合時空域漂浮物導致的渲染質量退化。

2.RELATED?WORK

大場景重建的研究現狀

a）傳統流程

傳統場景重建流程[22][44]通常包含特征提取與匹配、相機參數估計、稠密重建、網格化及紋理貼圖等串行步驟，通過多階段協作恢復場景幾何與外觀。其中運動恢復結構（SfM）技術負責特征提取、匹配和相機參數估計，輸出相機位姿與場景稀疏點云。基于特征點與光束法平差的SfM框架因其穩定性，至今仍是位姿估計與稀疏重建的主流方案。傳統外觀重建流程以相機參數為輸入，通過多視圖立體匹配（MVS）[45]–[49]生成稠密深度圖，再經網格化[50]與紋理映射[51][52]得到基于網格的場景表示。

[22] J. L. Schonberger and J.-M. Frahm, “Structure-from-motion revisited,”
in Proceedings of the IEEE conference on computer vision and pattern
recognition, 2016, pp. 4104–4113.
[44] S. Agarwal, Y. Furukawa, N. Snavely, I. Simon, B. Curless, S. M. Seitz,
and R. Szeliski, “Building rome in a day,” Communications of the ACM,
vol. 54, no. 10, pp. 105–112, 2011.
[45] M. Bleyer, C. Rhemann, and C. Rother, “Patchmatch stereo-stereo
matching with slanted support windows.” in Bmvc, vol. 11, no. 2011,
2011, pp. 1–11.
[46] S. Galliani, K. Lasinger, and K. Schindler, “Massively parallel multiview
stereopsis by surface normal diffusion,” in Proceedings of the IEEE
international conference on computer vision, 2015, pp. 873–881.
[47] R. Chen, S. Han, J. Xu, and H. Su, “Visibility-aware point-based
multi-view stereo network,” IEEE Transactions on Pattern Analysis
and Machine Intelligence, vol. 43, no. 10, pp. 3695–3708, 2021.
[48] Z. Liang, Y. Guo, Y. Feng, W. Chen, L. Qiao, L. Zhou, J. Zhang, and
H. Liu, “Stereo matching using multi-level cost volume and multi-scale
feature constancy,” IEEE Transactions on Pattern Analysis and Machine
Intelligence, vol. 43, no. 1, pp. 300–315, 2021.
[49] Q. Xu, W. Kong, W. Tao, and M. Pollefeys, “Multi-scale geometric
consistency guided and planar prior assisted multi-view stereo,” IEEE
Transactions on Pattern Analysis and Machine Intelligence, vol. 45, no. 4,
pp. 4945–4963, 2023.

b）基于NeRF的方法

隨著可微分渲染技術的發展，基于端到端優化的重建方法（如神經輻射場[8]與3D高斯潑濺[12]）已超越傳統分步方法。針對大規模場景，分治策略成為處理海量數據的通用方案：將場景網格化后分塊優化，最終融合重建結果。

基于NeRF的方法包括：

Block-NeRF[17]：從280萬街景圖像重建舊金山街區，通過改進NeRF架構處理瞬態物體與外觀變化
Mega-NeRF[15]：采用稀疏空間感知網絡表示航拍場景，實現交互式渲染
Switch-NeRF[16]：基于稀疏大尺度NeRF表示設計可學習場景分解
Grid-NeRF[53]：將基于MLP的NeRF與特征網格結合編碼局部/全局信息，但受限于NeRF固有的緩慢訓練與渲染速度

c）當前基于GS的方法

基于高斯潑濺的方法憑借渲染速度優勢，正成為大規模場景研究新方向：：

Hierarchy-GS[18]：提出分層表示并并行優化分塊參數
Scaffold-GS[54]：結合顯隱式表示實現緊湊的高質量視圖合成
Octree-GS[55]：引入細節層次（LOD）與八叉樹結構組織錨點高斯

與本文同期的工作包括VastGaussian[19]、CityGaussian[20]和DOGS[21]，均采用"場景劃分-視角分配-并行優化-場景融合"流程，但存在以下局限：

劃分策略缺陷

VastGaussian的漸進式劃分與DOGS的遞歸劃分均依賴相機位姿分布，忽略了場景內容分布（比如城市中心地帶高樓林立與邊緣地帶建筑物稀疏）與相機分布的非對齊性（如圖3所示），導致動態地圖加載等下游任務困難

CityGaussian需預訓練全局粗粒度高斯模型指導劃分，在有限算力下難以實施

優化與融合瓶頸

現有方法在分塊優化時缺乏可見性感知機制，導致監督失配（如區塊邊界處渲染錯誤）

融合階段因空域漂浮物（未受幾何約束的高斯橢球）產生偽影

本文提出的BlockGaussian創新性體現在：

空間基自適應劃分：基于SfM稀疏點云動態平衡區塊粒度與計算負載，突破相機位姿分布限制
可見性感知優化：引入輔助點云建模不可見區域，解決監督失配問題（公式3推導了梯度修正項）
偽視角幾何約束：通過相機位姿擾動生成虛擬監督信號，抑制空域漂浮物（算法1詳細實現流程）

3.METHOD

0）公式設定

3D高斯潑濺利用三維空間中的離散高斯基元，每個高斯基元Gk包含以下可學習屬性：

位置
旋轉
透明度
縮放系數
球諧函數（SH）[56]系數

渲染流程

投影變換：每個3D高斯基元被投影至圖像平面形成2D高斯分布
體渲染計算：通過alpha混合公式計算像素最終RGB值：

其中，C為像素顏色；為基于球諧特征計算的RGB值；為由2D高斯協方差與透明度導出的透明度權重。

深度圖生成：類似地，逐像素計算深度累積值：

其中，是相機空間中高斯基元中心點的深度值。表示累積的透光率（transmittance），表示光線穿透前i-1個基元的概率。

優化過程

輸入初始化：

已知視角集合（含真實圖像、相機旋轉/平移參數）
SfM生成的稀疏點云P

損失函數：最小化渲染圖像與真實圖像的復合損失：

$\bigtriangleup$ ? ?

我們采用與先前研究[15][19]-[21]相似的分治范式，方法框架如圖3所示。給定采集的圖像集合，首先通過運動恢復結構（SfM）計算各視角的相機位姿與稀疏點云。隨后通過內容感知場景劃分模塊（詳見第IV-A節）迭代式將場景分割為區塊并分配監督視圖。接著在可見性感知區塊優化（第IV-B節）下對各區塊獨立訓練。第IV-C節闡述偽視角幾何約束如何提供空域監督。最終通過第IV-D節的融合技術將所有區塊無縫整合為統一場景表示。

A. Content-Aware Scene Partition

場景分區與視角分配是重建大規模場景的關鍵步驟。進行場景劃分時，必須權衡區塊粒度與并行優化速度之間的關系：

細粒度劃分（多區塊）能提升重建質量，但會導致速度下降
粗粒度劃分（少區塊）可加速重建過程，但會犧牲重建精度

因此，場景分區與視角分配需滿足兩個核心目標：

基于場景復雜度的自適應劃分：根據空間場景結構的復雜度動態調整分區粒度，對高重要性/高復雜度區域采用更精細劃分
計算負載均衡：確保各區塊的計算負載均勻分布，這對多GPU場景重建的耗時優化至關重要

稀疏點云密度分布可作為場景內容復雜度的估計依據。基于此假設，我們采用遞歸方式將場景劃分為多個區塊：

1.地面對齊：基于曼哈頓世界假設[57]估計地面法向，并與y軸對齊

2.投影劃分：將稀疏點云投影至x-z平面，手動定義邊界矩形作為重建興趣區域（RoI）

3.二叉樹劃分區塊：

設定二叉樹最大深度M和葉節點最多包含的點數，那么一個節點就代表一個區塊
以RoI為根節點遞歸分割：若當前節點深度d<M，且當前節點包含的點數，則沿區塊最長邊二分生成子節點
終止條件：節點達到葉節點標準（d≥M或Nb≤Nt_b）

通過M和控制最終粒度，實現復雜區域細粒度（如街道）、簡單區域粗粒度（如天空）的自適應劃分

4.每個區塊內的視圖分配：

通過計算訓練視圖與區塊的相關性得分實現：

從SfM結果（colmap結果的images.bin與points3D.bin中寫入了2D圖片中的特征點與3D點的對應關系）獲取各訓練視圖的可見關鍵3D點數Nv
對每個區塊統計邊界內包含的3D點數Nb
選擇滿足大于閾值(0.3)的視圖作為監督視圖

通過量化視圖對區塊的覆蓋度或者貢獻度（比率>0.3確保視圖能有效監督區塊內容），排除遮擋嚴重或視角傾斜的無效視圖（遮擋情況下必然在當前區塊中貢獻極少）。這樣的靈活劃分方法，就不同于之前直接一次性把整個區域均勻劃分成多個塊，而不管塊中的對象數量。

完整流程如下圖：

B.Visibility-Aware Block Optimization

1. 核心機制

2. 損失函數設計

注意，輔助高斯也是在跟著優化的，否則不會有邊界正確的效果。

3. 優化穩定性增強

問題：輔助高斯因監督不足易退化

策略：

小批量優化：累積多視圖梯度后再更新參數，減少隨機性
選擇性致密化：僅對當前區塊高斯Gb進行致密化（高斯球分裂復制）（避免輔助高斯引入冗余）

C. 偽視角幾何約束（Pseudo-view Geometry Constraint）

這一節的主要目的是：解決區塊融合時空中的漂浮物（floaters）導致的渲染質量退化問題，而無需引入額外真實視角。偽視角幾何約束以零成本（無需額外數據）實現了空域監督，是分治策略下保障場景一致性的創新方法。

1.生成偽視角

首先基于雙目立體幾何中的視差原理，對相機位置進行擾動，得到偽視角的相機pose。這樣的做法避免了真實多視角采集的成本，同時繼承了雙目立體視覺的幾何約束能力。

符號	含義	設計目的
median()	參考視圖深度圖的中值深度	代表場景的典型尺度，自適應調整擾動幅度（近景擾動小，遠景擾動大）
Δp	視差擾動超參數（單位：像素）	控制虛擬視角與原始視角的基線距離，一般設為1~5像素（過大會導致投影失真）
f	相機x軸焦距（單位：像素）	將像素級視差轉換為實際位移，確保擾動與相機內參無關
Δt	相機位置的擾動位移（僅水平方向）	生成偽視角的基線，模擬真實立體視覺中的左右視角差異

與經典立體視覺的關聯

方法	視差來源	應用目標
雙目立體匹配	物理相機基線	深度估計
偽視角約束	虛擬擾動視差	空域幾何一致性監督

通過虛擬視差，該方法避免了真實多視角采集的成本，同時繼承了立體視覺的幾何約束能力。

$\Delta$

對視差空間不熟悉的可以看看介紹：

立體視覺的核心技術：視差計算與圖像校正詳解_雙目視差-CSDN博客

2.偽視圖變形（Warping）到真實視圖

這一步通過偽視圖、偽視圖深度，利用c2w得到3D的points，再利用真實視圖的w2c渲染出Warp圖像。

mask是為了確保正確渲染在圖像尺寸W*H內，以及深度值有效，保證正常的一個渲染結果。

3.偽視圖loss

接下來，就是在mask為1的區域計算loss，我們要求偽視圖warp與真實值的一致性，實際上，這里的原理還是雙目立體幾何，通過梯度反向傳播也優化了偽視圖，這樣，保證了去除多余的浮點。

比如，若存在漂浮物（如未錨定的高斯），其warp圖像會與真實圖像顯著偏離，通過?L1損失抑制此類異常。

D. Scene Merging and Rendering

當所有區塊優化完成后，我們將各區塊重建結果融合以獲取完整場景表示。得益于精心設計的區塊優化流程與偽視角幾何約束，在裁剪輔助高斯Ga??后可直接合并場景，因偽視角約束已抑制空域漂浮物，直接合并不會引入接縫。

渲染新視角時，BlockGaussian 沿用原始 3D 高斯潑濺框架 [12] 的可微分渲染管線：給定目標相機位姿與內參，由所有區塊高斯基元構成的場景表示被投影至圖像平面，隨后按深度排序進行 Alpha 混合以合成新視角。

4.EXPERIMENTS

A. Experiments Setup

數據集

我們在三個基準數據集上對所提方法進行了全面評估：

Mill19[15] 與?UrbanScene3D[60]：由真實無人機拍攝的航拍圖像組成，每個場景包含數千張高分辨率圖像。訓練/測試集劃分與Mega-NeRF保持一致。
MatrixCity[61]：大規模城市級合成數據集。所有圖像均按先前方法[19][20]進行4倍降采樣以確保公平對比。

評估指標

渲染質量
PSNR（峰值信噪比）：衡量像素級重建精度。
SSIM（結構相似性）：評估圖像結構保真度。
LPIPS[62]（學習感知圖像塊相似度）：基于深度學習感知的語義級相似性。

注：為消除光照差異，渲染圖像采用與VastGaussian一致的色彩校正。
效率指標
優化耗時、顯存占用（VRAM）及高斯點數量。

對比方法

類別	方法	備注
NeRF基方法	Mega-NeRF [15], Switch-NeRF [16]	—
3DGS基方法	VastGaussian [19], CityGaussian [20], DOGS [21], 改進3DGS [12]	? CityGaussian在24GB顯存限制下無法完成粗階段訓練，直接引用原論文指標 ? DOGS采用6倍降采樣（可能帶來指標優勢）

效率實驗設置

硬件平臺：8張RTX4090 GPU
時間統計：忽略區塊數少于8的情況，報告全場景總重建耗時（因不同方法分區策略導致區塊數不同）。

實現細節

訓練策略
并行性：區塊優化完全獨立，支持多GPU并行或單GPU順序執行。
迭代設置：
- BlockGaussian-40K：每區塊40,000次迭代
- BlockGaussian-60K：每區塊60,000次迭代
致密化頻率：每200次迭代執行一次。
損失權重調度
偽視角幾何約束：
- 從第10k次迭代開始激活
- 損失權重從0.1對數增長至1.0
深度正則化：權重從1.0線性衰減至0.1

B. Comparison with Other Methods

重建質量
我們在 Mill19、UrbanScene3D 和 MatrixCity 數據集上的多個場景中評估了 BlockGaussian 的平均 PSNR、SSIM 和 LPIPS 指標（見表1?和表3）。與現有方法相比：

BlockGaussian-40K（40k 次迭代訓練）已達到可比性能。
BlockGaussian-60K（60k 次迭代訓練）在多數場景中表現更優，尤其在?SSIM?和?LPIPS?指標上顯著領先，表明其合成的新視角具有更優的感知細節。

與高斯基方法的對比
BlockGaussian 在邊緣/高頻區域（圖?6?第 1 行）和結構重復區域（圖6第 2 行）均表現更優。此外，在街景數據集?MatrixCity-Street?上，未經任何場景特定調優，BlockGaussian 仍顯著領先現有方法（PSNR +3.87dB、SSIM +0.169、LPIPS -0.377，見表 3?和圖?7）。

效率與資源消耗

如表2所示，我們對比了各方法的優化耗時、最終點數及顯存占用：

硬件配置：
- Mega-NeRF、Switch-NeRF、VastGaussian、DOGS 和 BlockGaussian 使用?8 張 RTX 4090 GPU訓練。
- 原始 3DGS 使用?單張 RTX 4090 GPU。
- BlockGaussian 的批大小（Batchsize）設為?1?以匹配其他方法。
- CityGaussian 直接使用已發布的模型指標。

總結一下：

維度	BlockGaussian 表現	對比基準
重建質量	高頻細節保留更好（SSIM↑）、偽影更少（LPIPS↓）	模糊（NeRF）、漂浮物（3DGS）
訓練速度	分鐘級完成優化	NeRF 需數小時
顯存效率	多 GPU 并行支持，單卡 24GB 可處理 1.5km2 場景	CityGaussian 粗階段訓練顯存不足

C. Ablation Study

我們通過消融實驗評估所提框架中三個核心組件的獨立貢獻：內容感知場景劃分、可見性感知區塊優化和偽視角幾何約束，并分析關鍵超參數對性能的影響。為未來改進和框架簡化提供了依據。

1) 內容感知場景劃分

2) 可見性感知區塊優化

3) 偽視角幾何約束

表 [5] 第6行顯示：

該約束顯著提升測試視圖的幾何一致性指標。
圖 [9] 表明，在場景漫游時，空域漂浮物被有效抑制，交互式渲染質量大幅提高。

4) Batchsize影響

表 [7] 顯示：

增大 Batchsize 可穩定提升 PSNR（25.89→26.33）和 SSIM（0.810→0.824），降低 LPIPS（0.211→0.200）。
原因：更大的批尺寸增強梯度穩定性，優化致密化過程。
代價：優化時間增加，需權衡性能與計算成本。

5) 區塊數量影響

5.conclusion

本文提出BlockGaussian，一種面向大規模場景的新視角合成框架，其核心貢獻包括：

內容感知場景劃分：根據場景內容復雜度與計算負載動態分區，實現高效并行優化。
可見性感知區塊優化：通過輔助高斯解決監督視圖的不可見區域問題。
偽視角幾何約束：有效抑制空域漂浮物，提升交互渲染質量。

技術優勢：支持單GPU順序執行或多GPU并行訓練。在多個大規模場景數據集上達到SOTA渲染質量。

盡管BlockGaussian在優化速度和新視角合成質量上表現優異，但仍存在以下局限性：

點云數量需求較高：與原始3D高斯表示類似，BlockGaussian需大量點云描述復雜場景細節。未來可借鑒LightGaussian[38]等方案提升點云表示的緊湊性。
交互式渲染優化：為實現大規模場景的實時交互渲染，需結合細節層次（LoD）技術[55]與動態地圖加載，以適配現有渲染管線。

參考文獻：https://arxiv.org/pdf/2504.09048