【論文筆記】BlockGaussian:巧妙解決大規模場景重建中的偽影問題

論文地址:https://arxiv.org/pdf/2504.09048

大規模場景的重建方法不僅僅對于高空航拍數據有效,而且對于地面大中場景也有增強效果,故專門來學習一下這一方向的知識。感謝作者大佬們的great work。

Abstract

三維高斯潑濺(3DGS)技術的最新進展在新視角合成任務中展現出非凡潛力。分治策略雖已實現大規模場景重建,但在場景分區、優化與融合環節仍存在顯著挑戰本文提出BlockGaussian創新框架,通過內容感知的場景分割策略和可見性感知的區塊優化技術,實現高效優質的大規模場景重建。具體而言,我們的方法基于不同區域的內容復雜度差異進行動態分區,從而平衡計算負載,提升重建效率針對區塊獨立優化時的監督失配問題,我們在單個區塊優化過程中引入輔助點以對齊真實監督信號,顯著提升重建質量此外,偽視角幾何約束有效緩解了區塊融合時因空域漂浮物導致的渲染質量下降。在大規模場景上的實驗表明,本方法在重建效率和渲染質量上均達到最先進水平:優化速度提升5倍,在多個基準測試中平均PSNR提高1.21 dB。值得注意的是,BlockGaussian大幅降低了計算資源需求,僅需單塊24GB顯存設備即可完成大規模場景重建。

1.INTRODUCTION

大規模場景的高保真實時新視角合成對自動駕駛[1]–[3]、虛擬現實[4][5]、遙感攝影測量[6][7]以及具身智能等應用至關重要。當前主流新視角合成方法主要分為兩類:基于神經輻射場(NeRF)的方法[8]–[11]與基于高斯潑濺的技術[12]–[14]。神經輻射場(NeRF)[8]憑借隱式表示實現高保真渲染的能力,已被擴展至大規模場景重建任務[15]–[17]。盡管Block-NeRF[17]完成了舊金山街區的大規模重建,但以MLP網絡為最小單元的場景表示缺乏靈活性且渲染速度緩慢。作為替代方案,3D高斯潑濺[12]展現出更顯著潛力,其顯式點云場景表示對大規模場景更具可擴展性[18]–[21],尤其是快速的渲染速度。

[18] B. Kerbl, A. Meuleman, G. Kopanas, M. Wimmer, A. Lanvin, and
G. Drettakis, “A hierarchical 3d gaussian representation for real-time
rendering of very large datasets,” ACM Transactions on Graphics (TOG),
vol. 43, no. 4, pp. 1–15, 2024.
[19] J. Lin, Z. Li, X. Tang, J. Liu, S. Liu, J. Liu, Y. Lu, X. Wu, S. Xu, Y. Yan
et al., “Vastgaussian: Vast 3d gaussians for large scene reconstruction,”
in Proceedings of the IEEE/CVF Conference on Computer Vision and
Pattern Recognition, 2024, pp. 5166–5175.
[20] Y. Liu, C. Luo, L. Fan, N. Wang, J. Peng, and Z. Zhang, “Citygaussian:
Real-time high-quality large-scale scene rendering with gaussians,” in
European Conference on Computer Vision. Springer, 2024, pp. 265–282.
[21] Y. Chen and G. H. Lee, “Dogs: Distributed-oriented gaussian splatting
for large-scale 3d reconstruction via gaussian consensus,” Advances in
Neural Information Processing Systems, vol. 37, pp. 34 487–34 512, 2025.
[15] H. Turki, D. Ramanan, and M. Satyanarayanan, “Mega-nerf: Scalable
construction of large-scale nerfs for virtual fly-throughs,” in Proceedings
of the IEEE/CVF conference on computer vision and pattern recognition,
2022, pp. 12 922–12 931.

在顯存資源限制下,分治范式[15][19][20]已成為大規模場景新視角合成的主流方法。通過將場景劃分為子區域,多GPU并行顯著提升了重建速度該范式包含三個關鍵階段:場景分區、獨立區塊優化和區塊重建結果融合。這些階段存在嚴格的順序依賴性——每個后續階段的輸入完全依賴于前序階段的輸出。最終重建質量取決于各階段的有效性。現有研究方法雖已建立基線,但這些步驟仍存在挑戰:區塊間重建復雜度不均衡、區塊優化中的監督失配以及融合結果的質量退化。以下是對這三種挑戰的解讀:

a)區塊間重建復雜度不均衡

區塊間重建復雜度不均衡源于不合理的場景劃分,這會降低大規模場景重建效率(尤其在多GPU設備上)。如圖2(a)所示,均勻網格劃分忽略了不同區域的內容差異(有的地方建筑物密集,有的地方稀疏)場景劃分需考慮兩個關鍵因素:區塊劃分的粒度與跨區塊計算負載。前者需關注不同場景區域的復雜度,對高興趣度或更復雜區域采用更細粒度;后者旨在平衡跨區塊計算負載,從而減少多GPU下整體場景的訓練時間。VastGaussian[19]提出漸進式數據劃分策略(基于相機位姿劃分場景),DOGS[21]則改進該方法,通過遞歸方式平衡跨區塊計算負載。但基于相機位姿的劃分受限于相機空間分布,難以推廣至視角分布更復雜的場景。CityGaussian[20]首次訓練粗粒度高斯作為場景先驗,并據此進行網格劃分,但該方法需預訓練粗粒度高斯模型,未能完全解耦場景規模與優化過程。

b)區塊優化中的監督失配

區塊優化中的監督失配會導致區塊內偽影,降低場景重建質量。在大規模場景重建的分治范式下,全局場景表示的缺失導致獨立區塊優化時出現可見性問題。如圖2(b)所示,場景劃分后,訓練視圖的內容可能分布于多個區塊,單個區塊僅對應圖像范圍的部分區域。因此在重建目標區塊時,損失計算會出現渲染圖像與訓練視圖的失配原因包括:a)目標區塊的渲染過程忽略區塊間遮擋關系;b)未優化區塊表示難以計算精確邊界。噪聲監督會干擾高斯參數在端到端優化中的梯度,導致重建結果退化

b)說的太抽象了,沒有必要,重新解釋一下:

總結:

1)目標區塊的渲染過程忽略區塊間遮擋關系:全局場景中,數據集的某些視圖中具有遮擋是一個很常見的情況,我們考慮這種情況,如果分出來的局部區塊剛好就只有前面那些視圖中被遮擋的對象也就是說,該局部區塊的高斯球在渲染過程中,這個被遮擋對象是完全可見無遮擋的,如果忽略,那么也就意味著全局監督信號出現了錯亂:“某些視圖中該區域到底該不該遮擋?”,導致偽影。

2)未優化區塊表示難以計算精確邊界:邊界問題很重要,因為局部區塊只渲染該區塊可見,相當于其他區域是空的(如果訓練過程中單獨渲染該區塊,出來的圖像應該是該區域之外一片黑),因此渲染的圖片中沒有其他區域的信息,但是訓練視圖是包含所有信息的!

有的人可能會想,我給訓練圖像中當前分塊區域之外加個mask,不計算入loss不行就行了,這個想法很自然,但是如果考慮具體實現的話,這個想法就有點簡單了,因為我們劃分區塊是按照稀疏點云,我們如何能精準的知道圖片中的mask呢?這是一個復雜低效的工程!

因此我們無法避免這個局部區域邊界的問題。

c)避免質量退化的無縫場景融合

避免質量退化的無縫場景融合是另一關鍵挑戰。獨立區塊優化因缺乏精確幾何監督易在空域產生漂浮物,導致退化解(如圖2(c)),這會顯著降低區塊融合后的渲染質量。因此,充分的空域監督對場景訓練至關重要。VastGaussian[19]嘗試通過增加訓練視圖并設計空域感知的可見性計算方法(基于區塊邊界投影多邊形比例選擇視角)來解決該問題,但該方法存在兩局限:忽略區塊間遮擋關系,且所選視角易引入區塊外額外區域,造成視角選擇與充分監督間的矛盾。

d)本文做法與效果

針對這些挑戰,我們提出BlockGaussian框架。場景劃分階段,我們提出基于空間的內容感知場景劃分方法(Content-Aware Scene Partition),根據運動恢復結構(SfM)[22]先驗過程輸出的稀疏點云動態精細劃分場景,同時統籌多區塊計算負載。為緩解獨立區塊重建的監督失配問題,我們重構單區塊優化問題并提出可見性感知優化算法:在優化過程中引入輔助點云自適應表示訓練視圖的不可見區域。實驗驗證了輔助點云的有效性。針對空域監督鑒于場景遮擋關系的復雜性,直接選擇能為當前區塊提供充分空域監督的視角具有挑戰性。不同于VastGaussian[19],我們設計偽視角幾何約束(Pseudo-View Geometry Constraint):擾動訓練相機位姿生成偽視角,利用渲染深度圖將真實圖像從原始視角變形,并計算偽視角渲染圖像的損失。該約束顯著提升了區塊融合質量(尤其對交互式渲染)。

實驗表明,BlockGaussian有效解決了大規模場景重建的挑戰。如圖1所示,在重建質量與速度方面,本方法在多個場景中均達到最先進水平(SOTA):優化速度提升5倍,平均PSNR提高1.21 dB。可在單塊24GB顯存GPU上順序執行或跨多GPU并行。此外,本方法在航拍場景與街景中均表現優異。我們的貢獻可總結為:

  • 提出基于空間劃分范式的BlockGaussian框架,動態平衡區塊劃分粒度與跨區塊計算負載;
  • 重構單區塊訓練過程,通過引入輔助點云解決渲染圖像與監督視角的失配問題;
  • 設計偽視角幾何約束監督空域,有效緩解區塊融合時空域漂浮物導致的渲染質量退化。

2.RELATED?WORK

大場景重建的研究現狀

a)傳統流程

傳統場景重建流程[22][44]通常包含特征提取與匹配、相機參數估計、稠密重建、網格化及紋理貼圖等串行步驟,通過多階段協作恢復場景幾何與外觀。其中運動恢復結構(SfM)技術負責特征提取、匹配和相機參數估計,輸出相機位姿與場景稀疏點云。基于特征點與光束法平差的SfM框架因其穩定性,至今仍是位姿估計與稀疏重建的主流方案。傳統外觀重建流程以相機參數為輸入,通過多視圖立體匹配(MVS)[45]–[49]生成稠密深度圖,再經網格化[50]與紋理映射[51][52]得到基于網格的場景表示。

[22] J. L. Schonberger and J.-M. Frahm, “Structure-from-motion revisited,”
in Proceedings of the IEEE conference on computer vision and pattern
recognition, 2016, pp. 4104–4113.
[44] S. Agarwal, Y. Furukawa, N. Snavely, I. Simon, B. Curless, S. M. Seitz,
and R. Szeliski, “Building rome in a day,” Communications of the ACM,
vol. 54, no. 10, pp. 105–112, 2011.
[45] M. Bleyer, C. Rhemann, and C. Rother, “Patchmatch stereo-stereo
matching with slanted support windows.” in Bmvc, vol. 11, no. 2011,
2011, pp. 1–11.
[46] S. Galliani, K. Lasinger, and K. Schindler, “Massively parallel multiview
stereopsis by surface normal diffusion,” in Proceedings of the IEEE
international conference on computer vision, 2015, pp. 873–881.
[47] R. Chen, S. Han, J. Xu, and H. Su, “Visibility-aware point-based
multi-view stereo network,” IEEE Transactions on Pattern Analysis
and Machine Intelligence, vol. 43, no. 10, pp. 3695–3708, 2021.
[48] Z. Liang, Y. Guo, Y. Feng, W. Chen, L. Qiao, L. Zhou, J. Zhang, and
H. Liu, “Stereo matching using multi-level cost volume and multi-scale
feature constancy,” IEEE Transactions on Pattern Analysis and Machine
Intelligence, vol. 43, no. 1, pp. 300–315, 2021.
[49] Q. Xu, W. Kong, W. Tao, and M. Pollefeys, “Multi-scale geometric
consistency guided and planar prior assisted multi-view stereo,” IEEE
Transactions on Pattern Analysis and Machine Intelligence, vol. 45, no. 4,
pp. 4945–4963, 2023.

b)基于NeRF的方法

隨著可微分渲染技術的發展,基于端到端優化的重建方法(如神經輻射場[8]與3D高斯潑濺[12])已超越傳統分步方法。針對大規模場景,分治策略成為處理海量數據的通用方案:將場景網格化后分塊優化,最終融合重建結果

基于NeRF的方法包括:

  • Block-NeRF[17]:從280萬街景圖像重建舊金山街區,通過改進NeRF架構處理瞬態物體與外觀變化
  • Mega-NeRF[15]:采用稀疏空間感知網絡表示航拍場景,實現交互式渲染
  • Switch-NeRF[16]:基于稀疏大尺度NeRF表示設計可學習場景分解
  • Grid-NeRF[53]:將基于MLP的NeRF與特征網格結合編碼局部/全局信息,但受限于NeRF固有的緩慢訓練與渲染速度

c)當前基于GS的方法

基于高斯潑濺的方法憑借渲染速度優勢,正成為大規模場景研究新方向::

  • Hierarchy-GS[18]:提出分層表示并并行優化分塊參數
  • Scaffold-GS[54]:結合顯隱式表示實現緊湊的高質量視圖合成
  • Octree-GS[55]:引入細節層次(LOD)與八叉樹結構組織錨點高斯

與本文同期的工作包括VastGaussian[19]、CityGaussian[20]和DOGS[21],均采用"場景劃分-視角分配-并行優化-場景融合"流程,但存在以下局限:

劃分策略缺陷

VastGaussian的漸進式劃分與DOGS的遞歸劃分均依賴相機位姿分布,忽略了場景內容分布(比如城市中心地帶高樓林立與邊緣地帶建筑物稀疏)與相機分布的非對齊性(如圖3所示),導致動態地圖加載等下游任務困難

CityGaussian需預訓練全局粗粒度高斯模型指導劃分,在有限算力下難以實施

優化與融合瓶頸

現有方法在分塊優化時缺乏可見性感知機制,導致監督失配(如區塊邊界處渲染錯誤)

融合階段因空域漂浮物(未受幾何約束的高斯橢球)產生偽影

本文提出的BlockGaussian創新性體現在:

  • 空間基自適應劃分:基于SfM稀疏點云動態平衡區塊粒度與計算負載,突破相機位姿分布限制
  • 可見性感知優化:引入輔助點云建模不可見區域,解決監督失配問題(公式3推導了梯度修正項)
  • 偽視角幾何約束:通過相機位姿擾動生成虛擬監督信號,抑制空域漂浮物(算法1詳細實現流程)

3.METHOD

0)公式設定

3D高斯潑濺利用三維空間中的離散高斯基元,每個高斯基元Gk包含以下可學習屬性:

  • 位置
  • 旋轉
  • 透明度
  • 縮放系數
  • 球諧函數(SH)[56]系數

渲染流程

  • 投影變換:每個3D高斯基元被投影至圖像平面形成2D高斯分布
  • 體渲染計算:通過alpha混合公式計算像素最終RGB值:

其中,C為像素顏色;為基于球諧特征計算的RGB值;為由2D高斯協方差與透明度導出的透明度權重。

  • 深度圖生成:類似地,逐像素計算深度累積值:

其中,是相機空間中高斯基元中心點的深度值。表示累積的透光率(transmittance),表示光線穿透前i-1個基元的概率。

優化過程

輸入初始化

  • 已知視角集合(含真實圖像、相機旋轉/平移參數)
  • SfM生成的稀疏點云P

損失函數:最小化渲染圖像與真實圖像的復合損失:

\bigtriangleup? ?

我們采用與先前研究[15][19]-[21]相似的分治范式,方法框架如圖3所示。給定采集的圖像集合,首先通過運動恢復結構(SfM)計算各視角的相機位姿與稀疏點云。隨后通過內容感知場景劃分模塊(詳見第IV-A節)迭代式將場景分割為區塊并分配監督視圖。接著在可見性感知區塊優化(第IV-B節)下對各區塊獨立訓練。第IV-C節闡述偽視角幾何約束如何提供空域監督。最終通過第IV-D節的融合技術將所有區塊無縫整合為統一場景表示。

A. Content-Aware Scene Partition

場景分區與視角分配是重建大規模場景的關鍵步驟。進行場景劃分時,必須權衡區塊粒度并行優化速度之間的關系:

  • 細粒度劃分(多區塊)能提升重建質量,但會導致速度下降
  • 粗粒度劃分(少區塊)可加速重建過程,但會犧牲重建精度

因此,場景分區與視角分配需滿足兩個核心目標:

  • 基于場景復雜度的自適應劃分:根據空間場景結構的復雜度動態調整分區粒度,對高重要性/高復雜度區域采用更精細劃分
  • 計算負載均衡:確保各區塊的計算負載均勻分布,這對多GPU場景重建的耗時優化至關重要

稀疏點云密度分布可作為場景內容復雜度的估計依據。基于此假設,我們采用遞歸方式將場景劃分為多個區塊:

1.地面對齊:基于曼哈頓世界假設[57]估計地面法向,并與y軸對齊

2.投影劃分:將稀疏點云投影至x-z平面,手動定義邊界矩形作為重建興趣區域(RoI)

3.二叉樹劃分區塊

  • 設定二叉樹最大深度M和葉節點最多包含的點數,那么一個節點就代表一個區塊
  • 以RoI為根節點遞歸分割:若當前節點深度d<M,且當前節點包含的點數,則沿區塊最長邊二分生成子節點
  • 終止條件:節點達到葉節點標準(d≥M或Nb≤Nt_b)

通過M和控制最終粒度,實現復雜區域細粒度(如街道)、簡單區域粗粒度(如天空)的自適應劃分

4.每個區塊內的視圖分配:

通過計算訓練視圖與區塊的相關性得分實現:

  • 從SfM結果(colmap結果的images.bin與points3D.bin中寫入了2D圖片中的特征點與3D點的對應關系)獲取各訓練視圖的可見關鍵3D點數Nv
  • 對每個區塊統計邊界內包含的3D點數Nb
  • 選擇滿足大于閾值(0.3)的視圖作為監督視圖

通過量化視圖對區塊的覆蓋度或者貢獻度(比率>0.3確保視圖能有效監督區塊內容),排除遮擋嚴重或視角傾斜的無效視圖(遮擋情況下必然在當前區塊中貢獻極少)。這樣的靈活劃分方法,就不同于之前直接一次性把整個區域均勻劃分成多個塊,而不管塊中的對象數量。

完整流程如下圖:

B.Visibility-Aware Block Optimization

1. 核心機制

2. 損失函數設計

注意,輔助高斯也是在跟著優化的,否則不會有邊界正確的效果。

3. 優化穩定性增強

問題:輔助高斯因監督不足易退化

策略

  • 小批量優化:累積多視圖梯度后再更新參數,減少隨機性

  • 選擇性致密化:僅對當前區塊高斯Gb進行致密化(高斯球分裂復制)(避免輔助高斯引入冗余)

C. 偽視角幾何約束(Pseudo-view Geometry Constraint)

這一節的主要目的是:解決區塊融合時空中的漂浮物(floaters)導致的渲染質量退化問題,而無需引入額外真實視角。偽視角幾何約束以零成本(無需額外數據)實現了空域監督,是分治策略下保障場景一致性的創新方法。

1.生成偽視角

首先基于雙目立體幾何中的視差原理,對相機位置進行擾動,得到偽視角的相機pose。這樣的做法避免了真實多視角采集的成本,同時繼承了雙目立體視覺的幾何約束能力。

符號含義設計目的
median()參考視圖深度圖的中值深度代表場景的典型尺度,自適應調整擾動幅度(近景擾動小,遠景擾動大)
Δp視差擾動超參數(單位:像素)控制虛擬視角與原始視角的基線距離,一般設為1~5像素(過大會導致投影失真)
f相機x軸焦距(單位:像素)將像素級視差轉換為實際位移,確保擾動與相機內參無關
Δt相機位置的擾動位移(僅水平方向)生成偽視角的基線,模擬真實立體視覺中的左右視角差異

與經典立體視覺的關聯

方法視差來源應用目標
雙目立體匹配物理相機基線深度估計
偽視角約束虛擬擾動視差空域幾何一致性監督

通過虛擬視差,該方法避免了真實多視角采集的成本,同時繼承了立體視覺的幾何約束能力。

\Delta

對視差空間不熟悉的可以看看介紹:

立體視覺的核心技術:視差計算與圖像校正詳解_雙目視差-CSDN博客

2.偽視圖變形(Warping)到真實視圖

這一步通過偽視圖、偽視圖深度,利用c2w得到3D的points,再利用真實視圖的w2c渲染出Warp圖像。

mask是為了確保正確渲染在圖像尺寸W*H內,以及深度值有效,保證正常的一個渲染結果。

3.偽視圖loss

接下來,就是在mask為1的區域計算loss,我們要求偽視圖warp與真實值的一致性,實際上,這里的原理還是雙目立體幾何,通過梯度反向傳播也優化了偽視圖,這樣,保證了去除多余的浮點。

比如,若存在漂浮物(如未錨定的高斯),其warp圖像會與真實圖像顯著偏離,通過?L1損失抑制此類異常。

D. Scene Merging and Rendering

當所有區塊優化完成后,我們將各區塊重建結果融合以獲取完整場景表示。得益于精心設計的區塊優化流程與偽視角幾何約束,在裁剪輔助高斯Ga??后可直接合并場景,因偽視角約束已抑制空域漂浮物,直接合并不會引入接縫。

渲染新視角時,BlockGaussian 沿用原始 3D 高斯潑濺框架 [12] 的可微分渲染管線:給定目標相機位姿與內參,由所有區塊高斯基元構成的場景表示被投影至圖像平面,隨后按深度排序進行 Alpha 混合以合成新視角。

4.EXPERIMENTS

A. Experiments Setup

數據集

我們在三個基準數據集上對所提方法進行了全面評估:

  • Mill19[15] 與?UrbanScene3D[60]:由真實無人機拍攝的航拍圖像組成,每個場景包含數千張高分辨率圖像。訓練/測試集劃分與Mega-NeRF保持一致。
  • MatrixCity[61]:大規模城市級合成數據集。所有圖像均按先前方法[19][20]進行4倍降采樣以確保公平對比。

評估指標

  • 渲染質量
  • PSNR(峰值信噪比):衡量像素級重建精度。

  • SSIM(結構相似性):評估圖像結構保真度。

  • LPIPS[62](學習感知圖像塊相似度):基于深度學習感知的語義級相似性。

    注:為消除光照差異,渲染圖像采用與VastGaussian一致的色彩校正。

  • 效率指標
  • 優化耗時、顯存占用(VRAM)及高斯點數量。

對比方法

類別方法備注
NeRF基方法Mega-NeRF [15], Switch-NeRF [16]
3DGS基方法VastGaussian [19], CityGaussian [20], DOGS [21], 改進3DGS [12]? CityGaussian在24GB顯存限制下無法完成粗階段訓練,直接引用原論文指標
? DOGS采用6倍降采樣(可能帶來指標優勢)

效率實驗設置

  • 硬件平臺:8張RTX4090 GPU
  • 時間統計:忽略區塊數少于8的情況,報告全場景總重建耗時(因不同方法分區策略導致區塊數不同)。

實現細節

  • 訓練策略
  • 并行性:區塊優化完全獨立,支持多GPU并行或單GPU順序執行。

  • 迭代設置

    • BlockGaussian-40K:每區塊40,000次迭代

    • BlockGaussian-60K:每區塊60,000次迭代

  • 致密化頻率:每200次迭代執行一次。

  • 損失權重調度
  • 偽視角幾何約束

    • 從第10k次迭代開始激活

    • 損失權重從0.1對數增長至1.0

  • 深度正則化:權重從1.0線性衰減至0.1

B. Comparison with Other Methods

重建質量
我們在 Mill19、UrbanScene3D 和 MatrixCity 數據集上的多個場景中評估了 BlockGaussian 的平均 PSNR、SSIM 和 LPIPS 指標(見表1?和表3)。與現有方法相比:

  • BlockGaussian-40K(40k 次迭代訓練)已達到可比性能。

  • BlockGaussian-60K(60k 次迭代訓練)在多數場景中表現更優,尤其在?SSIM?和?LPIPS?指標上顯著領先,表明其合成的新視角具有更優的感知細節。

與高斯基方法的對比
BlockGaussian 在邊緣/高頻區域(圖?6?第 1 行)和結構重復區域(圖6第 2 行)均表現更優。此外,在街景數據集?MatrixCity-Street?上,未經任何場景特定調優,BlockGaussian 仍顯著領先現有方法(PSNR +3.87dB、SSIM +0.169、LPIPS -0.377,見表 3?和圖?7)。

效率與資源消耗

如表2所示,我們對比了各方法的優化耗時、最終點數及顯存占用:

  • 硬件配置

    • Mega-NeRF、Switch-NeRF、VastGaussian、DOGS 和 BlockGaussian 使用?8 張 RTX 4090 GPU訓練。

    • 原始 3DGS 使用?單張 RTX 4090 GPU

    • BlockGaussian 的批大小(Batchsize)設為?1?以匹配其他方法。

    • CityGaussian 直接使用已發布的模型指標。

總結一下:

維度BlockGaussian 表現對比基準
重建質量高頻細節保留更好(SSIM↑)、偽影更少(LPIPS↓)模糊(NeRF)、漂浮物(3DGS)
訓練速度分鐘級完成優化NeRF 需數小時
顯存效率多 GPU 并行支持,單卡 24GB 可處理 1.5km2 場景CityGaussian 粗階段訓練顯存不足

C. Ablation Study

我們通過消融實驗評估所提框架中三個核心組件的獨立貢獻:內容感知場景劃分可見性感知區塊優化偽視角幾何約束,并分析關鍵超參數對性能的影響。為未來改進和框架簡化提供了依據。

1) 內容感知場景劃分

2) 可見性感知區塊優化

3) 偽視角幾何約束

表 [5] 第6行顯示:

  • 該約束顯著提升測試視圖的幾何一致性指標。

  • 圖 [9] 表明,在場景漫游時,空域漂浮物被有效抑制,交互式渲染質量大幅提高。

4) Batchsize影響

表 [7] 顯示:

  • 增大 Batchsize 可穩定提升 PSNR(25.89→26.33)和 SSIM(0.810→0.824),降低 LPIPS(0.211→0.200)。

  • 原因:更大的批尺寸增強梯度穩定性,優化致密化過程。

  • 代價:優化時間增加,需權衡性能與計算成本。

5) 區塊數量影響

5.conclusion

本文提出BlockGaussian,一種面向大規模場景的新視角合成框架,其核心貢獻包括:

  • 內容感知場景劃分:根據場景內容復雜度與計算負載動態分區,實現高效并行優化。
  • 可見性感知區塊優化:通過輔助高斯解決監督視圖的不可見區域問題。
  • 偽視角幾何約束:有效抑制空域漂浮物,提升交互渲染質量。

技術優勢:支持單GPU順序執行或多GPU并行訓練。在多個大規模場景數據集上達到SOTA渲染質量

盡管BlockGaussian在優化速度和新視角合成質量上表現優異,但仍存在以下局限性:

  1. 點云數量需求較高:與原始3D高斯表示類似,BlockGaussian需大量點云描述復雜場景細節。未來可借鑒LightGaussian[38]等方案提升點云表示的緊湊性。
  2. 交互式渲染優化:為實現大規模場景的實時交互渲染,需結合細節層次(LoD)技術[55]與動態地圖加載,以適配現有渲染管線。

參考文獻:https://arxiv.org/pdf/2504.09048

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/90643.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/90643.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/90643.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

網絡眾籌項目數據庫(2014-2024.11)

1727網絡眾籌項目數據庫&#xff08;2014-2024.11&#xff09;數據簡介作為新興互聯網融資模式&#xff0c;眾籌已成為越來越多創業者和中小企業獲取資金的渠道&#xff0c;但眾籌項目一直面臨融資成功率低的困難&#xff0c;成功融資的項目在許多平臺上占比不足五成。而目前對…

k8s新增jupyter服務

k8s新增服務 常用命令 kubectl apply -f xxxxxx.yaml # 部署資源&#xff0c;順序&#xff1a;namespace -> pvc -> deployment -> servicekubectl create namespace jupyter # 創建namespacekubectl get namespaces # 查看nskubectl get pods -n jupyter # 查看p…

結構化數據、非結構化數據區別

一、核心定義結構化數據&#xff1a;指具有固定格式、可直接用二維表&#xff08;如數據庫表&#xff09;表示的數據&#xff0c;其字段&#xff08;列&#xff09;定義明確&#xff0c;數據之間的關系清晰。例如&#xff1a;Excel 表格中的數據、關系型數據庫&#xff08;MySQ…

Linux修煉:基礎指令

Hello大家好&#xff01;很高興我們又見面啦&#xff01;給生活添點passion&#xff0c;開始今天的編程之路&#xff01; 我的博客&#xff1a;<但凡. 我的專欄&#xff1a;《編程之路》、《數據結構與算法之美》、《題海拾貝》、《C修煉之路》、《Linux修煉&#xff1a;終端…

【Linux網絡】深入理解HTTP/HTTPS協議:原理、實現與加密機制全面解析

協議是通信雙方必須遵守的規則&#xff0c;確保數據能夠正確傳輸和解析&#xff0c;它規定了數據格式、傳輸順序、錯誤處理等細節。應用層的協議一般都是我們自己進行定義的&#xff0c;但是有很多程序員前輩已經寫出來了很哇塞的協議&#xff0c;我們直接進行學習和使用即可HT…

淺嘗 Spring AI【使用超級簡單~】

一直想要體驗下 Spring AI&#xff0c;最近自己的一個工具有這個需求&#xff0c;所以這里準備使用下。其實使用起來超級簡單。 1.IDEA 新建 Spring項目 1&#xff09;這里可以根據自己的喜好選擇 項目名、jdk版本等 2&#xff09;這里選擇 在ai中選擇 openAI 即可。然后我另…

DDL期間TDSQL異常會話查詢造成數據庫主備切換

問題描述&#xff1a;7*24聯機交易系統&#xff0c;傍晚時分&#xff0c;從客戶端后臺對3千萬行的大表執行縮短varchar類型字段長度的ddl語句&#xff0c;執行期間&#xff0c;為了查看ddl進度&#xff0c;從TDSQL-MySQL赤兔前端頁面點擊異常會話查詢&#xff0c;之后數據庫卡住…

弧焊機器人氣體全方位節能指南

氬弧焊&#xff08;TIG焊接&#xff09;作為其中一種高效且精密的技術&#xff0c;憑借其穩定性和高質量的焊接效果&#xff0c;在航空航天、汽車制造、船舶建造以及石油化工等領域占據了不可或缺的地位。氬弧焊通過使用惰性氣體&#xff08;如氬氣&#xff09;保護電弧和熔池&…

數據清洗(ETL/ELT)原理與工具選擇指南:企業數字化轉型的核心引擎?

目錄 一、數據清洗&#xff08;ETL/ELT&#xff09;到底在干啥&#xff1f; 1.揪出并處理異常值 2.把缺失的數據補上&#xff08;或處理好&#xff09; 3.數據轉換與標準化 4.一致性校驗 二、工具怎么選&#xff1f;看菜吃飯&#xff0c;量體裁衣 1.數據量不大、要求不高…

阿里云服務器,CentOS7.9上安裝YApi 接口管理平臺

目錄 1.node安裝 1.1下載node,解壓 1.2 部署bin文件 1.3 安裝mongodb 2.啟動yapi 2.1 前置命令 2.2 啟動服務 3.利用pm2方便服務管理維護 3.1.安裝pm2 3.2 常用 PM2 命令 4.常見問題 4.1. 確認 MongoDB 是否安裝 4.2. 安裝 MongoDB&#xff08;若未安裝&#xff…

阿里云錯題集分享

有最近想要考試阿里云的可以私信我 &#xff0c;一起加油錯題集1.在使用阿里云的負載均衡SLB實例時&#xff0c;做了如下健康檢查的配置:成功響應和超時響應時間均為1秒&#xff0c;健康檢查間隔為2秒&#xff0c;不健康閾值為3&#xff0c;健康閾值為3。即對于確認一個云服務器…

Android 12 - 部分相機橫屏顯示方案

1.相機過渡界面方向旋轉 Android 10 - 相機過渡界面默認角度 同A10 有些區別&#xff0c;再次增加記錄修改。 這個文件沒有修改&#xff0c;只是說明 src/com/android/camera/CameraActivity.javaprivate void freezeScreenCommon(boolean async) {long startTime System.…

Operation Blackout 2025 Phantom Check hayabusa+ControlSet001+VirtualBox

QAQA攻擊者使用哪個 WMI 類來檢索型號和制造商信息以進行虛擬化檢測&#xff1f;Win32_ComputerSystem攻擊者執行了哪個 WMI 查詢來檢索計算機的當前溫度值&#xff1f;SELECT CurrentTemperature FROM MSAcpi_ThermalZoneTemperature攻擊者加載了 PowerShell 腳本以檢測虛擬化…

《O-PAS?標準的安全方法》白皮書:為工業自動化系統筑起安全防線

The Open Group 最新白皮書《O-PAS?標準的安全方法》重磅發布&#xff0c;為流程工業在邁向開放架構與多供應商互操作的過程中&#xff0c;指明了安全實踐的方向。O-PAS?標準的安全方法ABOUT PUBLICATION亮點一&#xff1a;首次系統闡釋 O-PAS? 標準安全方法與 IEC/ISA 6244…

UML 圖類型全解析:結構圖與行為圖分類詳解

作為軟件架構的核心建模語言&#xff0c;UML&#xff08;統一建模語言&#xff09;通過14種標準圖表提供系統多維度視角。這些圖表分為結構圖&#xff08;靜態模型&#xff09; 和 行為圖&#xff08;動態模型&#xff09; 兩大類&#xff0c;覆蓋從需求到實現的完整生命周期。…

lodash不支持 Tree Shaking 而 lodash-es可以

lodash 無法有效支持 Tree Shaking 而 lodash-es 可以&#xff0c;核心區別在于?模塊規范、文件結構和靜態分析兼容性?。以下是具體原因分析&#xff1a; ?? 一、模塊規范差異&#xff08;核心原因&#xff09; lodash&#xff08;CommonJS 規范&#xff09;? 使用 requir…

java+vue+SpringBoo高校實習信息發布網站(程序+數據庫+報告+部署教程+答辯指導)

源代碼數據庫LW文檔&#xff08;1萬字以上&#xff09;開題報告答辯稿ppt部署教程代碼講解代碼時間修改工具 技術實現 開發語言&#xff1a;后端&#xff1a;Java 前端&#xff1a;vue框架&#xff1a;springboot數據庫&#xff1a;mysql 開發工具 JDK版本&#xff1a;JDK1.8 數…

uniApp實戰五:自定義組件實現便捷選擇

文章目錄1.最終效果預覽2.快速選擇組件封裝3.彈框組件封裝4.組件邏輯實現5.組件樣式6.頁面引入1.最終效果預覽 2.快速選擇組件封裝 <uv-cell :border"isShowBorder"><template v-slot:title><text class"title-key">{{ title }}</te…

AI在垂直領域的深度應用:醫療、金融與自動駕駛的革新之路

AI在垂直領域的深度應用:醫療、金融與自動駕駛的革新之路 一、醫療領域:AI驅動的精準診療與效率提升 1. 醫學影像診斷 AI算法通過深度學習技術,已實現對X光、CT、MRI等影像的快速分析,輔助醫生檢測癌癥、骨折等疾病。例如,Google DeepMind的AI系統在乳腺癌篩查中,誤檢率…

模塊三:現代C++工程實踐(4篇)第二篇《性能調優:Profile驅動優化與匯編級分析》

性能調優&#xff1a;Profile驅動優化與匯編級分析實戰&#xff1a;優化矩陣乘法至SSE/AVX指令集&#xff08;終極加強版&#xff09;一、性能瓶頸的全鏈路診斷&#xff08;深度擴展&#xff09;1.1 硬件性能計數器的極致利用PMU事件深度定制&#xff1a;# 捕獲L1緩存事件與分支…