【三維重建】三維場景生成：綜述

在這里插入圖片描述

標題：《3D Scene Generation: A Survey》
來源：新加坡南洋理工大學
項目：https://github.com/hzxie/Awesome-3D-Scene-Generation

文章目錄

摘要
一、前言
二、準備工作
- 2.1 任務定義
- 2.2 三維場景表示
- 2.3 生成模型
三、方法：分層分類法
- 3.1 程序生成（Procedural Generation）
- - 3.1.1基于規則的生成
  - 3.1.2 基于優化的生成
  - 3.1.3 基于大語言模型的生成
- 3.2 基于神經三維生成
- - 3.2.1 場景參數（scene parameters）
  - 3.2.2 場景圖（Scene Graph）
  - 3.2.3 語義布局（Semantic Layout）
  - 3.2.4 隱式布局（Implicit Layout）
- 3.3 基于圖像的生成
- - 3.3.1 整體生成（Holistic Generation）
  - 3.3.2 迭代生成（Iterative Generation）
- 3.4 基于視頻的生成
- - 3.4.1 兩階段生成
  - 3.4.2 一階段生成
四、數據集
- - 4.1.1 室內數據集
  - 4.1.2 自然數據集
  - 4.1.3 城市數據集
- 4.2 評估
- - 4.2.1 基于指標的評價
  - 4.2.2 基于基準(Benchmark)的評價
  - 4.2.3 人類評價
五、應用和任務
- 5.1 三維場景編輯
- 5.2 人與場景交互
- 5.3 具身 AI
- 5.4 機器人技術
- 5.5 自動駕駛
六、挑戰和未來方向
- 6.1 挑戰
- 6.2 未來方向

摘要

??三維場景生成旨在為沉浸式媒體、機器人技術、自動駕駛和具身人工智能等應用合成空間結構化、語義豐富且逼真的環境。早期基于程序規則的方法雖然提供了可擴展性，但多樣性有限。近年來，深度生成模型（如GANs、擴散模型）和三維表示（如NeRF、三維高斯分布）的進步使得學習真實世界場景分布成為可能，提高了保真度、多樣性和視角一致性。最近的進展如擴散模型通過將生成問題重新定義為圖像或視頻合成問題，彌合了三維場景生成與逼真度之間的差距。本綜述將最先進方法分為四個范式：程序生成、基于神經網絡的三維生成、基于圖像的生成和基于視頻的生成。我們分析了它們的技術基礎、權衡因素和代表性結果，并回顧了常用的數據集、評估協議和下游應用。最后，我們討論了生成能力、三維表示、數據和注釋以及評估方面的主要挑戰，并概述了有前景的方向，包括更高保真度、物理感知和交互式生成以及統一感知-生成模型。本綜述整理了近期在三維場景生成方面的進展，并突出了AIGC、三維視覺和具身智能交匯處的有前景方向。

一、前言

??生成三維場景的目標是創建一個空間結構合理、語義豐富且視覺逼真的三維環境。作為計算機視覺的基石，它支持廣泛的應用，從沉浸式電影制作[1]，[2]到廣闊的虛擬游戲世界[3][4][5]再到建筑可視化[6][7].。它還在增強現實/虛擬現實[8]，[9]，[10]，機器人模擬[11][12]，和自動駕駛[13][14]中發揮著關鍵作用，通過提供高保真環境來訓練和測試。除了這些應用之外，三維場景生成對于推進具身人工智能[15][16][17]和世界模型[18][19][20]，至關重要，因為它們依賴于多樣化的高質量場景來進行學習和評估。逼真的場景合成增強了AI代理導航、互動和適應的能力，推動了自主系統和虛擬模擬的進步。

??如圖1所示，近年來3D場景生成受到了廣泛關注。早期的場景生成方法依賴于基于規則的算法[21]和手動設計的資產[22]，在游戲設計[23]、城市規劃[24]、[25]以及建筑[26]、[27]中提供了可擴展性和控制力。然而，這些方法依賴預定義的規則和確定性算法，限制了多樣性，需要大量的人工干預才能生成逼真或多樣的場景[28]。深度生成模型（例如GANs [29]、擴散模型[30])的進步，使得神經網絡能夠通過學習現實世界的分布來合成多樣且真實的三維結構。結合NeRF [31]和3D高斯分布[32]等3D表示方法的創新，基于神經網絡的3D生成方法提高了幾何保真度、渲染效率和視角一致性，使其成為實現照片級真實場景合成和沉浸式虛擬環境的理想選擇。從單張圖像出發，基于圖像的場景生成方法利用相機位姿變換和圖像outpaint技術，迭代合成連續視圖[33][34]或全景局部環境[35][36]。基于SVD的視頻生成方法將3D場景生成視為視頻生成的一種形式，并通過時間建模]增強視圖一致性[39]。動態3D表示的整合[40]，[41]進一步促進了沉浸式和動態環境[42]，[43].的合成。

在這里插入圖片描述

??與生成3D對象和虛擬形象相比，三維場景生成挑戰：

1)尺寸：對象和虛擬形象通常存在于固定且有限的空間范圍內，而場景則需要容納多個實體，跨越更大、更變化的空間尺度。
2)結構復雜性：場景涉及不同對象之間的復雜空間和語義關系，要求模型確保功能的一致性和整體的合理性。
3)數據可用性：雖然大規模的對象和虛擬形象生成數據集豐富，但高質量、標注的3D場景數據集仍然稀缺且收集成本高昂。
4)細粒度控制：場景生成通常需要用戶對物體放置、分區和風格等屬性進行控制，這些方面難以靈活且可解釋地融入模型中。

一些研究專注于特定子領域，如擴散模型[55]、文本驅動場景生成[52]或4D生成[56]，而另一些則忽視了關鍵表示方法，例如3D高斯分布[51]和圖像序列[53][54]，以及重要的范式，如過程生成和基于視頻的生成[51][53][54]。關于世界模型的綜述[18][57][58]主要關注駕駛場景中的視頻預測，但僅提供了部分視角。

??范圍。本調查主要關注生成三維場景的方法，不包括一般的視頻生成[38][61]和一般的三維物體生成[62][63][64]方法，盡管它們在三維場景生成方面已展現出一定的能力。本調查補充了現有的關于三維生成模型[51][52][53][54][55]的綜述，因為沒有一個提供對三維場景生成及其相關見解的全面概述。

二、準備工作

2.1 任務定義

??3D場景生成，使用生成模型 $G$ 將輸入 $x$ （例如，隨機噪聲、文本、圖像或其他條件）映射到3D場景表示 $S$ :

在這里插入圖片描述
生成的場景S在空間上是連貫的，隱式或顯式地定義3D幾何，并且能夠實現多視圖渲染或3D重建。

2.2 三維場景表示

??Voxel Grid.體素網格是一個三維數組 $V∈R^{H×W×D}$ ，每個體素存儲諸如占用率或有符號距離值[65]等屬性，從而實現結構化的體積場景表示。

??point cloud。點云是一組無序的N個三維點 $P =$ { $p_i | p_i∈R^3$ } $^N_{i=1}$ ，用于近似物體表面。與體素網格不同，點云是稀疏的、無結構的、內存高效的，通常由深度傳感器、激光雷達和運動結構[66]生成。

??mesh。多邊形網格 $M =$ { $M_V ,M_E,M_F$ }通過頂點 $M_V$ （空間中的點）、邊 $M_E$ （頂點之間的成對連接）和面 $M_F$ （平面多邊形，如三角形或四邊形）定義了一個三維表面，提供了明確的連通性信息。

??Neural Fields。帶符號距離場（SDF）[67]和神經輻射場（NeRF）[31]是通過神經網絡參數化的連續隱式函數。SDF將空間位置 $x \in R^{3}$ 映射到帶符號距離 $s (x) \in R$ ，定義表面為其零水平集。NeRF將x和視圖方向r∈R3映射到體積密度 $σ(x,r)∈R^+$ 和顏色 $c (x, r) \in R^{3}$ 。SDF使用球面追蹤[68]渲染，而NeRF使用可微體渲染[69][70]。

??3D Gaussians.3D高斯[32]使用N個3D高斯基元 $G =$ { $μ_i,Σ_i,c_i,α_i)$ } $^N_{ i=1}$ 表示3D場景，其中 $μ_i∈R^3$ 是中心， $Σ_i∈R^{3×3}$ 定義了各向異性形狀， $c_i∈R^3$ 是RGB顏色， $α_i∈[0,1]$ 是透明度。圖像可以通過將3D高斯渲染到2D平面上來實現。

??圖像序列。圖像序列隱式地編碼了場景的三維結構，包含來自不同視角的N張圖像，例如 $C =$ { $I_i∈R^{H×W×3}$ } $^N_{i=1}$ ，是圖像和視頻生成方法中廣泛使用的關鍵三維場景表示，通過多視角重建可以推斷出三維結構。

2.3 生成模型

??生成模型通過學習統計模式（例如，AR自回歸模型、VAE[71]、GANs [29]、擴散模型[30])或應用預定義規則（例如，過程生成器）來合成數據。前者為新輸出近似數據分布，后者則通過確定性或隨機邏輯構建結構化的3D場景，而無需學習先驗。

??自回歸模型(AR模型） 按順序生成數據，每個元素都依賴于先前生成的元素。常見的AR模型建模方法是將數據的聯合概率分布分解為條件概率的乘積 $\prod ^T_{t=1} p(x_t|x_{<t})$ 。這種分解直接遵循概率鏈式法則，確保每個元素xt都是按順序生成的，并且依賴于所有先前的元素。條件概率 $p(x_t|x_{<t})$ 由深度生成網絡[72][73]建模，這些網絡學習捕捉數據之間的依賴關系。

??變分自編碼器（VAE） [71]是一種生成模型，它將數據編碼到概率潛在空間中，再將其解碼回來。給定輸入x，編碼器將其映射到一個由均值 $μ$ 和方差 $σ^{2}$ 參數化的潛在分布 $q (z ∣ x)$ ，其中 $z = μ + σ ? ?$ ， $? ～ N (0, I)$ 。解碼器則從z重建x。通過重參數化技巧，VAE實現了通過隨機采樣進行反向傳播的能力。損失函數結合了重構損失（以保留輸入特征）和KL散度（以正則化潛在空間），這使得VAE能夠生成平滑且有意義的數據變化。然而，由于變分自編碼器（VAEs）優化的是似然函數（平均對數似然傾向于生成“平均”樣本，而不是銳利的真實樣本），它們通常會將概率質量分散到真實數據流形之外（假設真實數據流形 M 是一個低維曲面，而 VAE 的解碼器 $p_θ(x|z)$ 在高維空間定義了一個高斯分布。由于高斯分布有無限支撐集（即概率密度 p>0的區域覆蓋整個空間），即使z采樣自流形附近，解碼器仍可能生成流形外的點），從而導致生成的樣本模糊且缺乏細節[74][75]。

在這里插入圖片描述

??生成對抗網絡（GANs）[29]包含兩個網絡——生成器G和判別器D——它們在一個最小最大博弈中競爭。生成器G接受隨機噪聲z并生成假數據G(z)，而判別器D則試圖區分真實數據x和假數據G(z)。目標是優化生成器，使其能夠生成逼真的數據，使判別器無法將其與真實數據區分開來，并訓練判別器正確分類真實和假數據，這可以通過目標函數表示：

在這里插入圖片描述
其中， $p_{data}(x)$ 是真實數據分布， $p_z(z)$ 是隨機噪聲分布。GAN的主要缺點是訓練難度大，常遇到模式崩潰和不穩定等問題[76]

??擴散模型[30]是一種生成模型，通過逐步向數據中添加噪聲來操作，將其轉化為純噪聲，然后學習逆向過程，通過去噪恢復原始數據。前向過程被建模為馬爾可夫鏈，其中每一步xt是通過向前一步xt?1添加高斯噪聲獲得的，定義為 $x_t =\sqrt{1?β_t}x_{t?1}+\sqrt{β_t}?_t$ ，其中 $_t$ 是高斯噪聲， $β_t$ 控制噪聲調度。逆向過程旨在建模 $p(x_{t?1}|x_t)$ ，學習如何逆轉已添加的噪聲并再生原始數據。盡管這些模型生成高質量的數據且比GAN更穩定，但由于迭代去噪過程，計算成本高昂且速度較慢[77]

??程序生成器（Procedural Generators）[44]是通過迭代應用參數規則和數學運算來合成3D場景的算法系統。這些生成器將初始狀態S0（例如，幾何基元或空場景）通過遞歸或迭代過程轉化為結構化的輸出 $S_n$ ，該過程由 $S_{t+1}=R(S_t,Θ)$ 控制，其中R表示一組預定義的規則（例如，細分、擾動或空間劃分），Θ表示可調參數（例如，種子值、擾動幅度或遞歸深度）。規則R定義了確定性或受約束的隨機操作，當Θ固定時，確保可重復性。

三、方法：分層分類法

3.1 程序生成（Procedural Generation）

??程序生成方法通過遵循預定義的規則或約束自動創建三維場景。它們在計算機圖形學中廣泛用于創建多樣的環境，包括地形、植被、河流、道路、房間、建筑和整個城市。如表1所示，程序生成方法提供了高效率和空間一致性，但通常需要仔細調整以實現真實感和用戶控制。這些方法的范式如圖3所示，可以進一步分為基于規則、基于優化和基于大語言模型的生成。
在這里插入圖片描述

在這里插入圖片描述

3.1.1基于規則的生成

??基于規則的程序生成包括一系列通過明確的規則和算法構建3D場景的方法。這些方法直接生成場景幾何，然后進行渲染以供可視化。常用的技術包括基于分形、基于語法、基于模擬和基于示例的生成（ fractal-based, grammar-based,simulation-driven, 和example-based）。

??分形fractal[121]、[122]、[123]是數學結構，表現出尺度上的自相似性。基于分形的方法廣泛應用于地形建模和紋理合成，因為它們能夠高效地生成視覺上復雜的圖案，同時所需的存儲空間極少。諸如中點位移[124]、[125]和分數布朗運動[126]（fBM）等技術，可以生成多尺度細節，這些細節類似于自然景觀。

??基于語法的方法包括一個符號字母表、初始公理和一組重寫規則。每個生成的符號編碼用于復雜形狀生成的幾何命令。CityEngine [3]擴展了L-系統[127]，用于生成道路網絡和建筑幾何，以創建城市。Muller等人[¨6]在形狀語法[128]的基礎上，建模高度詳細的3D建筑。

??基于模擬的程序生成通過建模自然和人工過程來創建逼真的3D環境。一些方法模擬侵蝕效果[78][129][130]和水文學[131][132][133]以高保真度生成地形。植被模擬則在資源競爭[79][134][135]和氣候變化[136]下建模植物生長。在城市環境中，基于生態系統的方案用植被[137]填充城市，而其他程序神經網絡3D圖像視頻6則模擬城市增長和資源分配，生成隨時間有機演化的聚落[138][139].

??基于示例example的程序方法被提出以提高可控性。這些技術利用用戶提供的小樣本，通過擴展其邊界[140]、[141]或匹配特征[142]、[143]來生成更大的場景。逆向程序生成試圖在生成過程中提供高級控制。這些方法應用優化函數從程序算法[26]、[144]中推斷參數，或學習場景布局的全局分布[145]。

??上述技術通常結合使用，以發揮它們的互補優勢，生成大規模、多樣的場景。例如，Citygen [146]集成了道路網絡和建筑生成器，用于城市景觀；而Infinigen [80]則結合了材質、地形、植物和生物生成器，創造出無限自然場景。

3.1.2 基于優化的生成

??基于優化的生成方法將場景合成視為一個優化問題，旨在最小化編碼預定義約束的目標。這些約束通常源自物理規則、功能或設計原則，并嵌入cost function中，通過隨機或基于采樣的方法進行優化。或者，統計方法從數據中學習空間關系，并通過概率采樣指導布局過程。一些系統支持用戶定義的約束和用戶交互，以實現可控且語義豐富的生成。

??一些方法將物理和空間約束表述為 cost function，并應用隨機優化方法生成場景。物理層面的約束包括物體相互穿透、穩定性和摩擦[147]。布局層面的約束，包括功能關系（例如共現、可達性）、室內設計指南（例如對稱性、對齊、共圓性）以及人類行為模式，也已被考慮[28][148][149]。高級別的約束如場景類型、大小和布局可由用戶指定[15][27][150]，從而實現更可控且語義豐富的場景合成。利用現有的過程生成管道，Infinigen Indoors [81]引入了一個約束規范API，允許用戶定義自定義約束并實現高度可控的場景生成。

??其他方法采用數據驅動模型，從標注數據中學習物體排列模式，將場景生成轉化為概率采樣問題。貝葉斯網絡常用于[151][152][153]捕捉物體之間的條件依賴關系，而基于圖的模型[154][155][156]則建模空間層次或關系結構，以提高空間推理和物體放置的準確性。

3.1.3 基于大語言模型的生成

??大語言模型[157]（LLM）和視覺語言模型[158]（VLM）通過文本驅動，實現場景合成，允許用戶通過自然語言描述指定環境，為場景設計提供了更大的靈活性和用戶控制。

??幾種方法利用大語言模型生成場景布局，例如對象參數[82][159][160][161][162][163][164][165][166]和基于場景圖[167][168][169][170][171][172].。根據這些布局，可以通過對象檢索或形狀生成獲得3D幾何體。具體來說，LayoutGPT [82]使用生成提示和結構模板指導大語言模型生成用于檢索資產的對象參數。CityCraft [161]利用大語言模型進行土地利用規劃，并從數據庫中檢索建筑物資產以構建詳細的都市環境。IDesign [167]和Deng等人的[168]使用基于圖的對象表示更有效地建模對象間的語義關系。為了支持更加風格化和多樣的場景生成，GraphDreamer [170]和Cube [172]通過大語言模型生成場景圖，將節點視為對象，并通過3D對象生成模型實現組合式場景生成。scene Language [165]引入了一種基于程序、詞匯和嵌入的場景表示方法，該方法可以由大語言模型生成，并使用傳統、神經或混合圖形管道進行渲染。

??其他方法利用大語言模型作為代理，通過調整基于規則系統的參數或修改程序生成軟件中的操作來控制程序生成。Liu等人[173]使用大語言模型微調基于規則的景觀生成參數，利用學習到的先驗知識優化程序工作流程。3D-GPT [83]和SceneCraft [174]生成Python腳本以控制現有的程序框架，如Infinigen [80]和Blender1，允許直接操作程序資產。Holodeck [175]通過與大語言模型多輪對話生成3D環境，包括地板和墻壁紋理化、門和窗戶生成、對象選擇和放置。CityX [24]和SceneX [84]使用多代理系統處理不同階段的生成，通過Blender渲染生成布局、地形、建筑和道路的Python代碼。WorldCraft [176]進一步集成了對象生成和動畫模塊。

3.2 基于神經三維生成

??基于神經網絡的三維生成，利用帶label的數據訓練生成模型，NeRF和3D高斯分布的進步進一步提高了其保真度和真實性。如表1所。這些方法有較高的視角和語義一致性，但其可控性和效率仍有限。如圖4所示，根據控制生成3D場景布局的空間排列，這些方法被分為四類：場景參數scene parameters、場景圖scene graph、語義布局semantic layout和隱式布局implicit layout。

在這里插入圖片描述

3.2.1 場景參數（scene parameters）

??場景參數提供了一種緊湊的方式來表示對象排列，隱式地捕捉了對象之間的關系，而無需依賴顯式的場景圖。這些參數通常包括對象的位置、大小、方向、類別和形狀潛在代碼。如圖4a所示，這些方法首先生成場景參數作為中間表示，然后用于合成最終的三維場景

??DeepSynth [85]、FastSynth [177]、Zhang等人[178]和Sync2Gen [179]采用基于CNN的架構，利用自上而下的圖像場景表示，通過預測對象參數來依次插入對象。后續研究探索了更先進的模型，如Transformer和擴散模型。ATISS [86]、SceneFormer [180]、COFS [181]和Nie等人[182]使用Transformer自回歸生成對象參數。RoomDesigner [183]通過解耦布局和形狀生成，確保室內場景中的形狀兼容性，進一步優化了這一過程。CASAGPT [184]利用立方體作為中間對象表示，更好地避免了對象碰撞。DeBaRA [185]采用擴散模型生成對象參數，而PhyScene [186]進一步結合物理約束，以提高物理合理性和交互性。

??為了提高文本驅動場景生成的可控性，RelScene [187]利用BERT [188]在潛在空間中對齊文本描述與空間關系。DiffuScene [88]利用潛在擴散模型[189]從文本輸入生成對象參數，隨后進行對象檢索。Ctrl-Room [190]和SceneFactor [191]使用LDMs從文本提示生成粗略的對象布局，分別通過全景生成和幾何擴散模型獲得精細外觀。Epstein等人[192]、SceneWiz3D [193]和DreamScene [194]采用多階段方法，首先生成初始對象布局，然后使用評分蒸餾采樣（SDS）[195]精細化對象幾何，最后進行全局精煉步驟以提高組合一致性。

??人類的動作和互動常常影響環境的組織方式，其中運動模式和身體接觸決定了物體和場景布局的安排。Pose2Room [196]引入了一種端到端的生成模型，能夠根據人體動作預測房間內家具的邊界框。SUMMON [197]和MIME [87]通過生成與人體場景接觸相匹配的網格對象，進一步提高了語義一致性和物理可行性。Vuong等人提出的[198]提出了一種多條件擴散模型，結合文本提示以增強可控性。為了確保布局在物理上合理且無接觸或碰撞，INFERACT [199]在優化場景布局生成的同時，利用基于物理的環境中的強化學習模擬人體運動。

3.2.2 場景圖（Scene Graph）

??場景圖提供了一種結構化、符號化的三維場景表示方法，其中node代表對象，edge捕捉其空間關系。引入場景圖使得生成模型能夠強制執行空間約束并保持關系的一致性，從而有助于創建結構良好的三維環境。根據圖4b所示的范式，無論是由模型生成還是作為輸入提供的場景圖，都充當布局先驗，指導解碼過程通過對象檢索或形狀生成來創建三維場景表示。

??早期的數據驅動方法[200]，[201]，[202]，[203]使用場景圖表示物體之間的空間關系，這些場景圖作為通過物體檢索和放置生成3D場景的藍圖。后續研究增強了圖表示并引入了先進的生成模型。PlanIT [89]采用深度圖生成模型來合成場景圖，隨后使用基于圖像的網絡進行物體實例化。GRAINS [90]采用遞歸VAE學習場景結構作為層次圖，可以解碼成物體邊界框。3D-SLN [204]利用場景圖作為3D場景布局生成的結構先驗，確保空間連貫性，并進一步結合可微渲染以合成逼真的圖像。Meta-Sim [205]和MetaSim2 [206]使用場景圖來構建場景生成，優化參數以實現視覺真實，并使用渲染引擎合成多樣化的3D場景。

??先前的方法能夠從場景圖生成場景，但依賴于對象檢索或直接合成，限制了幾何多樣性。為了解決這一問題，Graph-to-3D [91]引入了一種基于圖的VAE，聯合優化布局和形狀。SceneHGN [207]將場景表示為從高層次布局到細粒度對象幾何的層次圖，使用層次VAE進行結構化生成。CommonScenes [92]和EchoScene [208]提出了具有雙分支設計的場景圖擴散模型，用于布局和形狀，捕捉全局場景-對象關系和局部對象間交互。MMGDreamer [209]引入了一種混合模態圖，以精細控制對象幾何。

??最近的方法通過整合人類輸入來提高可控性。SEK [210]將場景知識編碼為條件擴散模型中的場景圖，用于基于草圖的場景生成。InstructScene [93]將文本編碼器與基于圖的生成模型集成，實現基于文本的場景合成。為了將基于場景圖的生成推廣到更廣泛的場景，Liu等人[211]將場景圖映射到鳥瞰視圖（BEV）嵌入圖，該圖指導擴散模型進行大規模戶外場景合成。HiScene [212]利用VLM指導的遮擋推理和基于視頻擴散的無模態補全，從單個等軸測視圖生成具有組合對象身份的可編輯3D場景。

3.2.3 語義布局（Semantic Layout）

??語義布局作為中間表示，編碼了三維場景的結構和語義組織。它為三維場景生成提供了高層次的指導，確保物體和場景元素放置的可控性和連貫性。如圖4c所示，無論是用戶提供的還是自動生成的語義布局，都作為生成模型的精確約束，引導三維場景生成的同時，允許使用可選的紋理提示來控制風格。

??二維語義布局由二維語義圖組成，有時還包括高度圖等附加地圖，從俯視角度展示。CC3D [95]根據二維語義圖生成三維特征體，該圖作為神經渲染的NeRF。BerfScene [213]引入位置編碼和低通濾波，使三維表示與BEV圖保持等變性，從而實現可控且可擴展的三維場景生成。Frankenstein [214]將場景組件編碼為緊湊的三平面[215]，通過擴散過程根據二維語義布局生成。BlockFusion [100]引入了一種潛在的三平面外推機制，用于無界場景擴展。將高度圖與語義圖結合，可以直接將二維布局轉換為三維體素世界，這對于城市和自然場景尤為重要，因為建筑物結構和地形高程提供了重要的先驗信息。InfiniCity [96]利用InfinityGAN [216]生成無限規模的二維布局，這些布局隨后用于創建一個無縫的語義體素世界，紋理通過神經渲染合成。為了生成自然場景，SceneDreamer [97]使用神經哈希網格捕捉各種景觀中的通用特征，建模出空間和場景各異的超空間。為了應對城市環境中建筑物的多樣性，CityDreamer [98]和GaussianCity [217]將生成過程分解為不同的背景和建筑組件。CityDreamer4D [218]進一步整合了動態交通系統，生成了一個廣闊的四維城市。

??三維語義布局相比二維提供了更強的能力來表示更復雜的三維布局，通過使用體素或三維邊界框提高了可控性。GANcraft [94]使用體素作為三維語義布局，通過偽真實值和對抗訓練優化神經場。UrbanGIRAFFE [219]和DisCoScene [220]將場景分解為物體、天空和背景，并采用組合神經場生成場景。通過結合評分蒸餾采樣（SDS）[195]，三維語義布局在文本引導的場景生成中提供了更好的控制，改善了生成場景與文本描述的一致性。Comp3D [99]、CompoNeRF [221]、Set-the-Scene [222]和Layout-your- 3D [223]使用預定義的可定制布局作為對象代理，通過組合神經場生成三維場景。SceneCraft [224]和Layout2Scene [225]通過蒸餾預訓練擴散模型生成室內場景。Urban Architect [226]將幾何和語義約束與SDS集成，利用可擴展哈希網格確保城市場景生成中的視圖一致性。

3.2.4 隱式布局（Implicit Layout）

??隱式布局是編碼三維場景空間結構的特征圖。如圖4d所示，這些布局表現為不同維度的潛在特征。編碼器學習將三維場景布局信息嵌入到潛在特征圖中，然后由解碼器生成以NeRF、三維高斯或體素網格形式的三維場景。

??最近在NeRF和3D高斯等表示方法上的進展，使得神經網絡能夠直接從潛在特征圖生成并渲染高保真度的RGB圖像。一些方法利用這些表示，生成外觀一致且具有照片級真實感的3D場景。NeRF-VAE [227]使用VAE跨多個場景編碼共享信息。GIRAFFE [228]將場景表示為組合生成神經場，以分離物體與背景。GSN [101]和Persistent Nature [229]采用基于GAN的架構，生成2D潛在網格作為隱式場景布局，沿相機光線采樣以指導NeRF渲染。GAUDI [102]采用擴散模型聯合學習場景特征和相機姿態，將其解碼為三平面和姿態，用于基于NeRF的渲染控制。NeuralField-LDM [103]將NeRF場景分解為包含3D體素、2D BEV和1D全局表示的層次潛在結構。然后在這一三潛在空間上訓練層次擴散模型以生成圖像。Director3D [105]使用高斯驅動的多視圖潛在擴散模型，在生成軌跡上生成像素對齊且無界的3D高斯分布，隨后進行SDS精煉。Prometheus [230]和SplatFlow [231]從多視圖圖像中學習壓縮潛在空間，并將此潛在空間解碼為像素對齊的3D GS表示。

??另一分支的工作更側重于生成語義結構和場景幾何，通常使用體素網格作為表示。這些方法雖然無法立即渲染，但可以通過外部渲染管道進行紋理處理。Lee等人[232]引入了離散和潛在擴散模型來生成并完成由多個對象組成的三維場景，這些對象以語義體素網格的形式表示。由于體素網格帶來的計算挑戰，DiffInDScene [233]、PDD [234]、X 3 [104]和LT3SD [235]使用層次擴散管道高效地生成大規模和細粒度的三維場景。SemCity [236]采用三平面表示法處理三維語義場景，通過在擴散過程中操作三平面空間實現生成和編輯。NuiScene [237]將局部場景塊編碼為向量集，并使用擴散模型生成鄰近塊以生成無界戶外場景。DynamicCity [238]通過采用填充展開技術將六面體[239]展開為二維特征圖，并應用擴散進行去噪，從而實現四維場景生成。

3.3 基于圖像的生成

??基于圖像的生成方法試圖彌合2D和3D生成之間的差距，如表1所示，其在逐幀的處理上高效，提供了逼真度和多樣性，但在深度準確性、遠距離語義一致性和視圖連貫性方面存在困難。這些方法分為兩類：整體生成和迭代生成，如圖5所示。整體生成一步生成完整的場景圖像，而迭代生成則通過外推逐步擴展場景，生成一系列圖像。

在這里插入圖片描述

3.3.1 整體生成（Holistic Generation）

??如圖5a，整體生成通常依賴于全景圖像，這些圖像提供了完整的360°×180°視場，確保了空間連續性和明確的幾何約束，減少了透視視圖中出現的場景不一致。

??給定一張RGB圖像，早期方法[240][241][242][243][244][245]使用GAN進行圖像outpainting，以填充全景圖中的mask區域。更近的方法則采用先進的生成模型（如CoModGAN [246]和VQGAN [247])，以實現更大的多樣性和內容控制。ImmerseGAN [106]利用CoModGAN進行用戶可控的生成。OmniDreamer [248]和Dream360 [249]使用VQGAN生成多樣且高分辨率的全景圖。通過利用潛在擴散模型的進展，（LDM）[189]，PanoDiffusion [250]通過將深度整合到雙模態擴散框架中，增強了場景結構感知能力。

??Text-to-image模型（如CLIP [251]，LDM [189])能夠實現基于文本的全景生成。Text2Light [35]使用CLIP進行基于文本的生成，并利用層次采樣器根據輸入文本提取并拼接全景patch。一些方法[252][253]利用擴散模型生成高分辨率平面全景圖。然而，這些方法無法保證圖像邊界處的連續性，這是創建無縫觀看體驗的關鍵。為了解決這一問題，MVDiffusion [36]、DiffCollage [254]和CubeDiff [255]生成多視角一致的圖像，并將其對齊成閉環全景圖以實現平滑過渡。StitchDiffusion [256]、Diffusion360 [257]、PanoDiff [258]和PanFusion [107]在邊界處采用填充和裁剪策略以保持連續性。

??最近的方法將單視圖全景生成擴展到多視圖，以實現沉浸式場景探索，主要采用兩種策略：一種是直接使用擴散模型生成多視圖全景圖像[259 DiffPano]，另一種則是應用3D重建技術（例如表面重建[190]，[260]，[261]，NeRF [108]和3D高斯噴濺[109]，[262]，[263]，[264]，[265])作為后處理）。在此背景下，LayerPano3D [109]將生成的全景圖分解為基于深度的層，填充未見內容，幫助創建復雜的場景層次結構。

??另一研究方向集中在從衛星圖像生成幾何一致的街景全景圖。一些方法[266][267][268]將幾何先驗整合到基于GAN的框架中，以學習跨視圖映射。其他方法[269][270][271]則從衛星圖像中估計3D結構，并合成渲染街景全景圖所需的紋理。

3.3.2 迭代生成（Iterative Generation）

??如圖5b，迭代始于一個初始的二維圖像（圖像可以由用戶提供或根據文本提示生成）。首先沿著預定義的軌跡，逐步外推至大場景。通過逐步擴展和優化內容，不斷優化三維場景表示，增強幾何和結構的一致性。

??給定單個圖像，早期方法推理出三維場景表示，并渲染新視圖。表示包括點云[110][272][273][274]、多平面圖像[275][276]、深度圖[277]和網格[278]。盡管能夠實現快速渲染，但這些表示由于其有限的空間范圍限制了相機移動。為了實現不受限制的相機移動，Infinite Nature [33]、InfiniteNature-Zero [34]、Pathdreamer [279]和SGAM [280]采用“render-refine-repeat”的方式，迭代地wrap先前的視圖并 outpaint 缺失區域。DiffDreamer [281]通過使用擴散模型對多個過去和未來的幀進行條件化，提高了多視圖的一致性。GFVS [111]和LOTR [282]不使用顯式的三維表示，而是直接編碼圖像和相機姿態，利用變換器生成新穎視圖。Tseng等人[283]、Photoconsistent-NVS [284]和ODIN [285]通過姿態引導的擴散模型改進了長期視圖合成的一致性。CAT3D [286]使用多視圖LDM從輸入圖像生成新穎視圖，隨后進行3D重建以實現交互式渲染。類似地，Bolt3D [287]通過多視圖擴散生成場景外觀和幾何結構，直接輸出3D高斯函數以避免耗時的優化。

??基于文本的場景生成，利用預訓練的 text-to-image 擴散模型[189][288]，提高了多樣性和可控性。這些方法無需大量領域特定的訓練，即可迭代地調整相機視角，根據文本提示輸出圖像。PanoGen [289]、AOG-Net [290]、PanoFree [291]、OPaMa [292]和Invisible Stitch [293]等方法在透視視圖中迭代地輸出圖像，并無縫拼接成全景場景。其他方法則利用深度估計器[294][295][296]將RGB圖像融合成統一的3D場景。SceneScape [297]、Text2Room [113]和iControl3D [298]使用3D網格作為中介代理，迭代地將擴散生成的圖像融合成連貫的3D場景表示。WonderJourney [115]采用點云表示，并利用VLM引導的再生成策略確保視覺保真度。Text2NeRF [114]和3D-SceneDreamer [299]采用基于NeRF的表示方法，以減少幾何和外觀中的誤差累積，提高在各種場景下的適應性。Scene123 [300]進一步通過使用GAN框架增強照片級真實感，其中判別器將視頻生成器的輸出與場景生成器的輸出進行比較。通過引入3D高斯噴濺[32]，LucidDreamer [116]、Text2Immersion [301]、WonderWorld [302]、RealmDreamer [303]、BloomScene [304]和WonderTurbo [305]采用了3D高斯作為3D場景的表示方法，以實現更高質量和更快的渲染。利用最近在強大大型重建模型方面的進展[306][307][308][309][310]，SynCity [311]通過迭代執行圖像outpainting、3D對象生成和拼接，實現了無需訓練即可生成高質量3D場景的能力。

??另一研究方向同時進行迭代視圖合成和圖像動畫，以單張圖像構建動態3D場景。3D Cinemagraphy[112]和Make-It-4D [312]使用分層深度圖像（LDI）來構建特征點云，并通過運動估計和3D場景流來動畫化場景。3D-MOM [313]首先通過從單張圖像生成多視角圖像來優化3D高斯模型，然后通過跨視角估計一致運動來優化4D高斯模型[40]。

3.4 基于視頻的生成

??近期視頻擴散模型[38][61]在生成高質量視頻內容方面取得了顯著進展。在此基礎上，基于視頻的3D場景生成方法能夠生成圖像序列，實現沉浸式和動態環境的合成。如表1，這些方法通過連續生成提供高度的真實性和多樣性，得益于幀間的時間連貫性。然而，它們在確保視圖一致性方面面臨挑戰。這些方法可以分為兩階段和一階段兩類，如圖6所示。
在這里插入圖片描述

3.4.1 兩階段生成

??如圖6a，兩個階段分別針對多視角空間一致性和多幀時間連貫性。為了進一步提高視角一致性，這些生成的序列隨后用于優化動態3D場景表示（例如，4D高斯[40]，可變形高斯[41])。VividDream [314]首先通過迭代圖像outpaint來構建靜態3D場景，然后渲染覆蓋整個場景的多視角視頻，并應用時間反轉[315]來動畫化它們，從而在各個視角上創建動態視頻。PaintScene4D [316]首先根據文本描述使用視頻擴散生成視頻，然后通過在每個時間戳進行迭代變形和修復來精煉視頻，以保持多視角一致性。同樣，4Real [117]、DimensionX [42]和Free4D [317]首先生成連貫的參考視頻，然后使用幀條件視頻生成擴展視角角度。

3.4.2 一階段生成

??如圖6b，單階段生成將生成過程整合為單一流程，隱式地捕捉時空一致性，從而從統一模型中的任意視角和時間步長生成單視圖或多視圖視頻。一些方法[318][319][320][321][322][323][324][325]采用視頻擴散模型進行迭代視圖 extrapolation，隨后通過3D生成優化構建靜態場景。為了生成動態場景，GenXD [119]和CAT4D [326]采用不同的多視圖-時間策略，構建能夠生成所有時間點的所有視圖的多視圖視頻模型。StarGen [327]和Streetscapes [328]使用過去幀作為視頻生成的指導，通過自回歸方法增強長距離場景合成。利用全景圖像的自然多視圖3D先驗，4K4DGen [43]從靜態全景中采樣視角圖像，將其動畫化并排列成動態全景。360DVD [329]、Imagine360 [330]、Genex [331]和DynamicScaler [332]將全景約束整合到視頻擴散模型中，以生成球面一致的全景視頻。

??在視頻游戲和自動駕駛的場景生成中，這些方法通過整合各種控制信號作為條件，增強了控制性和真實感。在開放世界游戲環境中，龐大的數據集包含用戶輸入和渲染視頻，使得像DIAMOND [333]、GameNGen [334]、Oasis [335]、GameGenX [120]和WORLDMEM [336]這樣的模型能夠根據用戶互動預測未來的幀，創建響應式的虛擬環境，作為神經游戲引擎。在自動駕駛領域，諸如DriveDreamer [337]、MagicDrive [39]、DriveWM [338]和GAIA-1 [339]等模型利用文本、邊界框、鳥瞰圖（BEV）地圖和駕駛員動作等輸入來控制復雜駕駛場景的視頻生成。最近的研究進一步增強了視圖一致性[340][341][342][343][344][345][346][347][348][349][350]，擴展了控制能力[118][351][352][353][354]，通過 occupancy 實現三維級控制[355][356][357][358][359]，支持多模態輸出[360][361][362]，并提高了生成速度[363]和序列長度[364][365][366][367]。

四、數據集

??表3總結了3D場景生成的常用數據集，按場景類型分為三類：室內、自然和城市

4.1.1 室內數據集

?? 真實世界數據集 通過深度、DSLR或全景相機等傳感器從物理場景中捕獲。早期的數據集提供帶有語義標簽的RGB-D或全景圖像（例如，NYUv2 [369]、2D-3D-S [372])，而近期的數據集如ScanNet [375]和Matterport3D [374]則提供了具有密集網格和實例級注釋的3D重建。

? SUN360 [368]包含67,583張高分辨率360°×180°的全景圖像，采用等距矩形格式，手動分類為80種場景類型。
? NYUv2 [369]提供了來自464個室內場景的1,449張密集標注的RGBD圖像，涵蓋像素級語義和實例級別的對象。
? SUN-RGBD [370]提供了10,335張RGB-D圖像和重建的點云，包含豐富的標注信息，如房間類型、二維多邊形、三維邊界框、相機姿態和房間布局。
? SceneNN [371]提供了來自100個室內場景的502K張RGB-D幀，包含重建的網格、紋理模型、相機姿態以及面向對象和軸向對齊的邊界框。
? 2D-3D-S [372]包含來自六個室內區域的超過70,000張全景圖像，包括對齊的深度、表面法線、語義標簽、點云、網格、全局XYZ地圖和完整的相機元數據。
? Laval Indoor [373]提供2.2K高清室內全景圖（7768×3884），采用HDR燈光，涵蓋家庭、辦公室和工廠等多種場景。
? Matterport3D [374]包含來自90座建筑的194,400張RGB-D視圖中的10,800張全景圖像，包含密集的相機軌跡、對齊的深度圖和語義標簽。
? ScanNet [375]提供1,513次掃描中的2.5M張RGB-D幀，涵蓋707個不同空間，包含相機姿態、表面重建、密集的3D語義標簽和對齊的CAD模型。
? Replica [377]提供18個場景中35個房間的高質量3D重建，具有PBR紋理、HDR燈光和語義注釋。
? RealEstate10K [376]包含來自10K YouTube視頻的1000萬幀，涵蓋室內和室外場景，并包含每幀的相機參數。
? 3DSSG [378]提供了來自3RScan [398]的478個室內房間的場景圖，包含93個對象屬性、40種關系類型和534個語義類別。
? HM3D [379]提供了1,000個高分辨率的室內空間3D重建，涵蓋住宅、商業和公共建筑。
? ScanNet++ [380]包含使用激光掃描儀、DSLR和iPhone RGB-D捕獲的1,000+場景，涵蓋細粒度語義和長尾類別。
? DL3DV-10K [381]包含來自65個室內和半室外地點的10,510條視頻序列中的51.2M幀，展示多種視覺條件，如反射和不同光照。

??合成室內數據集 克服了現實世界中的局限性，如多樣性有限、遮擋和標注成本高昂。通過設計布局和紋理化的3D資產，像SUNCG [382]和3D-FRONT [385]這樣的數據集提供了大規模、多樣化的場景。一些[383]和[384]利用先進的渲染技術，生成具有精確2D標簽的逼真圖像。

? SceneSynth [152]包含130個室內場景（如書房、廚房、客廳），來自谷歌3D倉庫的1,723個獨特模型。
? SUNCG [382]提供45,622個手動設計的場景，包含404,000個房間和570萬個對象實例，涵蓋84類別中的2,644個網格。
? Structured3D [383]包含196,500張來自3,500座專業設計房屋的圖像，配有詳細的3D注釋（如線條、平面）。
? Hypersim [384]提供77,400張具有PBR材質和照明的逼真渲染圖，用于生成逼真的視圖合成。
? 3D-FRONT [385]提供6,813座專業設計的房屋和18,797個裝飾各異的房間，填充了來自3D-FUTURE [399]的高質量紋理3D對象。
? SG-FRONT [92]通過場景圖注釋增強3D-FRONT。

4.1.2 自然數據集

?? 自然場景數據集有限，主要是由于在開放的戶外環境中大規模收集和標注的困難。

? Laval Outdoor [386]提供了205幅高分辨率HDR全景圖，涵蓋多種自然和城市景觀。
? LHQ [387]匯集了來自Unsplash和Flickr的91,693張精心挑選的風景圖片，專為高質量圖像生成任務設計。
? ACID [33]包含210萬張由無人機拍攝的海岸地區YouTube視頻幀，通過結構光技術獲取3D攝像機軌跡。

4.1.3 城市數據集

??真實世界的數據集 主要集中在駕駛場景上，如KITTI [388]、Waymo [391]和nuScenes [392]，這得益于過去十年自動駕駛領域受到的廣泛關注。另一個重要來源是谷歌的街景視圖和航拍圖像，例如HoliCity [393]和Google Earth[98]。這些數據集提供了豐富的標注，包括語義分割和實例分割。

? KITTI [388]，在卡爾斯魯厄捕獲，包括立體和光流對、39.2公里的視覺里程計數據以及200K+的3D物體標注，使用了Velodyne激光雷達、GPS/IMU和帶有灰度及彩色相機的立體相機系統。
? SemanticKITTI [390]擴展了KITTI，為完整的360°激光雷達掃描提供密集的點級語義。
? KITTI-360 [395]擴展了KITTI，提供了73.7公里的駕駛數據、150K+的圖像、1B個3D點以及密集的2D/3D標簽，使用了兩個180°魚眼側置攝像頭、一個前置立體相機和兩個激光雷達。
? Cityscapes [389]提供來自50個城市的街景視頻，具有5K像素級和20K粗略標注，適用于強監督和弱監督。
? Waymo [391]提供1150個20秒場景（總計6.4小時）的100萬幀圖像，包含1200萬個3D框和990萬個2D框，這些數據是在舊金山、山景城和菲尼克斯收集的，使用了5個激光雷達和5個高分辨率針孔相機。
? nuScenes [392]提供來自波士頓和新加坡1000個20秒場景的140萬張圖像和39萬個激光雷達掃描數據，使用了6個攝像頭、1個激光雷達、5個雷達、GPS和IMU，并進行了23類別的3D框跟蹤。
? HoliCity [393]將6,300幅高分辨率全景圖（13312×6656）與倫敦市中心的CAD模型進行圖像-CAD融合。
? OmniCity [394]提供來自紐約市25,000個地點的100K+像素標注的街道、衛星和全景圖像。
? GoogleEarth [98]提供來自400條Google Earth軌跡的24K紐約圖像，包含2D/3D語義和實例掩碼以及相機參數。
? OSM數據集[98]來自Open street Map，提供全球80+城市的鳥瞰視圖語義地圖、高度場和道路、建筑及土地利用的矢量數據。

??現實世界的標注既昂貴又視角受限。像CARLA [13]和CityTopia [218]這樣的 合成數據集 ，由游戲引擎構建，提供了多樣化的街道和無人機視角，并附有豐富的2D/3D標注。

? CARLA [13]是基于虛幻引擎的開源模擬器，提供多樣的城市環境、傳感器模擬（攝像頭、激光雷達、雷達）以及可定制的駕駛場景，控制天氣、光照、交通和行人行為，支持無限渲染RGB圖像及其相應的2D/3D注釋。
? CarlaSC [397]提供了來自8張地圖的24條序列中的43.2K幀語義場景，這些場景由虛擬LiDAR傳感器在不同交通條件下捕捉。
? Virtual-KITTI-2 [396]使用Unity復制了5條KITTI序列，提供在不同條件下的逼真視頻，包含深度、分割、光流和物體跟蹤的密集注釋。
? CityTopia [218]在虛幻引擎中提供了來自11個程序化城市的37.5K幀逼真圖像，并附有精細的2D/3D注釋，展示多變的光照和空中/街景視角。

在這里插入圖片描述

4.2 評估

4.2.1 基于指標的評價

??Fidelity（保真度），即圖像和視頻生成的指標，特別是對于可渲染輸出如NeRF、3D高斯或圖像序列。Frechet Inception Dis- ′
tance (FID) [400], Kernel Inception Distance （KID）[401]和Inception Score（IS）[402]廣泛用于評估渲染圖像與真實樣本之間的分布相似性。FID和KID計算從預訓練的內皮斯網絡中提取特征分布之間的統計距離，而IS則基于分類置信度測量圖像質量和多樣性。SwAVFID [403]、FDD [404]和FIDCLIP [405]探索替代特征空間，以更好地與人類評價相關。無參考圖像質量指標如自然圖像質量評估器（NIQE）[406]、盲/無參考圖像空間質量評估器（BRISQUE）[407]用于直接從圖像統計中估計感知質量。CLIP-IQA [408]結合CLIP特征與學習的IQA模型，以更好地在文本或語義條件下與人類感知對齊。為了評估三維空間中的照片級真實感，F3D [234]是FID的3D版本，基于預訓練的自動編碼器和3D卷積神經網絡架構。除了感知評分外，一些指標還評估生成樣本與真實樣本之間的分布對齊情況。最小匹配距離（MMD）[409]衡量了不同分布中最接近點之間的平均成對距離，覆蓋率（COV）[409]測量生成樣本覆蓋目標分布的程度，而最近鄰準確性（1-NNA）[410]通過使用最近鄰檢索分類樣本來估計模式塌陷或過擬合。

??Spatial Consistency（空間一致性） 指標評估生成場景的三維幾何和多視角對齊。對于深度誤差，可以使用最先進的單目深度估計模型獲得偽真實深度圖，而場景的深度圖則可以通過可靠的結構從運動（SfM）管道如COLMAP [66]獲得。對于相機姿態誤差，COLMAP還用于從渲染序列中估計相機軌跡。這些預測值與真實值之間的距離使用距離函數計算，例如L2距離、RMSE和尺度不變均方根誤差（SI-RMSE）[411]。

??Temporal Coherence（時間連貫性） 是評估生成的3D場景隨時間變化的關鍵指標，尤其適用于動態場景或基于視頻的輸出。流變形誤差（FE）[412]通過計算兩幀之間光流的變形誤差來衡量視頻的時間穩定性。弗雷歇視頻距離（FVD）[413]基于FID的基本原理，引入了一種不同的特征表示方法，不僅捕捉每幀的質量，還捕捉視頻的時間連貫性。專注于生成視頻中的復雜運動模式，弗雷歇視頻運動距離（FVMD）[414]設計了基于關鍵點跟蹤的顯式運動特征，通過弗雷歇距離測量這些特征之間的相似性，以評估生成視頻的運動連貫性。

??Controllability（可控性） 評估了對用戶輸入做出響應的能力。CLIP Score [415]利用預訓練的CLIP模型來衡量生成圖像與條件文本之間的匹配度，反映了生成內容是否忠實地遵循用戶指定的提示。

??Diversity（多樣性） 指的是產生多種輸出的能力。類別分布KL散度（CKL）[177]將合成場景中的對象類別分布與訓練集進行比較，較低的散度表示更好的多樣性。場景分類準確性（SCA）[177]使用訓練好的分類器來區分真實場景和生成場景，衡量合成場景的分布與真實場景的分布匹配程度。

??Plausibility（合理性） 衡量生成場景是否符合物理和語義約束。碰撞率衡量場景中所有生成對象中發生碰撞的對象比例。超出范圍對象區域（OBA）評估場景中累積的超出范圍對象區域。

4.2.2 基于基準(Benchmark)的評價

??為了促進對各種3D場景生成方法的公平、可重復和全面評估，近期研究越來越多地采用標準化基準測試套件，這些套件整合了多種指標、任務配置和質量維度。這一趨勢標志著從僅依賴孤立的定量指標轉向采用更全面、與任務對齊的評估方法，更好地反映現實應用的復雜性。

??Q-Align [416]采用大型多模態模型（LMMs）來預測與人類判斷一致的視覺質量評分。它涵蓋了三個核心維度：圖像質量評估（IQA）、圖像美學評估（IAA）和視頻質量評估（VQA）。在推理過程中，收集平均意見得分并重新加權以獲得LMM預測的評分。

??VideoScore [417]通過在大規模的人工反饋數據集上訓練AI評估模型來替代人工評分，實現視頻質量評估。它提供了五個方面的評估：視覺質量（VQ）、時間一致性（TC）、動態程度（DD）、文本到視頻對齊（TVA）和事實一致性（FC）。

??VBench [418]和VBench++ [419]是全面且多功能的視頻生成基準測試套件。它們涵蓋了視頻生成中的16個維度（例如，主體身份不一致、運動平滑度、時間閃爍和空間關系等）。VBench-2.0 [420]進一步應對了與內在忠實度相關的更復雜挑戰，包括常識推理、基于物理的真實感、人體運動和創意構圖。

??WorldScore [421]統一了對3D、4D和視頻模型的評估，以測試它們根據指令生成世界的能力。它將3D場景生成的評估轉化為一系列由攝像機軌跡引導的下一場景生成任務，同時測量了可控性、質量和動態性的各種細粒度特征。

4.2.3 人類評價

??用戶研究仍然是捕捉3D場景生成的主觀品質的重要組成部分，這些品質很難通過自動指標量化，如視覺吸引力、真實性和感知一致性。參與者通常被要求根據多個方面對生成的場景進行排名或評分，包括照片真實性、美學、輸入一致性（例如文本或布局）、視圖間的3D一致性以及物理或語義上的合理性。理想情況下，參與者應包括領域專家（如3D藝術家、設計師、研究人員）和普通用戶。他們的反饋提供了互補的觀點：專家可能提供更批判性和結構化的見解，而非專家則更好地反映了普通用戶的印象。

??盡管人工評估具有資源密集性和固有的主觀性，但它們提供了重要的定性見解，通過捕捉現實世界中的用戶偏好，補充了其他評估方法。像Prolific4和Amazon Mechanical Turk（AMT）這樣的平臺促進了多樣化的參與者招募，并使用戶研究能夠高效地擴展。

五、應用和任務

5.1 三維場景編輯

??3D場景編輯涉及改變場景的外觀和結構，從單個對象修改到完整環境定制。它廣泛包括紋理編輯，重點是生成風格化或逼真的表面外觀，以及布局編輯，涉及以物理和語義上合理的方式排列對象

??Texturing and stylization 旨在根據用戶需求創建美觀且時尚的外觀。盡管最近的技術在掃描網格[422][423][424]或合成室內數據集[425][426][427]，上取得了令人印象深刻的效果，但這些方法受到重建或大量手動建模導致的幾何不完整性的限制。為了克服這些局限，近期的方法利用3D場景生成技術來合成完整且語義一致的場景，直接支持紋理生成任務。例如Ctrl-Room [190]、ControlRoom3D [261]、RoomTex [428]和DreamSpace [429]等方法采用整體生成技術創建全景房間紋理，隨后進行詳細優化。除了直接生成外，3D場景生成還促進了紋理化方法的評估。InstanceTex [430]在現有數據集和由EchoScene [208]生成的新場景中生成紋理，提高了基準評估的多樣性和魯棒性。

?? 三維場景布局編輯 專注于在場景中排列對象，以生成具有語義意義且物理上合理的配置。幾種方法，如LEGO-Net [431]、CabiNet [432]和DeBaRA [185]，解決了現有場景的重新排列問題。這些方法利用對象級別的屬性，如類別標簽、位置和方向，來產生更加有序和規則的布局。一些方法支持更互動和動態的布局編輯。例如，SceneExpander [433]和SceneDirector [434]通過直觀的用戶交互實現實時編輯，如修改房間形狀或移動對象，并自動更新周圍對象以保持空間連貫性。最近在組合生成NeRF方面的進展進一步推動了布局控制的邊界，使得可以編輯隱式表示。DisCoScene [220]、Neural Assets [435]和Lift3D [436]通過調整控制信號，如空間位置或潛在特征，實現了對象級別的編輯，允許靈活且可控的場景操作。

5.2 人與場景交互

??人機場景交互（HSI）專注于建模人類如何與環境互動并影響環境。逼真的角色動畫和行為建模需要合成虛擬角色與其環境之間可信的互動。近年來，HSI在生成三維環境中真實且物理上合理的動作方面取得了顯著進展[437]、[438]、[439]，同時在創建符合特定動作序列的場景方面也取得了進展[87]、[197]、[198]。

??為了生成基于場景環境的人類運動，一些方法[437][440][441][442]直接從包含掃描室內場景和捕捉到的人類運動的數據集中學習[443][444][445].然而，這些數據集通常在可擴展性方面有限制，并且僅限于靜態場景，無法建模動態的人物與物體之間的互動。其他一些研究[438][439][446][447][448]則利用強化學習的模擬環境來生成物理上合理的運動。然而，由于高昂的設置成本，這些模擬往往依賴于簡化的場景，導致合成訓練與現實應用之間存在差距，而現實世界中的環境更為復雜多變。

??最近的工作GenZI [449]，最初通過將生成的人類在二維圖像中提升到三維，實現了對新場景的零樣本泛化。盡管GenZI仍然依賴預先設計的合成場景進行評估，但它突顯了將場景生成與動作生成相結合以更有效地擴展高光譜影像數據的潛力。整合高質量的三維場景生成對于推進可擴展且逼真的高光譜研究至關重要，特別是通過聯合考慮人類的能力、動作可行性以及場景語義。

5.3 具身 AI

??在具身智能中，智能體與環境互動，以發展高級語義理解和目標導向行為。3D場景生成通過提供視覺和功能豐富的環境來支持這一點，這些環境能夠實現導航、探索和指令跟隨等任務，重點在于認知推理而非精確的物理控制。

??模擬環境通常基于重建的真實世界數據[379]、[450]或手動設計的場景[451]、[452]構建，但兩種方法都有局限性：真實世界的數據庫存在質量和標注問題，而手動創建則勞動密集且難以擴展。在這種背景下，3D場景生成為體感AI研究提供了可擴展、多樣且物理上合理的替代方案。對于室內環境，ProcTHOR [15]使用過程生成技術來制作遵循真實布局和物理約束的場景。Holodeck [175]利用大語言模型自動生成符合用戶提供的提示的3D環境。InfiniteWorld [453]進一步擴展資產，使用不同的紋理以創造更多樣化和時尚的場景。PhyScene [186]將物理和交互約束整合到條件擴散模型中，合成出合理互動的環境。Architect [454]采用迭代圖像修復技術，填充大型家具和小型物品，豐富場景復雜度。除了室內環境之外，程序化方法還實現了城市規模的模擬。MetaUrban [17]、GRUtopia [16]和URBAN-SIM [455]構建了多樣化的大型城市環境，供具身代理使用。EmbodiedCity [456]基于真實城市提供高質量的三維現實環境，支持各種代理、連續決策和系統基準任務，助力具身智能的發展。

5.4 機器人技術

??在機器人領域，3D場景生成使機器人能夠在物理上逼真的環境中學習操作和控制等低級技能。這些場景通常嵌入到模擬器中，在模擬器中，動力學和接觸的精確建模對于訓練機器人感知、規劃和有效行動至關重要。

??模擬環境已成為開發機器人能力的核心工具，涵蓋各種任務，包括復雜的操作和移動。然而，最近的機器人學習方法[457][458][459][460][461][462]需要大量的人力來構建這些環境及其相應的演示，這限制了即使在模擬世界中機器人的學習可擴展性。RoboGen [463]和RoboVerse [464]通過一個 propose-generate-learn 循環自動化任務、場景和監督的生成過程，在此過程中，代理提出技能，生成具有合理物體布局的環境，并以最少的人工輸入進行學習。Eurekaverse [465]進一步通過使用大語言模型逐步生成多樣且越來越具挑戰性的地形，形成適應性的跑酷訓練課程。

??除了明確構建模擬環境外，3D場景生成還作為世界模型，用于預測未來幀，這些幀以視覺方式表示預期的動作，使機器人能夠在虛擬環境中模擬和預測復雜的操作任務。專注于機器人的視頻生成模型[466][467][468][469][470][471][472][473][474][475][476]旨在根據文本或圖像等輸入合成視頻，特別是幫助機器人通過預測未來動作序列來可視化和規劃復雜的操作任務，以物理上合理的方式進行。一些方法[477]，[478]，[479]不直接生成視頻幀，而是利用NeRFs和動態3D高斯分布捕捉現實世界的時空復雜性和語義信息，從而實現更精確的運動估計和規劃。

5.5 自動駕駛

??3D場景生成能夠提供可控、可擴展且多樣的真實環境模擬。這些功能有助于克服現實數據集和環境的局限性。它支持自動駕駛系統的關鍵組件，如預測建模和數據生成。

??幾種3D場景生成方法作為自動駕駛的世界模型，能夠實現未來的場景預測、風險預判以及更安全、更高效行動的規劃。一些[39][118][337][338][339][355][364][366]專注于預測未來的視頻幀，而另一些[480][481][482][483][484]則生成3D占用圖以顯式建模環境。通過高保真生成，DriveArena [351]和DrivingSphere [359]引入了閉環模擬器，用于訓練和評估自動駕駛代理，使代理能夠在閉環環境中持續學習和進化。

??自動駕駛需要大量多樣化的數據集，但像nuScenes [392]、KITTI [388]和Waymo [391]這樣的真實世界數據集成本高昂且很少能捕捉到關鍵的邊緣情況。可控視頻生成方法如[341][343][344][345]和[353]通過合成多樣的駕駛場景來解決這一問題，這些方法可以靈活控制天氣、光照和交通狀況，特別是針對罕見和安全至關重要的事件。

六、挑戰和未來方向

6.1 挑戰

??生成能力。現有的生成模型在同時滿足照片級真實感、三維一致性和可控性方面存在權衡。基于程序和神經網絡的3D方法擅長生成幾何連貫且空間布局可控的場景，但在產生照片級真實的紋理和光照方面往往力不從心。相比之下，基于圖像和視頻的生成模型雖然實現了高度視覺真實感，但在保持三維一致性方面卻難以應對，導致諸如幾何扭曲、物體交互不真實或物理動態不合理等問題。因此，當前模型仍難以合成既視覺上合理又物理上可信的復雜多對象場景。

??三維表示。該發展經歷了從以幾何為中心的格式，如體素網格和點云，這些格式難以捕捉照片級的真實外觀，到NeRFs，后者提高了視覺質量但仍然效率低下且缺乏明確的幾何結構。最近的進展，如3D高斯潑濺，提供了更好的效率，但仍缺乏幾何基礎，限制了它們在重光照或物理交互等任務中的應用。 Mesh- and Bezier-triangle-based 方法[485-487：EdgeRunner（CVPR, 2024），BG-Triangle（CVPR, 2025），TetSphere Splatting（ICLR, 2025）]部分解決了這些局限性，通過引入顯式的表面表示，但它們主要局限于對象級別的生成。緊湊、物理上有意義且視覺上真實的場景級別表示仍然是一個開放的挑戰，阻礙了可控和可泛化的三維場景生成的進步。

??數據與注釋。3D場景生成的進步緊密依賴于數據集的質量。合成數據集提供了精確的注釋，但由于當前游戲引擎的渲染限制，內容多樣性有限且照片級真實度欠佳。相比之下，現實世界的掃描提供了視覺上逼真的圖像，但往往缺乏足夠的注釋。雖然基于圖像和視頻的生成方法減輕了注釋需求，但仍難以捕捉準確的3D幾何結構，常導致空間扭曲。此外，現有數據集很少包含豐富的元數據，如物理可用性、材質屬性或交互提示，這阻礙了其在機器人技術、具身人工智能和物理模擬等領域的廣泛應用。

??評估。三維場景生成中一個持續的挑戰是缺乏統一的評估協議。方法通常依賴于不同的指標，阻礙了一致性的比較。基于基準的工作[420][421]已經部分解決了這一問題，通過引入標準化和人類對齊的評估框架。然而，當前的基準主要依賴于文本或圖像，對布局、動作或軌跡等其他輸入的支持有限。此外，評估仍然主要集中在圖像和視頻保真度上，未能充分評估底層的三維幾何結構和物理合理性。最近的工作如Eval3D [488]引入了一個開始解決三維結構、語義和幾何一致性問題的基準，盡管它仍局限于對象級別的生成，缺乏場景級別的復雜性。

6.2 未來方向

??更好的保真度。高保真3D場景生成需要幾何、紋理、光照和多視角的一致性。雖然當前方法通常在幾何精度和視覺豐富性之間做出權衡，但未來的模型應致力于彌合這一差距，同時考慮結構和外觀。關鍵目標包括改進材質和光照建模、跨視角保持物體身份的一致性，以及捕捉陰影和遮擋等細微線索。實現場景級別的保真度還意味著將局部細節與全局空間和語義連貫性對齊，從而創建更真實且有用的3D環境。

??物理感知生成。盡管視覺技術取得了顯著進步，但當前的方法往往忽視了生成場景的物理合理性。為了確保物體放置和動作符合物理規律，未來的研究應將物理先驗、約束或模擬納入生成過程。新興方法，如基于物理反饋的可微模擬器[489]，為聯合優化結構、語義和物理行為提供了有希望的途徑。這些能力對于具身人工智能和機器人技術尤為重要，因為代理需要依賴物理一致的環境來進行有效的規劃和控制。

??交互式場景生成。近年來，4D場景生成技術的進步使得動態環境的創建成為可能，這些環境中包含可移動物體。然而，這些場景大多不具備互動性，物體不會響應用戶輸入或環境變化。因此，當前的生成模型產生的體驗往往是被動而非主動的。未來的一個關鍵方向是交互式場景生成，在這種場景中，物體能夠有意義地回應物理互動、用戶指令或情境變化。要實現這一點，模型需要超越幾何和運動，融入關于物體功能、因果關系和多智能體動態的推理。

??統一感知生成。一個有前景的前沿領域在于將感知和生成統一在一個共享模型下。諸如分割、重建和場景合成等任務可以從共同的空間和語義先驗中受益。此外，生成任務本質上需要理解輸入模態。統一架構可以利用雙向能力：通過感知基礎增強生成性能，并通過生成建模提高場景理解。這樣的模型可以作為具身代理的一般用途骨干，支持視覺、語言和三維空間表示之間的聯合推理。