他們的方法在稀疏體素網格的層次結構上訓練潛在擴散模型的層次結構。他們在稀疏結構 VAE 的潛在空間上進行擴散,它為層次結構的每個級別學習緊湊的潛在表示。
XCube 是稀疏體素層次上的分層潛在擴散模型,即從粗到細的 3D 稀疏體素網格序列,使得每個精細體素都包含在較粗體素內。
通過利用稀疏XCube,可以生成有效分辨率為1024^3的高分辨率場景,并具有TSDF或語義等屬性。下面是使用 TSDF 對合成數據進行訓練的模型生成的場景。
XCube 可用于語義完成等感知任務中的條件生成。在這里我們看到了單次 LiDAR 掃描完成的累積結果。
XCube 還可以生成高分辨率對象,并使用幾何條件后處理步驟生成紋理。