從古老神話中對世界起源的幻想,到如今科學家們在實驗室里對虛擬世界的構建,人類探索世界生成奧秘的腳步從未停歇。如今,隨著人工智能和計算機圖形學的深度融合,我們已站在一個全新的起點,能夠以前所未有的精度和效率去創造、模擬各類世界。
這一領域的突破不僅能讓我們打造出更為逼真的虛擬游戲世界、沉浸式的影視場景,還在建筑設計、城市規劃、工業模擬等現實應用場景中發揮著巨大作用,幫助人們提前預見方案效果,節省成本與時間。
傳統的視覺生成評估基準,如 VBench,主要聚焦于文本到視頻任務,在評估世界生成能力方面存在明顯局限性。它們往往缺乏對場景空間布局的明確控制,難以對當前最先進的 3D 和 4D 場景生成方法進行有效評估,無法滿足世界生成模型在不同領域全面評估的需求。
想要深入了解世界生成的奧秘?趕快掃描下方二維碼,免費獲取李飛飛等大神的精選論文,探索世界生成的更多可能!
點擊【AI十八式】的主頁,獲取更多優質資源!
【論文1】WorldScore: A Unified Evaluation Benchmark for World Generation
WorldScore metrics
1.研究方法
Overview of the WorldScore benchmark design
該論文提出 WorldScore 這一世界生成的統一評估基準,旨在解決現有基準無法統一評估多種世界生成模型的問題,通過構建多樣化數據集和多維度評估指標,對不同類型模型進行全面評估。并將世界生成任務分解為一系列基于明確相機軌跡布局規范的下一場景生成任務;構建包含 3000 個高質量測試示例的多樣化數據集,涵蓋靜態和動態世界生成場景;設計 WorldScore 評估指標,從可控性、質量和動態性三個關鍵方面的 10 個指標對生成的世界進行評估。
2.論文創新點
Showcasing of the current scene images
-
統一評估基準:首次提出WorldScore基準,可對3D、4D、圖像到視頻(I2V)和文本到視頻(T2V)等多種模型進行統一評估,解決了現有基準評估局限性的問題。
-
多樣化數據集:精心策劃了涵蓋不同視覺領域的高質量、多樣化數據集,包括多種場景類型、視覺風格以及靜態和動態場景,為全面評估模型提供數據支持。
-
綜合評估指標:引入WorldScore指標,綜合考量世界生成模型性能的多個關鍵方面,通過多維度評估指標更全面準確地衡量模型表現。
-
揭示研究方向:通過對19種模型的全面評估,揭示了當前世界生成方法的關鍵見解和挑戰,為未來研究在彌合3D和4D表示差距、增強可控性機制等方面提供指導。
論文鏈接:https://arxiv.org/abs/2504.00983
【論文2】4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models
4Real is a 4D generation framework that can generate near-photorealistic dynamic scenes from text prompts
1.研究方法
Reconstructing Deformable 3DGS
論文提出了一種基于視頻擴散模型的逼真 4D 場景生成方法,核心是利用視頻生成模型和 3D 高斯濺射技術,實現從文本到 4D 場景的轉換,為該領域研究開辟了新方向。采用可變形 3D 高斯濺射(D-3DGS)表示動態場景,通過文本到視頻擴散模型生成參考視頻,再利用參考視頻生成凍結時間視頻,以構建規范 3D 表示并學習每幀變形;最后,基于規范表示重建時間變形,從而生成逼真的 4D 場景。
2.論文創新點
Generate reference and freeze-time videos
-
全新生成框架:提出首個逼真的文本到4D場景生成管道4Real,摒棄對多視圖生成模型的依賴,利用在大規模真實世界視頻上訓練的視頻生成模型,生成更逼真、多樣化的4D場景。
-
轉換生成問題:將生成問題轉化為重建問題,通過生成參考視頻和凍結時間視頻,減少對耗時的分數蒸餾采樣步驟的依賴,提高生成效率。
-
靈活高效生成:為用戶提供選擇和編輯視頻的靈活性,能在更合理的計算預算內生成高質量樣本,相比競爭方法顯著縮短生成時間。
論文鏈接:https://arxiv.org/abs/2406.07472
?點擊【AI十八式】的主頁,獲取更多優質資源!