Singer U, Sheynin S, Polyak A, et al. Text-to-4d dynamic scene generation[J]. arXiv preprint arXiv:2301.11280, 2023.
MAV3D 是 Meta AI 研究者們提出的一種從文本描述生成三維動態場景的方法。從所提供的文本生成的動態視頻輸出可以從任何攝像機位置和角度查看,并且可以合成到任何 3D 環境中。1
本文只對文章做淺顯閱讀,更多參考資料如下:
- 全文翻譯:一行文本,生成3D動態場景:Meta這個「一步到位」模型有點厲害、AIGC發展太快!Meta發布首個基于文本的4D視頻合成器:3D游戲建模師也要下崗了?;
- 文章總結:一行文本生成4D動態場景——Meta AI MAV3D論文解讀、【論文精讀】Text-To-4D Dynamic Scene Generation;
- 視頻講解:[論文閱讀]Text-To-4D Dynamic Scene Generation(MAV3D);
- 疑難問答:Text-To-4D Dynamic Scene Generation | Hacker News
目錄
- 一. 研究思路
- 1. 場景表示
- 2. 場景優化
- 3. 分辨率擴展
- 4. MAV3D pipeline
- 二. 場景表示
- 三. 場景優化
- 四. 分辨率擴展
- 五. 實驗結果
- 六. 總結
一. 研究思路
- 近年來,提供 prompt 合成圖像的生成模型發展迅速,主要分為兩類:在時間上擴展以合成視頻的生成模型(如《Text-to-video generation without text-video data》)和在空間上擴展以生成 3D 形狀的生成模型(如《Dream-Fusion: Text-to-3d using 2d diffusion》)。但這兩類生成模型的研究一直是分離的。
- 文章將兩者結合,提出了一種 text-to-4D (3D+time) 的生成方法:輸入自然語言描述,輸出動態的 3D 場景表示,命名為 MAV3D (Make-A-Video3D)。
MAV3D 不同于 text-to-video (T2V) 和 text-to-3d 等方法,由于缺少可用的 4D 數據作為訓練支撐,因此只能在預訓練的模型上再做改進。MAV3D 將動態 NeRF 和預訓練的 T2V(也叫 MAV,同樣出自 Meta AI)結合,對物體周圍的隨機視角進行采樣來實現多同步視角。
由于缺乏訓練數據,Meta AI 的研究人員想到去找一個預訓練好的 2D 視頻生成器,再從生成的 2D 視頻中提煉出一個四維重建。但從 2D 視頻中重建可變形物體的形狀仍然非常具有挑戰性,即 非剛性運動結構 (Non-Rigid Structure from Motion, NRSfM)。
不過,如果能夠給定物體的 多同步視角 (multiple simultaneous viewpoints),難題就會迎刃而解。雖然多機位設置在真實數據中很少見,但研究者們認為現有的 2D 視頻生成器能夠隱式地表示任意視角下的場景。也就是說,可以將視頻生成器作為一個「統計學」的多機位設置來重建可變形物體的幾何和光度。
不過直接使用視頻生成器來優化動態 NeRF 無法取得令人滿意的結果,實現過程中還有以下幾個難題需要攻克:
- 需要一個有效的動態三維場景的表示方法;
- 需要一個監督源,因為沒有大規模的文本 - 4D 對可供學習;
- 需要在空間和時間維度上擴展輸出的分辨率,因為 4D 輸出需要大量的內存和算力;
1. 場景表示
MAV3D 的動態三維場景表示基于 NeRFs,結合了高效的靜態 NeRF 和動態NeRF,將 4D 場景表示為 6 個 多分辨率特征平面 (multiresolution feature plane)。
2. 場景優化
為了在缺少文本 - 4D 對數據學習的情況下監督上面提出的場景表示,采用了一種由靜態到動態的多階段訓練策略:先利用 文本到圖像 (text-to-image, T2I) 模型,將靜態的三維場景與 prompt 文本匹配;然后再用動態的方式增強三維場景模型。
模型中還引入了時間感知 (temporal-aware) 的 SDS (Score Distillation Sampling 2) 損失和運動正則項,這對現實運動和具有挑戰性的運動至關重要。
3. 分辨率擴展
文中通過一段時間感知的超分模型微調來擴展輸出的分辨率,具體做法是:使用 T2V 模型的超分模塊中的 SDS 來獲得高分辨率梯度信息,從而進行有監督的三維場景學習。這能夠增加其視覺保真度,并且在推理過程中對更高分辨率的輸出進行采樣。
4. MAV3D pipeline
如圖所示,4D 場景由 6 個特征平面組成,綠色的 3 個是空間平面,橙色的 3 個是空間時間平面。場景優化時:
- 第一階段只需要優化靜態場景:利用 T2I 模型的 SDS Loss 優化空間平面,將靜態的三維場景與 prompt 文本匹配。靜態場景用不到空間時間平面,將其置 0 即可;
- 第二階段需要優化動態場景:利用 T2V 模型(即 MAV)的 SDS-T Loss 優化空間時間平面,渲染完整的視頻;
- 第三階段需要超分微調:使用超分網絡 MAV SR 渲染高分辨率的視頻,并傳入超分組件;
二. 場景表示
記 4D 場景表示為 f θ ( x , y , z , t ) f_{\theta}(x,y,z,t) fθ?(x,y,z,t),其中 θ \theta θ 為場景參數,需要學習優化。給定相機機位的集合為 { C t } t = 1 T \{C_t\}_{t=1}^{T} {Ct?}t=1T?,使用 f θ f_{\theta} fθ? 渲染的圖像為 I t = R ( f θ , t , C t ) I_t=\mathcal{R}(f_{\theta},t,C_t) It?=R(fθ?,t,Ct?),將其堆疊合成視頻 V V V。將 prompt 文本 p p p 和合成視頻 V V V 傳入 T2V 模型,以計算其匹配程度。然后使用 SDS 計算場景參數 θ \theta θ 的梯度,從而進行更新。
三. 場景優化
四. 分辨率擴展
五. 實驗結果
六. 總結
MAV3D 最不可思議的地方在于,目前可用的文本 - 4D 對非常有限。Meta AI 的研究者們依靠現有的 T2V 模型作為 NeRF 的場景先驗,通過優化以創建 3D 場景表示。在優化過程中,NeRF 模型從連續的時空坐標創建場景的一系列視圖,然后使用擴展模型對圖像的真實感和與 prompt 文本的對齊程度進行評分,以獲得更加真實的場景表示。
效果超棒!Facebook AI 提出一種從文本描述生成三維動態場景的方法! ??
Poole, B., Jain, A., Barron, J. T., and Mildenhall, B. Dream-Fusion: Text-to-3d using 2d diffusion. arXiv, 2022. ??