MAV3D:從文本描述中生成三維動態場景

Singer U, Sheynin S, Polyak A, et al. Text-to-4d dynamic scene generation[J]. arXiv preprint arXiv:2301.11280, 2023.

MAV3D 是 Meta AI 研究者們提出的一種從文本描述生成三維動態場景的方法。從所提供的文本生成的動態視頻輸出可以從任何攝像機位置和角度查看,并且可以合成到任何 3D 環境中。1

在這里插入圖片描述

本文只對文章做淺顯閱讀,更多參考資料如下:

  • 全文翻譯:一行文本,生成3D動態場景:Meta這個「一步到位」模型有點厲害、AIGC發展太快!Meta發布首個基于文本的4D視頻合成器:3D游戲建模師也要下崗了?;
  • 文章總結:一行文本生成4D動態場景——Meta AI MAV3D論文解讀、【論文精讀】Text-To-4D Dynamic Scene Generation;
  • 視頻講解:[論文閱讀]Text-To-4D Dynamic Scene Generation(MAV3D);
  • 疑難問答:Text-To-4D Dynamic Scene Generation | Hacker News

目錄

  • 一. 研究思路
    • 1. 場景表示
    • 2. 場景優化
    • 3. 分辨率擴展
    • 4. MAV3D pipeline
  • 二. 場景表示
  • 三. 場景優化
  • 四. 分辨率擴展
  • 五. 實驗結果
  • 六. 總結

一. 研究思路

  • 近年來,提供 prompt 合成圖像的生成模型發展迅速,主要分為兩類:在時間上擴展以合成視頻的生成模型(如《Text-to-video generation without text-video data》)和在空間上擴展以生成 3D 形狀的生成模型(如《Dream-Fusion: Text-to-3d using 2d diffusion》)。但這兩類生成模型的研究一直是分離的。
  • 文章將兩者結合,提出了一種 text-to-4D (3D+time) 的生成方法:輸入自然語言描述,輸出動態的 3D 場景表示,命名為 MAV3D (Make-A-Video3D)

MAV3D 不同于 text-to-video (T2V) 和 text-to-3d 等方法,由于缺少可用的 4D 數據作為訓練支撐,因此只能在預訓練的模型上再做改進。MAV3D 將動態 NeRF 和預訓練的 T2V(也叫 MAV,同樣出自 Meta AI)結合,對物體周圍的隨機視角進行采樣來實現多同步視角。

由于缺乏訓練數據,Meta AI 的研究人員想到去找一個預訓練好的 2D 視頻生成器,再從生成的 2D 視頻中提煉出一個四維重建。但從 2D 視頻中重建可變形物體的形狀仍然非常具有挑戰性,即 非剛性運動結構 (Non-Rigid Structure from Motion, NRSfM)
不過,如果能夠給定物體的 多同步視角 (multiple simultaneous viewpoints),難題就會迎刃而解。雖然多機位設置在真實數據中很少見,但研究者們認為現有的 2D 視頻生成器能夠隱式地表示任意視角下的場景。也就是說,可以將視頻生成器作為一個「統計學」的多機位設置來重建可變形物體的幾何和光度。

不過直接使用視頻生成器來優化動態 NeRF 無法取得令人滿意的結果,實現過程中還有以下幾個難題需要攻克:

  1. 需要一個有效的動態三維場景的表示方法;
  2. 需要一個監督源,因為沒有大規模的文本 - 4D 對可供學習;
  3. 需要在空間和時間維度上擴展輸出的分辨率,因為 4D 輸出需要大量的內存和算力;

1. 場景表示

MAV3D 的動態三維場景表示基于 NeRFs,結合了高效的靜態 NeRF 和動態NeRF,將 4D 場景表示為 6 個 多分辨率特征平面 (multiresolution feature plane)

2. 場景優化

為了在缺少文本 - 4D 對數據學習的情況下監督上面提出的場景表示,采用了一種由靜態到動態的多階段訓練策略:先利用 文本到圖像 (text-to-image, T2I) 模型,將靜態的三維場景與 prompt 文本匹配;然后再用動態的方式增強三維場景模型。

模型中還引入了時間感知 (temporal-aware) 的 SDS (Score Distillation Sampling 2) 損失和運動正則項,這對現實運動和具有挑戰性的運動至關重要。

3. 分辨率擴展

文中通過一段時間感知的超分模型微調來擴展輸出的分辨率,具體做法是:使用 T2V 模型的超分模塊中的 SDS 來獲得高分辨率梯度信息,從而進行有監督的三維場景學習。這能夠增加其視覺保真度,并且在推理過程中對更高分辨率的輸出進行采樣。

4. MAV3D pipeline

在這里插入圖片描述
如圖所示,4D 場景由 6 個特征平面組成,綠色的 3 個是空間平面,橙色的 3 個是空間時間平面。場景優化時:

  • 第一階段只需要優化靜態場景:利用 T2I 模型的 SDS Loss 優化空間平面,將靜態的三維場景與 prompt 文本匹配。靜態場景用不到空間時間平面,將其置 0 即可;
  • 第二階段需要優化動態場景:利用 T2V 模型(即 MAV)的 SDS-T Loss 優化空間時間平面,渲染完整的視頻;
  • 第三階段需要超分微調:使用超分網絡 MAV SR 渲染高分辨率的視頻,并傳入超分組件;

二. 場景表示

記 4D 場景表示為 f θ ( x , y , z , t ) f_{\theta}(x,y,z,t) fθ?(x,y,z,t),其中 θ \theta θ 為場景參數,需要學習優化。給定相機機位的集合為 { C t } t = 1 T \{C_t\}_{t=1}^{T} {Ct?}t=1T?,使用 f θ f_{\theta} fθ? 渲染的圖像為 I t = R ( f θ , t , C t ) I_t=\mathcal{R}(f_{\theta},t,C_t) It?=R(fθ?,t,Ct?),將其堆疊合成視頻 V V V。將 prompt 文本 p p p 和合成視頻 V V V 傳入 T2V 模型,以計算其匹配程度。然后使用 SDS 計算場景參數 θ \theta θ 的梯度,從而進行更新。

三. 場景優化

四. 分辨率擴展

五. 實驗結果

六. 總結

MAV3D 最不可思議的地方在于,目前可用的文本 - 4D 對非常有限。Meta AI 的研究者們依靠現有的 T2V 模型作為 NeRF 的場景先驗,通過優化以創建 3D 場景表示。在優化過程中,NeRF 模型從連續的時空坐標創建場景的一系列視圖,然后使用擴展模型對圖像的真實感和與 prompt 文本的對齊程度進行評分,以獲得更加真實的場景表示。


  1. 效果超棒!Facebook AI 提出一種從文本描述生成三維動態場景的方法! ??

  2. Poole, B., Jain, A., Barron, J. T., and Mildenhall, B. Dream-Fusion: Text-to-3d using 2d diffusion. arXiv, 2022. ??

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/165030.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/165030.shtml
英文地址,請注明出處:http://en.pswp.cn/news/165030.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Rust語言入門教程(一) - 簡介及Cargo使用

Rust編程入門 為什么學習Rust 我本人是一個DevOps工程師,并不是專職的開發人員,但需要了解各種各樣的語言的基本知識和特性,以便在不同的項目中幫助開發人員設計軟件架構,部署流程以及進行錯誤排查和調試。但是對任何新生的優秀…

springboot 外部化配置

背景:修改jar包中的配置比較麻煩 項目部署的時候放一個配置文件在jar包外 配置文件優先級: 1.jar包內的application.properties/yaml 2.jar包內的application-{profile}.properties/yaml 3.jar包外的application.properties/yaml 4.jar包外的application-{profile}.properties…

【算法】緩存淘汰算法

目錄 1.概述2.代碼實現2.1.FIFO2.2.LRU2.3.LFU2.4.Clock2.5.Random 3.應用 1.概述 緩存淘汰策略是指在緩存容量有限的情況下,當緩存空間不足時決定哪些緩存項應當被移除的策略。緩存淘汰策略的目標是盡可能地保持緩存命中率高,同時合理地利用有限的緩存…

(保姆級教程)Mysql中事務的概念,什么是事務,如何使用事務,以及事務的隔離級別,什么是臟讀、幻讀,代碼演示

繼續講解 Mysql 數據庫中最重要的一個概念:事務 文章目錄 事務1.1 什么是事務1.2 執行原理1.3 如何操作事務1.4 事務的特點(ACID原則)1.5 事務并發1.6 事務隔離級別1.6.1 事務并發問題操作演示1.6.2 臟讀演示1.6.3 不可重復讀演示1.6.4 幻讀演…

二叉樹的順序結構及實現

目錄 1 二叉樹的順序結構2. 堆的概念及結構3 .堆的實現(小堆) 1 二叉樹的順序結構 普通的二叉樹是不適合用數組來存儲的,因為可能會存在大量的空間浪費。而完全二叉樹更適合使用順序結構存儲。現實中我們通常把堆(一種二叉樹)使用順序結構的數組來存儲,…

【Pytorch】Visualization of Feature Maps(3)

學習參考來自: Image Style Transform–關于圖像風格遷移的介紹github:https://github.com/wmn7/ML_Practice/tree/master/2019_06_03 文章目錄 風格遷移 風格遷移 風格遷移出處: 《A Neural Algorithm of Artistic Style》(ar…

瀏覽器沒收到返回,后端也沒報錯,php的json_encode問題bug

今天網站遇到個問題,后端返回異常,但是瀏覽器狀態碼200,但是看不到結果。經過排查發現,我們在返回結果的時候使用了json_encode返回給前端,結果里面的字符編碼異常,導致json_encode異常,但是php…

前綴和——724. 尋找數組的中心下標

文章目錄 🍓1. 題目🫒2. 算法原理🦄解法一:暴力枚舉🦄解法二:前綴和 🥔3. 代碼實現 🍓1. 題目 題目鏈接:724. 尋找數組的中心下標 - 力扣(LeetCode&#xff0…

【限時免費】20天拿下華為OD筆試之【前綴和】2023B-數字游戲【歐弟算法】全網注釋最詳細分類最全的華為OD真題題解

文章目錄 題目描述與示例題目描述輸入描述輸出描述示例一輸入輸出 示例二輸入輸出說明 解題思路前綴和簡單的數學推導哈希集合的使用 代碼PythonJavaC時空復雜度 華為OD算法/大廠面試高頻題算法練習沖刺訓練 題目描述與示例 題目描述 小明玩一個游戲。 系統發1n張牌&#xff…

某60區塊鏈安全之未初始化的存儲指針實戰一學習記錄

區塊鏈安全 文章目錄 區塊鏈安全未初始化的存儲指針實戰一實驗目的實驗環境實驗工具實驗原理實驗過程 未初始化的存儲指針實戰一 實驗目的 學會使用python3的web3模塊 學會分析以太坊智能合約未初始化的存儲指針漏洞 找到合約漏洞進行分析并形成利用 實驗環境 Ubuntu18.04操…

深度學習之八(生成對抗網絡--Generative Adversarial Networks,GANs)

概念 生成對抗網絡(Generative Adversarial Networks, GANs)是一種深度學習模型,由 Ian Goodfellow 等人于2014年提出。GAN 的目標是通過訓練兩個神經網絡(生成器和判別器),使得生成器能夠生成與真實數據相似的樣本,而判別器能夠區分真實樣本和生成樣本。這兩個網絡相…

多元邏輯回歸模型的概念、模型檢驗以及應用

多元邏輯回歸是邏輯回歸的一種擴展,用于處理多類別分類問題。在二元邏輯回歸中,我們通過一個邏輯函數(也稱為S形函數)將輸入特征映射到一個概率值,用于預測兩個類別中一個的概率。而在多元邏輯回歸中,我們面…

沃趣班11月月考題目解析

沃趣班11月月考題目解析 1.在oracle中創建用戶時,若未設置default tablespace關鍵字,則oracle將哪個表空間分配給用戶作為默認表空間 答案:D.user SQL> create user mytest identified by 123456; SQL> grant connect to mytest; SQL…

【開源】基于Vue.js的海南旅游景點推薦系統的設計和實現

項目編號: S 023 ,文末獲取源碼。 \color{red}{項目編號:S023,文末獲取源碼。} 項目編號:S023,文末獲取源碼。 目錄 一、摘要1.1 項目介紹1.2 項目錄屏 二、功能模塊2.1 用戶端2.2 管理員端 三、系統展示四…

CSS特效017:球體漲水的效果

CSS常用示例100專欄目錄 本專欄記錄的是經常使用的CSS示例與技巧,主要包含CSS布局,CSS特效,CSS花邊信息三部分內容。其中CSS布局主要是列出一些常用的CSS布局信息點,CSS特效主要是一些動畫示例,CSS花邊是描述了一些CSS…

前端錯誤處理與調試

** javascript錯誤處理 ** 由于javascript本身是動態語言,而且沒有固定的開發工具,因此他普遍認為是最難以調試的語言,在ECMAScript3新增了try-catch和throw以及一些錯誤類型,讓開發人員能適當的處理錯誤,緊接著web瀏…

多tab頁表單校驗如何做

多tab頁表單校驗如何做 在多tab頁表單中進行校驗,可以按照以下步驟進行: 創建一個表單對象,用于存儲表單數據和校驗規則。 分為多個tab頁,每個tab頁對應一個表單頁面。 定義每個tab頁中的表單字段及其相應的校驗規則。 在切換…

PHP 賦值、算數和比較運算符 學習資料

PHP 賦值、算數和比較運算符 在 PHP 中,賦值、算數和比較運算符用于對變量進行賦值、進行數學運算和比較操作。以下是對這些運算符的介紹和示例: 賦值運算符 賦值運算符用于給變量賦值。常用的賦值運算符有 、、-、*、/ 等。 示例: $a …

芯能轉債上市價格預測

芯能轉債-113679 基本信息 轉債名稱:芯能轉債,評級:AA-,發行規模:8.8億元。 正股名稱:芯能科技,今日收盤價:12.63元,轉股價格:13.1元。 當前轉股價值 轉債面…

基于遺傳優化的多屬性判決5G-Wifi網絡切換算法matlab仿真

目錄 1.算法運行效果圖預覽 2.算法運行軟件版本 3.部分核心程序 4.算法理論概述 5.算法完整程序工程 1.算法運行效果圖預覽 2.算法運行軟件版本 MATLAB2022a 3.部分核心程序 .......................................................................... %接收功率、網…