Video generation models as world simulators-視頻生成模型作為世界模擬器

原文地址:Video generation models as world simulators

我們探索在視頻數據上進行大規模生成模型的訓練。具體來說,我們聯合訓練文本條件擴散模型,同時處理不同持續時間、分辨率和長寬比的視頻和圖像。我們利用一個在視頻和圖像潛在編碼的時空塊上運行的轉換器結構。我們最大的模型Sora能夠生成一分鐘高保真度視頻。我們的結果表明,擴展視頻生成模型是建立物理世界通用目的模擬器的一個有前途的途徑。

這份技術報告著重介紹了兩個方面:(1) 我們將各種類型的視覺數據轉化為統一表示形式的方法,從而實現生成模型的大規模訓練;和 (2) 對Sora的能力和局限性進行定性評估。報告中不包括模型和實施細節。

許多先前的研究都使用各種方法對視頻數據進行生成建模,包括循環網絡、生成對抗網絡、自回歸變換器和擴散模型。這些工作通常聚焦于狹窄類別的視覺數據、較短的視頻或固定大小的視頻。Sora是一種視覺數據的通用模型,它能夠生成跨越不同持續時間、長寬比和分辨率的視頻和圖像,達到高清晰度視頻長達一分鐘。

將視覺數據轉化為塊

我們受到大型語言模型的啟發,這些模型通過在互聯網規模的數據上進行訓練獲得了通用能力。語言模型的成功在一定程度上歸功于優雅地統一了文本、代碼、數學和各種自然語言等多種形式的令牌。在這項工作中,我們考慮如何將視覺數據的生成模型繼承這些好處。而語言模型使用文本令牌,Sora使用視覺塊。之前已經證明,塊對于視覺數據的模型是一種有效的表示形式。我們發現,塊是一種高度可擴展且有效的表示形式,適用于訓練各種類型的視頻和圖像的生成模型。

?

在高層次上,我們首先將視頻壓縮成較低維的潛在空間,然后將表示分解為時空塊。

視頻壓縮網絡?

我們訓練了一個網絡來降低視覺數據的維度。該網絡接收原始視頻作為輸入,并輸出一個在時間和空間上都進行了壓縮的潛在表示。Sora在這個壓縮的潛在空間上進行訓練,并生成視頻。我們還訓練了一個相應的解碼器模型,將生成的潛在表示映射回像素空間。

時空潛在塊?

給定一個壓縮的輸入視頻,我們提取一系列時空塊作為變換器的令牌。這個方案也適用于圖像,因為圖像只是具有單幀的視頻。我們基于塊的表示形式使得Sora能夠在分辨率、持續時間和長寬比可變的視頻和圖像上進行訓練。在推理時,我們可以通過將隨機初始化的塊按適當大小的網格排列來控制生成的視頻的大小。

擴展變換器用于視頻生成?

Sora是一個擴散模型;在給定噪聲塊輸入(以及像文本提示這樣的條件信息)的情況下,它被訓練來預測原始的“清晰”塊。重要的是,Sora是一個擴散變換器。變換器在各種領域展示了顯著的擴展性能,包括語言建模、計算機視覺和圖像生成。

?

在這項工作中,我們發現擴散變換器同樣可以有效地擴展為視頻模型。下面,我們展示了在訓練進行中使用固定種子和輸入的視頻樣本比較。隨著訓練計算力的增加,樣本質量顯著提高。

可變的持續時間、分辨率和長寬比?

先前的圖像和視頻生成方法通常將視頻調整大小、裁剪或修剪為標準尺寸,例如256x256分辨率的4秒視頻。我們發現,相反,以原始大小訓練數據具有幾個優勢。

采樣靈活性?

Sora可以對寬屏1920x1080p視頻、豎屏1080x1920視頻以及介于兩者之間的視頻進行采樣。這使Sora能夠直接以各種設備的原生長寬比創建內容。它還使我們能夠在較低尺寸快速原型化內容,然后再使用相同的模型生成全分辨率內容。

改善構圖和組成 ??

我們在實踐中發現,以視頻的原生長寬比進行訓練可以改善構圖和組成。我們將Sora與將所有訓練視頻裁剪為正方形的模型版本進行了比較,這是訓練生成模型時常見的做法。在正方形裁剪訓練的模型(左側)有時會生成主體僅部分在視野中的視頻。相比之下,Sora生成的視頻(右側)具有改進的構圖。

語言理解?

訓練文本到視頻生成系統需要大量帶有相應文本標題的視頻。我們將引入 DALL·E 3 中的重新標注技術應用到視頻中。我們首先訓練一個高度描述性的標題模型,然后使用它為我們訓練集中的所有視頻生成文本標題。我們發現,使用高度描述性的視頻標題進行訓練不僅提高了文本的準確性,還改善了視頻的整體質量。

類似于DALL·E 3,我們還利用GPT將用戶的簡短提示轉化為更加詳細的長篇說明,并將其發送給視頻模型。這使得Sora能夠生成高質量的視頻,準確地遵循用戶的提示。

通過圖像和視頻發出提示?

以上所有結果以及我們的主頁展示的都是文本到視頻的樣本。但是Sora也可以通過其他輸入進行提示,例如預先存在的圖像或視頻。這種能力使得Sora能夠執行各種圖像和視頻編輯任務,比如創建完美循環的視頻、為靜態圖像添加動畫效果、向后或向前延伸視頻等。

為DALL·E圖像添加動畫效果?

Sora能夠根據提供的圖像和提示生成視頻。以下是基于DALL·E 2和DALL·E 3圖像生成的示例視頻。

延長生成的視頻?

Sora還可以延長視頻的時間,可以向前或向后延長。以下是四個視頻,它們都是從一個生成的視頻片段開始向時間倒退延伸。因此,這四個視頻的開頭各不相同,但最終都導向同樣的結尾。

我們可以使用這種方法向前和向后延伸視頻,以生成一個無縫的無限循環。

視頻到視頻的編輯?

擴散模型為從文本提示編輯圖像和視頻提供了眾多方法。下面我們將其中一種方法,SDEdit,應用到Sora上。這種技術使得Sora能夠零-shot轉換輸入視頻的風格和環境。

連接視頻?

?我們還可以使用Sora逐漸插值兩個輸入視頻之間,創建在完全不同主題和場景組合之間無縫過渡的視頻。在下面的示例中,中間的視頻是左側和右側對應視頻之間插值產生的結果。

圖像生成能力?

Sora還具備生成圖像的能力。我們通過在時間軸上以一幀的時間跨度將高斯噪聲塊排列在空間網格中來實現這一點。該模型可以生成不同大小的圖像,分辨率高達2048x2048。

新興的仿真能力?

我們發現,當視頻模型在大規模訓練時,它們表現出一些有趣的新興能力。這些能力使得Sora能夠從物理世界中模擬出人、動物和環境的某些方面。這些特性的出現并沒有任何針對3D、物體等顯式歸納偏好,它們純粹是規模現象所產生的。

3D一致性??Sora可以生成具有動態攝像機運動的視頻。隨著攝像機的移動和旋轉,人物和場景元素在三維空間中以一致的方式移動。

長程連貫性和物體持久性??對視頻生成系統的一個重要挑戰是在采樣長視頻時保持時間一致性。我們發現,盡管不總是如此,Sora通常能夠有效地模擬短期和長期依賴關系。例如,我們的模型可以在人們、動物和物體被遮擋或離開畫面時仍然保持它們的存在。同樣地,它可以在單個樣本中生成同一角色的多個鏡頭,并在整個視頻中保持他們的外觀。

與世界互動??Sora有時可以模擬一些影響世界狀態的簡單動作。例如,一位畫家可以在畫布上留下新的筆觸,并隨著時間推移而保留下來,或者一個人可以吃掉一個漢堡并留下咬痕。

模擬數字世界??Sora還能夠模擬人工過程,一個例子是視頻游戲。Sora可以同時使用基本策略控制《Minecraft》中的玩家,并以高保真度呈現世界及其動態。通過提供包含“Minecraft”關鍵詞的描述性標題,這些能力可以從零開始引出。

這些能力表明,繼續擴展視頻模型是發展高能力物理世界和數字世界模擬器的有前途的道路,并模擬其中生活的物體、動物和人類。

討論?

目前,Sora作為一個模擬器還存在許多限制。例如,它無法準確地模擬許多基本交互的物理性質,比如玻璃破碎。其他交互,比如吃東西,也不總是產生正確的物體狀態變化。我們在我們的首頁上列舉了模型出現的其他常見故障模式,比如長時間樣本中出現的不連貫性或物體的突然出現。

我們相信,Sora如今所展現的能力表明,繼續擴展視頻模型是發展具有能力的物理世界和數字世界模擬器,并模擬其中生活的物體、動物和人類的有前途的道路。?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/697531.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/697531.shtml
英文地址,請注明出處:http://en.pswp.cn/news/697531.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

AGI|AI到底如何生成視頻?Sora究竟為何能引爆科技圈?

目錄 一、AI生成視頻引發新浪潮 二、生成方法及難點 三、Sora的突破進展 (一)可生成不同尺寸視頻 (二)可生成1分鐘時長視頻 (三)圖片生成視頻 (四)場景一致性 (五…

Window部署Exceptionless

Exceptionless Elasticsearch 版本: Exceptionless:8.1.0 Elasticsearch:7.17.5 JDK:11.0.10 目錄 一、Elasticsearch運行 二、 Exceptionless 一、Elasticsearch運行 bin目錄下elasticsearch.bat 直接運行 訪問 http://lo…

使用gstreamer和opencv實時識別LED數碼管數字的測試demo(QT)

效果演示: 效果1:靜態識別 效果2:動態實時識別 可以看到,雖然不太穩定,但是好歹還是識別出來了的,就是需要調參,然鵝我不是專業的,目前還沒有調好。。。 T_T 先這樣吧。以后再說。 覺得文章質量可以的,請點個贊哦,謝謝。 前言 最近需要完成使用op…

yum方式快速安裝mysql

問題描述 使用yum的方式簡單安裝了一下mysql,對過程進行簡單記錄。 步驟 ①安裝wget和vim sudo yum -y install wget vim②下載mysql的rpm包 sudo wget https://dev.mysql.com/get/mysql80-community-release-el7-3.noarch.rpm③升級和更新rpm包 sudo rpm -Uv…

ElementUI組件的安裝和使用

Element UI 是一款基于 Vue 2.0 的桌面端組件庫,主要用于快速構建網站的前端部分。它提供了豐富的組件,如按鈕、輸入框、表格、標簽頁等,以及一些布局元素,如布局容器、分割線等。Element UI 的設計風格簡潔,易于上手&…

【前端素材】推薦優質后臺管理系統Airmin平臺模板(附源碼)

一、需求分析 系統定義 后臺管理系統是一種用于管理和監控網站、應用程序或系統的在線工具。它通常是通過網頁界面進行訪問和操作,用于管理網站內容、用戶權限、數據分析等。后臺管理系統是網站或應用程序的控制中心,管理員可以通過后臺系統進行各種管…

第四十二回 假李逵翦徑劫單身 黑旋風沂嶺殺四虎-python讀寫csv和json數據

李逵答應了宋江三件事:不可吃酒,獨自前行,不帶板斧。李逵痛快答應了,挎一口腰刀,提著樸刀,帶了一錠大銀子,三五個小銀子就下山去了。 宋江放心不下,于是請同鄉朱貴也回家一趟&#…

arcgisPro制圖輸出

1、設置地圖底圖 2、導入數據 3、 設置圖形顏色,如下:右鍵“浙江省”數據層,選擇符號系統 4、在右側可看到打開的符號系統欄,進行如下設置: 5、移除“其他所有值”項,如下: 6、設置圖形輪廓,如下…

【MATLAB】CEEMD_ MFE_SVM_LSTM 神經網絡時序預測算法

有意向獲取代碼,請轉文末觀看代碼獲取方式~也可轉原文鏈接獲取~ 1 基本定義 CEEMD_MFE_SVM_LSTM神經網絡時序預測算法是一種結合了多種先進技術的復雜預測方法,旨在提高時序預測的準確性和穩定性。下面是對該算法的詳細介紹: CEEMD&#xff…

ES項目應用

配置: ES存儲了2-3億條,幾百GB ES集群有5 個節點 2主2副 ES返回數據量窗口大小設置 index.max_result_window 深度翻頁 1.from size 方式 2.scroll相當于維護了一份當前索引段的快照信息,這個快照信息是你執行這個scroll查詢時的快照。在這個查詢后的任…

kali虛擬機橋接模式快速設置

第一步:選擇 虛擬機 > 設置 > 虛擬機設置,設置橋接模式 不選擇復制物理網絡連接狀態選項: 如果采用DHCP的方式來分配IP地址,當電腦網絡從有線或無線網絡之間進行移動時,DHCP會重新分配ip地址,即虛擬機…

泰迪智能科技大模型數據智能實驗室

自2022年11月ChatGPT問世以來,大模型開始備受關注,科技巨頭們紛紛推出大模型實驗室解決方案。大模型的價值不知在于互聯網場景,而在于大模型能力垂直化,能夠與具體的業務需求深度融合。 大模型實驗室是在學校現有的實驗室建設基礎…

leetcode hot100 買賣股票的最佳時機1

本題之前采用貪心算法來解決,現在可以采用動態規劃來解決,通過dp數組記錄每次的狀態從而獲取到最大的利潤。 這里dp數組定義為二維數組 dp[price.length][2],其中price.length表示第i天,[2]其中有0/1兩種狀態,[0]表示…

六、回歸與聚類算法 - 欠擬合和過擬合

目錄 1、定義 2、原因及解決方法 2.1 正則化 線性回歸欠擬合與過擬合線性回歸的改進 - 嶺回歸分類算法:邏輯回歸模型保存與加載無監督學習:K-means算法 1、定義 2、原因及解決方法 2.1 正則化

電路設計(26)——速度表的multisim仿真

1.設計要求 設計一款電路,能夠實時顯示當前速度。 用輸入信號模擬行駛的汽車,信號頻率的1hz代表汽車速度的1m/s。最后速度顯示,以km/h為單位。 2.電路設計 當輸入信號頻率為40HZ時,顯示的速度應該為144KM/h,仿真結果為…

HTTP基本概念-HTTP 常見的狀態碼有哪些?

資料來源 : 小林coding 小林官方網站 : 小林coding (xiaolincoding.com) HTTP 常見的狀態碼有哪些? 1xx 類狀態碼屬于提示信息,是協議處理中的一種中間狀態,實際用到的比較少。 2xx 類狀態碼表示服務器成功處理了客戶端的請求,也是我們最愿…

第一個 Angular 項目 - 添加服務

第一個 Angular 項目 - 添加服務 這里主要用到的內容就是 [Angular 基礎] - service 服務 提到的 前置項目在 第一個 Angular 項目 - 動態頁面 這里查看 想要實現的功能是簡化 shopping-list 和 recipe 之間的跨組件交流 回顧一下項目的結構: ? tree src/app/…

[概念區分] 正則表達式與正則化

正則表達式與正則化 機器學習在計算機科學和數據處理領域,關于“正則”的兩個術語:正則表達式和正則化,雖然它們在名稱上非常相似,但實際上它們是完全不同的概念。 正則表達式 也被稱為 regex,是一種強大的工具&…

Linux freezer機制

一、概述 系統進入suspended或進程被加入到cgroup凍結或解凍分組,用戶進程和部分內核線程被凍結后,會剝奪執行cpu資源,解凍或喚醒后恢復正常。 二、進程凍結與解凍原理 2.1 進程凍結 用戶進程和內核線程凍結的基本流程: 內核態…

設計模式-建造者模式(Builder Pattern)

一、建造者模式說明 建造者模式(Builder Pattern)是一種創建型設計模式,它的主要目的是將一個復雜對象的構建過程與其表示分離,使得同樣的構建過程可以創建不同的表示。 在建造者模式中,通常涉及以下幾個角色&#xf…