Sora----打破虛實之間的最后一根枷鎖----這扇門的背后是人類文明的晟陽還是最后的余暉

目錄

一.Sora出道即巔峰

二.為何說Sora是該領域的巨頭

三.Sora無敵的背后究竟有怎樣先進的處理技術

1.Spacetime Latent Patches 潛變量時空碎片,建構視覺語言系統

2.擴散模型與Diffusion Transformer,組合成強大的信息提取器

3.DiT應用于潛變量時空碎片,學習獲得海量視頻中時空碎片的動態關聯

4.Sora 或Lumiere 視頻學習與生成的技術背后蘊含的原理分析

四.OpenAI官方給予Sora的說明

1.優勢及缺陷

2.安全問題的考慮及解決方案

3.研究技術

五.穿梭于虛實之間的sora是否會打破虛擬與現實的平衡


Sora官網https://openai.com/sora

一.Sora出道即巔峰

Sora是OpenAI在2024年2月16日發布的首個文本生成視頻模型。該模型能夠理解復雜場景中不同元素之間的物理屬性及其關系,從而深度模擬真實物理世界,生成具有多個角色、包含特定運動的復雜場景。Sora繼承了Dall·E-3的畫質和遵循指令能力,可以根據用戶的文本提示快速制作長達一分鐘的高保真視頻,還能獲取現有的靜態圖像并從中生成視頻。

?
Sora的發布使內容創作領域的專業難度降低,作為實現通用人工智能(AGI)的重要里程碑,其問世標志著人工智能在理解真實世界場景并與之互動的能力方面實現了重大飛躍。

二.為何說Sora是該領域的巨頭

Sora是OpenAI在2024年2月16日發布的首個文本生成視頻模型,能夠根據用戶的文本提示快速制作長達一分鐘的高保真視頻。該模型具有以下特點:
?
- 超長時長:可以直接輸出長達60秒的1080P高清視頻,而其他競品僅能實現20秒左右。
- 多視角切換:人物場景在三維空間的移動更為自然,并且能夠理解車窗倒影等物理規律,進行交互。
- 多模態輸入處理:可以接受文字、圖片、視頻的輸入提示,能夠根據圖像創建視頻或補充現有視頻,還能沿時間線向前或向后擴展視頻。
?
Sora主要按AI視頻生成領域應用場景分類,可應用于內容創作與廣告、影視制作與后期、教育與培訓、社交媒體與娛樂、新聞與媒體、虛擬角色與動畫等領域。

與其他視頻生成模型相比,Sora具有以下優勢:
?
- 生成視頻的時間更長:Sora生成的視頻時間最多可達1分鐘,而其他文生視頻大模型僅能生成3至4秒的視頻。
- 視頻質量更高:Sora生成的視頻在時間維度上更加清晰穩定,景物也更符合描述。
- 對用戶輸入語言的理解更精準Sora能夠準確理解用戶輸入的語言,并表達出復雜的情感樣態。
- 對物理世界模擬的能力更強Sora能夠模擬真實物理世界的運動,如物體的移動和相互作用,這被普遍認為是實現通用人工智能(AGI)的重要一步。

三.Sora無敵的背后究竟有怎樣先進的處理技術

Sora的工作原理是通過大量的學習視頻來理解現實世界的動態變化,并用計算機視覺技術來模擬這些變化,從而創作出全新的視覺內容。它已經不僅局限于學習圖片和視頻,同時它也在學習視頻里那個世界的“物理規律”

1.Spacetime Latent Patches 潛變量時空碎片,建構視覺語言系統

與ChatGPT首先引入Token Embedding思路一致,針對視覺數據的建模方法作為構建Sora最重要的第一步。碎片Patch已經被證明是一個有效的視覺數據表征模型,且高度可擴展表征不同類型的視頻和圖像。將視頻壓縮到一個低維的潛變量空間,然后將其拆解為時空碎片Spacetime Latent Patches。

有了時空碎片這一統一的語言,Sora自然解鎖了多種技能:

1. 自然語言理解

采用DALLE3 生成視頻文本描述,用GPT豐富文本prompts,作為合成數據訓練Sora,架起了GPT與Sora語言空間的更精確關聯,等于在Token與Patch之間統一了“文字”;

2. 圖像視頻作為prompts

用戶提供的圖像或視頻可以自然地編碼為時空碎片Patch,用于各種圖像和視頻編輯任務——靜態圖動畫、擴展生成視頻、視頻連接或編輯等。

2.擴散模型與Diffusion Transformer,組合成強大的信息提取器

OpenAI講Sora是一個Diffusion Transformer,這來自伯克利學者的工作Diffusion Transformer?(摘取大佬原文https://blog.csdn.net/qq_44681809/article/details/135531494):“采用Transformer的可擴展擴散模型 Scalable diffusion models with transformers”[2],整體架構如下:

Diffusion Transformer (DiT)架構。

左:我們訓練調節的潛DiT模型。輸入潛變量被分解成幾個patch并由幾個DiT塊處理。

右:DiT塊的細節。我們對標準Transformer的變體進行了實驗,這些變體通過自適應層歸一化、交叉注意力和額外的輸入token做調節。自適應層歸一化效果最好。

擴散模型的工作原理是通過連續添加高斯噪聲來破壞訓練數據,然后通過逆轉這個加噪過程來學習恢復數據。訓練后可以使用擴散模型來生成數據,只需通過學習到的去噪過程來傳遞隨機采樣的噪聲。擴散模型是一種潛變量模型,逐漸向數據添加噪聲,以獲得近似的后驗

圖像漸進地轉化為純高斯噪聲。訓練擴散模型的目標是學習逆過程,即訓練pθ(xt-1|xt)。通過沿著這個過程鏈向后遍歷,可以生成新的數據。

從信息熵的角度可以這樣理解:結構化信息信息熵低,多輪加高斯噪音,提高其信息熵,逐步掩蓋原來的結構信息。本就無序的非結構化部分,信息熵很高,添加少量高斯噪音,甚至不用添加高斯噪音,已然很無序。

在此視角下,學習到的內容其實是原來結構化信息(如圖像)的“底片”。類似化學上的酸堿中和,本來很酸的地方,得放更多的堿,現在我們學到了放堿的分布和節奏,反過來,剔除堿的分布,酸的分布就被還原了。

基礎的擴散模型,過程中不降維、無壓縮,還原度比較高。學習過程中的概率分布作為潛變量參數化,訓練獲取其近似分布,用KL散度計算概率分布之間的距離[3]。Diffusion Transformer (DiT) 因為引入Transformer做多層多頭注意力和歸一化,因而引入了降維和壓縮,diffusion方式下的底片信息提取過程,原理與LLM的重整化無異。

3.DiT應用于潛變量時空碎片,學習獲得海量視頻中時空碎片的動態關聯

與“LLM在其高維語言空間中通過Transformer提取人類語言中無數的結構與關聯信息”類似,Sora是個基于擴散模型的Transformer,被用于從高維的時空碎片長成的空間中,觀察并提取豐富的時空碎片之間的關聯與演化的動態過程。如果把前者對應人類讀書,后者就是人類的視覺觀察。

參照Google Lumiere的技術原理來大膽推演一下。視頻其實是記錄了時空信息的載體:時空碎片patch可以看作是三維空間的點集(x,y,z)的運動(t),或者說其實是個四維時空模型(x,y,z,t)。Sora和Lumiere之類的生成模型的第一步都是如何從中提取出相應的關鍵信息。

Lumiere(Google推出的AI視頻大模型) STUNet架構。將預訓練的T2I U-Net架構(Ho et al., 2022a)“膨脹”到一個時空UNet (STUNet),在空間和時間上對視頻進行上下采樣。

(a)STUNet激活圖的示例;顏色表示不同時序模塊產生的特征:

(b)基于卷積的塊,由預訓練的T2I層和因子化時空卷積組成

(c)在最粗的U-Net級別上基于注意力的塊,其中預訓練的T2I層和時間注意力。由于視頻表征在最粗的級別上被壓縮,我們使用有限的計算開銷堆疊幾個時間注意力層。

谷歌Lumiere: A Space-Time Diffusion Model for Video Generation[4]也選擇了擴散模型,堆疊了歸一化與注意力層,類似Sora的DiT,但細節如時長、分辨率、長寬比等的處理方式不同。細節決定成敗,OpenAI稱Sora摒棄了“其他文生視頻調整視頻大小、裁剪或修剪到標準大小的通常做法”,以可變時長、原始分辨率與長寬比訓練視頻生成獲得重要優勢,如采樣靈活性,改進的創作與成幀

4.Sora 或Lumiere 視頻學習與生成的技術背后蘊含的原理分析

1.?狀態空間對事物的表征和刻畫:狀態空間的高維度,某時刻的信息,即某時刻的事物的能量的概率分布,是眾多維度的聯合概率分布,各維度都可能具有連續性和非線性,如何用線性系統近似,并最大努力消除非線性的影響非常關鍵;不同層次的潛變量空間,對信息的提取,和粗顆粒度逐層抽象,都需要類似重整化群RG中的反復歸一化,以消除“近似非線性處理”對整體概率為 1 的偏離。關于重整化群信息提取的原理,請參考筆者梳理的“大模型認知框架”,此處不再贅述。這里Sora采用的Diffusion Transformer (DiT) 架構與谷歌Lumiere 采用的Space-Time UNet (STUNet) 都具備注意力與歸一化,神經網路架構差異看起來主要來自是否采用“調整視頻大小、裁剪或修剪到標準大小的通常做法”。

2.?狀態空間的動態性:即從時間的維度,研究整個狀態空間的變遷。這個變遷是狀態空間的大量非時間維度的信息逐層提取,疊加時間這一特殊維度的(狀態-時間)序列sequence。不管是高維度低層次的細顆粒度的概率分布的時間變化,還是低維度高層次的粗顆粒度概率分布的時間變化,都是非線性時變系統,用線性時不變(LTI)的模型都是無法很好刻畫的。

Sora的具體做法技術綜述中沒有透露。Lumiere的處理中可以窺見端倪。這里可以有多種建模的方式,最自然的方式就是 ((x,y,z), t )的方式,將事物整體的演化看成時間序列,但此種方式往往存在數字視頻采樣頻率不足導致的運動模糊與運動混淆問題。比如高速運轉的輪子有時候看起來像在倒轉。

Nyquist-Shannon采樣定理

告訴我們,對于模擬信號,如果希望同時看到信號的各種特性,采樣頻率應該大于原始模擬信號的最大頻率的兩倍,否則將發生混疊即相位或頻率模糊。因而Lumiere采用了自監督時間超分辨率 (TSR) 與空間超分辨率 (SSR) 技術[5],將事物的運動建模成多維度兩兩組合的模型:(x,y), … ,(x,t),(y,t),(z,t)。

小的時空碎片會在視頻序列的各個維度上重復出現,特別是空間和時間維度之間進行交換時,因而可以對其在時間域與空間域的表征做關聯分析,慢逆時針有可能是快順時針的假象,也可能就是慢逆時針。即使時域無法分辨,空域可以調整頻率,看到更模糊或者沒有特別變化的表征。當物體快速移動時,x-t和y-t切片中的Patch看起來是高分辨率x-y切片 (傳統幀) 的低分辨率版本。在t方向上增加這些x-t和y-t切片的分辨率與增加視頻的時間分辨率是一樣的。因此,空間x-y視頻幀提供了如何在同一視頻中增加x-t和y-t切片的時間分辨率的示例。

即將t看成第四維度,可以用x-y高分辨率訓練修正x-t, y-t。同理,當物體移動非常緩慢時,x-t和y-t切片中的Patch呈現為x-y幀中Patch的拉伸版本,表明這些時間切片可以為如何提高視頻幀的空間分辨率提供示例。即時間切片,反過來提升空間分辨率。如果SSM學到了物理規律(如運動方程),直接輸出高頻幀理論上也應當可行。

“跨維”遞歸的一維圖示。1D對象向右移動。當適當的采樣時間 (T=1),時間切片類似于空間切片 (1D“幀”)。然而,當時間采樣率過低 (T=2) 時,時間切片是空間切片的欠采樣(混疊 aliasing)版本。因此,空間幀提供了消除時間混疊的示例。

3.?狀態空間時間序列的非馬爾可夫性:思考attention 的價值,時序數據上的attention注意到了什么?諸如趨勢、周期性、 一次性事件等。非時間維度子空間內的attention,注意到的是范疇內與范疇間的關系, 即某個時刻的狀態空間。狀態空間的時序,研究的是狀態空間的動力學,外在驅動“力”或因素導致的狀態的“流動”,即狀態空間t時刻與 t-n時刻之間的關系,注意到的是其時間依賴規律,往往不具備馬爾可夫性。(馬爾可夫性描述了一個系統在其當前狀態下,其未來的狀態只與其當前狀態相關,而與之前的任何狀態無關。)非馬爾可夫性其實是世界的常態,事實上時延系統基本都是非馬爾可夫的。時間維度的注意力與狀態空間選擇性非常關鍵。OpenAI對Sora視頻生成模型的技術綜述文章取了“視頻生成模型作為世界模擬器video generation models as world simulators”的題目,可見其宏大的愿景。既然模擬世界,就繞不開萬事萬物的長程時間關聯或者因果關系

四.OpenAI官方給予Sora的說明

1.優勢及缺陷

Sora能夠生成具有多個字符、特定運動類型以及主題和背景的準確細節的復雜場景。該模型不僅能理解用戶在提示符中的要求,還能理解這些東西在物理世界中是如何存在的。
該模型對語言有深刻的理解,使其能夠準確地解釋提示,并生成引人注目的字符,表達充滿活力的情感。Sora還可以在一個生成的視頻中創建多個鏡頭,這些鏡頭能夠準確地持久化字符和視覺樣式。
目前的模式存在弱點。它可能難以準確地模擬復雜場景的物理,也可能不理解因果的具體實例。例如,一個人可能會咬一口餅干,但之后,餅干可能沒有咬痕。該模型還可能混淆提示的空間細節,例如,左右混淆,并且可能難以精確描述隨時間發生的事件,比如遵循特定的攝像機軌跡。

2.安全問題的考慮及解決方案


在OpenAI的產品中提供Sora之前,我們將采取幾個重要的安全措施。我們正在與red teamers合作--錯誤信息、仇恨內容和偏見等領域的領域專家--他們將對模型進行對抗性測試。

我們還在構建一些工具來幫助檢測誤導性內容,例如一個檢測分類器,它可以判斷Sora何時生成視頻。我們計劃包括C2PA元數據未來如果我們將該模型部署在OpenAI產品中。

除了開發新技術為部署做準備之外,我們還利用現有安全方法我們為我們的產品打造的使用DALL·E 3的產品,該產品同樣適用于Sora。

例如,一旦進入OpenAI產品,我們的文本分類器將檢查并拒絕違反我們使用政策的文本輸入提示,比如那些請求極端暴力、性內容、仇恨圖像、名人肖像或他人IP的提示。我們還開發了健壯的圖像分類器,用于檢查生成的每個視頻的幀,以幫助確保它在顯示給用戶之前符合我們的使用策略。

我們將與世界各地的決策者、教育工作者和藝術家接觸,以了解他們的關切,并確定這項新技術的積極用例。盡管進行了廣泛的研究和測試,但我們無法預測人們使用我們技術的所有有益方式,也無法預測人們濫用技術的所有方式。這就是為什么我們相信,隨著時間的推移,從真實世界的使用中學習是創建和發布越來越安全的人工智能系統的關鍵組成部分。

3.研究技術


Sora是一種擴散模型,它通過從一個看起來類似靜態噪聲的視頻開始生成視頻,然后通過多次去除噪聲逐漸將其轉換。

Sora能夠同時生成整個視頻,或者能夠擴展已生成的視頻使其更長。通過一次提供許多幀的模型前瞻,我們解決了一個具有挑戰性的問題,即確保一個主題即使暫時消失也保持不變。

與GPT模型類似,Sora使用transformer架構,解鎖了卓越的擴展性能。

我們將視頻和圖像表示為更小的數據單元,稱為補丁,每個補丁都類似于GPT中的令牌。通過統一我們表示數據的方式,我們可以在比以前更廣泛的可視化數據上訓練擴散轉換器,跨越不同的持續時間、分辨率和縱橫比。

Sora建立在過去對DALL·E和GPT模型的研究之上。它使用了DALL·E 3中的重新捕獲技術,該技術包括為可視化訓練數據生成高度描述性的標題。因此,該模型能夠更忠實地跟隨用戶在生成的視頻中的文字說明。

除了能夠僅僅從文字說明生成視頻之外,該模型還能夠獲取現有的靜止圖像并從中生成視頻,準確地動畫圖像的內容,并注意到小細節。該模型還可以獲取現有視頻并對其進行擴展或填充缺失的幀。技術報道.

五.穿梭于虛實之間的sora是否會打破虛擬與現實的平衡

對于這個問題我并沒有答案,只是有一些擔憂,在現實世界中由于AI繪圖的發展,將靜態圖片作為某個事件證據的證明性大大降低,如果AI生成視頻再超速發展,那未來我們還能看到多少真實的過去?又有多少是來源于虛擬,到底那些才是深埋于地底的現實,我們無從知曉.

視頻好似已成為了鏈接虛擬與現實的最后一條鎖鏈,當我們斬斷它后,那些記錄著現實的虛擬和那些自詡封存于虛擬的現實到底哪些才是我們真正經歷過的,哪些是AI所代替的

我希望人類的未來不會取決于AI的未來

我看不清AI的未來,也捉摸不透人類的未來

PS:本文對于Sora的技術原理剖析摘自其他大佬,有興趣者可以從瀏覽器搜索

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/697738.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/697738.shtml
英文地址,請注明出處:http://en.pswp.cn/news/697738.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

關于在分布式環境中RVN和使用場景的介紹4

簡介 在前面的文檔中,我們介紹了RVN的概念,通過RVN可以解決的某類問題和使用技巧,以及處理RVN的邏輯的具體實現。在本文中,我們將要介紹關于如何使用RVN解決另一種在分布式系統中常出現的問題。 問題 假設我們創建了一個servic…

C語言—自定義(構造)類型

2.20,17.56 1.只有當我們使用結構體類型定義變量/結構體數組,系統才會為結構體的成員分配內存空間,用于存儲對應類型的數據 2.strct 結構體 一起作為結構體類型標識符 嘿嘿暫時先這樣,我會回來改的1、定義一個表示公交線路的結構體,要…

pikachu靶場-CSRF

CSRF: 介紹: Cross-site request forgery簡稱為"CSRF”。 在CSF的攻擊場景中攻擊者會偽造一個請求(這個請求一般是一個鏈接) 然后欺騙目標用戶進行點擊,用戶一旦點擊了這個請求,整個攻擊也就完成了&#xff0…

VSCode-更改系統默認路徑

修改vscode中的默認擴展路徑:"%USERPROFILE%\.vscode" 打開目錄C:\用戶\電腦用戶名,將.vscode文件剪切至D:\VSCode文件夾下 用管理員身份打開cmd.exe命令界面輸入mklink /D "%USERPROFILE%\.vscode" "D:\VSCode\.vscode\"…

同一個包下 golang run時報undefined

問題描述 今天在運行一個項目,一個包下有兩個文件,分別是main.go和route,main函數在main.go文件中,main引用了route.go中的兩個函數,SetupRoutes和SetupAdminRoutes go build 編譯后,直接運行&#xff0c…

【C++私房菜】面向對象中的簡單繼承

文章目錄 一、 繼承基本概念二、派生類對象及派生類向基類的類型轉換三、繼承中的公有、私有和受保護的訪問控制規則四、派生類的作用域五、繼承中的靜態成員 一、 繼承基本概念 通過繼承(inheritance)聯系在一起的類構成一種層次關系。通常在層次關系的…

Leetcoder Day17| 二叉樹 part06

語言:Java/C 654.最大二叉樹 給定一個不含重復元素的整數數組。一個以此數組構建的最大二叉樹定義如下: 二叉樹的根是數組中的最大元素。左子樹是通過數組中最大值左邊部分構造出的最大二叉樹。右子樹是通過數組中最大值右邊部分構造出的最大二叉樹。 …

進程間傳遞 SQL 文的方法

SQL 文組成 SQL 文有 2 部分組成: SQL 原型,如:INSERT INTO test1 (id,name) VALUES (?,?)Args ,? 號對應的值列表 有時,生成 SQL 文的進程和處理 SQL 文的進程,可能不是同一個 這里就涉及到如何高效…

免費搭建個人網盤

免費搭建一個屬于個人的網盤。 服務端 詳情請參考原網站的服務端下載和安裝虛擬磁盤Fuse4Ui可以支持把網盤內容掛載成系統的分區; 掛載工具效果圖:應用端應用端的下載 效果圖

藍橋杯第1374題——鍛造兵器

題目描述 小明一共有n塊鍛造石,第塊鍛造石的屬性值為ai. 現在小明決定從這n塊鍛造石中任取兩塊來鍛造兵器 通過周密計算,小明得出,只有當兩塊鍛造石的屬性值的差值等于C,兵器才能鍛造成功 請你幫小明算算,他有多少種選…

人工智能幾個關鍵節點:深藍,AlphaGo,ChatGPT,Sora

近30年,人工智能幾個關鍵節點:深藍,AlphaGo,ChatGPT,Sora 深藍: 1997年,深藍擊敗卡斯帕羅夫的比賽是通過一系列復雜的算法和策略實現的。深藍的開發團隊使用了一種名為“暴力搜索”的技術&…

OGG-00918 映射中缺少鍵列 id.

2024-02-23 14:54:49 INFO OGG-02756 從線索文件獲取了表 GISTAR.PXPH_PON_ROUTE 的定義。. The following columns did not default because of type mismatches: id OGG-00918 映射中缺少鍵列 id. 目標端有字段ID,由于mysql自增,所以只能是b…

短劇小程序系統,重塑視頻觀看體驗的科技革命

隨著科技的飛速發展,人們對于數字化內容的消費需求也在不斷增長。在這個大背景下,短劇小程序作為一種新型的視頻觀看方式,正逐漸受到大眾的青睞。本文將探討短劇小程序的發展背景、特點以及市場前景,分析其在重塑視頻觀看體驗方面…

如何使用Inno Setup制作Unity構建程序的Windows安裝程序

1. 準備 (1)準備好Unity構建的程序集合 必須包括: Data文件夾(xxx_Data) Mono文件夾(MonoBleedingEdge) 打包的應用程序文件(xxx.exe) Unity播放器dll文件&#xff…

SpringBoot+Docker:高效容器化的最佳實踐

首先為什么要使用 Docker? Docker 是一個強大的工具,它允許開發者將他們的應用程序打包到容器中,以便可以在任何平臺上輕松部署和運行。當涉及到對 Spring Boot 應用程序進行 Docker 化時,每個開發人員都應該遵循一些最佳實踐&am…

編程筆記 Golang基礎 017 數據類型:字符串類型

編程筆記 Golang基礎 017 數據類型:字符串類型 一、字符串類型小結 在Go語言中,字符串(string)是一種基本的數據類型,用于表示文本數據。它是一個不可變的字符序列,由UTF-8編碼的字節組成,支持U…

深入URP之Shader篇15: Shader關鍵字和變體

之前說了很多shader關鍵字的事情,本篇好好說一下關鍵字和變體。 關鍵字是干什么的 我們寫shader的時候,經常會遇到需要處理不同的情況,比如是否啟用霧,光源是平行光還是點光源,是否使用法線貼圖等等。如果為每一種情…

基于springboot+vue的大創管理系統(前后端分離)

博主主頁:貓頭鷹源碼 博主簡介:Java領域優質創作者、CSDN博客專家、阿里云專家博主、公司架構師、全網粉絲5萬、專注Java技術領域和畢業設計項目實戰,歡迎高校老師\講師\同行交流合作 ?主要內容:畢業設計(Javaweb項目|小程序|Pyt…

【selenium】執行 Javascript 腳本 滾動、元素的特殊操作等

某些特殊情況下,使用selenium的api無法操作頁面元素,點擊、滾動實現的某些功能,可以考慮通過執行js來完成。 為什么不用js寫自動化?——selenium第一版是js寫的,但js兼容性存在問題,所以引入webdriver 現在…

ad15 PCB3D模型導出到SOLIDWORKS

注意,工程文件目錄不能用中文,否則導出的文件會不存在 將這個文件直接拖到 SOLIDWORKS 中 下一步很關鍵 顯示出來了 另存為一個轉配體就可以了