目錄
一、AI生成視頻引發新浪潮
二、生成方法及難點
三、Sora的突破進展
(一)可生成不同尺寸視頻
(二)可生成1分鐘時長視頻
(三)圖片生成視頻
(四)場景一致性
(五)遠距離相干性和物體持久性
(六)與世界互動
四、說在最后
一、AI生成視頻引發新浪潮
近日隨著一個個視頻的爆火,OpenAI 全新發布的文生視頻模型 Sora瞬間火爆全網。
經歷了2023年AI技術的激烈競爭,多模態大模型在應用端呈現出百花齊放的景象。隨著投資者對新技術興趣的不斷增長,聊天、搜索、文生圖等傳統應用領域已無法滿足市場的渴望。在這股熱潮中,一個尤為引人注目的領域嶄露頭角——那就是文生視頻。
在OpenAI發布其新模型Sora之前,AI制作視頻領域早已不是一片未開墾的處女地。該領域事實上早已聚集了眾多競爭者,如Runway、Pika等AI視頻生成工具在市場上打得火熱。AI行業的領軍者Stable AI也在去年末發布了開源模型Stable Video Diffusion,不斷重塑著這個領域的格局。
在國內市場,阿里巴巴和字節跳動相繼推出了AI視頻生成工具Animate Anyone和Magic Animate。這兩款工具的共同之處在于,它們都具備將靜態圖像轉化為動態視頻的能力。
然而,盡管AI生成視頻領域看似熱鬧非凡,但在OpenAI發布Sora模型之前,它并未像聊天、文生圖等常見AI工具那樣引起廣泛的公眾關注。這背后的原因,很大程度上是因為文生視頻的技術難度遠高于前兩者。從靜態到動態,從平面到立體,這不僅需要強大的算法支持,還需要解決諸如內容連貫性、邏輯合理性以及用戶體驗等一系列復雜問題。
二、生成方法及難點
在AI生成視頻的早期階段,主要是依賴于GAN(生成式對抗網絡)和VAE(變分自編碼器)這兩種模型。然而,這兩種方法生成的視頻內容比較受限,主要是靜態、單一的畫面,且視頻的分辨率往往很低,導致它們的應用范圍比較狹窄。
隨著技術的進步,現在的AI生成視頻主要基于兩種技術路線。一種是使用Transformer模型,這種模型在文本和圖像生成中非常常見,功能強大。另一種則是專門用于視頻領域的擴散模型。
圖像與視頻生成方法流派概覽
目前,擴散模型已成為文生視頻的主流技術路線,代表性的模型有Gen、Dreamix以及Sora。擴散模型的優勢在于其強大的語義理解和內容生成能力,這使得它能夠從文本中提取關鍵信息,并將其轉化為生動、逼真的圖像和視頻。
在擴散模型中,生成過程通常從預訓練模型開始,這些模型首先對文本進行特征提取,以捕捉其中的關鍵語義信息。隨后,這些特征被輸入到擴散模型中,模型通過逐步添加高斯噪聲,再執行反向操作,從而生成與文本描述相匹配的圖像。在文生視頻的情況下,這一過程進一步擴展到視頻生成,通過在文生圖的基礎上增加時間維度,模型能夠將一系列靜態圖像轉化為動態、連貫的視頻。
盡管AI視頻生成技術已經取得了不小的進步,但概括性的來看,它們還是存在許多待突破的難點問題:
1. 復雜的文本控制:雖然現在的技術可以通過文本嵌入和圖像特征的交叉注意力機制來控制生成的圖像或視頻的體態,但當輸入的文本描述非常復雜時,生成的結果可能并不準確,甚至可能丟失部分物體或屬性,或者出現物體與描述性屬性混淆的情況。
2. 編輯的不連續性:當用戶想對生成的圖像進行定制化的編輯時,現有的技術可能無法實現連續的編輯,甚至會出現“災難性遺忘”現象,即模型會忘記之前學到的概念。
3. 缺乏用戶反饋:如果生成的結果不符合用戶的期望,模型目前還無法直接獲取用戶的反饋來修正自身的缺陷。用戶只能通過不斷地修改輸入的描述來嘗試得到更滿意的結果。
4. 視頻生成的不成熟:與圖像生成相比,視頻生成的技術還不夠成熟和穩定。生成的視頻可能會出現幀間抖動較大的問題,尤其是當需要生成時間較長、物體和場景動態變化較大的視頻時,現有的技術往往難以勝任。
AI視頻制作已展現出逐步發展的趨勢。然而,要實現如文生圖等類型工具的大規模應用,仍需跨越一些障礙,特別是解決當前面臨的技術難題。
三、Sora的突破進展
上述內容簡要概述了AI生成視頻的傳統方法及其所面臨的挑戰。但隨著Sora模型的嶄露頭角,我們可以從官網發布的Sora技術報告看到許多長期存在的難題正在逐步得到解決。
(一)可生成不同尺寸視頻
Sora 可以對寬屏 1920x1080p 視頻、垂直 1080x1920 視頻以及介于兩者之間的所有視頻進行采樣。這使 Sora 可以直接以原始縱橫比為不同設備創建內容。也就是說我們可以以同一個視頻為基礎創造不同尺寸的視頻,而視頻還能夠保持同一個主題風格。
(二)可生成1分鐘時長視頻
不同于以往部分模型僅能生成幾秒的視頻或是需要不斷提示疊加視頻時長,Sora可以根據提示詞直接生成1分鐘左右的視頻場景,同時兼顧視頻中人物場景的變換以及主題的一致性。
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
(三)圖片生成視頻
Sora 能夠生成視頻,提供圖像和提示作為輸入,模型根據我們所輸出的圖片來生成一段視頻。這意味著其可以創建完美循環的視頻、為靜態圖像制作動畫、在時間上向前或向后擴展視頻等。
根據圖片生成動畫
根據主角騎行擴展前后畫面
(四)場景一致性
Sora 可以生成具有動態相機運動的視頻。隨著攝像機的移動和旋轉,人物和場景元素在三維空間中始終如一地移動。
航拍視角展現場景變化
(五)遠距離相干性和物體持久性
生成視頻有一個很大的困難,就是在選擇長視頻片段時,要確保時間的連貫性。Sora模型大多數情況下都能很好地處理這個問題。它能記住視頻里的人和東西,即使他們暫時被擋住或者不在畫面里。甚至,它還能讓同一個角色在不同的畫面里看起來都一樣,這樣整個視頻就更連貫了。
小狗在中途被遮擋后仍能保持主體一致
(六)與世界互動
Sora 有時可以以簡單的方式模擬影響世界狀態的動作。例如,畫家可以在畫布上留下新的筆觸,這些筆觸會隨著時間的推移而持續存在,或者一個人可以吃漢堡并留下咬痕。這意味著模型具備一定的通識能力,能夠預測到畫面的下一步會發生什么。
模仿人物畫畫的筆觸
當然,在研究報告中OpenAI也指出Sora作為一款模擬器,目前仍存在許多局限性。舉例來說,它無法精確模擬許多基本相互作用的物理特性,如玻璃破碎等。在模擬其他交互行為時,如吃食物,也不總是能正確反映物體狀態的變化。除此之外,模型也存在其他常見的失效模式,如在長時間樣本中可能出現的不連貫性或物體的自發出現等問題。
四、說在最后
隨著科技的不斷進步,AI生成視頻領域正迎來前所未有的發展機遇。盡管在目前階段,這些模型面臨著種種挑戰和局限,但正如ChatGPT從3.5到4.0所展示的巨大進步,我們有理由相信,這些問題和難題將在不斷的研究與創新中得以攻克。
隨著模型性能的逐步提升,它們將能夠生成更加逼真、生動的視頻內容,滿足不同領域的需求。無論是影視制作、廣告創意,還是虛擬現實、游戲設計,AI生成視頻技術都將發揮巨大的潛力,為我們的工作和生活帶來更多可能性。
當然,技術的發展不僅僅停留在模型的完善上。如何將這些先進的模型真正應用到實際工作中,創造實際價值,將是我們面臨的下一個重要課題。
注:
文中圖片均來自OpenAI官網,因平臺限制未能呈現完整視頻。
參考資料:
1、《AI生成視頻比ChatGPT難在哪》-張書琛
2、《從感知到創造:圖像視頻生成式方法前沿探討》-林倞,楊斌斌
3、 Video generation models as world simulators-OpenAI
更多AI小知識歡迎關注“神州數碼云基地”公眾號,回復“AI與數字化轉型”進入社群交流
版權聲明:文章由神州數碼武漢云基地團隊實踐整理輸出,轉載請注明出處。