Sora,美國人工智能研究公司OpenAI發布的人工智能文生視頻大模型(但OpenAI并未單純將其視為視頻模型,而是作為“世界模擬器”?),于2024年2月15日(美國當地時間)正式對外發布。
Sora可以根據用戶的文本提示創建最長60秒的逼真視頻,該模型了解這些物體在物理世界中的存在方式,可以深度模擬真實物理世界,能生成具有多個角色、包含特定運動的復雜場景。繼承了DALL-E 3的畫質和遵循指令能力,能理解用戶在提示中提出的要求。
Sora對于需要制作視頻的藝術家、電影制片人或學生帶來無限可能,其是OpenAI“教AI理解和模擬運動中的物理世界”計劃的其中一步,也標志著人工智能在理解真實世界場景并與之互動的能力方面實現飛躍。
Sora在日語中是“天空”(そら)的意思,引申含義還有“自由”,象征著其無限的創造潛力。
行業背景
-
OpenAI在大模型領域的成功
2022年底,OpenAI正式推出ChatGPT,這款由人工智能技術驅動的自然語言處理工具能夠通過學習和理解人類的語言來進行對話。ChatGPT是OpenAI邁出的第一步,這款讓所有人都能體會到人工智能潛力的現象級產品,展現出了文字對于過去人工智能的理解力和邏輯能力的超越。隨后,OpenAI的開發重點逐步過渡到圖像的生成,Dall-E模型在生成圖像方面也獲得了重大突破。
-
視覺算法的進步
????????視覺算法近年來的突破在泛化性、可提示性、生成質量和穩定性等方面均取得了進展,這預示著技術拐點的臨近以及爆款應用的涌現。特別是在3D資產生成和視頻生成領域,由于擴散算法的成熟,這些領域受益匪淺。然而,與圖像生成相比,3D資產和視頻生成在數據和算法方面面臨的難點更多?。
????????盡管如此,考慮到大型語言模型(LLM)對人工智能各領域的加速作用以及已經出現的優秀開源模型,2024年該行業有望實現更大的發展。在2023年末至2024年初,Pika、HeyGen等人工智能生成的視頻應用逐漸受到關注,這驗證了多模態技術的持續進步與成熟?。但與此同時,民主倡導者和人工智能研究人員警告說,這些工具已經被用來欺騙和欺騙民眾。
發展歷程
模型發展
2021年1月5日
文生圖模型Dall-E發布
Dall-E可以根據簡單的描述創建逼真和清晰的圖像,精通各種藝術風格,還可以生成文字制作建筑物上的標志,并制作同一場景的草圖和全彩圖像。
2022年4月
Dall-E 2發布
Dall-E 2不僅可以生成更真實和更準確的畫像,而且能夠將文本描述中的概念、屬性和風格等元素綜合起來,生成現實主義的圖像和藝術作品。
2022年11月30日
大語言模型ChatGPT發布?
ChatGPT不僅能與人對話,還能編寫代碼、創作內容等,這一款革命性產品的上線引發全球關注,上線僅5天用戶數量就已突破100萬。
2023年3月15日
GPT-4正式面世
GPT-4可以更準確地解決用戶的難題,多模態的GPT-4還可以生成、編輯具有創意性或技術性的文章,在高級推理方面的表現超過其前代產品。
2023年9月21日
Dall-E 3正式發布
Dall-E 3能夠更準確、更優秀地生成效果,可以更準確地呈現用戶的想法,用戶可以要求ChatGPT提供合適的提示詞。
2024年2月16日
Sora問世?
Sora繼承了Dall-E 3的畫質和遵循指令能力,可以根據用戶的文本提示創建逼真的視頻,可以深度模擬真實物理世界,能生成具有多個角色、包含特定運動的復雜場景。Sora能夠根據提示詞生成60s的連貫視頻,“碾壓”了行業目前大概只有平均“4s”的視頻生成長度。
功能特色
優點
-
功能綜述
Sora可以快速制作最長一分鐘、準確反映用戶提示、可一鏡到底的視頻?(其他AI視頻工具還在突破幾秒內的連貫性?),視頻可以呈現“具有多個角色、特定類型的動作、以及主題和背景的準確細節的復雜場景”?。
中國龍年舞龍
雨后的東京街頭
行駛中的列車窗外
好萊塢大片質感的電影預告片
加州淘金熱時期的歷史鏡頭
玻璃球的特寫視圖
24歲女性眨眼的極端特寫
-
靜態圖生成視頻
Sora還具備根據靜態圖像生成視頻的能力,能夠讓圖像內容動起來,并關注細節部分,使得生成的視頻更加生動逼真,這一功能在動畫制作、廣告設計等領域具有應用前景。
-
視頻擴展與缺失幀填充
Sora能夠獲取現有視頻并對其進行擴展或填充缺失的幀,這一功能在視頻編輯、電影特效等領域具有應用前景,可以幫助用戶快速完成視頻內容的補充和完善?。
-
連接視頻
可以使用Sora連接兩個輸入視頻,在具有完全不同主題和場景組成的視頻之間實現無縫過渡。
-
其他能力
能力 | 描述 |
---|---|
圖像生成 | Sora可以生成各種尺寸的圖像,分辨率最高達2048×2048。 |
3D一致 | Sora可以生成動態運動的視頻,隨著相機的移動和旋轉,人和場景元素在三維空間中一致移動。 |
遠距離連貫性 物體持久性 | Sora通常能夠有效地對短期和長期依賴關系進行建模,包括人、動物和物體的持久化,即使它們被遮擋或離開框架。同時,它還能在單個樣本中生成同一角色的多個鏡頭,以保持其在整個視頻中的外觀。 |
互動性 | Sora有時可以用簡單的方式模擬影響世界狀態的動作。例如一個畫家可以在畫布上留下新的筆觸,并隨著時間的推移而持續,或者一個男人可以吃漢堡并留下咬痕。 |
模擬數字世界 | Sora可以模擬人工過程,例如電子游戲,并能夠通過基本策略控制玩家,同時高保真地渲染世界及其動態?。 |
多機位 | Sora可以生成多機位、多角度的視頻?。 |
缺點
狼在追逐打鬧過程中,可能會憑空多出或消失
Sora也存有以下弱點:可能難以準確模擬復雜場景的物理原理,無法理解因果關系,混淆提示的空間細節,難以精確描述隨著時間推移發生的事件。
沒有正確表示籃球穿過籃筐的過程
例如,在“五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”的場景中,狼的數量會變化,一些憑空出現或消失。在提示詞“籃球穿過籃筐然后爆炸”中,籃球沒有正確被籃筐阻擋。
OpenAI表示,Sora存在不成熟之處,可能難以理解因果關系,多位人工智能領域人士表示,該問題可能因其概率模式的邏輯存有“硬傷”。加大訓練量、增加訓練數據與物理邏輯可改善該問題,但無法根治。想要真正突破最底層邏輯上的問題,因果關系是一條必經之路。
技術特點
多幀預測生成
Sora是一種擴散模型,具備從噪聲中生成完整視頻的能力,它生成的視頻一開始看起來像靜態噪音,通過多個步驟逐漸去除噪聲后,視頻也從最初的隨機像素轉化為清晰的圖像場景,其能夠一次生成多幀預測,確保畫面主體在暫時離開視野時仍保持一致。
特殊架構
Sora采用與GPT模型相似的Transformer架構,OpenAI用Transformer結構替代Diffusion模型中常用的U-Net結構,提升了原來Diffusion模型在深度和寬度上的可擴展性,為視頻模型增加輸出時長奠定基礎?。Transformer架構能夠處理長序列數據,并通過自注意力機制捕捉數據中的依賴關系,從而提高模型的生成能力?。但為了解決Transformer架構在長文本和高分辨率圖像處理上的問題,擴散模型采用更可擴展的狀態空間模型(SSM)主干替代了傳統的注意力機制,從而減少了算力需求,并能夠生成高分辨率圖像?。
?
重述提示詞
Sora借鑒DALL-E 3的“重述提示詞技術”,為視覺訓練數據生成高度描述性的標注,這使得模型能夠更忠實地遵循用戶的文本指令,生成符合用戶需求的視頻內容,同時也提高了模型的靈活性和可控性。
數據表示
OpenAI將視頻和圖像表示為Patch,類似于GPT中的token,這種統一的數據表示方式使得Sora能夠在更廣泛的視覺數據上進行訓練,涵蓋不同的持續時間、分辨率和縱橫比,有助于模型學習到更豐富的視覺特征,提高生成視頻的質量和多樣性。
原生規模訓練
Sora采用“原生規模訓練”,過往的圖像和視頻生成通常會將視頻調整為標準大小,但這樣會失去視頻的原始長寬比和細節,而原生規模的訓練方法可以帶來更好的效果。Sora可以對各種尺寸和縱橫比的視頻進行采樣,允許直接為不同尺寸的設備創建內容,并快速原型化較低分辨率的內容。與將視頻裁剪為正方形的模型相比,Sora可以生成更完整、更美觀的視頻?。
?社會影響
價值意義
Sora對于需要制作視頻的藝術家、電影制片人或學生來說,都帶來了無限可能。該模型可以深度模擬真實物理世界,標志著人工智能在理解真實世界場景并與之互動的能力方面實現飛躍,也被認為是實現通用人工智能(AGI)的重要里程碑,通過不斷深入研究和發展Sora等先進模型,有望在未來實現更加智能、高效和多樣化的視頻生成與處理技術。
產業格局
-
估值上漲
Sora發布后,OpenAI的估值迅速上漲(有望超過800億美元,2023年ChatGPT發布不久時其估值約為290億美元),且文生視頻大模型將會大幅推動人工智能基礎設施的需求,英偉達、OpenAI、軟銀等巨頭公司都被曝正在進行AI芯片的制造布局,英偉達也因大模型訓練需要GPU算力支持而股價大漲?[38]。與此同時,受Sora發布的影響,美國圖片供應商Shutterstock的股價大跌。
在中國,龍年開市第一天,Sora相關概念全線“爆發”,會暢通訊、當虹科技、萬興科技、易點天下、因賽集團、東方國信、數碼視訊、華揚聯眾、國脈文化等股票均大幅上漲,多家公司回應稱,將根據自身業務特點,在文生視頻技術落地、Sora應用等方面尋找突破入口。
-
生產變革
浙商證券預測,Sora及同類產品將參與到改變信息生產和分發兩大環節的進程中,PGC(專業生產內容)將廣泛采用AI工具輔助生產,UGC(用戶生成內容)將借助AI工具逐步替代PGC。此間,AI生成視頻工具的商業化將提速?。
Sora可生成一段長達60秒的視頻,遠超市面同類AI產品視頻生成時長,60秒的視頻時長,已經超過抖音等短視頻平臺的平均視頻時長,Sora的誕生也為以后短視頻平臺的內容生產提供了更大的可能性。?
職業取代
截至2024年2月,已有一些視覺藝術家、設計師和電影制作人以及OpenAI員工獲得了Sora訪問權限,他們也已開始在社交平臺不斷曬出使用Sora生成的新作品,為人們展示AI生成視頻的創意可能。許多網友稱“不少人要丟工作了”,甚至有人開始“悼念”一整個素材行業。
各界評價
類別 | 專家 | 評價 |
---|---|---|
科技界 | 英偉達科學家 DrJimFan | Sora是一個數據驅動的物理引擎,它是對許多世界的模擬,無論是真實的還是幻想的,模擬器通過一些去噪和梯度數學來學習復雜的渲染、“直觀”物理、長期推理和語義基礎。 |
趣丸集團副總裁 莊明浩 | Sora的面世影響的不僅是文生視頻領域,下一步將是過去一年各家游戲物理引擎廠商們一直在嘗試的自然語言改造生產流程,以及3D素材生產這個戰場?。 | |
伊利諾伊大學厄巴納-香檳分校 信息科學教授特德·安德伍德 | 沒想到在接下來的兩到三年內還會出現這種持續、連貫的視頻生成水平。 | |
普林斯頓大學計算機科學教授 Arvind Narayanan | 根據OpenAI發布的視頻,Sora似乎比任何其他視頻生成工具都“先進得多”,這可能會導致“深度偽造”視頻,人們更難識別出人工智能生成的視頻?。 | |
360集團創始人、董事長 周鴻祎 | Sora將縮短AGI(通用人工智能)實現時間,從10年縮短到1年。OpenAI訓練該模型應該會以視頻和攝像頭捕捉的畫面為主,人工智能通過觀看大量視頻將對世界有更深入的理解,這離AGI實現不遠?。 | |
圖靈獎得主、Meta首席AI科學家 楊立昆 | 根據提示詞生成的大部分逼真視頻并不表明這樣的AI系統理解物理世界,生成視頻的過程與基于世界模型的因果預測完全不同?。 | |
影視界 | 電影導演兼視覺效果專家 邁克爾·格雷西 | 很快,像Sora這樣的人工智能工具將允許電影制作者仔細控制他們的輸出,從頭開始創建各種視頻,當技術剝奪了其他人的創造力、工作、想法和執行力,卻沒有給予他們應有的榮譽和經濟報酬時,不是一件好事情?。 |
專業攝影師 孟凡 | Sora視頻幀率較高,說明計算能力比較強,且影片的寬容度更高,如調色、細節表現、高速鏡頭展現等。在直觀感受上,Sora 模型產出的視頻運鏡自然,物體運動符合規律,鏡頭間邏輯一致性好,但是Sora視頻的邏輯性會差一點?。 | |
中國電影文學學會副秘書長 杜紅軍 | 編劇、導演不必因Sora的出現而擔心,它是幫助實現影視效果的好工具,能夠激發更多人的內容創造力。人類負責創意,AI負責創造,未來的電影創作將是概念片先行,可能不是在寫劇本,而是“寫”影像?。 | |
社會界 | 中國社會科學院法學研究所 副研究員唐林垚 | 相較于其他視頻類生成式AI,Sora在畫面清晰度、內容流暢度、表意深度和精彩程度方面均有大幅提升,如果Sora的能力真如官方公布一樣強大,且之后可以像ChatGPT一樣便捷訪問,那么Sora將給廣告行業、影視行業和特效行業帶來極大的沖擊。? |
前記者、現斯坦福大學研究員 巴西勒·西蒙 | 在生成式人工智能方面有了可怕的飛躍,可以快速生成逼真的作品,這些工具可能會在選舉中被濫用,公眾將可能“不再知道該相信什么”?。 |
主要競品
公司 | 產品 | 技術路線 | 發布時間 |
---|---|---|---|
英偉達 | PYoCo | 擴散模型 | 2023.05 |
Runway | Gen-2 | 擴散模型 | 2023.06 |
Pika Labs | Pika?1.0 | 擴散模型 | 2023.11 |
Meta | Emu Video | 擴散模型 | 2023.11 |
Stability AI | Stable Video Diffusion | 擴散模型 | 2023.11 |
谷歌 | Video Poet | Transformer | 2023.12 |
字節跳動 | MagicVideo-V2 | 擴散模型 | 2024.01 |
相較于其他模型,Sora的優勢主要是三方面:
-
第一:可以生成長達60秒鐘的視頻,包括多個角色、特定類型動作和主題背景;
-
第二:可以在單個生成的視頻中創建多個鏡頭,模擬復雜的攝像機運鏡,同時準確地保持角色和視覺風格;
-
第三:能夠理解物體在現實世界中的物理規律和存在方式?。
-
社會爭議
虛假信息
????????Sora的發布引發了關于虛假信息傳播的爭議。其強大的圖像視頻生成能力達到了以假亂真的程度,這不僅改變了人們“眼見為實”的傳統觀念,還可能帶來一系列社會問題,如視頻證據真實性和有效性的驗證難題。在Sora問世前已有多起利用AI偽造視頻進行詐騙的案例,顯示了AI生成視頻可能被濫用于非法目的的風險。Sora的普及可能會進一步降低制作高質量虛假視頻的門檻,加劇虛假信息的傳播。盡管互聯網平臺已有針對特定類型虛假信息的檢測機制,但對于復雜難辨的信息仍需加強深度分析和及時阻斷。隨著AI生成內容的激增,網絡上的合成內容將大量存在,這要求不僅在技術上持續改進,還需建立更全面的治理體系來有效應對虛假信息的挑戰。
版權問題
????????Sora可能引發侵權爭議。一方面,Sora生成的視頻版權是否受到保護尚不明確,這可能導致使用這些視頻的主體面臨侵權索賠和版權保護追溯的風險。另一方面,Sora在訓練過程中使用了相關素材,即使只是用這些素材進行訓練,也可能存在潛在的侵權風險?。
源自:Sora(OpenAI發布的人工智能文生視頻大模型)_百度百科