AGI|AI到底如何生成視頻?Sora究竟為何能引爆科技圈?

目錄

一、AI生成視頻引發新浪潮

二、生成方法及難點

三、Sora的突破進展

(一)可生成不同尺寸視頻

(二)可生成1分鐘時長視頻

(三)圖片生成視頻

(四)場景一致性

(五)遠距離相干性和物體持久性

(六)與世界互動

四、說在最后


一、AI生成視頻引發新浪潮

近日隨著一個個視頻的爆火,OpenAI 全新發布的文生視頻模型 Sora瞬間火爆全網。

經歷了2023年AI技術的激烈競爭,多模態大模型在應用端呈現出百花齊放的景象。隨著投資者對新技術興趣的不斷增長,聊天、搜索、文生圖等傳統應用領域已無法滿足市場的渴望。在這股熱潮中,一個尤為引人注目的領域嶄露頭角——那就是文生視頻。

在OpenAI發布其新模型Sora之前,AI制作視頻領域早已不是一片未開墾的處女地。該領域事實上早已聚集了眾多競爭者,如Runway、Pika等AI視頻生成工具在市場上打得火熱。AI行業的領軍者Stable AI也在去年末發布了開源模型Stable Video Diffusion,不斷重塑著這個領域的格局。

在國內市場,阿里巴巴和字節跳動相繼推出了AI視頻生成工具Animate Anyone和Magic Animate。這兩款工具的共同之處在于,它們都具備將靜態圖像轉化為動態視頻的能力。

然而,盡管AI生成視頻領域看似熱鬧非凡,但在OpenAI發布Sora模型之前,它并未像聊天、文生圖等常見AI工具那樣引起廣泛的公眾關注。這背后的原因,很大程度上是因為文生視頻的技術難度遠高于前兩者。從靜態到動態,從平面到立體,這不僅需要強大的算法支持,還需要解決諸如內容連貫性、邏輯合理性以及用戶體驗等一系列復雜問題。

二、生成方法及難點

在AI生成視頻的早期階段,主要是依賴于GAN(生成式對抗網絡)和VAE(變分自編碼器)這兩種模型。然而,這兩種方法生成的視頻內容比較受限,主要是靜態、單一的畫面,且視頻的分辨率往往很低,導致它們的應用范圍比較狹窄。

隨著技術的進步,現在的AI生成視頻主要基于兩種技術路線。一種是使用Transformer模型,這種模型在文本和圖像生成中非常常見,功能強大。另一種則是專門用于視頻領域的擴散模型。

圖像與視頻生成方法流派概覽

目前,擴散模型已成為文生視頻的主流技術路線,代表性的模型有Gen、Dreamix以及Sora。擴散模型的優勢在于其強大的語義理解和內容生成能力,這使得它能夠從文本中提取關鍵信息,并將其轉化為生動、逼真的圖像和視頻。

在擴散模型中,生成過程通常從預訓練模型開始,這些模型首先對文本進行特征提取,以捕捉其中的關鍵語義信息。隨后,這些特征被輸入到擴散模型中,模型通過逐步添加高斯噪聲,再執行反向操作,從而生成與文本描述相匹配的圖像。在文生視頻的情況下,這一過程進一步擴展到視頻生成,通過在文生圖的基礎上增加時間維度,模型能夠將一系列靜態圖像轉化為動態、連貫的視頻。

盡管AI視頻生成技術已經取得了不小的進步,但概括性的來看,它們還是存在許多待突破的難點問題:

1. 復雜的文本控制:雖然現在的技術可以通過文本嵌入和圖像特征的交叉注意力機制來控制生成的圖像或視頻的體態,但當輸入的文本描述非常復雜時,生成的結果可能并不準確,甚至可能丟失部分物體或屬性,或者出現物體與描述性屬性混淆的情況。

2. 編輯的不連續性:當用戶想對生成的圖像進行定制化的編輯時,現有的技術可能無法實現連續的編輯,甚至會出現“災難性遺忘”現象,即模型會忘記之前學到的概念。

3. 缺乏用戶反饋:如果生成的結果不符合用戶的期望,模型目前還無法直接獲取用戶的反饋來修正自身的缺陷。用戶只能通過不斷地修改輸入的描述來嘗試得到更滿意的結果。

4. 視頻生成的不成熟:與圖像生成相比,視頻生成的技術還不夠成熟和穩定。生成的視頻可能會出現幀間抖動較大的問題,尤其是當需要生成時間較長、物體和場景動態變化較大的視頻時,現有的技術往往難以勝任。

AI視頻制作已展現出逐步發展的趨勢。然而,要實現如文生圖等類型工具的大規模應用,仍需跨越一些障礙,特別是解決當前面臨的技術難題。

三、Sora的突破進展

上述內容簡要概述了AI生成視頻的傳統方法及其所面臨的挑戰。但隨著Sora模型的嶄露頭角,我們可以從官網發布的Sora技術報告看到許多長期存在的難題正在逐步得到解決。

(一)可生成不同尺寸視頻

Sora 可以對寬屏 1920x1080p 視頻、垂直 1080x1920 視頻以及介于兩者之間的所有視頻進行采樣。這使 Sora 可以直接以原始縱橫比為不同設備創建內容。也就是說我們可以以同一個視頻為基礎創造不同尺寸的視頻,而視頻還能夠保持同一個主題風格。

(二)可生成1分鐘時長視頻

不同于以往部分模型僅能生成幾秒的視頻或是需要不斷提示疊加視頻時長,Sora可以根據提示詞直接生成1分鐘左右的視頻場景,同時兼顧視頻中人物場景的變換以及主題的一致性。

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

(三)圖片生成視頻

Sora 能夠生成視頻,提供圖像和提示作為輸入,模型根據我們所輸出的圖片來生成一段視頻。這意味著其可以創建完美循環的視頻、為靜態圖像制作動畫、在時間上向前或向后擴展視頻等。

根據圖片生成動畫

根據主角騎行擴展前后畫面

(四)場景一致性

Sora 可以生成具有動態相機運動的視頻。隨著攝像機的移動和旋轉,人物和場景元素在三維空間中始終如一地移動。

航拍視角展現場景變化

(五)遠距離相干性和物體持久性

生成視頻有一個很大的困難,就是在選擇長視頻片段時,要確保時間的連貫性。Sora模型大多數情況下都能很好地處理這個問題。它能記住視頻里的人和東西,即使他們暫時被擋住或者不在畫面里。甚至,它還能讓同一個角色在不同的畫面里看起來都一樣,這樣整個視頻就更連貫了。

小狗在中途被遮擋后仍能保持主體一致

(六)與世界互動

Sora 有時可以以簡單的方式模擬影響世界狀態的動作。例如,畫家可以在畫布上留下新的筆觸,這些筆觸會隨著時間的推移而持續存在,或者一個人可以吃漢堡并留下咬痕。這意味著模型具備一定的通識能力,能夠預測到畫面的下一步會發生什么。

模仿人物畫畫的筆觸

當然,在研究報告中OpenAI也指出Sora作為一款模擬器,目前仍存在許多局限性。舉例來說,它無法精確模擬許多基本相互作用的物理特性,如玻璃破碎等。在模擬其他交互行為時,如吃食物,也不總是能正確反映物體狀態的變化。除此之外,模型也存在其他常見的失效模式,如在長時間樣本中可能出現的不連貫性或物體的自發出現等問題。

四、說在最后

隨著科技的不斷進步,AI生成視頻領域正迎來前所未有的發展機遇。盡管在目前階段,這些模型面臨著種種挑戰和局限,但正如ChatGPT從3.5到4.0所展示的巨大進步,我們有理由相信,這些問題和難題將在不斷的研究與創新中得以攻克。

隨著模型性能的逐步提升,它們將能夠生成更加逼真、生動的視頻內容,滿足不同領域的需求。無論是影視制作、廣告創意,還是虛擬現實、游戲設計,AI生成視頻技術都將發揮巨大的潛力,為我們的工作和生活帶來更多可能性。

當然,技術的發展不僅僅停留在模型的完善上。如何將這些先進的模型真正應用到實際工作中,創造實際價值,將是我們面臨的下一個重要課題。

注:

文中圖片均來自OpenAI官網,因平臺限制未能呈現完整視頻。

參考資料:

1、《AI生成視頻比ChatGPT難在哪》-張書琛

2、《從感知到創造:圖像視頻生成式方法前沿探討》-林倞,楊斌斌

3、 Video generation models as world simulators-OpenAI

更多AI小知識歡迎關注“神州數碼云基地”公眾號,回復“AI與數字化轉型”進入社群交流

版權聲明:文章由神州數碼武漢云基地團隊實踐整理輸出,轉載請注明出處。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/697530.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/697530.shtml
英文地址,請注明出處:http://en.pswp.cn/news/697530.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Window部署Exceptionless

Exceptionless Elasticsearch 版本: Exceptionless:8.1.0 Elasticsearch:7.17.5 JDK:11.0.10 目錄 一、Elasticsearch運行 二、 Exceptionless 一、Elasticsearch運行 bin目錄下elasticsearch.bat 直接運行 訪問 http://lo…

使用gstreamer和opencv實時識別LED數碼管數字的測試demo(QT)

效果演示: 效果1:靜態識別 效果2:動態實時識別 可以看到,雖然不太穩定,但是好歹還是識別出來了的,就是需要調參,然鵝我不是專業的,目前還沒有調好。。。 T_T 先這樣吧。以后再說。 覺得文章質量可以的,請點個贊哦,謝謝。 前言 最近需要完成使用op…

yum方式快速安裝mysql

問題描述 使用yum的方式簡單安裝了一下mysql,對過程進行簡單記錄。 步驟 ①安裝wget和vim sudo yum -y install wget vim②下載mysql的rpm包 sudo wget https://dev.mysql.com/get/mysql80-community-release-el7-3.noarch.rpm③升級和更新rpm包 sudo rpm -Uv…

ElementUI組件的安裝和使用

Element UI 是一款基于 Vue 2.0 的桌面端組件庫,主要用于快速構建網站的前端部分。它提供了豐富的組件,如按鈕、輸入框、表格、標簽頁等,以及一些布局元素,如布局容器、分割線等。Element UI 的設計風格簡潔,易于上手&…

【前端素材】推薦優質后臺管理系統Airmin平臺模板(附源碼)

一、需求分析 系統定義 后臺管理系統是一種用于管理和監控網站、應用程序或系統的在線工具。它通常是通過網頁界面進行訪問和操作,用于管理網站內容、用戶權限、數據分析等。后臺管理系統是網站或應用程序的控制中心,管理員可以通過后臺系統進行各種管…

第四十二回 假李逵翦徑劫單身 黑旋風沂嶺殺四虎-python讀寫csv和json數據

李逵答應了宋江三件事:不可吃酒,獨自前行,不帶板斧。李逵痛快答應了,挎一口腰刀,提著樸刀,帶了一錠大銀子,三五個小銀子就下山去了。 宋江放心不下,于是請同鄉朱貴也回家一趟&#…

arcgisPro制圖輸出

1、設置地圖底圖 2、導入數據 3、 設置圖形顏色,如下:右鍵“浙江省”數據層,選擇符號系統 4、在右側可看到打開的符號系統欄,進行如下設置: 5、移除“其他所有值”項,如下: 6、設置圖形輪廓,如下…

【MATLAB】CEEMD_ MFE_SVM_LSTM 神經網絡時序預測算法

有意向獲取代碼,請轉文末觀看代碼獲取方式~也可轉原文鏈接獲取~ 1 基本定義 CEEMD_MFE_SVM_LSTM神經網絡時序預測算法是一種結合了多種先進技術的復雜預測方法,旨在提高時序預測的準確性和穩定性。下面是對該算法的詳細介紹: CEEMD&#xff…

ES項目應用

配置: ES存儲了2-3億條,幾百GB ES集群有5 個節點 2主2副 ES返回數據量窗口大小設置 index.max_result_window 深度翻頁 1.from size 方式 2.scroll相當于維護了一份當前索引段的快照信息,這個快照信息是你執行這個scroll查詢時的快照。在這個查詢后的任…

kali虛擬機橋接模式快速設置

第一步:選擇 虛擬機 > 設置 > 虛擬機設置,設置橋接模式 不選擇復制物理網絡連接狀態選項: 如果采用DHCP的方式來分配IP地址,當電腦網絡從有線或無線網絡之間進行移動時,DHCP會重新分配ip地址,即虛擬機…

泰迪智能科技大模型數據智能實驗室

自2022年11月ChatGPT問世以來,大模型開始備受關注,科技巨頭們紛紛推出大模型實驗室解決方案。大模型的價值不知在于互聯網場景,而在于大模型能力垂直化,能夠與具體的業務需求深度融合。 大模型實驗室是在學校現有的實驗室建設基礎…

leetcode hot100 買賣股票的最佳時機1

本題之前采用貪心算法來解決,現在可以采用動態規劃來解決,通過dp數組記錄每次的狀態從而獲取到最大的利潤。 這里dp數組定義為二維數組 dp[price.length][2],其中price.length表示第i天,[2]其中有0/1兩種狀態,[0]表示…

六、回歸與聚類算法 - 欠擬合和過擬合

目錄 1、定義 2、原因及解決方法 2.1 正則化 線性回歸欠擬合與過擬合線性回歸的改進 - 嶺回歸分類算法:邏輯回歸模型保存與加載無監督學習:K-means算法 1、定義 2、原因及解決方法 2.1 正則化

電路設計(26)——速度表的multisim仿真

1.設計要求 設計一款電路,能夠實時顯示當前速度。 用輸入信號模擬行駛的汽車,信號頻率的1hz代表汽車速度的1m/s。最后速度顯示,以km/h為單位。 2.電路設計 當輸入信號頻率為40HZ時,顯示的速度應該為144KM/h,仿真結果為…

HTTP基本概念-HTTP 常見的狀態碼有哪些?

資料來源 : 小林coding 小林官方網站 : 小林coding (xiaolincoding.com) HTTP 常見的狀態碼有哪些? 1xx 類狀態碼屬于提示信息,是協議處理中的一種中間狀態,實際用到的比較少。 2xx 類狀態碼表示服務器成功處理了客戶端的請求,也是我們最愿…

第一個 Angular 項目 - 添加服務

第一個 Angular 項目 - 添加服務 這里主要用到的內容就是 [Angular 基礎] - service 服務 提到的 前置項目在 第一個 Angular 項目 - 動態頁面 這里查看 想要實現的功能是簡化 shopping-list 和 recipe 之間的跨組件交流 回顧一下項目的結構: ? tree src/app/…

[概念區分] 正則表達式與正則化

正則表達式與正則化 機器學習在計算機科學和數據處理領域,關于“正則”的兩個術語:正則表達式和正則化,雖然它們在名稱上非常相似,但實際上它們是完全不同的概念。 正則表達式 也被稱為 regex,是一種強大的工具&…

Linux freezer機制

一、概述 系統進入suspended或進程被加入到cgroup凍結或解凍分組,用戶進程和部分內核線程被凍結后,會剝奪執行cpu資源,解凍或喚醒后恢復正常。 二、進程凍結與解凍原理 2.1 進程凍結 用戶進程和內核線程凍結的基本流程: 內核態…

設計模式-建造者模式(Builder Pattern)

一、建造者模式說明 建造者模式(Builder Pattern)是一種創建型設計模式,它的主要目的是將一個復雜對象的構建過程與其表示分離,使得同樣的構建過程可以創建不同的表示。 在建造者模式中,通常涉及以下幾個角色&#xf…

多業務場景下對于redis分布式鎖的一些思考

現在讓你寫一個Redis分布式鎖 大概率你會先寫一個框架 public Boolean setIfAbsent(String key, Object value,Long timeout) {try {return Boolean.TRUE.equals(objectRedisTemplate.opsForValue().setIfAbsent(key, value,timeout,TimeUnit.SECONDS));} catch (Exception e) …