快手視頻生成大模型“可靈”(Kling),作為全球首個真正用戶可用的視頻生成大模型,自面世以來,憑借其無與倫比的視頻生成效果,在全球范圍內贏得了用戶的熱烈追捧與高度評價。截至目前,申請體驗其內測版的用戶數量已突破70萬大關,累計生成的視頻作品更是高達700萬,其中,“老照片復活”系列作品尤為引人注目,以其深邃的情感共鳴席卷網絡,成為現象級話題。
可靈再進化,新增Web端上線、首尾幀控制、單次生成視頻時長增加至10s!
可靈在持續創新的道路上不斷加速,6月6日正式發布文本生成視頻,隨后又馬不停蹄地推出了圖生視頻、視頻續寫等多項新功能。在世界人工智能大會(WAIC)期間,可靈再進化,迎來重大升級。新功能包括:
-
可靈Web端上線:為用戶提供新一代創意生產力平臺,支持AI圖像和視頻以及視頻編輯功能;
-
基礎模型效果升級:提供更佳精細的人物面部和高清畫質;
-
圖生視頻支持首尾幀:允許用戶通過設置首尾幀來控制視頻的起始和結束;
-
相機鏡頭控制功能:新增多種鏡頭運動控制,如旋轉運鏡、水平搖鏡等;
-
單次生成時長增至10s,是業內對用戶開放使用可實現的最長時長。
在本屆WAIC快手大模型生態論壇上,快手視覺生成與互動中心負責人萬鵬飛就「可靈大模型能力亮點」和「可靈大模型技術方案」分別做了細致介紹,并分享了對視頻生成未來發展趨勢的觀點。
一、可靈大模型能力亮點
大幅度且合理的運動生成能力。可靈采用了3D時空聯合注意力機制,能夠更好地建模視頻中的復雜時空運動。因此,可靈大模型不僅能夠生成較大幅度的運動,且更符合客觀運動規律,能夠真正做到讓想象力動起來。得益于更充分的模型訓練,可靈的運動生成效果得到進一步提升。視頻中的小貓能夠靈活的轉動身體,爪子和身體的擺動逼真,運動軌跡自然流暢,為我們展現了小貓憨態可掬的形象。
prompt:一只小貓在溫馨的房間內轉動身體,形態憨態可掬
分鐘級的長視頻能力。可靈大模型的自研3D VAE能夠將視頻編碼到緊湊的隱空間并解碼成帶有豐富細節的視頻,可以生成高達1080p分辨率30fps的視頻,無論是浩瀚壯闊的宏大場景,還是細膩入微的特寫鏡頭,都能夠生動呈現。下面是小男孩吃漢堡的生成視頻,漢堡被咬出一個明顯的缺口,在視頻的每一幀中都清晰可見。我們還能看到小孩咀嚼漢堡的享受表情,特別是逼真的臉部肌肉動態。得益于算法和工程的深度聯合優化,單次生成的視頻長度從5s提升到10s。
prompt:一個戴眼鏡的中國男孩在快餐店內閉眼享受美味的芝士漢堡
能夠模擬真實物理世界的特性。得益于自研模型架構及Scaling Law激發出的強大建模能力,可靈能夠生成符合物理規律的視頻。得益于更充分的模型訓練,可靈對復雜物理規律的建模能力有提升。在視頻中,廚師握刀的手法與日常生活中的場景別無二致,在切菜的過程中還有短暫的停頓和姿勢的調整,節奏變化使其更符合真實世界中日常做飯的行為習慣。
prompt:一名廚師在廚房用菜刀在案板上熟練地切著洋蔥
概念組合和指令響應能力強。基于對文本-視頻語義的深刻理解和 Diffusion Transformer 架構的強大能力,可靈能夠將用戶豐富的想象力轉化為具體的畫面,虛構真實世界中不會出現的場景。得益于效果更優的文本數據和編碼方案,可靈對用戶提示詞的響應能力有提升。在構建的虛擬場景里,濃煙的光影和細節處理使人如臨其境,隨后從濃煙中緩緩走出的機器人極其富有視覺沖擊力,能夠將心中的虛擬世界精準表達。
prompt:一個高大的金屬機器人從滾滾濃煙中走出來
電影級的畫面生成。基于自研3D VAE,可靈能夠生成1080p分辨率的電影級視頻,無論是浩瀚壯闊的宏大場景,還是細膩入微的特寫鏡頭,都能夠生動呈現。視頻中的特寫鏡頭細膩地展現了小狗毛發的質感和光澤,同時還原了現實世界中小狗的眼神和動作,顯得尤為生動可愛。得益于更高的訓練時空分辨率,視頻生成細節、構圖和運鏡美觀性、以及光影表現得到了顯著提升。
prompt:一只戴眼鏡的小狗在房間內看書,時不時抬頭看向鏡頭
領先的圖生視頻效果。支持設置首幀和尾幀,動作自然流暢,且畫質顯著升級。可靈圖生視頻模型以卓越的圖像理解能力為基礎,將靜態圖像轉化為生動的5秒精彩視頻。只需上傳首尾兩張圖片,配上創作者不同的文本輸入,即生成多種多樣的運動效果,讓視覺創意無限延展。畫面中的面條從兩張靜態圖生成為一小段栩栩如生的視頻,面條被撒上了各種調味料,這段視頻不僅構建了清晰合理的邏輯線,也生動形象地展示了美味佳肴。
prompt:盤子里的面條被撒上了芝士和番茄醬
優秀的視頻生成可控性。得益于靈活擴展的網絡架構,可靈支持對視頻生成進行精準的相機鏡頭控制。賦予創作者前所未有的自由度與精細度,目前可靈已支持旋轉運鏡、垂直搖鏡、水平搖鏡在內的六種鏡頭控制方式。隨著參數輸入的變化,視頻運動幅度將展現出更加生動、激烈的效果。在下方的視頻中,一個小女孩開心地坐在草地上看書,一邊往后拉遠相機,一邊先輕微下移,然后大幅度上移鏡頭。而跟隨著鏡頭的變化,不僅展現了小女孩真切的笑容,也讓我們看到了一幅生機勃勃的大自然景象。
prompt:一個面帶笑容的外國小女孩坐在大樹下看書,鏡頭逐漸拉遠展現出周圍生機勃勃的大自然環境。
二、可靈大模型技術方案
可靈大模型呈現出的這些能力亮點,離不開技術上的洞察和創新,可靈大模型整體的技術方案如下:
1、模型設計方面
一個至關重要的步驟是進行信號的表征轉換。鑒于三維視頻信號中摻雜著大量的信息冗余,這些冗余對模型學習構成不利影響,因此首要任務是通過隱空間編解碼技術處理這一問題。這一方法不僅可以剔除不必要的信息冗余,還能顯著提升計算效率。為此,可靈團隊自主研發了一種3D的VAE架構,該架構能夠實現對視頻數據的高效壓縮,并展現出多項附加的有益特性。在網絡基礎架構層面,可靈采用了基于Transformer的網絡框架,以執行擴散模型的復雜計算,實踐驗證顯示,該模型展現出卓越Scaling Law特性。針對時序信息的精準建模,可靈創新性地引入了時空融合的3D注意力機制。這一機制在時間和空間兩個維度上全面部署attention計算,極大地拓寬了模型的感知范圍,并顯著增強了其對復雜動態場景的建模能力。此外,文本的編碼與處理同樣不容忽視,作為信息傳遞的關鍵一環,可靈部署了專有的大語言模型(LLM),該模型對于文本信息進行編碼、注入以及擴展,確保文本與視頻內容的深度融合與精準映射,從而進一步提升整個系統的綜合性能。
2、數據保障方面
對于大型模型而言,數據是基石,尤其是在視頻處理領域,數據的規模、量級及處理的復雜性都達到前所未有的高度。為此,可靈構建了一個海量數據平臺,該平臺能夠全流程、自動化、高效率對數據進行管理和處理,這顯著地提升了數據處理效率。此外可靈團隊自研了一套多維度的標簽系統,用于深入理解、感知、處理和篩選視頻數據,確保數據質量和分布合理,為后續模型訓練奠定了堅實基礎。對于視頻生成模型,除了視頻數據本身,精準的文本描述也是不可或缺的。可靈自研了視頻Captioner模型,該模型能夠生成高完整度、高準確度的視頻文本描述。在效果評估模型階段,可靈采用了數據驅動的視頻質量評價方案,以指導模型迭代優化,確保模型性能穩定提升。
3、計算效率方面
視頻處理的數據量和計算量相較于其他模態來說要大得多。因此,如何保證高效的計算效率成為了一個重要課題。首先,在算法層面,可靈沒有采用DDPM等傳統擴散模型計算方案,轉而采用了從原始分布到目標分布的傳輸路徑更短的flow-based模型,提升了訓練和推理的效率。其次,在工程層面,可靈構建了一套的分布式訓練集群,快手工程師對計算顯存帶寬進行了深度的優化,同時支持自動故障恢復,保障了訓練的連續性和穩定性。最后,在訓練策略方面,可靈采用了一個分階段訓練策略,這使得在有限的算力和時間下,模型能夠充分利用好數據量和質的優勢。
4、能力擴展方面
能力擴展方面,可靈支持各種各樣可變的視頻的分辨率,在輸入端保障視頻結構在訓練過程不會被破壞,在輸出端可以靈活輸出各類不同的寬高比的視頻,以適配不同的應用場景需求。此外,可靈天然具備視頻時序延展能力,支持多種應用模式,包括視頻續寫、圖像生視頻等。正如先前所展示,可靈具備豐富的控制能力,涵蓋了相機、結構、ID識別等多個維度,為用戶提供了靈活多變的操作空間。
三、展望未來
展望未來,視頻生成的效果和技術將持續高速進化。隨著視頻生成的效果逐步逼近傳統圖形渲染與相機拍攝,將為泛視頻行業帶來巨大的機遇與變革。隨著效果提升與成本降低,視頻內容的創作與消費界限趨于模糊,這一變化將極大地促進內容供給的多元化與視頻平臺生態的繁榮。更為深遠的是,視頻生成技術有望成為高度仿真的“世界模擬器”,為具身智能提供仿真環境,推動AI與機器人技術深度融合。生成式AI基礎算法也將持續迭代升級,未來會出現綜合性能更優的生成算法與網絡結構。另外,多模態理解與生成技術的融合趨勢也日益明顯,未來統一的多模態輸入輸出系統將進一步推動AI技術的效果提升與應用拓展。