可靈重大升級!新增Web端上線、首尾幀控制、單次生成視頻時長增加至10s!

快手視頻生成大模型“可靈”(Kling),作為全球首個真正用戶可用的視頻生成大模型,自面世以來,憑借其無與倫比的視頻生成效果,在全球范圍內贏得了用戶的熱烈追捧與高度評價。截至目前,申請體驗其內測版的用戶數量已突破70萬大關,累計生成的視頻作品更是高達700萬,其中,“老照片復活”系列作品尤為引人注目,以其深邃的情感共鳴席卷網絡,成為現象級話題。

可靈再進化,新增Web端上線、首尾幀控制、單次生成視頻時長增加至10s!

可靈在持續創新的道路上不斷加速,6月6日正式發布文本生成視頻,隨后又馬不停蹄地推出了圖生視頻、視頻續寫等多項新功能。在世界人工智能大會(WAIC)期間,可靈再進化,迎來重大升級。新功能包括:

  • 可靈Web端上線:為用戶提供新一代創意生產力平臺,支持AI圖像和視頻以及視頻編輯功能;

  • 基礎模型效果升級提供更佳精細的人物面部和高清畫質;

  • 圖生視頻支持首尾幀:允許用戶通過設置首尾幀來控制視頻的起始和結束;

  • 相機鏡頭控制功能:新增多種鏡頭運動控制,如旋轉運鏡、水平搖鏡等;

  • 單次生成時長增至10s,是業內對用戶開放使用可實現的最長時長。

在本屆WAIC快手大模型生態論壇上,快手視覺生成與互動中心負責人萬鵬飛就「可靈大模型能力亮點」和「可靈大模型技術方案」分別做了細致介紹,并分享了對視頻生成未來發展趨勢的觀點。

圖片

一、可靈大模型能力亮點

大幅度且合理的運動生成能力。可靈采用了3D時空聯合注意力機制,能夠更好地建模視頻中的復雜時空運動。因此,可靈大模型不僅能夠生成較大幅度的運動,且更符合客觀運動規律,能夠真正做到讓想象力動起來。得益于更充分的模型訓練,可靈的運動生成效果得到進一步提升。視頻中的小貓能夠靈活的轉動身體,爪子和身體的擺動逼真,運動軌跡自然流暢,為我們展現了小貓憨態可掬的形象。

圖片

prompt:一只小貓在溫馨的房間內轉動身體,形態憨態可掬

分鐘級的長視頻能力。可靈大模型的自研3D VAE能夠將視頻編碼到緊湊的隱空間并解碼成帶有豐富細節的視頻,可以生成高達1080p分辨率30fps的視頻,無論是浩瀚壯闊的宏大場景,還是細膩入微的特寫鏡頭,都能夠生動呈現。下面是小男孩吃漢堡的生成視頻,漢堡被咬出一個明顯的缺口,在視頻的每一幀中都清晰可見。我們還能看到小孩咀嚼漢堡的享受表情,特別是逼真的臉部肌肉動態。得益于算法和工程的深度聯合優化,單次生成的視頻長度從5s提升到10s。

圖片

prompt:一個戴眼鏡的中國男孩在快餐店內閉眼享受美味的芝士漢堡

能夠模擬真實物理世界的特性。得益于自研模型架構及Scaling Law激發出的強大建模能力,可靈能夠生成符合物理規律的視頻。得益于更充分的模型訓練,可靈對復雜物理規律的建模能力有提升。在視頻中,廚師握刀的手法與日常生活中的場景別無二致,在切菜的過程中還有短暫的停頓和姿勢的調整,節奏變化使其更符合真實世界中日常做飯的行為習慣。

圖片

prompt:一名廚師在廚房用菜刀在案板上熟練地切著洋蔥

概念組合和指令響應能力強。基于對文本-視頻語義的深刻理解和 Diffusion Transformer 架構的強大能力,可靈能夠將用戶豐富的想象力轉化為具體的畫面,虛構真實世界中不會出現的場景。得益于效果更優的文本數據和編碼方案,可靈對用戶提示詞的響應能力有提升。在構建的虛擬場景里,濃煙的光影和細節處理使人如臨其境,隨后從濃煙中緩緩走出的機器人極其富有視覺沖擊力,能夠將心中的虛擬世界精準表達。

圖片

prompt:一個高大的金屬機器人從滾滾濃煙中走出來

電影級的畫面生成。基于自研3D VAE,可靈能夠生成1080p分辨率的電影級視頻,無論是浩瀚壯闊的宏大場景,還是細膩入微的特寫鏡頭,都能夠生動呈現。視頻中的特寫鏡頭細膩地展現了小狗毛發的質感和光澤,同時還原了現實世界中小狗的眼神和動作,顯得尤為生動可愛。得益于更高的訓練時空分辨率,視頻生成細節、構圖和運鏡美觀性、以及光影表現得到了顯著提升。

圖片

prompt:一只戴眼鏡的小狗在房間內看書,時不時抬頭看向鏡頭

領先的圖生視頻效果。支持設置首幀和尾幀,動作自然流暢,且畫質顯著升級。可靈圖生視頻模型以卓越的圖像理解能力為基礎,將靜態圖像轉化為生動的5秒精彩視頻。只需上傳首尾兩張圖片,配上創作者不同的文本輸入,即生成多種多樣的運動效果,讓視覺創意無限延展。畫面中的面條從兩張靜態圖生成為一小段栩栩如生的視頻,面條被撒上了各種調味料,這段視頻不僅構建了清晰合理的邏輯線,也生動形象地展示了美味佳肴。

圖片

prompt:盤子里的面條被撒上了芝士和番茄醬

優秀的視頻生成可控性。得益于靈活擴展的網絡架構,可靈支持對視頻生成進行精準的相機鏡頭控制。賦予創作者前所未有的自由度與精細度,目前可靈已支持旋轉運鏡、垂直搖鏡、水平搖鏡在內的六種鏡頭控制方式。隨著參數輸入的變化,視頻運動幅度將展現出更加生動、激烈的效果。在下方的視頻中,一個小女孩開心地坐在草地上看書,一邊往后拉遠相機,一邊先輕微下移,然后大幅度上移鏡頭。而跟隨著鏡頭的變化,不僅展現了小女孩真切的笑容,也讓我們看到了一幅生機勃勃的大自然景象。

圖片

prompt:一個面帶笑容的外國小女孩坐在大樹下看書,鏡頭逐漸拉遠展現出周圍生機勃勃的大自然環境。

二、可靈大模型技術方案

可靈大模型呈現出的這些能力亮點,離不開技術上的洞察和創新,可靈大模型整體的技術方案如下:

1、模型設計方面

一個至關重要的步驟是進行信號的表征轉換。鑒于三維視頻信號中摻雜著大量的信息冗余,這些冗余對模型學習構成不利影響,因此首要任務是通過隱空間編解碼技術處理這一問題。這一方法不僅可以剔除不必要的信息冗余,還能顯著提升計算效率。為此,可靈團隊自主研發了一種3D的VAE架構,該架構能夠實現對視頻數據的高效壓縮,并展現出多項附加的有益特性。在網絡基礎架構層面,可靈采用了基于Transformer的網絡框架,以執行擴散模型的復雜計算,實踐驗證顯示,該模型展現出卓越Scaling Law特性。針對時序信息的精準建模,可靈創新性地引入了時空融合的3D注意力機制。這一機制在時間和空間兩個維度上全面部署attention計算,極大地拓寬了模型的感知范圍,并顯著增強了其對復雜動態場景的建模能力。此外,文本的編碼與處理同樣不容忽視,作為信息傳遞的關鍵一環,可靈部署了專有的大語言模型(LLM),該模型對于文本信息進行編碼、注入以及擴展,確保文本與視頻內容的深度融合與精準映射,從而進一步提升整個系統的綜合性能。

2、數據保障方面

對于大型模型而言,數據是基石,尤其是在視頻處理領域,數據的規模、量級及處理的復雜性都達到前所未有的高度。為此,可靈構建了一個海量數據平臺,該平臺能夠全流程、自動化、高效率對數據進行管理和處理,這顯著地提升了數據處理效率。此外可靈團隊自研了一套多維度的標簽系統,用于深入理解、感知、處理和篩選視頻數據,確保數據質量和分布合理,為后續模型訓練奠定了堅實基礎。對于視頻生成模型,除了視頻數據本身,精準的文本描述也是不可或缺的。可靈自研了視頻Captioner模型,該模型能夠生成高完整度、高準確度的視頻文本描述。在效果評估模型階段,可靈采用了數據驅動的視頻質量評價方案,以指導模型迭代優化,確保模型性能穩定提升。

3、計算效率方面

視頻處理的數據量和計算量相較于其他模態來說要大得多。因此,如何保證高效的計算效率成為了一個重要課題。首先,在算法層面,可靈沒有采用DDPM等傳統擴散模型計算方案,轉而采用了從原始分布到目標分布的傳輸路徑更短的flow-based模型,提升了訓練和推理的效率。其次,在工程層面,可靈構建了一套的分布式訓練集群,快手工程師對計算顯存帶寬進行了深度的優化,同時支持自動故障恢復,保障了訓練的連續性和穩定性。最后,在訓練策略方面,可靈采用了一個分階段訓練策略,這使得在有限的算力和時間下,模型能夠充分利用好數據量和質的優勢。

4、能力擴展方面

能力擴展方面,可靈支持各種各樣可變的視頻的分辨率,在輸入端保障視頻結構在訓練過程不會被破壞,在輸出端可以靈活輸出各類不同的寬高比的視頻,以適配不同的應用場景需求。此外,可靈天然具備視頻時序延展能力,支持多種應用模式,包括視頻續寫、圖像生視頻等。正如先前所展示,可靈具備豐富的控制能力,涵蓋了相機、結構、ID識別等多個維度,為用戶提供了靈活多變的操作空間。

三、展望未來

展望未來,視頻生成的效果和技術將持續高速進化。隨著視頻生成的效果逐步逼近傳統圖形渲染與相機拍攝,將為泛視頻行業帶來巨大的機遇與變革。隨著效果提升與成本降低,視頻內容的創作與消費界限趨于模糊,這一變化將極大地促進內容供給的多元化與視頻平臺生態的繁榮。更為深遠的是,視頻生成技術有望成為高度仿真的“世界模擬器”,為具身智能提供仿真環境,推動AI與機器人技術深度融合。生成式AI基礎算法也將持續迭代升級,未來會出現綜合性能更優的生成算法與網絡結構。另外,多模態理解與生成技術的融合趨勢也日益明顯,未來統一的多模態輸入輸出系統將進一步推動AI技術的效果提升與應用拓展。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/44483.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/44483.shtml
英文地址,請注明出處:http://en.pswp.cn/web/44483.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

修正版頭像上傳組件

修正版頭像上傳組件 文章說明核心源碼展示運行效果展示源碼下載 文章說明 在頭像剪切上傳一文中,我采用div做裁剪效果,感覺會有一些小問題,在昨天基于canvas繪制的功能中改進了一版,讓代碼變得更簡潔,而且通用性相對高…

永恒之藍:一場網絡風暴的啟示

引言 在網絡安全的漫長歷史中,“永恒之藍”(EternalBlue)是一個不可忽視的里程碑事件。它不僅揭示了網絡世界的脆弱性,還促使全球范圍內對網絡安全的重視達到了前所未有的高度。本文將深入探討“永恒之藍”漏洞的起源、影響及其對…

【WebGIS】從設計層面設計系統

本項目在通過現代信息技術手段,對古村古鎮進行多方位、多角度的數字化記錄、展示與傳播,實現文化遺產的數字化保護、活化利用與共享。項目內容主要包括:1)古村古鎮數據庫的建立:通過多種渠道收集古村古鎮的各類信息&am…

期貨量化交易客戶端開源教學第八節——TCP通信服務類

private FReciveStr: AnsiString; {接收到的數據} IsConErr: Boolean; {網絡連接是否失敗} FSocket_LB: Integer; {TCP連接類別,0為交易,1為行情,2為查詢} FRetryCount: Integer; {網絡連接重試次數} FLoginErrEvent: TLoginErrEvent; {…

如何從 PDF 中刪除背景

您是否曾經收到過充滿分散注意力背景的掃描 PDF 文檔?也許是帶有繁忙水印的舊收據或背景光線不均勻的掃描文檔。雖然這些背景可能看起來沒什么大不了的,但它們會使您的工作空間變得混亂,并使您難以專注于重要信息。輕松刪除這些不需要的元素并…

短視頻SEO矩陣系統:源碼開發與部署全攻略

在數字化時代,短視頻已成為人們獲取信息、娛樂休閑的重要方式。隨著短視頻平臺的興起,如何讓自己的內容在眾多視頻中脫穎而出,成為每個創作者和內容運營者關注的焦點。本文將為您深入解析短視頻SEO矩陣系統的源碼開發與部署,助您在…

MT6825磁編碼IC在智能雙旋機器人中的應用

MT6825磁編碼IC在智能雙旋機器人中的應用,無疑為這一領域的創新和發展注入了新的活力。作為一款高性能的磁性位置傳感器,MT6825以其獨特的優勢,在智能雙旋機器人的運動控制、定位精度以及系統穩定性等方面發揮了關鍵作用。 www.abitions.com …

django ninja get not allowed 能用 put delete

遇到一個奇怪的問題,django-ninja 編寫的 get post 方法不能使用 # 獲取Material router.get(/material, responseList[MaterialSchemaOut]) paginate(MyPagination) def list_material(request, filters: Filters Query(...)):qs retrieve(request, Material, f…

Midjourney v6.5 可能會在“7月底”發布,并改進了真實感和皮膚紋理

Midjourney v6.5即將發布,這一更新將大幅提升圖像的真實感和皮膚紋理,為用戶帶來更逼真的視覺體驗。首席執行官David Holz在電話會議中宣布,新版本將提高圖像清晰度,特別是在手部和皮膚細節上,同時改進Web應用程序和個…

ABAP調用BAPI時COMMIT WORK AND WAIT未按照預期同步提交問題分析

背景: 在做ABAP開發時,經常會有連續調用BAPI的需求,比如先創建銷售訂單,再依據銷售訂單創建交貨單,再對交貨單進行過賬等類似的一連串調用,這種類似的場景往往需要前一步操作的數據完全寫入數據庫才能進行…

編譯打包自己的云手機(redroid)鏡像

前言 香橙派上跑云手機可以看之前的文章: 香橙派5plus上跑云手機方案一 redroid(帶硬件加速)香橙派5plus上跑云手機方案二 waydroid 還有一個cuttlefish方案沒說,后面再研究,cuttlefish的優勢在于可以自定義內核且selinux是開啟的&#xf…

vue3下載base64文件

如果后端明確告訴你返回的是base64,那請求頭就不用帶responseType: “blob”,和普通的接口一樣發送就行 await materialsFile({ id: proxy.$route.query.id }).then((res) > {if (res) {// atob先解碼base64數據const raw window.atob(res.data);// 獲取解碼后…

vscode 遠程開發

目錄 vscode 遠程連接 選擇 Python 環境 vscode 遠程連接 按 CtrlShiftP 打開命令面板。輸入并選擇 Remote-SSH: Open SSH Configuration File...。選擇 ~/.ssh/config 文件(如果有多個選項)。在打開的文件中添加或修改你的 SSH 配置。 這個可以右鍵…

Jupyter Notebook基礎:用IPython實現動態編程

Jupyter Notebook基礎:用IPython實現動態編程 1. 引言 Jupyter Notebook是一個基于Web的交互式計算環境,允許用戶創建和共享包含實時代碼、方程式、可視化和文本敘述的文檔。它廣泛應用于數據清洗與轉換、數值模擬、統計建模、機器學習以及其他數據科學…

開放開源開先河(一)

2022年7月28日,以“軟件定義世界 開源共筑未來”為主題的全球數字經濟大會開放原子開源峰會在北京開幕,承辦主峰會和為捐贈人進行授牌儀式的開放原子開源基金會再次進入公眾視野。基金會秘書長孫文龍從匯聚全球產業鏈開源力量、核心鏈接能力、開發者分享…

Aop切面編程(2)--代理模式

1、代理模式的理解:不修改A對象的代碼的基礎上,對A代碼塊進行拓展。通過創建ProxyA代理對象,拓展A對象并調用A對象的核心功能; 即:不修改對象的源碼基礎上,創建代理對象,進行功能的附加和增強&…

端到端擁塞控制的本質

昨天整理了一篇 bbr 的微分方程組建模(參見 bbr 建模),算是 bbr 算法終極意義上的一個總結,最后也順帶了對 aimd 的描述,算是我最近比較滿意的一篇分享了。那么接下來的問題,脫離出具體算法,上升到宏觀層面&#xff0c…

git reset hard和soft的使用和區別

在Git中,git reset命令用于撤銷提交、回溯版本和調整工作目錄或暫存區狀態,而不是gitrestore。git reset主要有三種模式:--soft、--mixed(默認)和--hard。以下是關于--hard和--soft兩種模式的使用方法和區別的詳細解釋…

uniapp微信小程序 TypeError: $refs[ref].push is not a function

我的寫法 this.$refs.addPopup.open();報錯 打印出來是這樣的 解決 參考未整理 原因 在當前頁面使用的v-for循環 并且循環體內也有組件使用了ref(而我沒有把每個ref做區別命名) 這樣就導致了我有很多同名的ref,然后就報錯了 解決辦法&a…

AI人工智能作詞,為音樂注入未來之力

在當今的音樂世界中,創新的力量不斷推動著邊界的拓展,而人工智能作詞正以其獨特的魅力,成為引領音樂走向未來的強大動力。 “妙筆生詞智能寫歌詞軟件(veve522)”無疑是這股浪潮中的璀璨明星。它利用先進的人工智能技術…