國產AI新突破!全球首款無限時長電影生成模型SkyReels-V2開源:AI視頻進入長鏡頭時代!

在?AI?技術日新月異的今天,我們再次見證了歷史性的突破。

昆侖萬維?SkyReels?團隊于近日正式發布了全球首款支持無限時長的電影生成模型——SkyReels-V2并免費開源這無疑為?AI?視頻領域掀開了嶄新的一頁,標志著?AI?視頻正式邁入長鏡頭時代

圖片

突破時長限制:AI視頻的里程碑式跨越

SkyReels-V2?模型集成了多模態大語言模型(MLLM)、多階段預訓練、強化學習以及創新的擴散強迫(Diffusion-forcing)框架,實現了在提示詞遵循、視覺質量、運動動態以及視頻時長等方面的全面突破。

此前,視頻生成大模型往往存在時長的限制。因此,生成的視頻大多為幾秒到一分鐘左右的短視頻,以?Sora?這樣的行業標桿為例,能生成?60?秒視頻,但受限于閉源和物理規律模擬的不足

而?SkyReels-V2?通過擴散強迫框架多階段優化技術,首次實現單鏡頭?30?秒、40?秒的流暢輸出,并通過Extend無限延伸,徹底打破時長枷鎖

那么?SkyReels-V2?是如何實現無限時長的呢?

舉個例子,我們可以先通過一句提示詞生成?30?秒視頻,然后基于這個視頻,通過Extend增加下一個鏡頭的提示詞:

圖片

視頻將在原有內容不變的基礎上,增加幾秒的片段,最后,通過一次次的提示,不斷增加視頻時長,直至生成一個具有電影級效果的長視頻。

這一技術突破不僅將?AI?視頻生成從幾秒的碎片化動態推向了影視級長鏡頭時代,更在提示詞理解、運動連貫性、鏡頭語言表達等維度實現了質的飛躍。

在視覺質量上,SkyReels-V2?達到了好萊塢級別的畫質,為觀眾帶來了極致的觀影體驗。

圖片

【圖片來源于網絡,侵刪】

而在運動動態方面,通過強化學習訓練,模型能夠生成流暢且逼真的視頻內容,滿足電影制作中對高質量運動動態的需求。

值得一提的是,SkyReels-V2?支持無限時長的視頻生成這一特性徹底打破了現有技術在視頻時長上的限制,為長視頻的逼真合成和專業電影風格的生成提供了可能性。

技術內核:如何實現電影級理解?

為了提高提示詞遵循能力,團隊設計了一種結構化的視頻表示方法,將多模態?LLM?的一般描述與子專家模型的詳細鏡頭語言相結合。這種方法能夠識別視頻中的主體類型、外觀、表情、動作和位置等信息,從而更準確地理解并生成符合要求的視頻內容。

傳統?AI?視頻模型依賴通用多模態大語言模型(MLLM),難以解析電影專業術語。為此,團隊訓練了一個統一的視頻理解模型?SkyCaptioner-V1,它能夠高效地理解視頻數據,生成符合原始結構信息的多樣化描述。這相當于讓?AI?首次用導演的視角,根據文本指令生成具備專業敘事感的畫面。

在視頻理解測試集上的模型綜合性能比較中,SkyCaptioner-V1 表現優異,超越了 SOTA 的模型。

圖片

在運動質量優化方面,SkyReels-V2?采用了強化學習訓練,通過偏好優化提升運動動態質量。同時,為了降低數據標注成本,團隊設計了一個半自動數據收集管道,能夠高效地生成偏好對比數據對,進一步提升模型在運動動態方面的

效果。

圖片

同時,為了實現長視頻生成能力,SkyReels-V2?提出了一種創新的擴散強迫后訓練方法。通過微調預訓練的擴散模型,并將其轉化為擴散強迫模型。這一創新使得?SkyReels-V2?能夠生成幾乎無限時長的高質量視頻內容,為長視頻的逼真合成提供了強有力的技術支持。

SkyReels-V2?的開源,為 AI 創作帶來了新的轉變。

當 AI 模型能夠完成難度更高的細節處理,且視頻時長不受限制時,人類就可以將更多精力投入到更高層次的思維活動中,從而創作出更能體現人類獨特性的藝術作品。

AI視頻的長鏡頭時代已經到來

SkyReels-V2?的發布和開源,標志著?AI?視頻邁入了長鏡頭時代。這一突破性的技術成果不僅為觀眾帶來了更加逼真和流暢的觀影體驗,還為創作者提供了更加便捷和高效的創作工具。

隨著技術的不斷進步和應用場景的不斷拓展,相信?AI?視頻將在未來發揮更加重要的作用和影響,AI 創作的邊界也將不斷被打破。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/77803.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/77803.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/77803.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SpringAI系列 - MCP篇(一) - 什么是MCP

目錄 一、引言二、MCP核心架構三、MCP傳輸層(stdio / sse)四、MCP能力協商機制(Capability Negotiation)五、MCP Client相關能力(Roots / Sampling)六、MCP Server相關能力(Prompts / Resources / Tools)一、引言 之前我們在接入大模型時,不同的大模型通常都有自己的…

一個很簡單的機器學習任務

一個很簡單的機器學習任務 前言 基于線上colab做的一個簡單的案例,應用了線性回歸算法,預測了大概加州3000多地區的房價中位數 過程 先導入了Pandas,這是一個常見的Python數據處理函數庫 用Pandas的read_csv函數把網上一個共享數據集&…

【第十六屆 藍橋杯 省 C/Python A/Java C 登山】題解

題目鏈接:P12169 [藍橋杯 2025 省 C/Python A/Java C] 登山 思路來源 一開始想的其實是記搜,但是發現還有先找更小的再找更大的這種路徑,所以這樣可能錯過某些最優決策,這樣不行。 于是我又想能不能從最大值出發往回搜&#xf…

軟件工程師中級考試-上午知識點總結(上)

我總結的這些都是每年的考點,必須要記下來的。 1. 計算機系統基礎 1.1 碼 符號位0表示正數,符號位1表示負數。補碼:簡化運算部件的設計,最適合進行數字加減運算。移碼:與前幾種不同,1表示,0表…

Python Cookbook-6.7 有命名子項的元組

任務 Python 元組可以很方便地被用來將信息分組,但是訪問每個子項都需要使用數字索引,所以這種用法有點不便。你希望能夠創建一種可以通過名字屬性訪問的元組。 解決方案 工廠函數是生成符合要求的元組的子類的最簡單方法: #若在2.4中可使用operator…

win10設置軟件開機自啟

參考教程:windows10應用程序設置了開機啟動,但沒有自啟_win10軟件設置了自啟動但是不能自啟動-CSDN博客 主要設置是安全策略:

自注意力機制、多頭自注意力機制、填充掩碼 Python實現

原理講解 【Transformer系列(2)】注意力機制、自注意力機制、多頭注意力機制、通道注意力機制、空間注意力機制超詳細講解 自注意力機制 import torch import torch.nn as nn# 自注意力機制 class SelfAttention(nn.Module):def __init__(self, input…

【大模型】Browser-Use AI驅動的瀏覽器自動化工具

Browser-Use AI驅動的瀏覽器自動化工具 1. 項目概述2. 核心架構3. 實戰指南3.1 環境安裝3.2 快速啟動3.3 進階功能 4. 常見問題與解決5. 項目優勢與局限6. 擴展資源7. 總結 1. 項目概述 項目地址:browser-use Browser-Use 是一個開源工具,旨在通過 AI 代…

ubuntu20.04安裝安裝x11vnc服務基于gdm3或lightdm這兩種主流的顯示管理器。

前言:在服務端安裝vnc服務,可以方便的遠程操作服務器,而不用非要插上顯示器才行。所以在服務器上安裝vnc是很重要的。在ubuntu20中,默認的顯示管理器已經變為gdm3,它可以帶來與 GNOME 無縫銜接的體驗,強調功…

用銀河麒麟 LiveCD 快速查看原系統 IP 和打印機配置

原文鏈接:用銀河麒麟 LiveCD 快速查看原系統 IP 和打印機配置 Hello,大家好啊!今天給大家帶來一篇在銀河麒麟操作系統的 LiveCD 或系統試用鏡像環境下,如何查看原系統中電腦的 IP 地址與網絡打印機 IP 地址的實用教程。在系統損壞…

C++——STL——容器deque(簡單介紹),適配器——stack,queue,priority_queue

目錄 1.deque(簡單介紹) 1.1 deque介紹: 1.2 deque迭代器底層 1.2.1 那么比如說用迭代器實現元素的遍歷,是如何實現的呢? 1.2.2 頭插 1.2.3 尾插 1.2.4 實現 ?編輯 1.2.5 總結 2.stack 2.1 函數介紹 2.2 模…

Java并發編程-線程池

Java并發編程-線程池 線程池運行原理線程池生命周期線程池的核心參數線程池的阻塞隊列線程池的拒絕策略線程池的種類newFixedThreadPoolnewSingleThreadExecutornewCachedThreadPoolnewScheduledThreadPool 創建線程池jdk的Executors(不建議,會導致OOM)jdk的ThreadP…

【前沿】成像“跨界”測量——掃焦光場成像

01 背景 眼睛是人類認識世界的重要“窗口”,而相機作為眼睛的“延伸”,已經成為生產生活中最常見的工具之一,廣泛應用于工業檢測、醫療診斷與影音娛樂等領域。傳統相機通常以“所見即所得”的方式記錄場景,傳感器捕捉到的二維圖像…

TM1640學習手冊及示例代碼

數據手冊 TM1640數據手冊 數據手冊解讀 這里我們看管腳定義DIN和SCLK,一個數據線一個時鐘線 SEG1~SEG8為段碼,GRID1~GRID16為位碼(共陰極情況下) 這里VDD給5V 數據指令 數據命令設置 地址命令設置 顯示控制命令 共陰極硬件連接圖…

uni-app 開發企業級小程序課程

課程大小:7.7G 課程下載:https://download.csdn.net/download/m0_66047725/90616393 更多資源下載:關注我 備注:缺少兩個視頻5-14 tabs組件進行基本的數據展示和搜索歷史 處理searchData的刪除操作 1-1導學.mp4 2-10小程序內…

判斷點是否在多邊形內

代碼段解析: const intersect = ((yi > y) !== (yj > y)) && (x < (xj - xi) * (y - yi) / (yj - yi) + xi); 第一部分:(yi > y) !== (yj > y) 作用:檢查點 (x,y) 的垂直位置是否跨越多邊形的當前邊。 yi > y 和 yj > y 分別檢查邊的兩個端…

【redis】集群 如何搭建集群詳解

文章目錄 集群搭建1. 創建目錄和配置2. 編寫 docker-compose.yml完整配置文件 3. 啟動容器4. 構建集群超時 集群搭建 基于 docker 在我們云服務器上搭建出一個 redis 集群出來 當前節點&#xff0c;主要是因為我們只有一個云服務器&#xff0c;搞分布式系統&#xff0c;就比較…

[langchain教程]langchain03——用langchain構建RAG應用

RAG RAG過程 離線過程&#xff1a; 加載文檔將文檔按一定條件切割成片段將切割的文本片段轉為向量&#xff0c;存入檢索引擎&#xff08;向量庫&#xff09; 在線過程&#xff1a; 用戶輸入Query&#xff0c;將Query轉為向量從向量庫檢索&#xff0c;獲得相似度TopN信息將…

C語言復習筆記--字符函數和字符串函數(下)

在上篇我們了解了部分字符函數及字符串函數,下面我們來看剩下的字符串函數. strstr 的使用和模擬實現 老規矩,我們先了解一下strstr這個函數,下面看下這個函數的函數原型. char * strstr ( const char * str1, const char * str2); 如果沒找到就返回NULL指針. 下面我們看下它的…

FreeRTOS中的優先級翻轉問題及其解決方案:互斥信號量詳解

FreeRTOS中的優先級翻轉問題及其解決方案&#xff1a;互斥信號量詳解 在實時操作系統中&#xff0c;任務調度是基于優先級的&#xff0c;高優先級任務應該優先于低優先級任務執行。但在實際應用中&#xff0c;有時會出現"優先級翻轉"的現象&#xff0c;嚴重影響系統…