開啟AI短劇新紀元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個面向AI短劇的視頻生成模型

論文鏈接:https://arxiv.org/abs/2502.10841
項目鏈接:https://skyworkai.github.io/skyreels-a1.github.io/
Demo鏈接:https://www.skyreels.ai/
開源地址:https://github.com/SkyworkAI/SkyReels-A1
https://github.com/SkyworkAI/SkyReels-V1

亮點直擊

  • 提出了SkyReels-A1,一種用于肖像動畫的全新框架,采用DiT(擴散Transformer)架構,以提升運動傳遞精度、身份保留和時間一致性的保真度。該框架結合了基于表情標志點的動態條件模塊,以及連接視覺-文本語義空間的跨模態對齊機制。

  • 分階段的訓練方法被設計用于逐步優化運動-表情相關性以及主體特定特征的不變性。

  • 通過一系列全面的實驗評估了SkyReels-A1的性能,結果表明其能夠生成高效的結果,并展現出對各種組合變化的無縫適應性。最后,為了支持進一步的研究和行業應用,代碼和演示材料均已公開提供。

總結速覽

解決的問題

  • 身份失真:現有方法在動畫生成過程中難以保持人物身份的穩定性,導致身份信息泄露或扭曲。

  • 背景不穩定:動畫生成時背景容易出現抖動或不一致的現象。

  • 面部表情不真實:特別是在僅頭部動畫的場景中,面部表情缺乏真實感。

  • 全身動畫的挑戰:當動畫擴展到全身時,現有方法容易產生視覺偽影或不自然的動作。

  • 身份與運動融合的困難:現有方法難以在保持身份一致性的同時,實現細膩的表情和動作生成。

提出的方案

  • 基于視頻擴散Transformer(DiT)的框架:利用DiT的強大生成能力,提升面部運動傳遞的精度、身份保留和時間一致性。

  • 表情感知條件模塊:通過表情引導的標志點輸入驅動連續視頻生成,增強表情與動作的關聯性。

  • 面部圖像-文本對齊模塊:深度融合面部特征與運動軌跡,強化身份一致性。

  • 多階段訓練策略:逐步優化表情與運動的相關性,同時確保身份穩定再現。

  • 統一潛在空間建模:在單一潛在空間中聯合建模面部細節和全身動態,解決身份漂移和背景不一致問題。

應用的技術

  • 視頻擴散Transformer(DiT):利用其強大的生成能力和時間一致性建模能力。

  • 表情感知標志點序列:作為條件輸入,驅動細膩的表情生成。

  • 圖像-文本對齊技術:增強面部特征與運動軌跡的融合。

  • 多階段訓練范式:分階段優化姿勢準確性、身份穩定性和運動真實性。

  • 模塊化設計:便于集成到實時視頻編輯系統和個性化虛擬化身平臺。

達到的效果

  • 高質量動畫生成:生成高保真、富有表現力的肖像動畫,適應多樣化的身體比例。

  • 身份一致性:在動畫過程中保持人物身份的完整性,避免身份失真。

  • 自然的表情與動作:實現細膩的面部表情和自然的全身動作,提升動畫的真實感。

  • 廣泛的適用性:適用于虛擬化身、遠程通信、數字媒體生成等多種應用場景。

  • 優于現有方法:在定量評估和用戶研究中表現優異,特別是在處理復雜解剖結構和微表情方面。

  • 模塊化與易集成性:便于集成到下游應用中,如實時視頻編輯和個性化虛擬化身平臺。

方法

SkyReels-A1框架概述

給定輸入視頻序列和參考肖像圖像,從視頻中提取表情感知的面部標志點,這些標志點作為運動描述符,用于將表情傳遞到肖像上。本文的方法基于DiT(擴散Transformer)的條件視頻生成框架,將這些表情感知的面部標志點直接集成到輸入潛在空間中。與先前的研究一致,采用了在VAE(變分自編碼器)架構中構建的姿態引導機制。該組件將表情感知的面部標志點編碼為DiT框架的條件輸入,從而使模型能夠捕捉關鍵的低維視覺屬性,同時保持面部特征的語義完整性。

表情感知關鍵點

本文為肖像動畫引入了一種類似的基于面部關鍵點的運動條件輸入。精準的面部表情運動表征是實現富有表現力的肖像動畫的基礎,它能夠捕捉人類情感和微表情的細微變化,從而顯著提升動畫頭像的真實感和情感共鳴。目前的擴散模型方法主要在訓練過程中使用 2D 面部關鍵點 作為運動表征,但這類方法存在關鍵限制:

  1. 2D 關鍵點的推理依賴性 —— 由于推理階段仍然依賴 2D 關鍵點,目標表情與參考肖像之間容易出現錯位,導致 表情不匹配身份泄漏偽影

  2. 3D 關鍵點提取的精度不足 —— 現有方法使用 MediaPipe 等第三方工具從視頻序列中提取 3D 關鍵點,但這些方法往往缺乏捕捉細粒度表情細節和復雜面部動態的精度,尤其是在 非正面視角極端表情 情況下。

為了解決上述問題,本文提出了 3D Facial Expressions,一個集成神經渲染模塊的框架,以提升重建面部表情的精度與真實感。不同于依賴可微分渲染(differentiable rendering)的傳統方法,我們用 神經渲染機制 取代這一組件,使得模型能夠更高效地學習,并具備更強的泛化能力,適應多樣的面部表情。該架構能夠提取 高精度 3D 關鍵點,以更高的保真度捕捉復雜的運動細節和面部動態。借助這一優化的運動表征,本文的方法顯著增強了肖像動畫的真實感,同時確保 更精準的表情匹配、身份一致性和多場景適應性

3D 關鍵點引導模塊

為了確保驅動信號輸入視頻潛在表示(latent representations) 之間的時空一致性,我們提出 時空對齊關鍵點引導模塊(Spatio-temporal Alignment Landmark Guide Module)。該模塊的核心組件是 3D 因果編碼器(3D causal encoder),通過精細調優,該編碼器能夠更有效地捕捉驅動信號的運動表征,確保運動信號與輸入視頻潛在特征之間的精準對齊。

該模塊通過 3D 因果編碼器 直接投影 驅動信號,使其與視頻潛在特征共享同一個潛在空間。這種共享表征 彌合了運動信號與生成視頻幀之間的鴻溝,確保時空動態的同步性。此外,進一步的 精細調優 強化了編碼器對復雜運動模式的捕捉能力,從而提升運動遷移的真實性和細節還原度。

這一方法不僅確保 精準的運動對齊,還能在生成的視頻中保持 身份一致性和運動穩定性,從而實現高質量、時序穩定的肖像動畫。

面部圖像-文本對齊

在現有的肖像動畫方法中,在改變面部表情的同時保持身份一致性仍然是一個亟待深入研究的挑戰。早期的方法主要通過 跨注意力機制(cross-attention)身份保持適配器(identity-preserving adapters) 來增強身份一致性。然而,我們發現此類方法不僅 訓練難度較大,還 引入了大量額外參數,增加了計算開銷。

受CogVideoX架構的啟發,我們在表情生成過程中,通過在輸入階段拼接面部圖像和視頻的嵌入(embeddings)來提升身份一致性。這種方法不僅能夠增強身份保持能力,還可以無縫繼承預訓練基礎模型的能力。

為此,本文引入了一個 輕量級的可學習映射模塊,該模塊采用 多層感知機(MLP)P,用于將面部特征映射到文本特征空間。

其中, 是由視覺編碼器Evision提取的 身份嵌入(identity embedding),該編碼器基于預訓練的圖像-文本模型。由于 能夠捕捉精細的面部特征,而視覺特征(visual)則涵蓋更廣泛的面部信息,并且對光照、遮擋等外部因素的敏感度較低,因此融合這兩類信息能夠提升生成結果中面部特征的準確性。

實驗

本節首先概述了實驗的實施細節,包括數據來源、數據過濾過程、基線模型以及實驗中使用的基準。然后展示了與選定基線模型的對比實驗結果,以驗證所提出模塊的有效性。

實驗設置

實施細節:基于先進的視頻擴散Transformer模型CogVideoX-5B進行訓練,使用收集的數據集與公開數據集的組合。在多階段訓練過程中,第一階段訓練2K步,第二階段訓練2K步,最后階段訓練1K步,批量大小為512。前兩個階段的學習率設置為1e-5,最后階段降至1e-6,使用AdamW優化器。實驗在32臺NVIDIA A800 GPU上進行。在推理過程中,使用DDIM采樣器,并將無分類器引導的尺度設置為3。實驗中使用的靜態參考圖像由Flux生成,并來源于Pexels。

數據集來源:訓練視頻片段來源于NeRSemble數據集、HDTF、DFEW、RAVDESS、Panda70M以及從互聯網上收集的約1W個角色視頻片段。

數據過濾:在數據預處理階段,實施了一系列細致的過濾步驟,以確保視頻-文本數據集的質量和適用性。工作流程包括三個階段:單角色提取、運動過濾和后處理。首先,選擇單角色視頻,并使用現有工具清理視頻內容,解決相機捕捉偽影和背景噪聲等問題。然后使用MediaPipe檢測的面部關鍵點提取頭部姿態信息和嘴部標志點。通過計算頭部角度和嘴部變化,篩選出具有顯著面部表情和頭部運動的樣本。最后,基于前幾步檢測到的面部位置,我們將視頻裁剪或填充至固定分辨率480×720,以滿足模型的輸入要求。從每個視頻中隨機選擇一幀,并使用clip編碼器將面部編碼為嵌入向量,為模型提供必要的面部特征信息。

基線模型:為了全面評估SkyReels-A1在不同場景下的性能,將其與多個肖像動畫基線模型進行比較,包括開源解決方案LivePortrait、Follow-Your-Emoji以及閉源商業產品Runway Act One。

評估指標

為了衡量肖像動畫結果的泛化質量和運動準確性,本文采用了三個指標分別評估身份相似性、圖像質量以及表情和頭部姿態的準確性。具體來說:

  1. 身份保留:使用FaceSim-Arc和FaceSim-Cur分數,計算源圖像與生成圖像之間的余弦相似度。

  2. 圖像質量:使用預訓練網絡結合FID(Fréchet Inception Distance)進行評估。

  3. 運動準確性:通過比較驅動幀和生成幀之間提取的面部混合形狀(blendshapes)和頭部姿態的L1差異,使用FaceAnalysis3和OpenPose4工具進行評估。

與基線模型的比較

定量結果:本文進行了跨身份運動傳遞的實驗,其中參考肖像從100張野外圖像中隨機選擇,驅動序列則來自我們的測試數據集。下表1展示了定量評估結果。本文提出的模型在生成保真度和運動精度方面均優于基于擴散和非擴散的方法。通過引入視頻擴散Transformer作為先驗,SkyReels-A1在圖像質量上取得了顯著提升,超越了現有方法(閉源商業模型Act-One除外)。

定性結果:下圖4展示了肖像動畫的定性比較,補充了自動化評估指標的結果。前兩個示例突出了模型在驅動或源肖像存在顯著姿態變化時仍能準確傳遞運動的魯棒性。第三和第四個案例中,模型有效地捕捉并傳遞了細膩的面部表情(如嘴唇運動和眼神),同時保持了原始肖像的視覺一致性。此外,最后一個案例表明,通過集成拼接技術,模型在動畫全身圖像時表現出更高的穩定性,即使參考肖像的面部區域較小。

用戶研究

為了進一步驗證SkyReels-A1模型在運動準確性和表現力方面的優越性,進行了用戶研究,招募了來自不同地理區域的20名參與者對合成視頻進行評估。每位參與者回答了一系列比較問題,評估兩個關鍵方面:運動準確性和人類相似性。評估過程中明確告知模型名稱,參與者被要求選擇最能準確復制驅動序列表情和運動的視頻。在收集的100份反饋中,63%的參與者更傾向于選擇SkyReels-A1,證實了其在保留面部表情和姿態保真度方面的增強能力優于現有基線模型。

使用

clone代碼&準備環境:

git?clone?https://github.com/SkyworkAI/SkyReels-A1.git
cd?SkyReels-A1#?create?env?using?conda
conda?create?-n?skyreels-a1?python=3.10
conda?activate?skyreels-a1

下載依賴:

pip?install?-r?requirements.txt

下載預訓練weights

#?!pip?install?-U?"huggingface_hub[cli]"
huggingface-cli?download?SkyReels-A1?--local-dir?local_path?--exclude?"*.git*"?"README.md"?"docs"

推理

執行腳本

python?inference.py

如果腳本運行成功,可以得到一個輸出 mp4 文件。該文件包含以下結果:視頻、輸入圖像或視頻以及生成的結果。

結論

本研究提出了 SkyReels-A1,一種基于視頻擴散Transformer的創新肖像動畫框架。通過融合運動與身份表征,本文的方法在細微和夸張的面部表情生成方面均實現了高保真度。通過廣泛的自動評估和用戶評測,我們驗證了模型在不同定制場景下的魯棒性和適應性。我們期待這些具有前景的結果能夠推動肖像動畫應用的發展。

參考文獻

[1] SkyReels-A1: Expressive Portrait Animation in Video Diffusion Transformers

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/72235.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/72235.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/72235.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

數學建模:MATLAB極限學習機解決回歸問題

一、簡述 極限學習機是一種用于訓練單隱層前饋神經網絡的算法,由輸入層、隱藏層、輸出層組成。 基本原理: 輸入層接受傳入的樣本數據。 在訓練過程中隨機生成從輸入層到隱藏層的所有連接權重以及每個隱藏層神經元的偏置值,這些參數在整個…

Android15音頻進階之定位混音線程丟幀問題(一百零八)

簡介: CSDN博客專家、《Android系統多媒體進階實戰》一書作者 新書發布:《Android系統多媒體進階實戰》?? 優質專欄: Audio工程師進階系列【原創干貨持續更新中……】?? 優質專欄: 多媒體系統工程師系列【原創干貨持續更新中……】?? 優質視頻課程:AAOS車載系統+…

_ 為什么在python中可以當變量名

在 Python 中,_(下劃線)是一個有效的變量名,這主要源于 Python 的命名規則和一些特殊的使用場景。以下是為什么 _ 可以作為變量名的原因和常見用途: --- ### 1. **Python 的命名規則** Python 允許使用字母&#xff…

Electron+Vite+React+TypeScript開發問題手冊

ElectronViteReactTypeScript跨平臺開發全問題手冊 一、開發環境配置類問題 1.1 依賴安裝卡頓(國內網絡環境) 問題現象:執行npm install時卡在node-gyp編譯或Electron二進制包下載階段 解決方案: # 配置國內鏡像源 npm config …

【計算機網絡入門】初學計算機網絡(七)

目錄 1. 滑動窗口機制 2. 停止等待協議(S-W) 2.1 滑動窗口機制 2.2 確認機制 2.3 重傳機制 2.4 為什么要給幀編號 3. 后退N幀協議(GBN) 3.1 滑動窗口機制 3.2 確認機制 3.3 重傳機制 4. 選擇重傳協議(SR&a…

《Python實戰進階》No 8:部署 Flask/Django 應用到云平臺(以Aliyun為例)

第8集:部署 Flask/Django 應用到云平臺(以Aliyun為例) 2025年3月1日更新 增加了 Ubuntu服務器安裝Python詳細教程鏈接。 引言 在現代 Web 開發中,開發一個功能強大的應用只是第一步。為了讓用戶能夠訪問你的應用,你需…

GitLab Pages 托管靜態網站

文章目錄 新建項目配置博客添加 .gitlab-ci.yml其他配置 曾經用 Github Pages 來托管博客內容,但是有一些不足: 在不科學上網的情況下,是沒法訪問的,或者訪問速度非常慢代碼倉庫必須是公開的,如果設置為私有&#xff0…

TVbox蜂蜜影視:智能電視觀影新選擇,簡潔界面與強大功能兼具

蜂蜜影視是一款基于貓影視開源項目 CatVodTVJarLoader 開發的智能電視軟件,專為追求簡潔與高效觀影體驗的用戶設計。該軟件從零開始編寫,界面清爽,操作流暢,特別適合在智能電視上使用。其最大的亮點在于能夠自動跳過失效的播放地址…

形象生動講解Linux 虛擬化 I/O

用現實生活的比喻和簡單例子來解釋 Linux 虛擬化 I/O,就像給朋友講故事一樣。 虛擬化 I/O 要解決什么問題? 想象你有一棟大房子(物理服務器),想把它分割成多個小公寓(虛擬機)出租。每個租客&…

Java內存管理與性能優化實踐

Java內存管理與性能優化實踐 Java作為一種廣泛使用的編程語言,其內存管理和性能優化是開發者在日常工作中需要深入了解的重要內容。Java的內存管理機制借助于垃圾回收(GC)來自動處理內存的分配和釋放,但要實現高效的內存管理和優…

代碼隨想錄算法訓練營第三十天 | 卡碼網46.攜帶研究材料(二維解法)、卡碼網46.攜帶研究材料(滾動數組)、LeetCode416.分割等和子集

代碼隨想錄算法訓練營第三十天 | 卡碼網46.攜帶研究材料(二維解法)、卡碼網46.攜帶研究材料(滾動數組)、LeetCode416.分割等和子集 01-1 卡碼網46.攜帶研究材料(二維) 相關資源 題目鏈接:46. 攜…

nvidia驅動更新,centos下安裝openwebui+ollama(非docker)

查看centos內核版本 uname -a cat /etc/redhat-release下載對應的程序(這個是linux64位版本通用的) https://cn.download.nvidia.cn/tesla/550.144.03/NVIDIA-Linux-x86_64-550.144.03.run cudnn想辦法自己下一下,我這里是12.x和11.x通用的…

【AIGC系列】4:Stable Diffusion應用實踐和代碼分析

AIGC系列博文: 【AIGC系列】1:自編碼器(AutoEncoder, AE) 【AIGC系列】2:DALLE 2模型介紹(內含擴散模型介紹) 【AIGC系列】3:Stable Diffusion模型原理介紹 【AIGC系列】4&#xff1…

51單片機-串口通信編程

串行口工作之前,應對其進行初始化,主要是設置產生波特率的定時器1、串行口控制盒中斷控制。具體步驟如下: 確定T1的工作方式(編程TMOD寄存器)計算T1的初值,裝載TH1\TL1啟動T1(編程TCON中的TR1位…

Windows 10 遠程桌面連接使用指南

目錄 一、引言 二、準備工作 1、確認系統版本 2、服務器端設置 三、客戶端連接 1、打開遠程桌面連接程序 2、輸入連接信息 3、輸入登錄憑證 4、開始使用遠程桌面 四、移動端連接(以 iOS 為例) 1、下載安裝應用 2、添加遠程計算機 3、進行連接…

spring boot打包插件的問題

在spring boot項目中聲明了 <build><plugins><plugin><groupId>org.springframework.boot</groupId><artifactId>spring-boot-maven-plugin</artifactId></plugin></plugins></build> 執行mvn clean package&…

R語言+AI提示詞:貝葉斯廣義線性混合效應模型GLMM生物學Meta分析

全文鏈接&#xff1a;https://tecdat.cn/?p40797 本文旨在幫助0基礎或只有簡單編程基礎的研究學者&#xff0c;通過 AI 的提示詞工程&#xff0c;使用 R 語言完成元分析&#xff0c;包括數據處理、模型構建、評估以及結果解讀等步驟&#xff08;點擊文末“閱讀原文”獲取完整代…

iOS UICollectionViewCell 點擊事件自動化埋點

iOS 中經常要進行埋點&#xff0c;我們這里支持 UICollectionViewCell. 進行自動化埋點&#xff0c;思路&#xff1a; 通過hook UICollectionViewCell 的setSelected:方法&#xff0c; 則新的方法中執行埋點邏輯&#xff0c;并調用原來的方法 直接上代碼 implementation UICol…

課程《MIT Introduction to Deep Learning》

在Youtubu上&#xff0c;MIT Introduction to Deep Learning (2024) | 6.S191 共8節課&#xff1a; (1) MIT Introduction to Deep Learning (2024) | 6.S191 (2) MIT 6.S191: Recurrent Neural Networks, Transformers, and Attention (3) MIT 6.S191: Convolutional Neural N…

Docker 學習(一)

一、Docker 核心概念 Docker 是一個開源的容器化平臺&#xff0c;允許開發者將應用及其所有依賴&#xff08;代碼、運行時、系統工具、庫等&#xff09;打包成一個輕量級、可移植的“容器”&#xff0c;實現 “一次構建&#xff0c;隨處運行”。 1、容器&#xff08;Container…