開啟AI短劇新紀元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個面向AI短劇的視頻生成模型

論文鏈接：https://arxiv.org/abs/2502.10841
項目鏈接：https://skyworkai.github.io/skyreels-a1.github.io/
Demo鏈接：https://www.skyreels.ai/
開源地址：https://github.com/SkyworkAI/SkyReels-A1
https://github.com/SkyworkAI/SkyReels-V1

亮點直擊

提出了SkyReels-A1，一種用于肖像動畫的全新框架，采用DiT（擴散Transformer）架構，以提升運動傳遞精度、身份保留和時間一致性的保真度。該框架結合了基于表情標志點的動態條件模塊，以及連接視覺-文本語義空間的跨模態對齊機制。

分階段的訓練方法被設計用于逐步優化運動-表情相關性以及主體特定特征的不變性。

通過一系列全面的實驗評估了SkyReels-A1的性能，結果表明其能夠生成高效的結果，并展現出對各種組合變化的無縫適應性。最后，為了支持進一步的研究和行業應用，代碼和演示材料均已公開提供。

總結速覽

解決的問題

身份失真：現有方法在動畫生成過程中難以保持人物身份的穩定性，導致身份信息泄露或扭曲。
背景不穩定：動畫生成時背景容易出現抖動或不一致的現象。
面部表情不真實：特別是在僅頭部動畫的場景中，面部表情缺乏真實感。
全身動畫的挑戰：當動畫擴展到全身時，現有方法容易產生視覺偽影或不自然的動作。
身份與運動融合的困難：現有方法難以在保持身份一致性的同時，實現細膩的表情和動作生成。

提出的方案

基于視頻擴散Transformer（DiT）的框架：利用DiT的強大生成能力，提升面部運動傳遞的精度、身份保留和時間一致性。
表情感知條件模塊：通過表情引導的標志點輸入驅動連續視頻生成，增強表情與動作的關聯性。
面部圖像-文本對齊模塊：深度融合面部特征與運動軌跡，強化身份一致性。
多階段訓練策略：逐步優化表情與運動的相關性，同時確保身份穩定再現。
統一潛在空間建模：在單一潛在空間中聯合建模面部細節和全身動態，解決身份漂移和背景不一致問題。

應用的技術

視頻擴散Transformer（DiT）：利用其強大的生成能力和時間一致性建模能力。
表情感知標志點序列：作為條件輸入，驅動細膩的表情生成。
圖像-文本對齊技術：增強面部特征與運動軌跡的融合。
多階段訓練范式：分階段優化姿勢準確性、身份穩定性和運動真實性。
模塊化設計：便于集成到實時視頻編輯系統和個性化虛擬化身平臺。

達到的效果

高質量動畫生成：生成高保真、富有表現力的肖像動畫，適應多樣化的身體比例。
身份一致性：在動畫過程中保持人物身份的完整性，避免身份失真。
自然的表情與動作：實現細膩的面部表情和自然的全身動作，提升動畫的真實感。
廣泛的適用性：適用于虛擬化身、遠程通信、數字媒體生成等多種應用場景。
優于現有方法：在定量評估和用戶研究中表現優異，特別是在處理復雜解剖結構和微表情方面。
模塊化與易集成性：便于集成到下游應用中，如實時視頻編輯和個性化虛擬化身平臺。

方法

SkyReels-A1框架概述

給定輸入視頻序列和參考肖像圖像，從視頻中提取表情感知的面部標志點，這些標志點作為運動描述符，用于將表情傳遞到肖像上。本文的方法基于DiT（擴散Transformer）的條件視頻生成框架，將這些表情感知的面部標志點直接集成到輸入潛在空間中。與先前的研究一致，采用了在VAE（變分自編碼器）架構中構建的姿態引導機制。該組件將表情感知的面部標志點編碼為DiT框架的條件輸入，從而使模型能夠捕捉關鍵的低維視覺屬性，同時保持面部特征的語義完整性。

表情感知關鍵點

本文為肖像動畫引入了一種類似的基于面部關鍵點的運動條件輸入。精準的面部表情運動表征是實現富有表現力的肖像動畫的基礎，它能夠捕捉人類情感和微表情的細微變化，從而顯著提升動畫頭像的真實感和情感共鳴。目前的擴散模型方法主要在訓練過程中使用 2D 面部關鍵點 作為運動表征，但這類方法存在關鍵限制：

2D 關鍵點的推理依賴性 —— 由于推理階段仍然依賴 2D 關鍵點，目標表情與參考肖像之間容易出現錯位，導致 表情不匹配 和 身份泄漏偽影。
3D 關鍵點提取的精度不足 —— 現有方法使用 MediaPipe 等第三方工具從視頻序列中提取 3D 關鍵點，但這些方法往往缺乏捕捉細粒度表情細節和復雜面部動態的精度，尤其是在 非正面視角 和 極端表情 情況下。

為了解決上述問題，本文提出了 3D Facial Expressions，一個集成神經渲染模塊的框架，以提升重建面部表情的精度與真實感。不同于依賴可微分渲染（differentiable rendering）的傳統方法，我們用 神經渲染機制 取代這一組件，使得模型能夠更高效地學習，并具備更強的泛化能力，適應多樣的面部表情。該架構能夠提取 高精度 3D 關鍵點，以更高的保真度捕捉復雜的運動細節和面部動態。借助這一優化的運動表征，本文的方法顯著增強了肖像動畫的真實感，同時確保 更精準的表情匹配、身份一致性和多場景適應性。

3D 關鍵點引導模塊

為了確保驅動信號與輸入視頻潛在表示（latent representations） 之間的時空一致性，我們提出 時空對齊關鍵點引導模塊（Spatio-temporal Alignment Landmark Guide Module）。該模塊的核心組件是 3D 因果編碼器（3D causal encoder），通過精細調優，該編碼器能夠更有效地捕捉驅動信號的運動表征，確保運動信號與輸入視頻潛在特征之間的精準對齊。

該模塊通過 3D 因果編碼器 直接投影 驅動信號，使其與視頻潛在特征共享同一個潛在空間。這種共享表征 彌合了運動信號與生成視頻幀之間的鴻溝，確保時空動態的同步性。此外，進一步的 精細調優 強化了編碼器對復雜運動模式的捕捉能力，從而提升運動遷移的真實性和細節還原度。

這一方法不僅確保 精準的運動對齊，還能在生成的視頻中保持 身份一致性和運動穩定性，從而實現高質量、時序穩定的肖像動畫。

面部圖像-文本對齊

在現有的肖像動畫方法中，在改變面部表情的同時保持身份一致性仍然是一個亟待深入研究的挑戰。早期的方法主要通過 跨注意力機制（cross-attention） 和 身份保持適配器（identity-preserving adapters） 來增強身份一致性。然而，我們發現此類方法不僅 訓練難度較大，還 引入了大量額外參數，增加了計算開銷。

受CogVideoX架構的啟發，我們在表情生成過程中，通過在輸入階段拼接面部圖像和視頻的嵌入（embeddings）來提升身份一致性。這種方法不僅能夠增強身份保持能力，還可以無縫繼承預訓練基礎模型的能力。

為此，本文引入了一個 輕量級的可學習映射模塊，該模塊采用 多層感知機（MLP）P，用于將面部特征映射到文本特征空間。

其中，是由視覺編碼器Evision提取的 身份嵌入（identity embedding），該編碼器基于預訓練的圖像-文本模型。由于能夠捕捉精細的面部特征，而視覺特征（visual）則涵蓋更廣泛的面部信息，并且對光照、遮擋等外部因素的敏感度較低，因此融合這兩類信息能夠提升生成結果中面部特征的準確性。

實驗

本節首先概述了實驗的實施細節，包括數據來源、數據過濾過程、基線模型以及實驗中使用的基準。然后展示了與選定基線模型的對比實驗結果，以驗證所提出模塊的有效性。

實驗設置

實施細節：基于先進的視頻擴散Transformer模型CogVideoX-5B進行訓練，使用收集的數據集與公開數據集的組合。在多階段訓練過程中，第一階段訓練2K步，第二階段訓練2K步，最后階段訓練1K步，批量大小為512。前兩個階段的學習率設置為1e-5，最后階段降至1e-6，使用AdamW優化器。實驗在32臺NVIDIA A800 GPU上進行。在推理過程中，使用DDIM采樣器，并將無分類器引導的尺度設置為3。實驗中使用的靜態參考圖像由Flux生成，并來源于Pexels。

數據集來源：訓練視頻片段來源于NeRSemble數據集、HDTF、DFEW、RAVDESS、Panda70M以及從互聯網上收集的約1W個角色視頻片段。

數據過濾：在數據預處理階段，實施了一系列細致的過濾步驟，以確保視頻-文本數據集的質量和適用性。工作流程包括三個階段：單角色提取、運動過濾和后處理。首先，選擇單角色視頻，并使用現有工具清理視頻內容，解決相機捕捉偽影和背景噪聲等問題。然后使用MediaPipe檢測的面部關鍵點提取頭部姿態信息和嘴部標志點。通過計算頭部角度和嘴部變化，篩選出具有顯著面部表情和頭部運動的樣本。最后，基于前幾步檢測到的面部位置，我們將視頻裁剪或填充至固定分辨率480×720，以滿足模型的輸入要求。從每個視頻中隨機選擇一幀，并使用clip編碼器將面部編碼為嵌入向量，為模型提供必要的面部特征信息。

基線模型：為了全面評估SkyReels-A1在不同場景下的性能，將其與多個肖像動畫基線模型進行比較，包括開源解決方案LivePortrait、Follow-Your-Emoji以及閉源商業產品Runway Act One。

評估指標

為了衡量肖像動畫結果的泛化質量和運動準確性，本文采用了三個指標分別評估身份相似性、圖像質量以及表情和頭部姿態的準確性。具體來說：

身份保留：使用FaceSim-Arc和FaceSim-Cur分數，計算源圖像與生成圖像之間的余弦相似度。
圖像質量：使用預訓練網絡結合FID（Fréchet Inception Distance）進行評估。
運動準確性：通過比較驅動幀和生成幀之間提取的面部混合形狀（blendshapes）和頭部姿態的L1差異，使用FaceAnalysis3和OpenPose4工具進行評估。

與基線模型的比較

定量結果：本文進行了跨身份運動傳遞的實驗，其中參考肖像從100張野外圖像中隨機選擇，驅動序列則來自我們的測試數據集。下表1展示了定量評估結果。本文提出的模型在生成保真度和運動精度方面均優于基于擴散和非擴散的方法。通過引入視頻擴散Transformer作為先驗，SkyReels-A1在圖像質量上取得了顯著提升，超越了現有方法（閉源商業模型Act-One除外）。

定性結果：下圖4展示了肖像動畫的定性比較，補充了自動化評估指標的結果。前兩個示例突出了模型在驅動或源肖像存在顯著姿態變化時仍能準確傳遞運動的魯棒性。第三和第四個案例中，模型有效地捕捉并傳遞了細膩的面部表情（如嘴唇運動和眼神），同時保持了原始肖像的視覺一致性。此外，最后一個案例表明，通過集成拼接技術，模型在動畫全身圖像時表現出更高的穩定性，即使參考肖像的面部區域較小。

用戶研究

為了進一步驗證SkyReels-A1模型在運動準確性和表現力方面的優越性，進行了用戶研究，招募了來自不同地理區域的20名參與者對合成視頻進行評估。每位參與者回答了一系列比較問題，評估兩個關鍵方面：運動準確性和人類相似性。評估過程中明確告知模型名稱，參與者被要求選擇最能準確復制驅動序列表情和運動的視頻。在收集的100份反饋中，63%的參與者更傾向于選擇SkyReels-A1，證實了其在保留面部表情和姿態保真度方面的增強能力優于現有基線模型。

使用

clone代碼&準備環境：

git?clone?https://github.com/SkyworkAI/SkyReels-A1.git
cd?SkyReels-A1#?create?env?using?conda
conda?create?-n?skyreels-a1?python=3.10
conda?activate?skyreels-a1

下載依賴：

pip?install?-r?requirements.txt

下載預訓練weights

#?!pip?install?-U?"huggingface_hub[cli]"
huggingface-cli?download?SkyReels-A1?--local-dir?local_path?--exclude?"*.git*"?"README.md"?"docs"

推理

執行腳本

python?inference.py

如果腳本運行成功，可以得到一個輸出 mp4 文件。該文件包含以下結果：視頻、輸入圖像或視頻以及生成的結果。

結論

本研究提出了 SkyReels-A1，一種基于視頻擴散Transformer的創新肖像動畫框架。通過融合運動與身份表征，本文的方法在細微和夸張的面部表情生成方面均實現了高保真度。通過廣泛的自動評估和用戶評測，我們驗證了模型在不同定制場景下的魯棒性和適應性。我們期待這些具有前景的結果能夠推動肖像動畫應用的發展。