【字節跳動AI論文】Seaweed-7B：視頻生成基礎模型的高成本效益培訓

摘要：本技術報告介紹了一種經濟有效的視頻生成基礎模型訓練策略。我們提出了一種中等規模的研究模型，大約有70億個參數（7B），稱為Seaweed-7B，使用665,000個H100 GPU小時從頭開始訓練。盡管使用適度的計算資源進行訓練，但與更大規模的當代視頻生成模型相比，Seaweed-7B 表現出極具競爭力的性能。在資源有限的環境中，設計選擇尤為重要。本技術報告重點介紹了提高中型擴散模型性能的關鍵設計決策。根據經驗，我們觀察到兩點：（1）Seaweed-7B的性能可與在大量GPU資源上訓練的大型模型相媲美，甚至超過它們；（2）我們的模型具有很強的泛化能力，可以通過輕量級微調或繼續訓練，有效地適應各種下游應用。請訪問項目頁面Seaweed。Huggingface鏈接：Paper page，論文鏈接：2504.08685

研究背景和目的

研究背景

隨著數字娛樂、通信和現實世界模擬中視頻作為主導媒介的中心地位日益凸顯，視頻生成模型的研究成為了一個引人注目的領域。視頻生成模型的基礎性研究對于提升一系列下游視頻應用的性能具有重要意義，如圖像動畫、視頻編輯和視頻敘事等。近年來，視頻生成模型取得了快速進展，多種訓練方法被提出，如MovieGen、Cosmos和Wan-2.1等。這些方法普遍采用擴散變換器（Diffusion Transformers，DiT），并遵循著擴大模型規模和GPU資源以提高性能的趨勢。然而，這種擴展策略帶來了巨大的訓練成本，例如MovieGen使用了6000多個NVIDIA H100 GPU。這種高昂的訓練成本嚴重阻礙了視頻生成模型的創新和發展。

在自然語言處理、視覺語言模型和音頻基礎模型等領域，研究人員已經發現，通過架構改進和優化訓練策略，小到中型模型可以在基準測試中超越大型語言模型（LLMs）。例如，Mistral7B在多個基準測試中超過了Llama2-13B，DeepSeek v3證明了使用370億參數的激活模型可以超越720億和4200億參數的密集模型，而只需一小部分GPU資源。這些成果啟發我們探索視頻生成領域中的類似效率提升。

研究目的

本研究旨在提出一種經濟高效的視頻生成基礎模型訓練策略。我們訓練了一個中等規模的模型，稱為Seaweed-7B（簡稱Seed Video），它包含大約70億個參數的擴散變換器。通過使用665,000個H100 GPU小時（相當于在1000個H100 GPU上訓練27.7天）進行從頭開始訓練，我們旨在展示在資源有限的環境下，通過精心設計的數據處理、模型架構和訓練策略，中型模型也能實現與大型模型相媲美甚至超越的性能。此外，我們還希望驗證Seaweed-7B作為視頻生成基礎模型的潛力，即其能否支持廣泛的下游應用。

研究方法

數據處理

在資源受限的計算環境中，數據質量和多樣性比數量更為重要。我們構建了一個可擴展的基礎設施來大規模處理視頻數據，并使用各種數據處理器來有效掃描高質量視頻數據。我們的數據管道從多種來源收集視頻數據，并通過時間分割、空間裁剪、質量過濾、多方面數據平衡、視頻去重和視頻標注等步驟來轉化為高質量的訓練數據。特別是，我們通過混合分辨率訓練來提高模型對高分辨率和長持續時間視頻的重建質量。

模型架構

Seaweed-7B由變分自編碼器（VAE）和潛在擴散變換器（DiT）組成。我們采用了具有因果3D卷積編碼器和解碼器的VAE架構，該架構能夠統一圖像和視頻編碼，并支持任意長視頻的編碼和解碼。在DiT方面，我們采用了雙流結構，并通過使用SwiGLU激活函數、AdaSingle時步調制和共享更深層FFN參數來優化參數效率和減少內存成本。此外，我們還探索了不同的注意力機制，包括全注意力、空間全注意力和窗口注意力，以平衡訓練可擴展性和計算成本。

訓練策略

我們采用了從低分辨率到高分辨率的多階段訓練策略。在預訓練階段，我們首先使用低分辨率圖像進行訓練，以建立文本提示與常見視覺概念之間的對齊。然后，我們啟動聯合圖像和視頻訓練，其中圖像和視頻令牌在每個批次中以固定比例混合。在后訓練階段，我們應用監督微調（SFT）和來自人類反饋的強化學習（RLHF）來進一步提高輸出視頻的美學質量、運動一致性和結構連貫性。

優化技術

為了提高訓練效率，我們采用了多種優化技術，包括并行性策略、運行時平衡策略、多級激活檢查點（MLAC）和融合CUDA內核。這些技術共同作用，使得Seaweed-7B在分布式訓練中的模型浮點運算利用率（MFU）達到38%。

研究結果

定量分析

我們在文本到視頻和圖像到視頻生成任務上評估了Seaweed-7B的性能。通過使用MagicArena平臺的人類評估，我們發現Seaweed-7B在圖像到視頻任務中的Elo評分排名第二，僅次于Kling1.6（HD），但超越了包括Sora、Wan-2.1和HunyuanVideo在內的多個大型模型。在文本到視頻任務中，Seaweed-7B也位列前2-3名，性能與Veo 2.0相當，并優于Wan-2.1和Kling1.6（HD）。這些結果表明，盡管使用有限的計算資源進行訓練，Seaweed-7B仍然表現出與大型模型相媲美甚至超越的性能。

定性分析

我們還對Seaweed-7B在各種下游應用中的表現進行了定性分析，包括圖像到視頻生成、人類視頻生成、主題一致的視頻生成、視頻音頻聯合生成、長視頻生成和敘事、實時生成、超分辨率生成和相機控制生成等。結果表明，Seaweed-7B能夠支持廣泛的下游應用，并通過輕量級微調或繼續訓練有效適應這些應用。

推理效率

與Wan-2.1模型相比，我們的模型在推理效率方面表現出色。在單個H100 GPU上，Seaweed-7B的推理時間僅為29.6秒，而Wan-2.1則需要1837.9秒。這表明我們的模型不僅在生成質量上具有競爭力，而且在推理速度上也具有顯著優勢。

VAE重建質量

我們的VAE模型在重建質量方面也表現出色。與最先進的VAE模型相比，我們的模型在rFVD、LPIPS、PSNR和SSIM等指標上均取得了優異的成績。特別是對于高分辨率和長持續時間的真實世界視頻，我們的模型實現了最低的LPIPS值。

研究局限

盡管Seaweed-7B在多個方面表現出色，但其仍存在一些局限性。首先，與大型模型相比，Seaweed-7B在生成精細細節（如小面孔或精細圖案）方面仍有提升空間。這可能是由于計算資源有限導致的。其次，盡管我們采取了多種措施來提高模型的安全性和公平性，但確保負責任的視頻生成仍然是一個重要的研究領域。未來需要更多努力來增強視頻生成中的安全性、公平性和倫理考慮。

未來研究方向

提升模型性能

未來的研究可以進一步探索如何通過改進模型架構、訓練策略和優化技術來提升Seaweed-7B的性能。特別是，可以嘗試引入更先進的注意力機制和生成對抗網絡（GAN）技術來提高生成視頻的質量和多樣性。

擴展應用場景

隨著視頻生成技術的不斷發展，我們可以期待Seaweed-7B在更多應用場景中發揮重要作用。例如，在虛擬現實（VR）和增強現實（AR）領域，Seaweed-7B可以生成逼真的虛擬環境和交互內容；在電影和游戲制作中，它可以用于快速生成場景和角色動畫；在社交媒體和短視頻平臺中，它可以用于自動生成高質量的視頻內容。

增強安全性和公平性

為了確保視頻生成技術的負責任使用，未來的研究應重點關注如何增強模型的安全性和公平性。這包括開發更先進的過濾和檢測技術來識別和移除有害內容、探索如何確保生成內容的多樣性和包容性以及制定相關政策和法規來規范視頻生成技術的使用。

降低訓練成本

盡管本研究已經展示了一種經濟高效的視頻生成基礎模型訓練策略，但未來的研究仍可以進一步探索如何降低訓練成本。例如，可以嘗試使用更高效的計算硬件和分布式訓練技術來減少訓練時間和成本；同時，也可以探索如何通過知識蒸餾和遷移學習等方法來利用預訓練模型的知識來加速新模型的訓練過程。

綜上所述，本研究提出了一種經濟高效的視頻生成基礎模型訓練策略，并展示了Seaweed-7B模型在多個方面的出色表現。盡管存在一些局限性，但本研究為視頻生成領域的發展提供了新的思路和方法，并為未來的研究指明了方向。