近日,字節跳動發布了其全新視頻生成基礎大模型 Seaweed-7B,該模型由字節 Seed 團隊開發,參數量僅為 70 億,在多個方面展現出卓越性能,為 AI 視頻生成領域帶來了新的突破。
功能特點
- 支持多種生成方式:Seaweed-7B 不僅支持傳統的文生視頻和圖生視頻,還新增了多項創新功能,如音視頻同步生成、長鏡頭敘事和實時高分辨率生成等,顯著提升了生成內容的多樣性與實用性。
- 音視頻同步生成:模型能夠基于音頻輸入生成匹配的視頻內容,確保唇部動作、表情與語音節奏高度同步,適用于虛擬主播、配音視頻等場景。
- 長鏡頭與多鏡頭敘事:支持生成連貫的單鏡頭長視頻或多鏡頭切換的復雜故事,保持角色、風格和環境的連續性,為劇情短片和廣告創作提供了強大支持。
- 高分辨率超分與實時生成:模型可生成 720p 至 2K 分辨率的視頻,幀率達 24fps,并支持實時生成,大幅提升了創作效率。
- 世界建模與相機控制:通過精確的相機軌跡控制和 3D 一致性優化,Seaweed-7B 能夠模擬真實世界場景,適用于游戲開發、虛擬現實等前沿領域。
技術優勢
- 采用 DiT 架構:Seaweed-7B 采用 DiT(Diffusion Transformer)架構,通過對抗后訓練(Adversarial Post-Training,APT)優化了生成速度與質量,僅需單次神經函數評估即可生成 2 秒 720p 視頻,推理速度比同類模型快 62 倍。
- 降低訓練成本:其訓練成本僅為行業標準的 1/3,使用的 H100 GPU 小時數為 66.5 萬,遠低于主流模型的 200 萬,為中小團隊提供了可負擔的高質量視頻生成方案。
- 提升物理一致性:通過合成 CGI 視頻的后訓練增強了物理一致性,使得復雜動作和 3D 場景更自然逼真。
- 高效的數據處理:開發了一套高吞吐量且靈活的視頻管理流程,包括管理視頻編碼和解碼、執行時間分割、空間裁剪、質量過濾等,每天能夠處理超過 50 萬小時的視頻數據。
- 創新的模型設計:創新性地設計了多級激活檢查點(MLAC)機制,支持將中間激活存儲在 GPU、CPU 或磁盤等多層級介質中,不僅大幅降低了顯存占用,還減少了重計算帶來的性能損耗。
應用前景
- 虛擬主播與數字人:音視頻同步生成功能使其能夠為虛擬主播和數字人賦予更加逼真的表現,提升其在直播、教育、娛樂等領域的應用價值。
- 影視制作與廣告創意:長鏡頭敘事和多鏡頭切換功能為影視制作和廣告創意提供了更多的可能性,能夠幫助創作者更快速地生成高質量的視頻內容。
- 游戲開發與虛擬現實:世界建模與相機控制功能使其能夠為游戲開發和虛擬現實應用提供更加逼真的場景和動畫,提升用戶體驗。
- 電商營銷與旅游推廣:低成本和高效率的特點使其在電商營銷和旅游推廣等領域具有廣闊的應用前景,能夠幫助企業更快速地生成吸引人的視頻內容,提升營銷效果。
- 教育內容制作:可以為教育內容制作提供更加豐富和生動的素材,幫助教師更好地傳授知識,提升學生的學習興趣和效果。