字節跳動發布視頻生成基礎大模型 Seaweed-7B

近日，字節跳動發布了其全新視頻生成基礎大模型 Seaweed-7B，該模型由字節 Seed 團隊開發，參數量僅為 70 億，在多個方面展現出卓越性能，為 AI 視頻生成領域帶來了新的突破。

支持多種生成方式：Seaweed-7B 不僅支持傳統的文生視頻和圖生視頻，還新增了多項創新功能，如音視頻同步生成、長鏡頭敘事和實時高分辨率生成等，顯著提升了生成內容的多樣性與實用性。
音視頻同步生成：模型能夠基于音頻輸入生成匹配的視頻內容，確保唇部動作、表情與語音節奏高度同步，適用于虛擬主播、配音視頻等場景。
長鏡頭與多鏡頭敘事：支持生成連貫的單鏡頭長視頻或多鏡頭切換的復雜故事，保持角色、風格和環境的連續性，為劇情短片和廣告創作提供了強大支持。
高分辨率超分與實時生成：模型可生成 720p 至 2K 分辨率的視頻，幀率達 24fps，并支持實時生成，大幅提升了創作效率。
世界建模與相機控制：通過精確的相機軌跡控制和 3D 一致性優化，Seaweed-7B 能夠模擬真實世界場景，適用于游戲開發、虛擬現實等前沿領域。

采用 DiT 架構：Seaweed-7B 采用 DiT（Diffusion Transformer）架構，通過對抗后訓練（Adversarial Post-Training，APT）優化了生成速度與質量，僅需單次神經函數評估即可生成 2 秒 720p 視頻，推理速度比同類模型快 62 倍。
降低訓練成本：其訓練成本僅為行業標準的 1/3，使用的 H100 GPU 小時數為 66.5 萬，遠低于主流模型的 200 萬，為中小團隊提供了可負擔的高質量視頻生成方案。
提升物理一致性：通過合成 CGI 視頻的后訓練增強了物理一致性，使得復雜動作和 3D 場景更自然逼真。
高效的數據處理：開發了一套高吞吐量且靈活的視頻管理流程，包括管理視頻編碼和解碼、執行時間分割、空間裁剪、質量過濾等，每天能夠處理超過 50 萬小時的視頻數據。
創新的模型設計：創新性地設計了多級激活檢查點（MLAC）機制，支持將中間激活存儲在 GPU、CPU 或磁盤等多層級介質中，不僅大幅降低了顯存占用，還減少了重計算帶來的性能損耗。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/79620.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/79620.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/79620.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！