【字節跳動AI論文】Seaweed-7B:視頻生成基礎模型的高成本效益培訓

摘要:本技術報告介紹了一種經濟有效的視頻生成基礎模型訓練策略。 我們提出了一種中等規模的研究模型,大約有70億個參數(7B),稱為Seaweed-7B,使用665,000個H100 GPU小時從頭開始訓練。 盡管使用適度的計算資源進行訓練,但與更大規模的當代視頻生成模型相比,Seaweed-7B 表現出極具競爭力的性能。 在資源有限的環境中,設計選擇尤為重要。 本技術報告重點介紹了提高中型擴散模型性能的關鍵設計決策。 根據經驗,我們觀察到兩點:(1)Seaweed-7B的性能可與在大量GPU資源上訓練的大型模型相媲美,甚至超過它們;(2)我們的模型具有很強的泛化能力,可以通過輕量級微調或繼續訓練,有效地適應各種下游應用。 請訪問項目頁面Seaweed。Huggingface鏈接:Paper page,論文鏈接:2504.08685

研究背景和目的

研究背景

隨著數字娛樂、通信和現實世界模擬中視頻作為主導媒介的中心地位日益凸顯,視頻生成模型的研究成為了一個引人注目的領域。視頻生成模型的基礎性研究對于提升一系列下游視頻應用的性能具有重要意義,如圖像動畫、視頻編輯和視頻敘事等。近年來,視頻生成模型取得了快速進展,多種訓練方法被提出,如MovieGen、Cosmos和Wan-2.1等。這些方法普遍采用擴散變換器(Diffusion Transformers,DiT),并遵循著擴大模型規模和GPU資源以提高性能的趨勢。然而,這種擴展策略帶來了巨大的訓練成本,例如MovieGen使用了6000多個NVIDIA H100 GPU。這種高昂的訓練成本嚴重阻礙了視頻生成模型的創新和發展。

在自然語言處理、視覺語言模型和音頻基礎模型等領域,研究人員已經發現,通過架構改進和優化訓練策略,小到中型模型可以在基準測試中超越大型語言模型(LLMs)。例如,Mistral7B在多個基準測試中超過了Llama2-13B,DeepSeek v3證明了使用370億參數的激活模型可以超越720億和4200億參數的密集模型,而只需一小部分GPU資源。這些成果啟發我們探索視頻生成領域中的類似效率提升。

研究目的

本研究旨在提出一種經濟高效的視頻生成基礎模型訓練策略。我們訓練了一個中等規模的模型,稱為Seaweed-7B(簡稱Seed Video),它包含大約70億個參數的擴散變換器。通過使用665,000個H100 GPU小時(相當于在1000個H100 GPU上訓練27.7天)進行從頭開始訓練,我們旨在展示在資源有限的環境下,通過精心設計的數據處理、模型架構和訓練策略,中型模型也能實現與大型模型相媲美甚至超越的性能。此外,我們還希望驗證Seaweed-7B作為視頻生成基礎模型的潛力,即其能否支持廣泛的下游應用。

研究方法

數據處理

在資源受限的計算環境中,數據質量和多樣性比數量更為重要。我們構建了一個可擴展的基礎設施來大規模處理視頻數據,并使用各種數據處理器來有效掃描高質量視頻數據。我們的數據管道從多種來源收集視頻數據,并通過時間分割、空間裁剪、質量過濾、多方面數據平衡、視頻去重和視頻標注等步驟來轉化為高質量的訓練數據。特別是,我們通過混合分辨率訓練來提高模型對高分辨率和長持續時間視頻的重建質量。

模型架構

Seaweed-7B由變分自編碼器(VAE)和潛在擴散變換器(DiT)組成。我們采用了具有因果3D卷積編碼器和解碼器的VAE架構,該架構能夠統一圖像和視頻編碼,并支持任意長視頻的編碼和解碼。在DiT方面,我們采用了雙流結構,并通過使用SwiGLU激活函數、AdaSingle時步調制和共享更深層FFN參數來優化參數效率和減少內存成本。此外,我們還探索了不同的注意力機制,包括全注意力、空間全注意力和窗口注意力,以平衡訓練可擴展性和計算成本。

訓練策略

我們采用了從低分辨率到高分辨率的多階段訓練策略。在預訓練階段,我們首先使用低分辨率圖像進行訓練,以建立文本提示與常見視覺概念之間的對齊。然后,我們啟動聯合圖像和視頻訓練,其中圖像和視頻令牌在每個批次中以固定比例混合。在后訓練階段,我們應用監督微調(SFT)和來自人類反饋的強化學習(RLHF)來進一步提高輸出視頻的美學質量、運動一致性和結構連貫性。

優化技術

為了提高訓練效率,我們采用了多種優化技術,包括并行性策略、運行時平衡策略、多級激活檢查點(MLAC)和融合CUDA內核。這些技術共同作用,使得Seaweed-7B在分布式訓練中的模型浮點運算利用率(MFU)達到38%。

研究結果

定量分析

我們在文本到視頻和圖像到視頻生成任務上評估了Seaweed-7B的性能。通過使用MagicArena平臺的人類評估,我們發現Seaweed-7B在圖像到視頻任務中的Elo評分排名第二,僅次于Kling1.6(HD),但超越了包括Sora、Wan-2.1和HunyuanVideo在內的多個大型模型。在文本到視頻任務中,Seaweed-7B也位列前2-3名,性能與Veo 2.0相當,并優于Wan-2.1和Kling1.6(HD)。這些結果表明,盡管使用有限的計算資源進行訓練,Seaweed-7B仍然表現出與大型模型相媲美甚至超越的性能。

定性分析

我們還對Seaweed-7B在各種下游應用中的表現進行了定性分析,包括圖像到視頻生成、人類視頻生成、主題一致的視頻生成、視頻音頻聯合生成、長視頻生成和敘事、實時生成、超分辨率生成和相機控制生成等。結果表明,Seaweed-7B能夠支持廣泛的下游應用,并通過輕量級微調或繼續訓練有效適應這些應用。

推理效率

與Wan-2.1模型相比,我們的模型在推理效率方面表現出色。在單個H100 GPU上,Seaweed-7B的推理時間僅為29.6秒,而Wan-2.1則需要1837.9秒。這表明我們的模型不僅在生成質量上具有競爭力,而且在推理速度上也具有顯著優勢。

VAE重建質量

我們的VAE模型在重建質量方面也表現出色。與最先進的VAE模型相比,我們的模型在rFVD、LPIPS、PSNR和SSIM等指標上均取得了優異的成績。特別是對于高分辨率和長持續時間的真實世界視頻,我們的模型實現了最低的LPIPS值。

研究局限

盡管Seaweed-7B在多個方面表現出色,但其仍存在一些局限性。首先,與大型模型相比,Seaweed-7B在生成精細細節(如小面孔或精細圖案)方面仍有提升空間。這可能是由于計算資源有限導致的。其次,盡管我們采取了多種措施來提高模型的安全性和公平性,但確保負責任的視頻生成仍然是一個重要的研究領域。未來需要更多努力來增強視頻生成中的安全性、公平性和倫理考慮。

未來研究方向

提升模型性能

未來的研究可以進一步探索如何通過改進模型架構、訓練策略和優化技術來提升Seaweed-7B的性能。特別是,可以嘗試引入更先進的注意力機制和生成對抗網絡(GAN)技術來提高生成視頻的質量和多樣性。

擴展應用場景

隨著視頻生成技術的不斷發展,我們可以期待Seaweed-7B在更多應用場景中發揮重要作用。例如,在虛擬現實(VR)和增強現實(AR)領域,Seaweed-7B可以生成逼真的虛擬環境和交互內容;在電影和游戲制作中,它可以用于快速生成場景和角色動畫;在社交媒體和短視頻平臺中,它可以用于自動生成高質量的視頻內容。

增強安全性和公平性

為了確保視頻生成技術的負責任使用,未來的研究應重點關注如何增強模型的安全性和公平性。這包括開發更先進的過濾和檢測技術來識別和移除有害內容、探索如何確保生成內容的多樣性和包容性以及制定相關政策和法規來規范視頻生成技術的使用。

降低訓練成本

盡管本研究已經展示了一種經濟高效的視頻生成基礎模型訓練策略,但未來的研究仍可以進一步探索如何降低訓練成本。例如,可以嘗試使用更高效的計算硬件和分布式訓練技術來減少訓練時間和成本;同時,也可以探索如何通過知識蒸餾和遷移學習等方法來利用預訓練模型的知識來加速新模型的訓練過程。

綜上所述,本研究提出了一種經濟高效的視頻生成基礎模型訓練策略,并展示了Seaweed-7B模型在多個方面的出色表現。盡管存在一些局限性,但本研究為視頻生成領域的發展提供了新的思路和方法,并為未來的研究指明了方向。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/901489.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/901489.shtml
英文地址,請注明出處:http://en.pswp.cn/news/901489.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java單例模式:實現全局唯一對象的藝術

精心整理了最新的面試資料和簡歷模板,有需要的可以自行獲取 點擊前往百度網盤獲取 點擊前往夸克網盤獲取 一、什么是單例模式? 單例模式(Singleton Pattern)是一種創建型設計模式,確保一個類只有一個實例&#xff0c…

Oracle 復制表結構(含索引、主鍵)操作指南

Oracle 復制表結構(含索引、主鍵)操作指南 1. 復制基礎表結構 -- 創建空表結構(不復制數據) CREATE TABLE new_table AS SELECT * FROM old_table WHERE 10;2. 復制主鍵約束 -- 查詢原表主鍵信息 SELECT constraint_name, co…

React 更新state中的對象

更新 state 中的對象 state 中可以保存任意類型的 JavaScript 值,包括對象。但是,你不應該直接修改存放在 React state 中的對象。相反,當你想要更新一個對象時,你需要創建一個新的對象(或者將其拷貝一份)…

基于 GoFrame 框架的電子郵件發送實踐:優勢、特色與經驗分享

1. 引言 如果你是一位有1-2年Go開發經驗的后端開發者,可能已經熟悉了Go語言在性能和并發上的天然優勢,也曾在項目中遇到過郵件發送的需求——無論是用戶注冊時的激活郵件、系統異常時的通知,還是營銷活動中的批量促銷郵件,郵件功…

AndroidStudio編譯報錯 Duplicate class kotlin

具體的編譯報錯信息如下: Duplicate class kotlin.collections.jdk8.CollectionsJDK8Kt found in modules kotlin-stdlib-1.8.10 (org.jetbrains.kotlin:kotlin-stdlib:1.8.10) and kotlin-stdlib-jdk8-1.6.21 (org.jetbrains.kotlin:kotlin-stdlib-jdk8:1.6.21) D…

后端面試問題收集以及答案精簡版

思路 不要問什么答什么 要學會擴充 比如問你go map的原理 map 是什么 數據結構,字典,k/v 結構map的應用場景有哪些 快速查找、計數器、配置管理、去重、緩存實現map有哪些限制 無序性、非線程安全的讀寫map的key的訪問 v: mp[key] v,ok : mp[key] for…

MicroPython 開發ESP32應用教程 之 I2S、INMP441音頻錄制、MAX98357A音頻播放、SD卡讀寫

本課程我們講解Micropython for ESP32 的i2s及其應用,比如INMP441音頻錄制、MAX98357A音頻播放等,還有SD卡的讀寫。 一、硬件準備 1、支持micropython的ESP32S3開發板 2、INMP441數字全向麥克風模塊 3、MAX98357A音頻播放模塊 4、SD卡模塊 5、面包板及…

UE5 物理模擬 與 觸發檢測

文章目錄 碰撞條件開啟模擬關閉模擬 多層級的MeshUE的BUG 觸發觸發條件 碰撞 條件 1必須有網格體組件 2網格體組件必須有網格,沒有網格雖然可以開啟物理模擬,但是不會有任何效果 注意開啟的模擬的網格體組件會計算自己和所有子網格的mesh范圍 3只有網格…

微信小程序 - swiper輪播圖

官方文檔&#xff1a;https://developers.weixin.qq.com/miniprogram/dev/component/swiper.html <swiper indicator-color"ivory" indicator-active-color"#d43c33" indicator-dots autoplay><swiper-item><image src"/images/banner…

深入探究C#官方MCP:開啟AI集成新時代

一、引言 在當今數字化時代&#xff0c;.NET 開發領域不斷演進&#xff0c;而 C# 官方 MCP&#xff08;Model Context Protocol&#xff0c;模型上下文協議&#xff09;的出現&#xff0c;無疑為開發者們帶來了全新的機遇與挑戰。隨著人工智能技術的迅猛發展&#xff0c;將 AI…

二分查找法

使用二分查找法的前提&#xff1a;&#xff08;1&#xff09;數組為有序數組. &#xff08;2&#xff09;數組中無重復元素. 二分的兩種寫法&#xff1a; 方法一&#xff1a;[left&#xff0c;right] class Solution { public:int search(vector<int>& nums, int …

HarmonyOS:頁面滾動時標題懸浮、背景漸變

一、需求場景 進入到app首頁或者分頁列表首頁時&#xff0c;隨著頁面滾動&#xff0c;分類tab要求固定懸浮在頂部。進入到app首頁、者分頁列表首頁、商品詳情頁時&#xff0c;頁面滾動時&#xff0c;頂部導航欄&#xff08;菜單、標題&#xff09;背景漸變。 二、相關技術知識點…

鯤鵬+昇騰部署集群管理軟件GPUStack,兩臺服務器搭建雙節點集群【實戰詳細踩坑篇】

前期說明 配置&#xff1a;2臺鯤鵬32C2 2Atlas300I duo&#xff0c;之前看網上文檔&#xff0c;目前GPUstack只支持910B芯片&#xff0c;想嘗試一下能不能310P也部署試試&#xff0c;畢竟華為的集群軟件要收費。 系統&#xff1a;openEuler22.03-LTS 驅動&#xff1a;24.1.rc…

React中 點擊事件寫法 的注意(this、箭頭函數)

目錄 ?1、錯誤寫法?&#xff1a;onClick{this.acceptAlls()} ?2、正確寫法?&#xff1a;onClick{this.acceptAlls}&#xff08;不帶括號&#xff09; 總結 方案1&#xff1a;構造函數綁定 方案2&#xff1a;箭頭函數包裝方法&#xff08;更簡潔&#xff09; 方案3&am…

【路由交換方向IE認證】BGP選路原則之Weight屬性

文章目錄 一、路由器BGP路由的處理過程控制平面和轉發平面選路工具 二、BGP的選路順序選路的前提選路順序 三、Wight屬性選路原則規則9與規則11的潛移默化使用Weight值進行選路直接更改Weight值進行選路配合使用route-map進行選路 四、BGP鄰居建立配置 一、路由器BGP路由的處理…

Missashe考研日記-day20

Missashe考研日記-day20 1 高數 學習時間&#xff1a;2h30min學習內容&#xff1a; 今天當然是刷題啦&#xff0c;做不等式的證明板塊的真題&#xff0c;證明題懂的都懂&#xff0c;難起來是真的一點思路都沒有&#xff0c;這個板塊還沒做完&#xff0c;做完再總結題型。 2…

了解JVM

一.JVM概述 1.JVM的作用 ?把字節碼編譯為機器碼去執行,負責把字節碼裝載到虛擬機中 ?現在的 JVM 不僅可以執行 java 字節碼文件,還可以執行其他語言編譯后的字節碼文件,是一個跨語言平臺 2.JVM的組成部分 類加載器&#xff08;ClassLoader&#xff09;運行時數據區&#x…

LeetCode LCR157 套餐內商品的排列順序

生成字符串的全部排列&#xff08;去重&#xff09;&#xff1a;從問題到解決方案的完整解析 問題背景 在編程和算法設計中&#xff0c;生成字符串的所有排列是一個經典問題。它不僅出現在算法競賽中&#xff0c;也在實際開發中有著廣泛的應用&#xff0c;比如生成所有可能的…

pgsql:關聯查詢union(并集)、except(差集)、intersect(交集)

pgsql:關聯查詢union(并集)、except(差集)、intersect(交集)_pgsql except-CSDN博客

微信小程序中使用ECharts 并且動態設置數據

項目下載地址 GitHub 地址 https://github.com/ecomfe/echarts-for-weixin 將當前文件夾里的內容拷貝到項目中 目錄&#xff1a; json: {"usingComponents": {"ec-canvas": "../components/ec-canvas/ec-canvas"} }wxml&#xff1a; <ec…