【字節擁抱開源】字節團隊開源視頻模型 ContentV: 有限算力下的視頻生成模型高效訓練

本項目提出了ContentV框架,通過三項關鍵創新高效加速基于DiT的視頻生成模型訓練:

  • 極簡架構設計,最大化復用預訓練圖像生成模型進行視頻合成
  • 系統化的多階段訓練策略,利用流匹配技術提升效率
  • 經濟高效的人類反饋強化學習框架,無需額外人工標注即可提升生成質量

我們開源的80億參數模型(基于Stable Diffusion 3.5 Large和Wan-VAE)僅用4周時間在256×64GB NPU上訓練,就取得了VBench評測85.14分的業界最佳成績。

在這里插入圖片描述

在這里插入圖片描述

? 快速開始

推薦PyTorch版本
  • GPU版本:torch >= 2.3.1 (CUDA >= 12.2)
  • NPU版本:torch和torch-npu >= 2.1.0 (CANN >= 8.0.RC2)。請參考昇騰PyTorch擴展安裝torch-npu。
安裝步驟
git clone https://github.com/bytedance/ContentV.git
cd ContentV
pip3 install -r requirements.txt

文生視頻

## For GPU
python3 demo.py
## For NPU
USE_ASCEND_NPU=1 python3 demo.py

24GB消費級顯卡可以使用,建議開啟model offload。

📊 VBench

ModelTotal ScoreQuality ScoreSemantic ScoreHuman ActionSceneDynamic DegreeMultiple ObjectsAppear. Style
Wan2.1-14B86.2286.6784.4499.2061.2494.2686.5921.59
ContentV (Long)85.1486.6479.1296.8057.3883.0571.4123.02
Goku?84.8585.6081.8797.6057.0876.1179.4823.08
Open-Sora 2.084.3485.4080.1295.4052.7171.3977.7222.98
Sora?84.2885.5179.3598.2056.9579.9170.8524.76
ContentV (Short)84.1186.2375.6189.6044.0279.2674.5821.21
EasyAnimate 5.183.4285.0377.0195.6054.3157.1566.8523.06
Kling 1.6?83.4085.0076.9996.2055.5762.2263.9920.75
HunyuanVideo83.2485.0975.8294.4053.8870.8368.5519.80
CogVideoX-5B81.6182.7577.0499.4053.2070.9762.1124.91
Pika-1.0?80.6982.9271.7786.2049.8347.5043.0822.26
VideoCrafter-2.080.4482.2073.4295.0055.2942.5040.6625.13
AnimateDiff-V280.2782.9069.7592.6050.1940.8336.8822.42
OpenSora 1.279.2380.7173.3085.8042.4747.2258.4123.89

?? 感謝

  • Stable Diffusion 3.5 Large
  • Wan2.1
  • Diffusers
  • HuggingFace

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/84240.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/84240.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/84240.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

分布式增量爬蟲實現方案

之前我們在討論的是分布式爬蟲如何實現增量爬取。增量爬蟲的目標是只爬取新產生或發生變化的頁面,避免重復抓取,以節省資源和時間。 在分布式環境下,增量爬蟲的實現需要考慮多個爬蟲節點之間的協調和去重。 另一種思路:將增量判…

單片機0-10V電壓輸出電路分享

一、原理圖 二、芯片介紹 GP8101是一個PWM信號轉模擬信號轉換器,相當于一個PWM信號輸入,模擬信號輸出的DAC。此 芯片可以將占空比為0%到100%的PWM信號線性轉換成0-5V或者0-10V的模擬電壓,并且輸出電壓 精度小于1%。GP8101M可以處理高頻調制的…

Spring AMQP

在現代分布式系統中,消息隊列是一種非常重要的通信機制,它能夠實現服務之間的異步通信、負載均衡以及解耦。Spring AMQP 是 Spring 框架對 AMQP(高級消息隊列協議)的支持,而 RabbitMQ 是 AMQP 協議的最流行實現之一。通…

第6章:Neo4j數據導入與導出

在實際應用中,數據的導入與導出是使用Neo4j的重要環節。無論是初始數據加載、系統遷移還是數據備份,都需要高效可靠的數據傳輸機制。本章將詳細介紹Neo4j中的各種數據導入與導出方法,幫助讀者掌握不同場景下的最佳實踐。 6.1 數據導入策略 …

RKNN開發環境搭建1-基于Ubuntu 18.04系統使用Docker安裝rknn-toolkit2

目錄 寫在最前面Docker 方式安裝rknn-toolkit2寫在最前面 瑞芯微在RKNN的環境搭建方面的資料很多,但是在搭建過程中發現很多問題教程中并未提及,對初學者不友好。所以博主做了這個系列的文章,從開始搭建環境到對于RKNN Model Zoo的示例進行實踐,希望能對初學者有幫助。堅持…

【實施指南】Android客戶端HTTPS雙向認證實施指南

🔐 一、所需準備材料 證書文件(6類核心文件) 類型 格式 作用 Android端要求 CA根證書 .crt/.pem 驗證服務器/客戶端證書合法性 需預置到Android信任庫 服務器證書 .crt 服務器身份證明 客戶端需持有以驗證服務器 客戶端證書 .crt 客戶端身份…

FPGA管腳類型,及選擇

fpga的IO Type選擇,如下: 具體的定義:

SELinux是什么以及如何編寫SELinux策略

目錄 一、SELinux 是什么? 二、SELinux 的兩種模式 如何查看當前 SELinux 狀態? 三、SELinux 在 Android 中的作用 四、為什么Root之后很多設備是 Permissive? 五、開發與調試場景 總結 🧩 一、什么是 SELinux 策略&#x…

MQTT示例體驗(C)

1、通用依賴準備 安裝編譯工具? Linux/macOS 需安裝: sudo apt update && sudo apt install build-essential cmake git # Ubuntu/Debian:ml-citation{ref"6" data"citationList"} brew install cmake # macOSWindows 需安裝 CMake…

MySQL中的系統庫(簡介、performance_schema)

文章目錄 性能監控performance_schema1、performance schema入門2、performance_schema表的分類3、performance_schema的簡單配置與使用4、常用配置項的參數說明5、重要配置表的相關說明6、performance_schema實踐操作 Show processlist 性能監控 每次你提交完一個 sql 語句之…

【Ftrace 專欄】Ftrace 參考博文

ftrace、perf、bcc、bpftrace、ply、simple_perf的使用Ftrace 基本用法Linux 利用 ftrace 分析內核調用如何利用ftrace精確跟蹤特定進程調度信息使用 ftrace 進行追蹤延遲Linux-培訓筆記-ftracehttps://www.kernel.org/doc/html/v4.18/trace/events.htmlhttps://blog.csdn.net/…

bug 記錄 - 使用 el-dialog 的 before-close 的坑

需求說明 彈窗中內嵌一個 form 表單 原始代碼 <script setup lang"ts"> import { reactive, ref } from "vue" import type { FormRules } from element-plus const ruleFormRef ref() interface RuleForm {name: stringregion: number | null } …

關鍵領域軟件測試的突圍之路:如何破解安全與效率的平衡難題

在數字化浪潮席卷全球的今天&#xff0c;軟件系統已成為國家關鍵領域的核心戰斗力。不同于普通商業軟件&#xff0c;這些承載著國家安全使命的軟件系統面臨著前所未有的質量挑戰——如何在確保絕對安全的前提下&#xff0c;實現高效測試與快速迭代&#xff1f;這一命題正考驗著…

老年生活照護實訓室建設規劃:照護質量評估與持續改進實訓體系

隨著人口老齡化程度的不斷加深&#xff0c;老年生活照護需求日益增長&#xff0c;對專業照護人才的培養提出了更高要求。老年生活照護實訓室建設方案作為培養高素質照護人才的重要載體&#xff0c;其核心在于構建科學完善的照護質量評估與持續改進實訓體系。通過該體系的建設&a…

Ctrl-Crash 助力交通安全:可控生成逼真車禍視頻,防患于未然

視頻擴散技術雖發展顯著&#xff0c;但多數駕駛數據集事故事件少&#xff0c;難以生成逼真車禍圖像&#xff0c;而提升交通安全又急需逼真可控的事故模擬。為此&#xff0c;論文提出可控車禍視頻生成模型 Ctrl-Crash&#xff0c;它以邊界框、碰撞類型、初始圖像幀等為條件&…

jieba實現和用RNN實現中文分詞的區別

Jieba 分詞和基于 RNN 的分詞在技術路線、實現機制、性能特點上有顯著差異&#xff0c;以下是核心對比&#xff1a; 1. 技術路線對比 維度Jieba 分詞RNN 神經網絡分詞范式傳統 NLP&#xff08;規則 統計&#xff09;深度學習&#xff08;端到端學習&#xff09;核心依賴詞典…

excel數據對比找不同:6種方法核對兩列數據差異

工作中&#xff0c;有時需要核對兩列數據的差異&#xff0c;用于對比、復核等。數據較少的情況下差異肉眼可見&#xff0c;數據量較大時用什么方法比較好呢&#xff1f;從個人習慣出發&#xff0c;我整理了6種方法供參考。 6種方法核對兩列數據差異&#xff1a; 1、Ctrl G定位…

C# 表達式和運算符(求值順序)

求值順序 表達式可以由許多嵌套的子表達式構成。子表達式的求值順序可以使表達式的最終值發生 變化。 例如&#xff0c;已知表達式3*52&#xff0c;依照子表達式的求值順序&#xff0c;有兩種可能的結果&#xff0c;如圖9-3所示。 如果乘法先執行&#xff0c;結果是17。如果5…

高頻面試之3Zookeeper

高頻面試之3Zookeeper 文章目錄 高頻面試之3Zookeeper3.1 常用命令3.2 選舉機制3.3 Zookeeper符合法則中哪兩個&#xff1f;3.4 Zookeeper腦裂3.5 Zookeeper用來干嘛了 3.1 常用命令 ls、get、create、delete、deleteall3.2 選舉機制 半數機制&#xff08;過半機制&#xff0…

CppCon 2015 學習:Simple, Extensible Pattern Matching in C++14

什么是 Pattern Matching&#xff08;模式匹配&#xff09; ? 模式匹配就是一種“描述式”的寫法&#xff0c;不需要你手動判斷、提取數據&#xff0c;而是直接描述你希望的數據結構是什么樣子&#xff0c;系統自動判斷并提取。? 你給的定義拆解&#xff1a; ? Instead of …