視頻生成的測試時Scaling時刻!清華開源Video-T1,無需重新訓練讓性能飆升

來源 | 機器之心

視頻作為包含大量時空信息和語義的媒介,對于 AI 理解、模擬現實世界至關重要。視頻生成作為生成式 AI 的一個重要方向,其性能目前主要通過增大基礎模型的參數量和預訓練數據實現提升,更大的模型是更好表現的基礎,但同時也意味著更苛刻的計算資源需求

受到 Test-Time Scaling 在 LLM 中的應用啟發,來自清華大學、騰訊的研究團隊首次對視頻生成的 Test-Time Scaling 進行探索,表明了視頻生成也能夠進行 Test-Time Scaling 以提升性能,并提出高效的 Tree-of-Frames 方法拓展這一 Scaling 范式。

目前,這項工作的代碼已經開源,感興趣的小伙伴可以開 Issue 提問,也歡迎共同探索視頻和多模態生成。

圖片

  • 論文標題:Video-T1: Test-Time Scaling for Video Generation

  • 論文地址:https://arxiv.org/pdf/2503.18942

  • Github 倉庫: https://github.com/liuff19/Video-T1?

  • 項目主頁: https://liuff19.github.io/Video-T1/

,時長00:52

視頻生成的 Test-Time Scaling 范式

繼 DeepSeek-R1 爆紅后,在視覺 / 多模態等不同領域都涌現了大量 Test-Time Scaling (TTS) 研究,Video-T1 則是首次將 Test-Time Scaling 引入視頻生成領域,突破了傳統方式 Scaling up 視頻模型需要大量資源重新訓練或顯著擴大模型規模的局限性。

研究團隊通過增加推理階段計算來顯著提升視頻生成質量,在 VBench 上實現了最高 5.86% 的總分提升,同時發現模型能力隨著推理階段選取的樣本數目增加而增長,體現出持續 Scale Up 的特性

圖片

視頻生成Test-Time Scaling的實驗結果

研究團隊創新性地將視頻生成中的 Test-Time Scaling 問題建模為從高斯噪聲空間到目標視頻分布的軌跡搜索問題,為優化視頻生成引入了新的理論框架。同時構造了隨機線性搜索作為 Test-Time Scaling 的基礎實現方式,即隨機地取樣多個視頻生成樣本,利用 VLM 進行評分選出最優的視頻樣本作為輸出。

圖片

隨機線性搜索的算法

Tree-of-Frames 方法提升推理效率

然而,隨機線性搜索的復雜度較高,需要較多的推理時計算,研究團隊發現,許多視頻在生成的過程中就會出現內容與提示詞不對應或者不符合現實規律等諸多問題,為了進一步提高搜索速度和視頻質量,研究團隊提出了「幀樹」(Tree-of-Frames, ToF),通過自適應擴展和修剪視頻分支,在計算成本與生成質量間實現動態平衡

類似于在推理模型中使用 score model,研究團隊提出使用測試時驗證器(test-time verifiers)評估中間結果質量,并結合啟發式算法高效導航搜索空間,在視頻生成的適當位置進行評估,選取符合要求的生成軌跡,顯著提升生成效率和質量。

圖片

研究團隊提出的 Tree-of-Frames 算法

相比于直接進行隨機線性搜索,Tree-of-Frames 方法能夠在取得相同效果的情況下顯著提高搜索效率,降低視頻模型的推理計算需求。

研究團隊通過比較不同 Test-Time Scaling 方法和不同樣本數量對應的 Number of Function Evaluations (NFE) 及對應的表現,發現使用 Tree-of-Frames 方法能夠在相同 NFE 的情況下更為顯著地提高視頻表現。

圖片

不同模型下 Tree-of-Frames 與隨機線性搜索效果對比

研究團隊選取了三種視頻生成模型實現 Tree-of-Frames 方法,并計算其視頻模型的推理計算需求,在 VBench 總分相同的情況下進行比較,發現 Tree-of-Frames 顯著降低了視頻模型推理計算量。

圖片

Tree-of-Frames 方法相比于隨機線性搜索顯著提高了推理效率

此外,研究團隊注意到首幀對于視頻整體是否對齊影響較大,視頻的前中后部分存在一定程度不同的提示詞對齊需求,因此利用單幀的圖片生成思維鏈 (Image Generation Chain-of-Thought) 和層次化提示詞 (Hierarchical Prompting) 等方法,對幀的生成和提示詞對齊進行增強,構建了 Tree-of-Frames 總體流程。

圖片

研究團隊提出的 Tree-of-Frames 方法流程圖

在上圖所示的流程中,第一階段執行 Text-to-Image (First Frame) 生成,進行圖像級別的對齊,讓首幀能夠包含正確且足夠的關于物體、場景的語義信息;第二階段在測試時 Verifier 中應用層次化提示詞 (Hierarchical Prompting),關注運動穩定性與物理合理性等方面,從而提供反饋,指導啟發式搜索過程;最后一階段評估視頻的整體質量,并選擇與文本提示詞最高對齊度的視頻

不同模型的 Test-Time Scaling 實驗

研究團隊進行了大量 Test-Time Scaling 實驗,使用不同的視頻生成模型、VLM 模型進行測試,得到這些模型相比于基線在 VBench 上各方面指標的提升。

圖片

不同維度上 Test-Time Scaling 方法相比于基線的提升

實驗結果表明,無論是基于 Diffusion 的模型還是 Autoregressive 范式的模型,都能夠通過 Test-Time Scaling 方法實現生成視頻性能的全面提升,而無需重新訓練一個視頻生成模型。

研究團隊還注意到,使用不同的 VLM?作為 Verifier 對視頻生成質量在多種維度的提升效果有所不同。

因此,為了更充分地發揮 Test-Time Scaling 的潛力并為后續增強 VLM 能力的探索提供思路,研究團隊將不同的 Verifier 進行綜合,用于 Test-Time Scaling 過程,發現在相同的 NFE (Number of Function Evaluations) 下?Multiple Verifier 相比于單個 Verifier 效果更好。不同 VLM 和視頻生成模型對應的結果如下:

圖片

Multiple Verifier 與單個 Verifier Scaling Up 效果對比

可視化結果

研究團隊提供了 Tree-of-Frames 層次化提示詞和過程中驗證的可視化結果:

圖片

層次化提示詞和分層驗證過程的可視化結果

研究團隊還提供了視頻生成基礎模型和 TTS 結果的對比,更多的可視化請參閱原論文和項目主頁。

圖片

部分可視化結果,從上到下為未 Test-Time Scaling 和進行 Test-Time Scaling 的視頻對比

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/74871.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/74871.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/74871.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Go 語言標準庫中time模塊詳細功能介紹與示例

以下是 Go 語言 time 模塊的詳細說明及示例,涵蓋時間操作、定時器、時區處理等核心功能: 一、時間基礎操作 1. 獲取時間 // 當前本地時間 now : time.Now() fmt.Println(now) // 2023-08-04 15:30:45.123456 0800 CST// 構造指定時間 t : time.Date(20…

【強化學習】基于深度強化學習的微能源網能量管理與優化策略研究【Python】

目錄 主要內容 程序要點 2.1 微能源網系統組成 2.2 強化學習及Q學習算法 部分代碼 運行結果 下載鏈接 主要內容 該程序借助深度 Q 網絡(DQN),學習預測負荷、風 / 光可再生能源功率輸出及分時電價等環境信息,運用…

dom0-kernel: /thermal-zones/soc_max/cooling-maps/map0: could not find phandle 2

問題描述: 由于soc_max下某個節點找不到,到時dom0-kernel后面有很多有關thermal熱管理之類報錯 問題解決及其原因分析: 這是因為在Xen解析相關節點時,soc_max下的某個節點被跳過了,注釋掉相關的cpu節點處理dom0就可以找…

關于計算機視覺中的插值小記

計算機視覺中的插值(Interpolation)講解 插值(Interpolation)在計算機視覺中是一項基礎操作,常用于圖像縮放、旋轉、去噪、圖像重建等任務。其核心思想是在已知數據點之間進行推測,估計未知的像素值或特征…

計算機網絡--傳輸層(1)

第五章 傳輸層 一、傳輸層基本功能 進程到進程的邏輯通信 套接字(Socket):IP地址:端口號 IP地址:標識主機(網絡層功能)端口號:16位整數(0-65535),標識進程 熟…

指定 Python 3.12.6-slim 作為基礎鏡像

指定 Python 3.12.6-slim 作為基礎鏡像,意思就是: 👉 用官方的 Python 3.12.6(精簡版)作為容器的起點,里面已經有 Python 3.12.6 預裝好了,你不用自己裝。 🔹 為什么用 -slim&…

【藍橋杯】算法筆記1

1.暴力枚舉 給定一個正整數n,請找出所有滿足a + b = n的整數對(a, b),其中a和b都是正整數,且a ≤ b。 輸入格式:一個正整數n (1 ≤ n ≤ 10?) 輸出格式:所有符合條件的(a, b)對,每行一對,按a的升序排列。如果沒有符合條件的對,輸出"No solution"。 問題分…

專注自習室:番茄工作法實踐

專注自習室:番茄工作法實踐 我需要一個任務管理工具,但在網上找了很多都找不到合適的工具。市面上的大多數產品過于強調任務完成性,給我帶來了很強的心理壓力,這種壓力最終反而降低了我的工作效率。于是我決定自己動手&#xff0…

VUE3項目VITE打包優化

VUE3項目VITE打包優化 代碼加密依賴配置效果對比圖 自動導入依賴配置 代碼壓縮依賴配置效果對比圖 圖片壓縮依賴配置效果對比圖 字體壓縮總結與實踐運用效果 代碼加密 依賴 npm install -D vite-plugin-bundle-obfuscator配置 import vitePluginBundleObfuscator from "…

文章記單詞 | 第14篇(六級)

一,單詞釋義 affection:n. 喜愛,鐘愛;愛慕之情;感情stream:n. 小河,溪流;一連串,源源不斷;水流,氣流;vi. 流,流動&#x…

歐幾里得距離(Euclidean Distance)公式

歐幾里得距離公式 歐幾里得距離(Euclidean Distance)是計算兩點之間直線距離的一種方法。它是最常見的距離度量方式之一,廣泛應用于數學、物理、機器學習、計算機視覺等領域。 公式定義 1. 二維空間 在二維平面上,假設有兩個點…

機器學習——LightGBM

LightGBM(light gradient boosting machine,輕量梯度提升機)是對XGBoost進行改進的模型版本,其三者之間的演變關系為:GBDT-》XGBoost-》LightGBM,依次對性能進行優化,盡管XGBoost已經很高效了,但是仍然有缺…

內網服務器無法通過公網地址訪問映射到公網的內網服務

內網服務器無法通過公網地址訪問映射到公網的內網服務 問題現象問題原因解決方法總結 前幾天遇到一個網絡問題,在這里做下記錄,希望能幫助到有相同問題的朋友。 問題現象 網絡拓撲如上所示,服務器1和服務器2在同一內網,網段均為1…

python每日十題(13)

一般把計算機完成一條指令所花費的時間稱為一個指令周期。指令周期越短,指令執行就越快。本題答案為D選項。 順序程序具有順序性、封閉性和可再現性的特點,使得程序設計者能夠控制程序執行的過程(包括執行順序、執行時間),對程序執…

Python 裝飾器(Decorators)

什么是裝飾器? 裝飾器(Decorator)本質上是一個 修改其他函數功能的函數。它的核心思想是:不修改原函數代碼,動態添加新功能。比如: 記錄函數執行時間 檢查用戶權限 緩存計算結果 自動重試失敗操作 理解…

uWebSockets開發入門

一、常用C++ WebSocket開源庫 一些常用的 C++ WebSocket 開源庫,它們支持 WebSocket 協議的實現,適用于客戶端或服務器端開發。 1. Boost.Beast (推薦) 特點:基于 Boost.Asio 的高性能庫,支持 HTTP/WebSocket,屬于 Boost 官方庫的一部分,穩定且跨平臺。 適用場景:需要高…

多智能體功能分化的核心優勢是什么:提升效率,查漏補缺

多智能體功能分化的核心優勢是什么:提升效率,查漏補缺 在于通過分工協作提升整體效率、靈活性和魯棒性。 1. 提升效率與專業性 原理:單一智能體無需處理全流程,通過專業化分工減少冗余計算和決策延遲。 示例: 自動駕駛系統: 感知智能體:專門處理攝像頭、激光雷達等傳…

項目復盤:websocket不受跨域限制的原理

主要還是因為: 1、WebSocket 是獨立于 HTTP 的應用層協議,通過 HTTP 建立連接后,完全脫離 HTTP 語義約束。這意味著 不受 HTTP 同源策略限制 不需要預檢請求 不依賴 CORS 頭機制 2、建立連接時的握手請求仍使用 HTTP 格式,但…

COMPASS:通過殘差強化學習和技能合成實現跨具身移動策略

25年2月來自 Nvidia、UC Berkeley 和 UT Austin 的論文“COMPASS: Cross-embOdiment Mobility Policy via ResiduAl RL and Skill Synthesis”。 隨著機器人越來越多地部署在不同的應用領域,可泛化的跨具身移動策略變得越來越重要。雖然經典的移動棧已被證明在特定…

無人機,雷達定點飛行時,位置發散,位置很飄,原因分析

參考: 無人車傳感器 IMU與GPS數據融合進行定位機制_gps imu 組合定位原始數-CSDN博客 我的無人機使用雷達定位,位置模式很飄 雷達的更新頻率也是10HZ, 而px飛控的頻率是100HZ,沒有對兩者之間的頻率差異做出處理 所以才導致無人…