SIGGRAPH 2025 | 快手可靈團隊提出3D感知的電影級文本到視頻生成框架CineMaster

Sora、可靈等視頻生成模型令人驚艷的性能表現使得創作者僅依靠文本輸入就能夠創作出高質量的視頻內容。然而,我們常見的電影片段通常是由導演在一個場景中精心布置多個目標的運動、攝像機拍攝角度后再剪輯而成的。例如,在拍攝賽車追逐的場景時,鏡頭通常跟隨賽車運動,并通過扣人心弦的超車時刻來展示賽事的白熱化。而如今的視頻生成模型無法實現 3D 場景中目標、相機聯合控制的文本到視頻創作,限制了 AI 影視制作的能力。

近期,可靈研究團隊在「3D 感知可控視頻生成」領域做出了首次嘗試,推出了電影級文本到視頻生成框架 CineMaster,允許用戶在提供全局文本描述的基礎上,通過提出的交互式工作流輔助用戶像專業導演一樣布置場景,設定目標與相機的運動,指導模型生成用戶想要的視頻內容。目前該論文已錄用于 SIGGRAPH 2025。

圖片

  • 論文標題:CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

  • 論文地址:https://arxiv.org/abs/2502.08639

  • 項目主頁:https://cinemaster-dev.github.io/

圖片

一、支持3D感知的目標、相機運動控制

a)目標相機聯合控制:

圖片

b)目標運動控制

圖片

c)相機運動控制

圖片

可以觀察到,CineMaster可以根據用戶提供的多模態細粒度的控制信號生成期望的視頻,支持較大幅度的目標、相機運動的可控生成。

二、CineMaster 框架

CineMaster通過兩階段的工作流,實現高度可控的文本到視頻生成:

階段1:構建3D感知的控制信號:用戶可以通過交互式界面在 3D 空間中調整物體的邊界框(3D Bounding Box)和攝像機位置,這個過程類似于真實的電影拍攝過程,即導演多次調整演員在場景中的排布和相機的運動。隨后,導出相機軌跡和每幀的投影深度圖,作為后續生成的條件信號。

階段2:如圖所示,該方法框架通過語義布局ControlNet的架構集成了物體的運動控制信號和物體的類別標簽信息,從而明確地控制每個目標的運動。此外,通過Camera Adapter集成了相機運動控制信號表示視頻序列的全局運動。

圖片

三、CineMaster訓練數據構建流程

圖片

數據構建流程旨在從任意視頻中提取 3D bounding boxes、類別標簽、視頻相機軌跡,主要包含 4 個步驟:

  • 通過 Qwen2-VL 增強的實體描述提升開放詞匯目標檢測模型 Grounding DINO 的性能,并通過 SAM v2 實現視頻實例分割;

  • 利用 DepthAnything V2 估計視頻的絕對深度;

  • 在每個目標的 Mask 最大幀通過深度投影分割結果到點云空間計算 3D bounding box;

  • 訪問由 Spatial Tracker 實現的 3D 點跟蹤結果,計算所有目標在視頻序列中的 3D bounding box,并投影整個 3D 場景得到深度圖。

此外,該框架利用 MonST3R 計算了視頻的相機軌跡。

四、對比結果

圖片

上圖中研究者將 CineMaster 與基線方法進行了比較。據觀察,基線方法無法顯式地關聯給定的運動條件和相應的目標,也存在目標運動和相機運動耦合的問題。而 CineMaster 可以合成符合文本提示、目標、相機控制信號的高質量視頻。請訪問項目主頁查看視頻結果。

五、總結

在本文中,研究者期望為用戶提供強大的 3D 感知的可控視頻生成能力,讓用戶能夠像專業導演一樣創作。為此,首先設計了一個 3D 感知的交互工作流,允許用戶直觀地編輯目標和相機的運動;隨后開發了一個多模態條件控制視頻生成模型,生成用戶想要的視頻。此外,該方法精心設計了一套從任意視頻中提取 3D 控制信號的數據構建流程,為 3D 可控視頻生成領域的研究提供了實踐經驗。

更多細節請參閱原論文

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/81496.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/81496.shtml
英文地址,請注明出處:http://en.pswp.cn/web/81496.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

在springboot,禁止查詢數據庫種的某字段

使用Mp注解(只對Mp提供的基礎方法有效) 在注解TableField后面加一個select false,這樣就無法查詢到該表下密碼這個字段了 但需要注意的是如果是自己寫的sql就無法通過這一種方法實現了

Spring Boot + MyBatis-Plus實現操作日志記錄

創建數據庫表 CREATE TABLE sys_operation_log (log_id bigint NOT NULL AUTO_INCREMENT COMMENT 日志ID,operation_type varchar(20) NOT NULL COMMENT 操作類型,operation_module varchar(50) NOT NULL COMMENT 操作模塊,operation_desc varchar(200) DEFAULT NULL COMMENT …

開源多模態新標桿——BAGEL本地部署教程:7B參數撬動萬億數據

一、簡介 BAGEL ,這是一個開源的多模態基礎模型,具有 70 億個激活參數(總共 140 億個),并在大規模交錯多模態數據上進行訓練。 BAGEL 在標準多模態理解排行榜上超越了當前頂級的開源 VLMs 如 Qwen2.5-VL 和 InternVL…

SD卡+FATFS+Tinyjpeg圖片解碼顯示 (STM32F103VET6通過CubeMX快速建立工程)

先展示最終實現的功能效果如下: 1.目的與意義 為什么選用SD卡? 使用Nor-flash(W25Q系列)進行圖片的存取,需要先把圖片通過對應軟件批量處理為二進制bin文件,再通過SPI等通訊方式將 bin文件燒寫進Nor-flash才能進行使用,使用時還要記住每張圖片的首地址和對應字節數,MC…

數據結構-散列表查找(哈希表)

一,散列表查找定義 散列技術是在記錄的存儲位置和它的關鍵字之間建立一個確定的對應關系f,使得每個關鍵字key對應一個存儲位置f(key)。查找時,根據這個確定的對應關系找到給定值key的映射f(key),若查找集中存在這個記錄&#xff0…

Stable Diffusion 簡單了解一下

1. 幫我簡單介紹一下:StableDiffusion ?? Stable Diffusion 是什么? Stable Diffusion 是一個 文本生成圖像(Text-to-Image) 的人工智能模型。你只需要輸入一句話,它就能根據這句話生成一張高質量的圖片。 比如: "一只穿著太空服的貓,在月球上彈吉他"St…

R語言科研編程-標準偏差柱狀圖

生成隨機數據 在R中&#xff0c;可以使用rnorm()生成正態分布的隨機數據&#xff0c;并模擬分組數據。以下代碼生成3組&#xff08;A、B、C&#xff09;隨機數據&#xff0c;每組包含10個樣本&#xff1a; set.seed(123) # 確保可重復性 group_A <- rnorm(10, mean50, sd…

普羅米修斯監控CPU\內存匯聚圖

要找出內存使用率大于80%的主機&#xff0c;你可以使用以下PromQL查詢。這個查詢會計算每個節點的內存使用率&#xff0c;然后篩選出使用率超過80%的節點&#xff1a; (avg by(nodename) ((node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes)* on(instance) group…

飛牛fnNAS手機相冊備份及AI搜圖

目錄 一、相冊安裝應用 二、手機開啟自動備份 三、開始備份 四、照片檢索 五、AI搜圖設置 六、AI搜圖測試 七、照片傳遞 現代的手機,已經成為我們最親密的“伙伴”。自從手機拍照性能提升后,手機已經完全取代了簡單的卡片相機,而且與入門級“單反”相機發起了挑戰。在…

華為高斯數據庫(GaussDB)深度解析:國產分布式數據庫的旗艦之作

高斯數據庫介紹 一、高斯數據庫概述 GaussDB是華為自主研發的新一代分布式關系型數據庫&#xff0c;專為企業核心系統設計。它支持HTAP&#xff08;混合事務與分析處理&#xff09;&#xff0c;兼具強大的事務處理與數據分析能力&#xff0c;是國產數據庫替代的重要選擇。 產…

網頁 CSS美化2(詳解)

這是接著上一篇css基礎的第二篇&#xff1a;主要開始對頁面的布局進行學習 顯示模式&#xff1a; 塊級模式&#xff08;Block&#xff09; 特點 &#xff1a; 元素會獨占一行&#xff0c;在其前后會自動換行&#xff0c;與其他塊級元素在垂直方向上排列。 寬度默認為所在容器…

JSON解析性能優化全攻略:協程調度器選擇與線程池饑餓解決方案

簡介 JSON解析是現代應用開發中的基礎操作,但在使用協程處理時,若調度器選擇不當,會導致性能嚴重下降。特別是當使用Dispatchers.IO處理JSON解析時,可能觸發線程池饑餓,進而引發ANR或系統卡頓。本文將深入剖析這一問題的技術原理,提供全面的性能檢測方法,并給出多種優化…

python打卡第37天

知識點回顧&#xff1a; 過擬合的判斷&#xff1a;測試集和訓練集同步打印指標模型的保存和加載 僅保存權重保存權重和模型保存全部信息checkpoint&#xff0c;還包含訓練狀態 早停策略 作業&#xff1a;對信貸數據集訓練后保存權重&#xff0c;加載權重后繼續訓練50輪&#xf…

【洛谷P9303題解】AC- [CCC 2023 J5] CCC Word Hunt

在CCC單詞搜索游戲中&#xff0c;單詞隱藏在一個字母網格中。目標是確定給定單詞在網格中隱藏的次數。單詞可以以直線或直角的方式排列。以下是詳細的解題思路及代碼實現&#xff1a; 傳送門&#xff1a; https://www.luogu.com.cn/problem/P9303 解題思路 輸入讀取與初始化&…

LangGraph + LLM + stream_mode

文章目錄 LLM 代碼valuesmessagesupdatesmessages updatesmessages updates 2 LLM 代碼 from dataclasses import dataclassfrom langchain.chat_models import init_chat_model from langgraph.graph import StateGraph, STARTfrom langchain_openai import ChatOpenAI # 初…

Pydantic 學習與使用

Pydantic 學習與使用 在 Fastapi 的 Web 開發中的數據驗證通常都是在使用 Pydantic 來進行數據的校驗&#xff0c;本文將對 Pydantic 的使用方法做記錄與學習。 **簡介&#xff1a;**Pydantic 是一個在 Python 中用于數據驗證和解析的第三方庫&#xff0c;它現在是 Python 使…

批量文件重命名工具

分享一個自己使用 python 開發的小軟件&#xff0c;批量文件重命名工具&#xff0c;主要功能有批量中文轉拼音&#xff0c;簡繁體轉換&#xff0c;大小寫轉換&#xff0c;替換文件名&#xff0c;刪除指定字符&#xff0c;批量添加編號&#xff0c;添加前綴/后綴。同時還有文件時…

多語言視角下的 DOM 操作:從 JavaScript 到 Python、Java 與 C#

多語言視角下的 DOM 操作&#xff1a;從 JavaScript 到 Python、Java 與 C# 在 Web 開發中&#xff0c;文檔對象模型&#xff08;DOM&#xff09;是構建動態網頁的核心技術。它將 HTML/XML 文檔解析為樹形結構&#xff0c;允許開發者通過編程方式訪問和修改頁面內容、結構和樣…

【C/C++】紅黑樹學習筆記

文章目錄 紅黑樹1 基本概念1.1 定義1.2 基本特性推理1.3 對比1.4 延伸1.4.1 簡單判別是否是紅黑樹1.4.2 應用 2 插入2.1 插入結點默認紅色2.2 插入結點2.2.1 插入結點是根結點2.2.2 插入結點的叔叔是紅色2.2.3 插入結點的叔叔是黑色場景分析LL型RR型LR型RL型 3 構建4 示例代碼 …

網絡通信的基石:深入理解幀與報文

在這個萬物互聯的時代&#xff0c;我們每天都在享受著網絡帶來的便利——從早晨查看天氣預報&#xff0c;到工作中的視頻會議&#xff0c;再到晚上刷著短視頻放松。然而&#xff0c;在這些看似簡單的網絡交互背后&#xff0c;隱藏著精密而復雜的數據傳輸機制。今天&#xff0c;…