【AI論文】JavisDiT: 具備層次化時空先驗同步機制的聯合音視頻擴散Transformer

摘要:本文介紹了一種新型的聯合音頻-視頻擴散變換器JavisDiT,該變換器專為同步音頻-視頻生成(JAVG)而設計。 基于強大的擴散變換器(DiT)架構,JavisDiT能夠根據開放式用戶提示同時生成高質量的音頻和視頻內容。 為了確保最佳同步,我們通過分層時空同步先驗(HiST-Sypo)估計器引入了一種細粒度的時空對齊機制。 該模塊提取全局和細粒度的時空先驗,指導視覺和聽覺組件之間的同步。 此外,我們提出了一個新的基準測試JavisBench,由10140個高質量的文本字幕發聲視頻組成,這些視頻涵蓋了不同的場景和復雜的現實場景。 此外,我們專門設計了一個魯棒的指標來評估在現實世界復雜內容中生成的音頻-視頻對之間的同步。 實驗結果表明,JavisDiT在確保高質量生成和精確同步方面明顯優于現有方法,為JAVG任務設定了新的標準。 我們的代碼、模型和數據集將在https://javisdit.github.io/上公開發布。Huggingface鏈接:Paper page,論文鏈接:2503.23377

研究背景和目的

研究背景

隨著人工智能生成內容(AIGC)領域的快速發展,生成多模態內容,如圖像、視頻和音頻,已經吸引了廣泛的研究關注。特別是,同步音頻和視頻生成(JAVG)作為多模態內容生成的一個重要分支,具有廣泛的應用前景,如電影制作和短視頻創作。然而,現有的JAVG方法仍面臨諸多挑戰。一方面,如何確保高質量的單模態音頻和視頻生成是一個核心問題;另一方面,如何實現音頻和視頻之間的精確同步是另一個重要挑戰。

傳統的JAVG方法主要分為兩類:異步流水線方法和端到端的聯合音視頻生成(JAVG)方法。異步流水線方法通常先生成音頻,然后基于音頻合成視頻,或者反之。這種方法雖然簡單,但容易積累級聯噪聲。而端到端的JAVG方法則通過避免級聯噪聲積累吸引了更多研究關注,但仍存在一些問題。例如,大多數方法缺乏對同步的精細建模,無法實現音頻和視頻之間的精確時空對齊。

此外,現有的JAVG基準測試集也存在一些局限性,如音頻視頻內容過于簡單、場景多樣性不足等。這些局限性使得在復雜現實場景下的模型評估變得困難,限制了JAVG技術的進一步發展。

研究目的

針對上述挑戰,本文提出了JavisDiT,一種新型的基于擴散變換器(DiT)的JAVG系統。JavisDiT旨在解決兩個關鍵問題:一是如何生成高質量的音頻和視頻內容;二是如何實現音頻和視頻之間的精確同步。為了實現這一目標,本文設計了分層時空同步先驗(HiST-Sypo)估計器,以提取全局和細粒度的時空先驗,指導音頻和視頻之間的同步。同時,本文還構建了一個新的基準測試集JavisBench,包含10,140個高質量的文本字幕發聲視頻,涵蓋了多樣化的場景和復雜的現實場景。此外,本文還提出了一種魯棒的指標來評估生成的音頻視頻對在現實復雜內容中的同步性。

研究方法

JavisDiT系統架構

JavisDiT系統基于強大的DiT架構,由視頻生成分支、音頻生成分支和多模態雙向交叉注意力模塊組成。在每個分支中,采用了時空自注意力機制進行模態內信息聚合,通過粗粒度交叉注意力機制融入文本語義,通過細粒度時空交叉注意力機制融入時空先驗,并通過雙向交叉注意力機制增強視頻和音頻之間的信息聚合。

分層時空同步先驗估計器

為了實現音頻和視頻之間的精確同步,本文設計了HiST-Sypo估計器。該估計器通過文本編碼器提取輸入文本的全局和細粒度時空先驗,然后利用這些先驗指導視頻和音頻之間的同步。具體來說,HiST-Sypo估計器首先利用ImageBind的文本編碼器提取文本隱藏狀態,然后利用一個4層的Transformer編碼器-解碼器結構提取時空先驗。為了增強估計器的魯棒性,本文還采用了一種對比學習方法來優化HiST-Sypo估計器。

訓練策略

為了同時實現高質量的單模態生成和精確的時空同步,本文采用了一種三階段訓練策略。第一階段是音頻預訓練,利用OpenSora的視頻分支權重初始化音頻分支,并在大規模音頻數據集上進行訓練。第二階段是時空先驗訓練,利用同步的文本-視頻-音頻三元組和合成的異步負樣本訓練HiST-Sypo估計器。第三階段是聯合生成訓練,凍結視頻和音頻分支的自注意力模塊和HiST-Sypo估計器,只訓練時空交叉注意力模塊和雙向交叉注意力模塊,以實現同步的視頻和音頻生成。

新的基準測試集和評估指標

為了全面評估JAVG模型的性能,本文構建了一個新的基準測試集JavisBench,包含10,140個高質量的文本字幕發聲視頻,涵蓋了多樣化的場景和復雜的現實場景。同時,本文還提出了一種新的評估指標JavisScore,用于評估生成的音頻視頻對在現實復雜內容中的同步性。JavisScore通過計算視頻和音頻之間的語義對齊程度來評估同步性,比傳統的AV-Align指標更加魯棒和準確。

研究結果

實驗結果表明,JavisDiT在單模態生成質量和音視頻同步性方面均顯著優于現有方法。在JavisBench基準測試集上,JavisDiT在多個評估指標上均取得了最優性能,包括FVD、FAD、TV-IB、TA-IB、CLIP相似度和JavisScore等。此外,JavisDiT還能夠在復雜場景下實現精確的音視頻同步,這是現有方法所難以做到的。

通過消融實驗,本文還驗證了JavisDiT中各個模塊的有效性。結果表明,時空自注意力機制、細粒度時空交叉注意力機制和雙向交叉注意力機制均對JavisDiT的性能有重要貢獻。特別是細粒度時空交叉注意力機制,通過引入HiST-Sypo先驗顯著提高了音視頻同步性。

研究局限

盡管JavisDiT在JAVG任務上取得了顯著的性能提升,但仍存在一些局限性。首先,JavisDiT的訓練數據規模相對有限,只有0.6M的文本-視頻-音頻三元組。這限制了模型在更多樣化場景下的泛化能力。為了進一步提高模型的泛化能力,需要收集更多高質量的現實世界音視頻樣本。

其次,JavisScore評估指標雖然比傳統的AV-Align指標更加魯棒和準確,但其準確率仍有待提高。目前JavisScore的準確率為75%,仍有一定的提升空間。未來可以探索更多感知對齊評估方法或引入人工評估來進一步提高評估指標的準確性。

此外,基于擴散模型的生成方法通常計算量較大,生成速度較慢。雖然JavisDiT通過優化模型架構和訓練策略在一定程度上提高了生成效率,但仍難以滿足實時生成的需求。未來可以探索加速采樣策略或硬件優化來進一步提高生成效率。

未來研究方向

針對上述研究局限,未來可以在以下幾個方面開展進一步的研究:

  1. 擴大訓練數據規模:收集更多高質量的現實世界音視頻樣本,以訓練更大規模的模型,提高模型在更多樣化場景下的泛化能力。

  2. 提高評估指標準確性:探索更多感知對齊評估方法或引入人工評估來進一步提高評估指標的準確性,為模型優化提供更可靠的反饋。

  3. 提高生成效率:探索加速采樣策略或硬件優化來進一步提高生成效率,滿足實時生成的需求。例如,可以利用GPU并行計算、模型剪枝和量化等技術來加速生成過程。

  4. 跨分辨率和時長基準測試:開展跨分辨率和時長的基準測試,以更全面地評估模型在不同設置下的性能,為模型優化提供更全面的指導。

  5. 探索更多應用場景:將JavisDiT應用于更多實際場景,如電影制作、短視頻創作、虛擬現實和增強現實等,以驗證其在實際應用中的有效性和實用性。

總之,JavisDiT作為一種新型的基于DiT的JAVG系統,在單模態生成質量和音視頻同步性方面均取得了顯著的性能提升。未來可以通過擴大訓練數據規模、提高評估指標準確性、提高生成效率、開展跨分辨率和時長基準測試以及探索更多應用場景等方向來進一步推進JAVG技術的發展。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/75848.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/75848.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/75848.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java-實現公有字段自動注入(創建人、創建時間、修改人、修改時間)

文章目錄 Mybatis-plus實現自動注入定義 MetaObjectHandler配置 MyBatis-Plus 使用 MetaObjectHandler實體類字段注解使用服務類進行操作測試 Jpa啟用審計功能實現自動注入添加依賴啟動類啟用審計功能實現AuditorAware接口實體類中使用審計注解 總結 自動注入創建人、創建時間、…

金融機構開源軟件風險管理體系建設

開源軟件為金融行業帶來了創新活力的同時,也引入了一系列獨特的風險。金融機構需要構建系統化的風險管理體系,以識別和應對開源軟件在全生命周期中的各種風險點。下面我們將解析開源軟件在金融場景下的主要風險類別,并探討如何建立健全的風險…

圖形渲染中的定點數和浮點數

三種API的NDC區別 NDC全稱,Normalized Device Coordinates Metal、Vulkan、OpenGL的區別如下: featureOpenGL NDCMetal NDCVulkan NDC坐標系右手左手右手z值范圍[-1,1][0,1][0,1]xy視口范圍[-1,1][-1,1][-1,1] GPU渲染的定點數和浮點數 定點數類型&a…

同花順客戶端公司財報抓取分析

目標客戶端下載地址:https://ft.51ifind.com/index.php?c=index&a=download PC版本 主要難點在登陸,獲取token中的 jgbsessid (每次重新登錄這個字段都會立即失效,且有效期應該是15天的) 抓取jgbsessid 主要通過安裝mitmproxy 使用 mitmdump + 下邊的腳本實現監聽接口…

QT工程建立

打開軟件新建一個工程 選擇chose 工程命名,選擇保存路徑,可以自己選擇,但是不要有中文路徑 默認的直接下一步 任意選一個下一步 點擊完成 之后是這個界面,點擊右下角的綠色三角形編譯一下 實驗內容 添加類 第一個是建立cpp和.h文件…

【NLP 53、投機采樣加速推理】

目錄 一、投機采樣 二、投機采樣改進:美杜莎模型 流程 改進 三、Deepseek的投機采樣 流程 Ⅰ、輸入文本預處理 Ⅱ、引導模型預測 Ⅲ、候選集篩選(可選) Ⅳ、主模型驗證 Ⅴ、生成輸出與循環 騙你的,其實我在意透了 —— 25.4.4 一、…

ffmpeg時間基與時間戳

時間基、時間戳 時間基:表示時間單位的分數,用來定義視頻或音頻流中時間的精度。其形式是一個分數,分子通常為 1,而分母則表示每秒的單位數。 時間戳:代表在時間軸里占了多少個格子,是特定的時間點。 時間…

激光加工中平面傾斜度的矯正

在激光加工中,加工平面的傾斜度矯正至關重要,直接影響加工精度和材料處理效果。以下是系統的矯正方法和步驟: 5. 驗證與迭代 二次測量:加工后重新檢測平面度,確認殘余誤差。 反饋優化:根據誤差分布修正補償…

算法刷題記錄——LeetCode篇(2.2) [第111~120題](持續更新)

更新時間:2025-04-04 算法題解目錄匯總:算法刷題記錄——題解目錄匯總技術博客總目錄:計算機技術系列博客——目錄頁 優先整理熱門100及面試150,不定期持續更新,歡迎關注! 114. 二叉樹展開為鏈表 給你二…

C語言學習筆記-9

九、結構體 構造類型: 不是基本類型的數據結構也不是指針類型, 它是若干個相同或不同類型的數據構成的集合 結構體類型: 結構體是一種構造類型的數據結構,是一種或多種基本類型或構造類型的數據的集合。 1.結構體類型定義 定…

Test——BUG篇

目錄 一軟件測試的生命周期 二BUG 1概念 2描述Bug 3Bug級別 4Bug的生命周期 三與開發人員發生爭執怎么辦 ?編輯1先自省:是否Bug描述不清晰 2站在用戶角度考慮并拋出問題 3Bug定級有理有據 4不僅要提出問題,還要給出解決方案 5Bug評審 5.1…

【Block總結】HWAB,半小波注意力塊|即插即用

論文信息 標題: HALF WAVELET ATTENTION ON M-NET+ FOR LOW-LIGHT IMAGE ENHANCEMENT 地址: arXiv:2203.01296 日期: 2022年3月 創新點 改進的分層架構 M-Net+: 提出了一個專為低光圖像增強設計的改良分層模型 M-Net+。該架構旨在緩解采樣過程中的空間信息損失問題。通過采用…

Spring 中的事務

🧾 一、什么是事務? 🧠 通俗理解: 事務 一組操作,要么全部成功,要么全部失敗,不能只做一半。 比如你轉賬: A 賬戶扣錢B 賬戶加錢 如果 A 扣了錢但 B 沒收到,那就出問…

Flutter極速接入IM聊天功能并支持鴻蒙

Flutter極速接入IM聊天功能并支持鴻蒙 如果你們也是Flutter項目,想快速接入聊天,包括聊天的UI界面,強烈推薦這一家。因為我們已經完成了集成,使用非常穩定,集成也非常快捷方便。 而且,就在今天&#xff0c…

C# 類庫生成后自動復制到指定目錄

C# 類庫生成后自動復制到指定目錄 在C#中,當你開發了一個類庫項目(通常是.NET Core或.NET Framework項目),你可能會希望在構建(Build)完成后自動將生成的DLL文件復制到指定的目錄。有幾種方法可以實現這個需求,下面是一些常用的方法: 方法1:使用MSBuild的AfterBuild…

13-產品經理-產品多分支平臺管理

禪道16.0版本開始,優化和增強了產品的分支/平臺功能,主要特點如下: 多分支/平臺功能兼容各種大小型項目,項目/迭代可以關聯對應產品的某個分支/平臺。分支/平臺支持靈活管理,可以把分支/平臺理解為時間層面的概念&…

手搓多模態-04 歸一化介紹

在機器學習中,歸一化是一個非常重要的工具,它能幫助我們加速訓練的速度。在我們前面的SiglipVisionTransformer 中,也有用到歸一化層,如下代碼所示: class SiglipVisionTransformer(nn.Module): ##視覺模型的第二層&am…

Qt 入門 1 之第一個程序 Hello World

Qt 入門1之第一個程序 Hello World 直接上操作步驟從頭開始認識,打開Qt Creator,創建一個新項目,并依次執行以下操作 在Qt Creator中,一個Kits 表示一個完整的構建環境,包括編譯器、Qt版本、調試器等。在上圖中可以直…

深入理解MySQL:核心特性、優化與實踐指南

MySQL是一個開源的關系型數據庫管理系統(RDBMS),由瑞典MySQL AB公司開發,目前屬于Oracle公司。它是目前世界上最流行的開源數據庫之一,廣泛應用于各種規模的Web應用和企業系統中。 目錄 一、核心特點 關系型數據庫: 開源免費&am…

Linux 系統安裝與優化全攻略:打造高效開發環境

一、開篇引言 (一)Linux 系統的廣泛應用 Linux 憑借其開源、穩定且安全的特性,在服務器、嵌入式設備以及開發環境等領域都有著極為廣泛的應用。 (二)撰寫本文的目的 為讀者提供一套全面且實用的指南,助…