貓頭虎AI 薦研|騰訊開源長篇敘事音頻生成模型 AudioStory:統一模型,讓 AI 會講故事

🐯貓頭虎薦研|騰訊開源長篇敘事音頻生成模型 AudioStory:統一模型,讓 AI 會講故事

大家好,我是貓頭虎 🐯🦉,又來給大家推薦新鮮出爐的 AI 開源項目
這次要聊的是騰訊 ARC Lab 最近開源的一個相當炸裂的模型 —— AudioStory

一句話總結:它能把文本、視頻,甚至已有音頻,變成 長篇、完整、有情緒、有邏輯的音頻故事
👉 有聲小說、動畫配音、長音頻敘事,全都不在話下。
在這里插入圖片描述

文章目錄

  • 🐯貓頭虎薦研|騰訊開源長篇敘事音頻生成模型 **AudioStory**:統一模型,讓 AI 會講故事
    • ? 為什么值得關注?
    • 📖 它能做什么?
      • 1?? 視頻配音(Video Dubbing)
      • 2?? 文本轉長篇音頻(Text-to-Long Audio)
      • 3?? 音頻續寫(Audio Continuation)
    • 🧩 技術原理
    • ?? 安裝與上手
    • 📊 實驗結果
    • 🔋 致謝與生態
    • 🐯貓頭虎點評


? 為什么值得關注?

我們先來看看痛點。
傳統的 Text-to-Audio (TTA) 技術,的確能生成短音頻,但要做長篇敘事就會遇到三大難題:

  1. 場景割裂 —— 一會兒是森林,一會兒是都市,過渡生硬;
  2. 情緒漂移 —— 上一秒還在悲傷,下一秒突然變嗨,完全不連貫;
  3. 模塊割裂 —— 大多數方案要把理解、生成、后處理拆成好幾個流水線模塊,工程復雜,效果還經常對不上。

AudioStory 的厲害之處在于:
它是一個 統一模型,把 指令理解 + 音頻生成 + 跨場景一致性 全部揉在一起。

這意味著它不僅能生成自然過渡的敘事音頻,還能穩住整體基調和情感,效果遠超擴散模型或 LLM+擴散的組合。
研究團隊也拿出了數據:在 FD (Fréchet Distance)FAD (Fréchet Audio Distance) 兩個關鍵指標上,AudioStory 的表現全面優于基線模型。


📖 它能做什么?

AudioStory 提供了三大核心能力:

1?? 視頻配音(Video Dubbing)

Tom & Jerry 這樣的動畫片,你只需要給出視覺字幕,AudioStory 就能自動生成擬聲和對白。
它還能跨域泛化,比如 Snoopy哪吒Donald Duck熊出沒 風格全都能玩。

換句話說:你給它一個視頻,模型能自動加上“活靈活現的聲音軌”。


2?? 文本轉長篇音頻(Text-to-Long Audio)

和普通的 TTS 不一樣,它能把你的文本變成 完整的場景敘事

示例指令:

生成一段完整音頻:Jake Shimabukuro 在錄音室彈奏復雜的尤克里里曲目,獲得掌聲,并在采訪中討論職業生涯。總時長 49.9 秒。

生成結果包含:演奏聲 🎶 + 環境聲 🌌 + 掌聲 👏 + 采訪 🎤 —— 全流程沉浸式敘事。


3?? 音頻續寫(Audio Continuation)

給定一段已有音頻,AudioStory 能理解上下文,并自然銜接后續。

例如:輸入一段籃球教練訓練的錄音,模型能生成教練繼續講解戰術的音頻。
就像 GPT 寫小說的續寫,但對象換成了音頻流。


🧩 技術原理

在這里插入圖片描述

核心架構是一個 理解–生成統一框架

  1. 輸入理解

    • LLM 先對輸入(文本 / 音頻 / 視頻字幕)進行分析,拆解為有邏輯順序的 子事件
  2. 推理生成

    • 每個子事件由 LLM 生成 描述字幕 (captions)語義 token殘余 token
    • 這些 token 被送進 DiT(Diffusion Transformer),合成高保真音頻片段。
  3. 一致性機制

    • Bridging Query:保持單場景內部的語義穩定;
    • Consistency Query:確保跨場景的情感和敘事基調統一。

最終效果:情緒和過渡都自然得像真人配音師。


?? 安裝與上手

項目已開源在 GitHub,環境配置很友好:

git clone https://github.com/TencentARC/AudioStory.git
cd AudioStory
conda create -n audiostory python=3.10 -y
conda activate audiostory
bash install_audiostory.sh

推理示例:

python evaluate/inference.py \--model_path ckpt/audiostory-3B \--guidance 4.0 \--save_folder_name audiostory \--total_duration 50

依賴環境:

  • Python >= 3.10
  • PyTorch >= 2.1.0
  • NVIDIA GPU + CUDA

📊 實驗結果

團隊在多任務測試中給出了硬指標:

  • FD/FAD:明顯優于擴散模型和 LLM+擴散基線。
  • 敘事一致性:在動畫配音和自然場景音頻中,人類聽感評測也顯著提升。

可以說,AudioStory 把長篇敘事音頻生成拉到了一個新高度。


🔋 致謝與生態

在持續噪聲去除器(continuous denoisers)構建上,AudioStory 參考了 SEED-XTangoFlux 項目。
學術圈的相互借鑒與迭代,正推動整個 TTA 領域的飛速發展。


🐯貓頭虎點評

為什么我推薦大家關注 AudioStory

  1. 場景落地感強 —— 有聲小說、播客、動畫后期、虛擬主播,馬上能用。
  2. 統一模型思路 —— 省去了多模塊拼接的麻煩,更簡潔也更穩健。
  3. 開源可玩性 —— 代碼+模型+Demo 全放出,研究者和開發者都能快速上手。

未來如果結合 多模態大模型(如視覺+音頻),再疊加 實時生成,那真的就是“AI 聲音導演”了。

👉 地址奉上:https://github.com/TencentARC/AudioStory


🐯 總結一句:
AudioStory = 讓 AI 不僅能說話,更能講故事。
從短音頻走向長篇敘事,這是 TTA 的關鍵突破,也可能是下一波“有聲內容產業”的催化劑。


本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/921187.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/921187.shtml
英文地址,請注明出處:http://en.pswp.cn/news/921187.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

收藏!VSCode 開發者工具快捷鍵大全

一、文件操作快捷鍵1. 打開與關閉文件Ctrl O(Windows/Linux)或 Command O(Mac):打開文件,可以通過輸入文件名快速查找并打開相應文件。Ctrl W(Windows/Linux)或 Command W&#…

Simulations RL 平臺學習筆記

1. 選擇標準 1.1 開源項目,🌟star數量越多越好 2. 常見平臺 2.1 🌟18.6k ML-Agents:基于Unity實現 2.2 🌟1.2k Godot RL Agents

【國內電子數據取證廠商龍信科技】IOS 逆向脫殼

我們都知道,大多數的 APP 在開發的時候一般都會加上一層殼,例如 愛加密、梆梆、360、網易易盾等等。那 APK 的脫殼我們見得多了,那 IOS 逆向脫殼又是怎樣子的呢?首先咱們先了解一下為什么要砸殼,因為 IOS 開發者開發軟…

基于STM32單片機溫濕度PM2.5粉塵甲醛環境質量wifi手機APP監測系統

1 基于STM32單片機溫濕度PM2.5粉塵甲醛環境質量WiFi手機APP監測系統 本系統旨在實現對環境中溫度、濕度、PM2.5粉塵濃度以及甲醛濃度的實時監測,并通過WiFi技術將數據傳輸至手機APP端,實現移動化與可視化的環境質量檢測。系統在硬件上主要依賴STM32單片…

用C++實現日期類

在上學的時候,總是在計算還有多少天放假;在上班的時候,總是在計算還有多久發工資?我們一般通過日歷得到結果,那自己能不能實現一些基本的功能呢?答案是可以的!需要實現內容:1. 日期加…

百度網盤基于Flink的實時計算實踐

01 概覽 隨著數字化轉型的來臨,企業對于數據服務的實時化需求日益增長,在大規模數據和復雜場景的情況下,Flink在實時計算數據鏈路中扮演著極為重要的角色,本文介紹了網盤如何通過 Flink 構建實時計算引擎,從而提供高性…

【CMake】策略

目錄 一.CMake策略簡要理解 1.1.第一階段:童年時期(舊行為,The "Old Way") 1.2.第二階段:成長與改進(引入新行為,The "New Way") 1.3.第三階段:…

LLM中的function call

1. 概念 **Function Call(函數調用)**是指在編程中,程序可以通過調用預定義的函數來執行特定的操作。在LLM中,函數調用的概念擴展了模型的能力,使其不僅能夠生成文本,還能與外部系統進行交互。通過函數調用…

【系統架構設計(13)】項目管理上:盈虧平衡分析與進度管理

文章目錄零、核心思想:經濟性與時效性的動態平衡一、盈虧平衡分析:項目的經濟生命線1、核心公式與決策邏輯二、進度管理:項目的時效生命線1. **工作分解結構(WBS)**2. 進度管理流程3、關鍵路徑法關鍵路徑法&#xff08…

【SuperSocket 】利用 TaskCompletionSource 在 SuperSocket 中實現跨模塊異步處理客戶端消息

利用 TaskCompletionSource 在 SuperSocket 中實現跨模塊異步處理客戶端消息 在使用 SuperSocket 構建 TCP 服務時,我們經常會遇到這樣的需求: 服務端接收到客戶端數據后,需要將數據交給其他模塊處理處理完成后再將結果返回給調用模塊或客戶端…

《IC驗證必看|semaphore與mailbox的核心區別》

月薪30K驗證工程師必答:SystemVerilog中semaphore與mailbox的核心區別,及必須用semaphore的場景深度解析 在驗證工程師的技能體系里,線程同步與資源管控是區分“基礎會用”(20K水平)和“精通工程化”(30K水…

Spring線程池ThreadPoolTaskExecutor?詳解

ThreadPoolTaskExecutor?寫法Bean(name "taskExecutor") public ThreadPoolTaskExecutor taskExecutor() {ThreadPoolTaskExecutor executor new ThreadPoolTaskExecutor();executor.setCorePoolSize(8); // 8核CPU服務器建議值executor.setMaxPoolSize(…

Unity之安裝教學

UnityHub下載 下載官網地址:Unity Hub下載地址 打開網址右上角,登錄/注冊賬號 登錄完畢后,點擊下載 安裝Unity Hub 雙擊傻瓜式安裝 安裝完成 啟動UnityHub 雙擊啟動 左上角設置 設置中文 左上角登錄賬號 添加免費許可證 設置-許可證-添加 安裝…

Redis 集群模式與高可用機制

最近在準備面試,正把平時積累的筆記、項目中遇到的問題與解決方案、對核心原理的理解,以及高頻業務場景的應對策略系統梳理一遍,既能加深記憶,也能讓知識體系更扎實,供大家參考,歡迎討論。在分布式環境下&a…

Flutter + Web:深度解析雙向通信的混合應用開發實踐

Flutter Web:深度解析雙向通信的混合應用開發實踐 前言 在當今快速發展的移動應用開發領域,開發者們始終在尋求一種能夠平衡開發效率、跨平臺能力和用戶體驗的完美方案。原生開發性能卓越,但雙平臺(iOS/Android)開發…

如何查看Linux系統中文件夾或文件的大小

在日常運維和開發工作中,了解文件夾和文件占用的磁盤空間是非常重要的。尤其是當你在服務器上部署應用(如 Jenkins)時,合理監控磁盤使用情況可以避免磁盤空間不足導致的各種問題。在 Linux 系統中,我們可以使用一些簡單…

豪華酒店品牌自營APP差異對比分析到產品重構

一、萬豪國際集團旗下豪華酒店品牌及統一APP 萬豪旗下奢華品牌均整合于 「萬豪旅享家(Marriott Bonvoy)」APP,會員可通過該平臺預訂、管理積分及享受跨品牌服務。以下為核心豪華品牌: 1. 經典奢華品牌 麗思卡爾頓酒店(The Ritz-Carlton) 定位:頂級奢華,以管家服務、歷…

ESLint 相關

no-unused-vars 等常見報錯提醒關閉 1. no-unused-vars 報錯示例: useMemo is defined but never used no-unused-vars解決方式 方法一:局部禁用某一行 // eslint-disable-next-line no-unused-vars const result useMemo(() > {}, []);方法二&…

1分鐘生成爆款相聲對話視頻!Coze智能體工作流詳細搭建教程,小白也能輕松上手

最近看到一個賬號,用AI將傳統相聲對話做成趣味短視頻,單條播放量輕松破百萬。這種視 頻看似復雜,其實用Coze智能體工作流1分鐘就能搞定,完全不需要剪輯基礎。工作流功能 用Coze一鍵生成爆款相聲對話視頻,無需剪輯直接發…

pinia狀態管理工具

pinia狀態管理工具Pinia 是 Vue.js 官方推薦的新一代狀態管理庫,可以看作是 Vuex 的替代品。1. 什么是 Pinia? Pinia 是 Vue 的專屬狀態管理庫,它允許你跨組件或頁面共享狀態。由 Vue.js 核心團隊維護,并且對 TypeScript 有著極其…