阿里通義實驗室突破空間音頻新紀元!OmniAudio讓360°全景視頻“聲”臨其境

在虛擬現實和沉浸式娛樂快速發展的今天,視覺體驗已經遠遠不夠,聲音的沉浸感成為打動用戶的關鍵。然而,傳統的視頻配音技術往往停留在“平面”的音頻層面,難以提供真正的空間感。阿里巴巴通義實驗室(Qwen Lab)旗下的語音團隊最近取得了一個重大突破 —— OmniAudio 技術,能夠直接從360°視頻中生成空間音頻(FOA),真正實現了“所見即所聽”,大幅提升虛擬現實中的沉浸感。


為什么空間音頻如此重要?

想象一下你戴著VR頭顯,站在一個繁忙的城市廣場。如果你只聽到“立體聲”,你可能只能感受到聲音的左右方向;但如果你聽到一個小販從你后方推車經過、前方的街頭藝人正在唱歌、右上方的鐘樓敲響,你的身體會自然轉向聲音來源——這正是**空間音頻(Spatial Audio)**帶來的沉浸感。

**FOA(First-order Ambisonics)**是一種主流的空間音頻格式,它用4個聲道(W, X, Y, Z)來描述聲音的位置和方向。簡單來說,如果你把聽覺比作攝影,這種格式就像是“全景相機”,可以捕捉整個空間的聲音場景,而不僅僅是某一個角度。


現有技術的痛點:角度太“死板”

雖然空間音頻的技術已存在一段時間,但目前很多視頻生成音頻的方法都存在明顯的缺陷:

  • 只處理固定視角的視頻,無法真正體現“環繞”音效;

  • 生成的是“普通”音頻,缺乏聲音方向感;

  • 忽視了360°視頻本身蘊含的豐富視覺線索。

而隨著360°相機的普及和VR內容的興起,觀眾越來越期待音畫一致的沉浸體驗——而這正是OmniAudio所要解決的難題。


Qwen Lab 的解法:360V2SA 任務 + Sphere360 數據集

為了解決這個痛點,研究團隊提出了一個全新的任務定義:360V2SA(360-degree Video to Spatial Audio)。意思就是:讓360°視頻配上真正匹配其空間結構的音頻

但這里面有一個大難題——數據匱乏。

訓練AI模型需要大量的視頻+空間音頻配對數據,而現實中360°視頻和FOA音頻的組合極其稀缺。為此,團隊構建了一個超大規模數據集 Sphere360

  • 包含 103,000+ 真實視頻片段

  • 覆蓋 288類音頻事件(如掌聲、引擎聲、鳥叫等);

  • 總時長達到 288小時

  • 所有數據都經過嚴格清洗和對齊,確保“看得見”的畫面與“聽得見”的聲音嚴格對應。


OmniAudio 是如何學習“空間感”的?

OmniAudio 的訓練分為兩個階段,可以類比為“先學基礎,再練精細”:

? 階段一:自學成才(Self-Supervised)

團隊利用海量的普通立體聲數據,先“偽造”出假FOA(稱為“偽FOA”),讓模型通過一種叫“流匹配(flow-matching)”的方法,自己摸索聲音的時間結構和空間規律。

類比一下:就像你用模糊地圖自學城市布局,雖然不精確,但能掌握大致方位和路線感。

為了讓模型更強健,團隊還故意“打碼”音頻片段(即隨機遮住部分時間段),讓模型學會“腦補”缺失的信息。這一步幫助它打下了很好的“聲音空間感”基礎。

? 階段二:精雕細琢(Supervised Fine-tuning)

接著,團隊拿出真實的FOA音頻數據,結合視頻的“雙分支視覺編碼器”(可以同時提取場景信息和運動信息),進一步精細訓練模型,讓它能夠根據畫面“雕刻”出精準的空間音軌。

最終,OmniAudio 能夠根據畫面中的視覺線索,比如“汽車從左邊開過來”,輸出與之完美匹配的空間音頻。


效果如何?超越所有對手!

在測試階段,研究團隊使用了兩個測試集:Sphere360-BenchYT360-Test,并使用了客觀指標(如 FD、KL、ΔAngular)和主觀評測(人類聽感打分)來對比性能。

結果非常驚艷:

  • OmniAudio 在所有指標上全面超越現有所有方法

  • 人類主觀評分中,OmniAudio 的空間感、清晰度、畫面與聲音的同步度均高于最佳對比模型

  • 消融實驗也驗證了:預訓練策略、雙分支視覺建模、模型規模等設計對提升性能缺一不可。


虛擬世界的聲音革命

OmniAudio 的出現,意味著我們離真正“沉浸式音畫合一”的虛擬現實更近了一步。未來,無論是VR游戲、線上展覽、虛擬旅游,還是影視制作,都將有機會用更真實、更細膩的聲音打動用戶。

空間音頻,不再是“高端專屬”,而是即將走入大眾視野的“聽覺革命”。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/907405.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/907405.shtml
英文地址,請注明出處:http://en.pswp.cn/news/907405.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

二十八、面向對象底層邏輯-SpringMVC九大組件之ViewResolver接口設計

在 Spring MVC 框架中,視圖解析器(ViewResolver)是連接控制器邏輯與具體視圖技術的核心紐帶。它通過抽象化的接口設計,將視圖的渲染邏輯與業務邏輯解耦,使開發者能夠靈活支持 JSP、Thymeleaf、FreeMarker 等多種視圖技…

LiveWallpaperMacOS:讓你的 Mac 桌面動起來

隨著桌面美化需求的不斷提升,用戶對于桌面壁紙的要求已經不再局限于靜態圖片。越來越多的 Mac 用戶希望桌面能像 Windows 一樣,擁有動態壁紙,展現個性、提升體驗。LiveWallpaperMacOS 正是這樣一款讓你的 Mac 桌面煥發活力的開源項目。 本文將詳細介紹 LiveWallpaperMacOS …

豆瓣電視劇數據工程實踐:從爬蟲到智能存儲的技術演進(含完整代碼)

通過網盤分享的文件:資料 鏈接: https://pan.baidu.com/s/1siOrGmM4n-m3jv95OCea9g?pwd4jir 提取碼: 4jir 1. 引言 1.1 選題背景 在影視內容消費升級背景下,豆瓣電視劇榜單作為國內最具影響力的影視評價體系,其數據價值體現在&#xff1a…

集成均衡功能電池保護芯片在大功率移動電源的應用,創芯微CM1341-DAT、杰華特JW3312、賽微微電CW1244、中穎SH366006

一文了解集成均衡功能電池保護IC在大功率移動電源的應用 創芯微CM1341-DAT 創芯微CM1341-DAT是一款專用于4串鋰離子/磷酸鐵鋰電池的保護芯片,內置有高精度電壓檢測電路和電流檢測電路。通過檢測各節電池的電壓、充放電電流及溫度等信息,實現電池過充電…

PHP生成pdf方法

1:第一種方法: 主要使用PHP的擴展 【 “spatie/browsershot”: “3.57”】 使用這個擴展生成PDF需要環境安裝以下依賴 1.1:NPM【版本:9.2.0】 1.2:NODE【版本:v18.19.1】 1.3:puppeteer【npm in…

聯通專線加持!億林網絡 24 核 32G 裸金屬服務器,千兆共享帶寬適配中小型企業 IT 架構

在當今數字化時代,企業的業務運營越來越依賴高效、穩定的 IT 架構。對于中小型企業而言,如何在有限的預算內構建強大且可靠的 IT 基礎設施,是一項關鍵挑戰。億林網絡推出的 24 核 32G 裸金屬服務器,搭配聯通專線和千兆共享帶寬&am…

SQL計算列

SqlServer: ALTER TABLE KC_BILLHEAD ADD bill_no AS coalesce(billno , ) PERSISTED; 這是一個SQL語句,用于向表KC_BILLHEAD添加一個計算列bill_no。讓我解釋一下這個語句的各個部分: ALTER TABLE KC_BILLHEAD - 修改表KC_BILLHEAD的結構 ADD bill_n…

利用海外代理IP,做Twitter2026年全球趨勢數據分析

近年來,社交媒體趨勢分析逐漸成為品牌監控、市場洞察和消費者研究的必備工具。而當談到全球趨勢數據分析,很多人都會立即想到 Twitter趨勢(逼近連美麗國的總統都喜歡在上面發表自己的看法- -!!!)。Twitter趨勢,即Twitt…

【Vue3】Vue3 + TypeScript 中如何區分開發和生產環境的 API 地址(支持 axios 請求

Vue3 TypeScript 中如何區分開發和生產環境的 API 地址(支持 axios 請求) 在實際項目開發中,我們通常會遇到以下需求: 本地開發時訪問的是本地 API(如 http://localhost:3000);上線打包后訪問…

【數據結構】線性表之“雙鏈表(帶頭循環雙向鏈表)”

- 第 99 篇 - Date: 2025 - 05 - 25 Author: 鄭龍浩/仟墨 【數據結構】 續上一篇: 線性表之“單鏈表” 文章目錄 “雙鏈表(帶頭雙向循環鏈表)” 的實現:分步解釋所有函數:test.cDListNode.hDListNode.c “雙鏈表(帶頭雙向循環鏈表…

【學習筆記】Transformer

學習的博客(在此致謝): 初識CV - Transformer模型詳解(圖解最完整版) 1 整體結構 Transformer由Encoder和Decoder組成,分別包含6個block。 Transformer的工作流程大體如下: 獲取每個單詞的em…

[MMU]IOMMU的主要職能及詳細的驗證方案

IOMMU的主要職能及詳細的驗證方案 摘要:IOMMU(Input/Output Memory Management Unit)是一種硬件組件,負責管理I/O設備對內存的直接訪問(DMA,Direct Memory Access),其主要作用是提供…

動物類 如何使用Yolov11訓練使用牛羊數據集 實現對牛羊進行檢測數據集

牛羊檢測數據集 3700張 平視視角牛羊檢測 帶標注 voc yolo 牛羊檢測數據集 3700張 牛羊檢測平視 帶標注 voc yolo 分類名: (圖片張數,標注個數) cattle: (1395,4309) sheep: (2393,1 1205) 總數: (3791, 15514) 總類(nc): 2類 以…

搭建frp內網穿透

前言 內網穿透的原理我就不多說了哈,既然會看到我這篇文章,想必都知道內網穿透是做什么的吧 frp分為服務端和客戶端,服務端一般是搭在公網服務器中,客戶端一般搭在本地或者局域網,需要提前在服務端搭好ftp server&am…

Tailwind CSS 實戰,基于 Kooboo 構建 AI 對話框頁面(四):語音識別輸入功能

基于前三章的內容,開發AI 對話框語音識別輸入功能: Tailwind css實戰,基于Kooboo構建AI對話框頁面(一)-CSDN博客 Tailwind css實戰,基于Kooboo構建AI對話框頁面(二):實…

ollama list模型列表獲取 接口代碼

ollama list模型列表獲取 接口代碼 curl http://localhost:11434/v1/modelscoding package hcx.ollama;/*** ClassName DockerOllamaList* Description TODO* Author dell* Date 2025/5/26 11:31* Version 1.0**/import java.io.BufferedReader; import java.io.InputStreamR…

ISOLAR軟件生成報錯處理(五)

錯誤1 An error has occurred. See error log for more details. java.lang.NullPointerException 這東西不用管&#xff0c;不影響生成 錯誤2 Description Resource Path Location Type Target ARObject: <xxxx> CompuMethod used for floating-point data conversi…

前端開發定時,ES學習,java集合

1.前端vue3加入定時任務&#xff1a; import { onMounted, ref,onUnmounted } from vue;//初始化&#xff0c;結束調用部分引用let timer: any;//定時器onMounted(async () > {timer setInterval(() > {open()//需要定時的任務}, 60000)//一分鐘調用一次}); onUnmounte…

Photoshop2025(PS2025)軟件及安裝教程

在數字圖像編輯領域&#xff0c;Adobe Photoshop 一直是無可爭議的王者。如今&#xff0c;Photoshop 2025 重磅登場&#xff0c;再次為我們帶來了驚喜與變革&#xff0c;進一步鞏固了它在行業中的領先地位。 Photoshop 2025 在人工智能方面的升級令人矚目。其全新的 “Magic Se…

【SQL Server Management Studio 連接時遇到的一個錯誤】

第一次用SQL Server Management Studio啟動之后第一步就是要建立連接 但是不知道Server Name要填什么&#xff0c;看了網上的教程說是要找到下面這個注冊表中對應的實例名稱填上去&#xff0c;或者前面加localhost 但是好像都沒有用&#xff0c;一直遇到報錯如下&#xff1a;…