在虛擬現實和沉浸式娛樂快速發展的今天,視覺體驗已經遠遠不夠,聲音的沉浸感成為打動用戶的關鍵。然而,傳統的視頻配音技術往往停留在“平面”的音頻層面,難以提供真正的空間感。阿里巴巴通義實驗室(Qwen Lab)旗下的語音團隊最近取得了一個重大突破 —— OmniAudio 技術,能夠直接從360°視頻中生成空間音頻(FOA),真正實現了“所見即所聽”,大幅提升虛擬現實中的沉浸感。
為什么空間音頻如此重要?
想象一下你戴著VR頭顯,站在一個繁忙的城市廣場。如果你只聽到“立體聲”,你可能只能感受到聲音的左右方向;但如果你聽到一個小販從你后方推車經過、前方的街頭藝人正在唱歌、右上方的鐘樓敲響,你的身體會自然轉向聲音來源——這正是**空間音頻(Spatial Audio)**帶來的沉浸感。
**FOA(First-order Ambisonics)**是一種主流的空間音頻格式,它用4個聲道(W, X, Y, Z)來描述聲音的位置和方向。簡單來說,如果你把聽覺比作攝影,這種格式就像是“全景相機”,可以捕捉整個空間的聲音場景,而不僅僅是某一個角度。
現有技術的痛點:角度太“死板”
雖然空間音頻的技術已存在一段時間,但目前很多視頻生成音頻的方法都存在明顯的缺陷:
-
只處理固定視角的視頻,無法真正體現“環繞”音效;
-
生成的是“普通”音頻,缺乏聲音方向感;
-
忽視了360°視頻本身蘊含的豐富視覺線索。
而隨著360°相機的普及和VR內容的興起,觀眾越來越期待音畫一致的沉浸體驗——而這正是OmniAudio所要解決的難題。
Qwen Lab 的解法:360V2SA 任務 + Sphere360 數據集
為了解決這個痛點,研究團隊提出了一個全新的任務定義:360V2SA(360-degree Video to Spatial Audio)。意思就是:讓360°視頻配上真正匹配其空間結構的音頻。
但這里面有一個大難題——數據匱乏。
訓練AI模型需要大量的視頻+空間音頻配對數據,而現實中360°視頻和FOA音頻的組合極其稀缺。為此,團隊構建了一個超大規模數據集 Sphere360:
-
包含 103,000+ 真實視頻片段;
-
覆蓋 288類音頻事件(如掌聲、引擎聲、鳥叫等);
-
總時長達到 288小時;
-
所有數據都經過嚴格清洗和對齊,確保“看得見”的畫面與“聽得見”的聲音嚴格對應。
OmniAudio 是如何學習“空間感”的?
OmniAudio 的訓練分為兩個階段,可以類比為“先學基礎,再練精細”:
? 階段一:自學成才(Self-Supervised)
團隊利用海量的普通立體聲數據,先“偽造”出假FOA(稱為“偽FOA”),讓模型通過一種叫“流匹配(flow-matching)”的方法,自己摸索聲音的時間結構和空間規律。
類比一下:就像你用模糊地圖自學城市布局,雖然不精確,但能掌握大致方位和路線感。
為了讓模型更強健,團隊還故意“打碼”音頻片段(即隨機遮住部分時間段),讓模型學會“腦補”缺失的信息。這一步幫助它打下了很好的“聲音空間感”基礎。
? 階段二:精雕細琢(Supervised Fine-tuning)
接著,團隊拿出真實的FOA音頻數據,結合視頻的“雙分支視覺編碼器”(可以同時提取場景信息和運動信息),進一步精細訓練模型,讓它能夠根據畫面“雕刻”出精準的空間音軌。
最終,OmniAudio 能夠根據畫面中的視覺線索,比如“汽車從左邊開過來”,輸出與之完美匹配的空間音頻。
效果如何?超越所有對手!
在測試階段,研究團隊使用了兩個測試集:Sphere360-Bench 和 YT360-Test,并使用了客觀指標(如 FD、KL、ΔAngular)和主觀評測(人類聽感打分)來對比性能。
結果非常驚艷:
-
OmniAudio 在所有指標上全面超越現有所有方法;
-
人類主觀評分中,OmniAudio 的空間感、清晰度、畫面與聲音的同步度均高于最佳對比模型;
-
消融實驗也驗證了:預訓練策略、雙分支視覺建模、模型規模等設計對提升性能缺一不可。
虛擬世界的聲音革命
OmniAudio 的出現,意味著我們離真正“沉浸式音畫合一”的虛擬現實更近了一步。未來,無論是VR游戲、線上展覽、虛擬旅游,還是影視制作,都將有機會用更真實、更細膩的聲音打動用戶。
空間音頻,不再是“高端專屬”,而是即將走入大眾視野的“聽覺革命”。