論文《AUDIO LARGE LANGUAGE MODELS CAN BE DESCRIPTIVE SPEECH QUALITY EVALUATORS》學習
推動多模態代理從"能聽"到"懂好壞"的進化
摘要:
. 研究背景與問題
- 核心內容:現有
音頻大語言模型
缺乏對輸入語音質量的感知能力
,因為語音質量評估需要多任務訓練,但 缺乏合適的數據集。 - 舉例說明:假設一個語音助手接收到一段包
含背景噪音
的用戶指令(如咖啡廳嘈雜環境下的語音),現有音頻LLMs可能無法判斷這段語音的質量問題(如信噪比低),導致后續任務(如轉寫或理解)出現錯誤。
.創新數據集的構建
- 核心內容:作者構建了首個基于自然語言的
語音質量評估語料庫
,包含人類真實評分
、多維分析
和質量退化原因
的標注,支持A/B對比測試
。
.方法創新(ALLD對齊框架)
- 核心內容:提出結合LLM蒸餾的對齊方法(ALLD),指導音頻LLM從原始語音中提取信息并生成有意義的響應。
- 示例:假設輸入一段有回聲的會議錄音,ALLD框架會讓音頻LLM完成以下任務:
- 特征提取:識別回聲的時域特征和頻域特征。
- 質量評估:生成自然語言描述如"此段語音存在明顯的會議室回聲,影響對話清晰度"。
- 對比分析:在A/B測試中比較兩段錄音,生成結論"樣本B的回聲抑制效果優于樣本A"。
.實驗結果優勢
- 核心內容:ALLD在MOS預測誤差(MSE=0.17)、A/B測試準確率(98.6%)和生成質量(BLEU分數25.8/30.2)上超越現有模型。
- 示例:
- A/B測試:當比較兩段壓縮率不同的語音(128kbps vs. 64kbps)時,ALLD能準確判斷高碼率語音質量更優。
- 生成質量:針對一段低質量語音,ALLD生成描述"此語音存在周期性電流噪音,建議檢查錄音設備接地",而傳統模型僅輸出"質量較差"。
引言:
語音質量評估的重要性
- MOS作為關鍵指標:在現代通信網絡中,平均意見得分(MOS)是評估語音質量的重要指標。它通過收集大量人類聽眾的主觀評分來確定語音的質量水平。
- 現有方法的局限性:許多深度神經網絡致力于將預測平均MOS作為回歸任務來完成。然而,
主觀評分存在顯著差異
,現有數據集中的標注也顯示出不可忽視的方差,這使得僅預測一個數值MOS過于簡單
,無法深入了解質量估計的潛在原因。
提出新方法的動機
- 學習人類的評價方式:鑒于現有方法的不足,作者們希望教會LLMs
像人類一樣評估語音質量
,提供描述性分析
和合理的判斷
。 - 自動化評估的應用價值:這種理解能力具有重要意義,可用于自動化評估現代生成系統的性能,例如文本轉語音或語音編輯模型。
- 例子:
- 輸入:一段含電流噪音的語音;
- LLM輸出:“此語音MOS評分為2.3。主要問題為高頻電流噪音(強度-20dB),覆蓋了30%的語音頻段。建議檢查錄音設備接地情況。”
- 優勢:
- 自動化診斷:直接定位質量問題的技術原因;
- 支持生成系統優化:例如TTS模型可根據反饋調整降噪模塊。
與學術研究趨勢的契合
- 理解和生成任務的統一:將理解和生成任務整合到一個基于Transformer的模型中,已成為學術研究的顯著趨勢。從這個角度來看,一個了解輸入質量的模型變得越來越重要,因為它有可能使模型作為一個智能體,進入自我改進的循環。
-
理解:分析生成語音的質量問題(如“合成語音存在機械感”);生成:根據分析調整參數重新生成(如增加韻律多樣性);閉環優化:迭代直至質量達標。
現有數據集的不足
- 缺乏自然語言描述:現有的人類語音質量數據集僅包含數值評分,沒有包括任何基于自然語言的
描述或分析
。這種不足限制了對語音質量更深入的理解和評估。(Existing human speech quality datasets consist solely of numerical scores, and do not include any natural language-based descriptions or analyses.)
新數據集的構建
- 引入新數據集:作者們首次填補了這一空白,引入了一個新的數據集,該數據集基于
真實的人類評分
,包含自然語言描述
。(In this work, we first bridge this gap by introducing a new dataset comprising natural language descriptions generated based on authentic human ratings of multidimensional speech quality assessment corpus ) - 數據集的構成:具體來說,對于每個語音樣本,他們利用語料庫中的元信息,提示LLMs根據多維語音質量評估語料庫生成與其多維特征一致的分析,包括推理過程和最終的總體MOS評分。
- 例子(每一個子維度都分析到位):
-
輸入數據:原始語音 + 元信息(如“清晰度4分,噪聲等級3分,失真原因:設備壓縮”)。
-
提示設計:通過示例(demonstrations)指導LLM生成結構化分析,例如:“請根據以下元信息生成描述:清晰度4/5,噪聲等級3/5,失真原因:設備壓縮。要求:先分析子維度,再總結MOS。”
-
輸出結果:“此
語音清晰度較高(評分高部分維度)
,但存在中等強度背景噪聲(評分低部分維度)
(如風扇聲)。主要質量問題是設備壓縮導致的輕微失真。綜合評分MOS=3.2。”
-
示例與A/B測試數據集
-
分析:例如,一段語音可能被描述為:“這段語音有非常輕微的失真,沒有背景噪音。然而,存在明顯的不連續性,顯著影響了其感知質量。綜合所有因素,總體MOS評分僅為2.4。”
-
A/B測試數據集:此外,還構建了一個A/B測試數據集,采用類似的策略。他們選取兩段語音片段,要求LLM對它們在特定子維度上的優缺點進行
描述性比較
,最終得出一個有充分理由的偏好判斷,如圖2所示。從語料庫中選取兩段語音(A和B),要求LLM基于子維度對比生成判斷,而非簡單選擇“更好”。語音A:MOS=3.5,元信息標注“噪聲抑制強,但語音自然度低”;語音B:MOS=3.2,元信息標注“噪聲殘留明顯,但語音流暢自然”。LLM生成對比:"語音A的噪聲抑制效果更優(噪音強度-25dB vs. -18dB),但語音B的自然度更高(自然度評分4.2 vs. 3.1)。若優先考慮通話清晰度,推薦選擇A;若注重聽感舒適度,建議選擇B。"意義:訓練模型理解質量權衡(trade-off),模擬人類復雜的決策過程。
ALLD
教師模型(LLM)
- “元信息(Meta Info.) ”是由人類聽者為
成對語音樣本
標注的多維評級
。 - 傳統的大型語言模型(LLM)作為教師模型( π r e f \pi_{ref} πref?),用于生成高質量的文本響應 y t y_t yt?。
- 輸入: P r o m p t + M e t a I n f o . Prompt + Meta Info. Prompt+MetaInfo.
- 輸出: y t y_t yt?
學生模型(Audio LLM)
- 目標是訓練一個專門用于音頻任務的 LLM(AudioLLM),它需要學習從音頻輸入 x a x_a xa? 和指令Instruction中生成與教師模型類似的文本響應 y a y_a ya?
- 輸入: 語音信號( x a ) + 指令( I n s t r u c t i o n ) 語音信號(x_a)+ 指令(Instruction) 語音信號(xa?)+指令(Instruction)
- 輸出: y a y_a ya?
蒸餾過程(Distillation)
- 通過最小化損失函數 L A L L D L_{ALLD} LALLD?,使Audio LLM的輸出 y a y_a ya?盡可能接近專家LLM的輸出 y t y_t yt?。
訓練示例
-
示例1(Exp1):評估單段語音的質量。
輸入語音:一段語音信號。專家LLM輸出(Res1):這段語音有輕微失真,但沒有背景噪音。然而,存在明顯的不連續性,顯著影響了其感知質量。綜合所有因素,總體MOS評分僅為2.4。目標:通過蒸餾,使Audio LLM能夠生成類似的自然語言描述和質量評估。
-
示例2(Exp2):對兩段語音進行A/B測試。
輸入語音:兩段語音信號。專家LLM輸出(Res2):語音A的噪音水平比語音B稍低,因此我認為語音A的質量更好。目標:通過蒸餾,使Audio LLM能夠對兩段語音進行比較,分析它們在特定子維度上的優缺點,并給出有理由的偏好判斷。
實驗過程:
蒸餾訓練: 通過ALLD策略,將專家LLM的輸出(包含詳細自然語言描述和評分)作為參考,訓練Audio LLM。在訓練過程中,使用蒸餾,使Audio LLM的輸出盡可能接近專家LLM的輸出。
任務執行:在訓練好的Audio LLM上進行兩個主要任務的測試:
- MOS預測任務:評估單段語音的質量,預測其MOS值。
- A/B測試任務:比較兩段語音的質量,進行描述性分析并給出偏好判斷。
實驗結果:
- MOS預測結果:實驗結果顯示,ALLD在MOS預測任務上達到了
0.17的均方誤差
,這表明Audio LLM能夠非常準確地預測語音的總體質量評分。 - A/B測試結果:在A/B測試任務上,ALLD達到了
98.6%的準確率
,說明Audio LLM能夠非常可靠地比較兩段語音的質量,并給出合理的偏好判斷。
傳統方法:語音 → 回歸模型 → MOS數值(如3.7分)
本文方案:語音 → 音頻LLM → 數值 + 描述性分析(如“MOS=3.7,因背景風聲導致清晰度下降”) →未來: 自我優化指令(如“啟用降風噪模塊”)
BACKGROUND
音頻大語言模型(Audio LLMs)的分類
音頻LLMs根據聲學表示形式可分為兩類:
(1) 離散化表示模型
- 方法:使用音頻編解碼器(audio codec)將原始語音離散化為符號序列(如token),擴展LLM的詞表以支持跨模態交互。
- 示例:
- 模型:如VALL-E(Zhang et al., 2023)將語音編碼為離散token,LLM直接處理這些token生成語音或文本。
- 應用場景:語音合成(TTS)中生成音色一致的語音,但可能丟失聲學細節(如細微的背景噪聲)。
- 局限性:離散化可能損失連續聲學特征(如頻譜連續性),影響質量評估任務的細粒度分析。
(2) 連續表示模型
- 方法:使用預訓練編碼器(如ASR模型或自監督模型)處理原始波形,通過模態適配器(adapter)將連續特征與LLM的文本嵌入對齊。
- 示例:
- 模型:如SpeechLLaMA(Chu et al., 2024)使用WavLM編碼器提取語音特征,適配器將其映射至LLM輸入空間。
- 優勢:保留聲學細節(如噪聲頻譜、失真波形),適合需要精細特征的質量評估任務。
- 本文選擇:作者采用此類模型(見圖2架構),因可訓練編碼器能有效提取質量相關特征(如信噪比、頻譜平坦度)。
語音質量的多維描述
四個核心維度
- Noisiness(噪聲水平)
- 定義:背景噪聲的強度與干擾程度。
- 示例:咖啡廳環境噪聲(信噪比15dB)導致語音MOS下降至3.0。
- Coloration(音色失真)
- 定義:語音頻譜的異常變化(如回聲、共振峰偏移)。
- 示例:電話語音因帶寬限制(300Hz-3.4kHz)導致高頻丟失,MOS降至2.5。
- Discontinuity(不連續性)
- 定義:語音中斷或跳變(如網絡抖動導致的丟包)。
- 示例:視頻會議中0.5秒的靜音導致MOS=1.8。
- Loudness(響度)
- 定義:語音整體音量水平,雖與其他維度非完全正交,但顯著影響感知。
- 示例:過低的響度(-30dB)使聽眾需反復調高音量,MOS=2.2。
維度與MOS的相關性分析
基于NISQA數據集(2.5k樣本)的統計結果(見圖1):
- Coloration:Pearson系數0.82(最高),說明音色失真對MOS影響最大。
- 示例:一段語音因設備壓縮導致頻譜畸變(Coloration評分1.5),MOS僅2.0。
- Loudness:系數0.81,接近Coloration,表明合理響度是基礎需求。
- Noisiness:系數0.78,背景噪聲直接影響清晰度。
- Discontinuity:系數0.75,語音斷裂嚴重損害用戶體驗。
技術意義總結
音頻LLM分類選擇 → 連續表示模型更適合質量評估任務(保留聲學細節)
質量維度分析 → Coloration和Loudness是MOS預測的關鍵因素(指導特征提取設計)
應用啟示:
- 在語音增強算法中,優先優化Coloration(如抑制回聲)可顯著提升MOS;
- 設計質量評估模型時,需針對性提取頻譜平坦度、信噪比等特征。
示例:多維質量評估流程
- 輸入語音:一段含風扇噪聲和輕微失真的錄音。
- 特征提取:
- Noisiness:風扇噪聲(信噪比20dB,評分2/5);
- Coloration:設備壓縮導致高頻失真(評分1.5/5);
- Discontinuity:無中斷(評分5/5);
- Loudness:正常(-16dB,評分4/5)。
- MOS預測:
- 線性加權: 0.82 × 1.5 + 0.81 × 4 + 0.78 × 2 + 0.75 × 5 ≈ 3.1 0.82 \times 1.5 + 0.81 \times 4 + 0.78 \times 2 + 0.75 \times 5 ≈ 3.1 0.82×1.5+0.81×4+0.78×2+0.75×5≈3.1;
- 實際MOS:3.2(接近預測值)。
- 生成描述:
“此語音MOS=3.2。主要問題為高頻失真(設備壓縮導致)和中度背景風扇噪聲。建議啟用降噪算法并調整編碼參數。”
總結圖示
音頻LLM類型選擇 → 連續編碼器提取細節特征 → 多維質量分析 → Coloration/Loudness主導MOS → 指導模型優化
此背景分析為后續數據集構建與ALLD方法設計提供了理論基礎和技術路線。
METHODOLOGY
DATASET GNERATION
. MOS預測:生成描述性訓練語料庫
核心方法
利用大語言模型(LLMs)的推理能力,將語音質量元信息(如噪聲、失真、不連續性等)轉化為自然語言描述,構建訓練數據集。
具體流程
- 輸入元信息:每個語音樣本的標注數據包括:
mos
(整體評分)、noi
(噪聲)、dis
(不連續性)、col
(音色失真)、loud
(響度)。
示例:xt = {mos=2.4, noi=3, dis=1, col=4, loud=2}
- 任務提示設計:
- 定義每個維度的含義(如“col表示音色失真”);
- 要求LLM突出關鍵影響因素并解釋其對MOS的影響。
示例提示:
“請根據以下質量維度生成描述:噪聲評分3/5,音色失真評分4/5。要求:分析主要問題,最后給出MOS=2.4。”
- 上下文學習優化:
- 人工編寫3-5個典型示例作為演示(demonstrations),指導LLM生成結構化響應。
示例輸出:
“此語音噪聲水平中等(如風扇聲),但音色失真嚴重(高頻缺失)。盡管無中斷問題,失真導致整體MOS僅為2.4。”
- 人工編寫3-5個典型示例作為演示(demonstrations),指導LLM生成結構化響應。
實際挑戰與解決
- 問題:即使70B參數的開源LLM(如LLaMA-2),也難以精確遵循復雜指令(如忽略關鍵維度)。
- 解決方案:加入人工編寫的示例,顯著提升生成質量。
示例改進:- 未優化前:“MOS=2.4,質量較差。”
- 優化后:“MOS=2.4。主要問題為音色失真(評分4/5),高頻段嚴重衰減,疑似設備壓縮導致。噪聲水平中等(評分3/5)。”
2. A/B測試:模擬人類對比判斷
任務目標
訓練音頻LLM比較兩段語音(A/B樣本),基于子維度差異生成可解釋的偏好判斷。
實現步驟
- 輸入數據:兩段語音的元信息(如A的
noi=2
、B的noi=4
)。 - 任務提示:要求模型先對比各維度,再綜合判斷優劣。
示例提示:
“請比較語音A(噪聲2/5,音色失真3/5)和語音B(噪聲4/5,音色失真1/5),分析后選擇更優者。” - 生成響應:
“語音A噪聲更低(評分2 vs. 4),但語音B音色更自然(失真1 vs. 3)。若優先考慮清晰度,選A;若注重聽感真實,選B。”
應用場景
- TTS系統選型:比較兩種合成語音,模型指出“系統A的韻律更自然,但系統B的發音準確度更高”。
- 降噪算法優化:對比新舊算法,結論“新算法在噪聲抑制上提升15%,但引入輕微失真”。
3. 合成詞檢測(SWD):詞級細粒度分析
任務定義
要求音頻LLM定位語音中哪些單詞是人工合成的(如編輯或生成的內容)。
技術挑戰
- 傳統任務局限:欺騙檢測(Spoof Detection)僅判斷整段語音是否合成,無法定位具體位置。
- SWD創新:需精確識別合成詞(如“apple”為生成,其余為真實錄音)。
實現方法
- 輸入數據:混合真實與合成詞的語音(如“I ate an [synthetic] apple”)。
- 任務提示:
“請分析以下語音,指出哪些詞是合成的。示例:’The [synthetic] sky is blue.’ → 合成詞:sky” - 生成響應:
“檢測到’apple’為合成詞,其頻譜連續性異常,與上下文能量不匹配。”
實際意義
- 對抗深度偽造:識別高級語音編輯工具(如VoiceCraft)生成的片段。
- 內容審核:定位媒體中的篡改部分(如虛假新聞中篡改的敏感詞)。
技術總結
MOS預測 → 生成可解釋描述(Why)
A/B測試 → 提供權衡判斷(Which)
SWD任務 → 定位合成內容(Where)
數據生成流程
給定包含元數據 {mos, noi, col, dis, loud}
的元組,LLaMA-3.1 70B 的生成模板如下:
提示模板:
我將提供一組用于語音質量評估的元信息,包含5個維度評分(1-5分),所有維度分值越高越好。
(1)mos:整體質量。1=極差,2=較差,3=一般,4=良好,5=極佳。
(2)noi:音頻噪聲水平,反映背景噪聲或其他非語音干擾對質量的影響。1=嚴重噪聲,2=較明顯噪聲,3=中等噪聲,4=較輕微噪聲,5=完全無噪聲。
(3)col:語音自然音色的改變(由失真或非預期修改導致)。1=嚴重失真,2=顯著失真,3=中度失真,4=輕微失真,5=無失真。
(4)dis:音頻不連續性,反映播放時是否存在中斷、卡頓或不連貫。1=嚴重不連續,2=顯著不連續,3=中度不連續,4=輕微不連續,5=完全連貫。
(5)loud:音頻感知音量或響度。1=極低,2=顯著偏低,3=輕柔但可理解,4=清晰響亮,5=完美響度。請根據維度(2)至(5)的評分生成描述性評估,分析其對整體質量的影響,并在末尾給出MOS評分。
示例:
輸入:{示例數據點}
輸出:{定制化響應}
···
當前輸入:{當前數據點}
。請僅輸出評估結果:
參數設置:
- 首次生成:使用LLaMA-3.1默認推理參數(溫度=1.0,top_p=1.0)。
- 二次生成:調整溫度參數(temperature=1.1)并設置top_p=0.9,以增加生成多樣性。
A/B測試
提示模板設計:
A/B測試的提示引言部分與MOS預測一致。在介紹子維度后,提示內容調整為:
請根據兩段語音的MOS評分(MOS高者勝出),從維度(2)至(5)中靈活選擇1-3個差異顯著的方面(通常評分差≥0.5),基于這些差異進行對比分析,最終給出合理偏好判斷。
結果提取:
使用以下模板通過LLaMA-3.1-70B從音頻LLM的生成結果中提取最終答案:
“根據上下文,請判斷SpeechA與SpeechB中更優者。僅輸出‘[SpeechA]’或‘[SpeechB]’,無需分析。”
計算準確率:
通過該模板從音頻LLM生成結果和真實標注中提取更優語音(SpeechA/SpeechB),判斷一致性以計算最終準確率。
兩階段策略的必要性:
由于LLaMA-3.1-70B無法直接生成簡潔答案(無論提示如何設計),需通過兩階段(生成分析→提取答案)確保結果可靠性。
ALIGNMENT WITH LLM DISTILLATION
與llm蒸餾對齊
1. 上下文學習(ICL)的局限性
問題背景:
研究者首先探索了無需梯度更新的上下文學習(ICL)是否能讓音頻LLM感知語音質量。例如,通過提示模板要求模型判斷語音的噪聲水平(“clean”或“noisy”)。
實驗設置:
- 提示模板示例:
“請評估以下語音的噪聲水平,預測‘clean’或‘noisy’。示例:[audio1]為noisy,[audio2]為clean。請判斷[audio3]:” - 嘗試變量:
不同提示格式、示例數量、質量子維度(如noisiness、coloration)及多種開源音頻LLM。
實驗結果:
- 失敗原因:
- 普遍幻覺(Hallucination):模型傾向于生成與輸入無關的隨機判斷(如將清晰語音誤判為“noisy”)。
- 指令遵循能力退化:音頻任務的監督微調(SFT)損害了LLM原有的推理和指令理解能力(如無法正確解析多維度分析指令)。
示例說明:
輸入一段輕微背景噪聲的語音(實際評分noi=4),模型可能錯誤輸出“noisy”,而忽略其他維度(如col=5)對整體質量的影響。
2. ALLD方法的核心設計
目標:通過蒸餾對齊音頻LLM與專家LLM的輸出,提升生成質量與評估準確性。
架構與公式
-
輸入與響應:
- 音頻輸入 x a x_a xa?:原始語音信號。
- 音頻LLM ( π θ \pi_\theta πθ? )生成響應 y a y_a ya?。
- 專家LLM ( π ref \pi_{\text{ref}} πref?) 基于元信息 x t x_t xt? 生成參考響應 y t y_t yt?。
-
對齊目標:
最大化獎勵函數 r ? ( x , y ) r_\phi(x, y) r??(x,y),同時約束音頻LLM輸出分布與專家LLM的KL散度:
max ? π θ E ( x a , x t ) ~ D , y ~ π θ ( y ∣ x a ) [ r ? ( x a , y ) ] ? β D KL ( π θ ( y ∣ x a ) ∥ π ref ( y ∣ x t ) ) \max_{\pi_\theta} \mathbb{E}_{(x_a, x_t) \sim D, y \sim \pi_\theta(y|x_a)} [r_\phi(x_a, y)] - \beta D_{\text{KL}}(\pi_\theta(y|x_a) \| \pi_{\text{ref}}(y|x_t)) πθ?max?E(xa?,xt?)~D,y~πθ?(y∣xa?)?[r??(xa?,y)]?βDKL?(πθ?(y∣xa?)∥πref?(y∣xt?))- 獎勵函數:通過DPO(Direct Preference Optimization)隱式建模偏好( y t y_t yt? 優于 y a y_a ya?)。
- KL散度約束:防止音頻LLM偏離專家LLM的知識分布。
-
偏好優化數據集:
構建對比數據 D = { x a ( i ) , x t ( i ) , y a ( i ) , y t ( i ) } D = \{x^{(i)}_a, x^{(i)}_t, y^{(i)}_a, y^{(i)}_t\} D={xa(i)?,xt(i)?,ya(i)?,yt(i)?},優化目標改寫為:
L ALLD ( π θ ; π ref ) = ? E ( x , y a , y t ) ~ D [ log ? σ ( β log ? π θ ( y t ∣ x ) π ref ( y t ∣ x ) ? β log ? π θ ( y a ∣ x ) π ref ( y a ∣ x ) ) ] \mathcal{L}_{\text{ALLD}}(\pi_\theta; \pi_{\text{ref}}) = -\mathbb{E}_{(x, y_a, y_t) \sim D} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta(y_t|x)}{\pi_{\text{ref}}(y_t|x)} - \beta \log \frac{\pi_\theta(y_a|x)}{\pi_{\text{ref}}(y_a|x)} \right) \right] LALLD?(πθ?;πref?)=?E(x,ya?,yt?)~D?[logσ(βlogπref?(yt?∣x)πθ?(yt?∣x)??βlogπref?(ya?∣x)πθ?(ya?∣x)?)]
x a 和 x t 被統一表示為 x ,因為它們攜帶等價信息( x t 嵌入在音頻 x a 中 ) x_a和x_t被統一表示為x,因為它們攜帶等價信息(x_t嵌入在音頻x_a中) xa?和xt?被統一表示為x,因為它們攜帶等價信息(xt?嵌入在音頻xa?中)
與主流RLHF的區別
- 參考模型角色:
- 主流RLHF: π ref \pi_{\text{ref}} πref? 是凍結的初始模型(防止突變)。
- ALLD: π ref \pi_{\text{ref}} πref?是專家LLM(如Qwen-7B),提供標記級蒸餾指導。
- 知識來源:
- ALLD利用專家LLM生成的描述( y t y_t yt?)作為高質量參考,而非人工標注的偏好。
公式詳解:從零理解ALLD方法的核心設計
1. 基本符號與概念
在深入公式前,先明確核心符號含義:
- π θ \pi_\theta πθ?:待訓練的音頻LLM(學生模型),參數為 θ \theta θ。
- π ref \pi_{\text{ref}} πref?:專家LLM(教師模型),生成高質量參考響應。
- x a x_a xa?:原始音頻輸入(如一段含噪聲的語音)。
- x t x_t xt?:與 x a x_a xa?對應的元信息(如噪聲評分、失真評分等)。
- y a y_a ya?:音頻LLM生成的響應(如“MOS=3.0,噪聲明顯”)。
- y t y_t yt?:專家LLM生成的參考響應(如“MOS=3.0,噪聲評分4/5,因風扇聲干擾”)。
- D D D:訓練數據集,包含多組 ( x a , x t , y a , y t ) (x_a, x_t, y_a, y_t) (xa?,xt?,ya?,yt?)。
- β \beta β:平衡參數,控制KL散度的權重(越大越傾向于保持與參考模型一致)。
2. 目標函數解析
公式1:
max ? π θ E ( x a , x t ) ~ D , y ~ π θ ( y ∣ x a ) [ r ? ( x a , y ) ] ? β D KL ( π θ ( y ∣ x a ) ∥ π ref ( y ∣ x t ) ) \max_{\pi_\theta} \mathbb{E}_{(x_a, x_t) \sim D, y \sim \pi_\theta(y|x_a)} [r_\phi(x_a, y)] - \beta D_{\text{KL}}(\pi_\theta(y|x_a) \| \pi_{\text{ref}}(y|x_t)) πθ?max?E(xa?,xt?)~D,y~πθ?(y∣xa?)?[r??(xa?,y)]?βDKL?(πθ?(y∣xa?)∥πref?(y∣xt?))
分步解釋
-
第一部分:最大化獎勵期望
- E [ r ? ( x a , y ) ] \mathbb{E}[r_\phi(x_a, y)] E[r??(xa?,y)]:對音頻LLM生成的響應 y y y計算獎勵的期望值。
- 獎勵函數 r ? ( x , y ) r_\phi(x, y) r??(x,y):衡量響應 y y y的質量(如與參考響應 y t y_t yt?的匹配程度)。
- 目標:讓音頻LLM生成高獎勵的響應(即與專家響應一致)。
示例:
若音頻LLM生成 y a y_a ya?=“MOS=3.0,噪聲明顯”,而專家響應 y t y_t yt?=“MOS=3.0,噪聲評分4/5”,則 r ? ( x a , y a ) r_\phi(x_a, y_a) r??(xa?,ya?)可能為0.8(接近參考)。 -
第二部分:最小化KL散度
- D KL ( π θ ∥ π ref ) D_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}}) DKL?(πθ?∥πref?):衡量音頻LLM與專家LLM輸出分布的差異。
- KL散度定義:
D KL ( P ∥ Q ) = ∑ P ( y ) log ? P ( y ) Q ( y ) D_{\text{KL}}(P \| Q) = \sum P(y) \log \frac{P(y)}{Q(y)} DKL?(P∥Q)=∑P(y)logQ(y)P(y)?
值越小,表示 P P P(音頻LLM)與 Q Q Q(專家LLM)的輸出分布越接近。 - 目標:防止音頻LLM過度偏離專家模型的知識(如生成不合理描述)。
示例:
若專家模型對某語音生成“MOS=3.0”的概率為90%,而音頻LLM生成“MOS=3.0”的概率為50%,則KL散度較大,需通過優化降低差異。 -
平衡參數 β \beta β
- β \beta β越大,優化過程越傾向于保持與專家模型一致,可能犧牲獎勵;
- β \beta β越小,越注重獎勵最大化,可能生成更自由但不穩定的響應。
3. 損失函數解析(基于DPO)
公式2:
L ALLD = ? E ( x , y a , y t ) ~ D [ log ? σ ( β log ? π θ ( y t ∣ x ) π ref ( y t ∣ x ) ? β log ? π θ ( y a ∣ x ) π ref ( y a ∣ x ) ) ] \mathcal{L}_{\text{ALLD}} = -\mathbb{E}_{(x, y_a, y_t) \sim D} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta(y_t|x)}{\pi_{\text{ref}}(y_t|x)} - \beta \log \frac{\pi_\theta(y_a|x)}{\pi_{\text{ref}}(y_a|x)} \right) \right] LALLD?=?E(x,ya?,yt?)~D?[logσ(βlogπref?(yt?∣x)πθ?(yt?∣x)??βlogπref?(ya?∣x)πθ?(ya?∣x)?)]
分步解釋
-
核心思想:直接優化偏好(偏好 y t y_t yt?優于 y a y_a ya?),無需顯式訓練獎勵模型。
-
對數比值項:
- log ? π θ ( y t ∣ x ) π ref ( y t ∣ x ) \log \frac{\pi_\theta(y_t|x)}{\pi_{\text{ref}}(y_t|x)} logπref?(yt?∣x)πθ?(yt?∣x)?:音頻LLM生成 y t y_t yt?的概率相對于專家LLM的對數比值。
- log ? π θ ( y a ∣ x ) π ref ( y a ∣ x ) \log \frac{\pi_\theta(y_a|x)}{\pi_{\text{ref}}(y_a|x)} logπref?(ya?∣x)πθ?(ya?∣x)?:音頻LLM生成 y a y_a ya?的概率相對于專家LLM的對數比值。
- 差值: β ( 比值 t ? 比值 a ) \beta (\text{比值}_t - \text{比值}_a) β(比值t??比值a?),放大兩者差異。
直觀意義:
- 若音頻LLM生成 y t y_t yt?的概率比專家LLM高,且生成 y a y_a ya?的概率比專家LLM低,則差值為正,損失減小。
-
Sigmoid函數( σ \sigma σ):
- 將差值映射到(0,1)區間,表示 y t y_t yt?優于 y a y_a ya?的概率。
- σ ( z ) = 1 1 + e ? z \sigma(z) = \frac{1}{1+e^{-z}} σ(z)=1+e?z1?,當 z z z越大, σ ( z ) \sigma(z) σ(z)越接近1。
-
損失函數:
- 最大化 log ? σ ( ? ) \log \sigma(\cdot) logσ(?)等價于最大化 y t y_t yt?優于 y a y_a ya?的概率。
- 負號表示最小化負對數概率(即最大化原始概率)。
示例計算:
假設:
- π ref ( y t ∣ x ) = 0.9 \pi_{\text{ref}}(y_t|x) = 0.9 πref?(yt?∣x)=0.9, π ref ( y a ∣ x ) = 0.1 \pi_{\text{ref}}(y_a|x) = 0.1 πref?(ya?∣x)=0.1(專家認為 y t y_t yt?更優)。
- π θ ( y t ∣ x ) = 0.6 \pi_\theta(y_t|x) = 0.6 πθ?(yt?∣x)=0.6, π θ ( y a ∣ x ) = 0.4 \pi_\theta(y_a|x) = 0.4 πθ?(ya?∣x)=0.4(音頻LLM有待優化)。
- β = 1 \beta=1 β=1。
則:
比值 t = log ? 0.6 0.9 ≈ ? 0.405 , 比值 a = log ? 0.4 0.1 ≈ 1.386 差值 = ? 0.405 ? 1.386 = ? 1.791 σ ( ? 1.791 ) ≈ 0.143 L = ? log ? ( 0.143 ) ≈ 1.95 \text{比值}_t = \log \frac{0.6}{0.9} \approx -0.405, \quad \text{比值}_a = \log \frac{0.4}{0.1} \approx 1.386 \\ 差值 = -0.405 - 1.386 = -1.791 \\ \sigma(-1.791) \approx 0.143 \\ \mathcal{L} = -\log(0.143) \approx 1.95 比值t?=log0.90.6?≈?0.405,比值a?=log0.10.4?≈1.386差值=?0.405?1.386=?1.791σ(?1.791)≈0.143L=?log(0.143)≈1.95
優化過程會調整 π θ \pi_\theta πθ?,使得 π θ ( y t ∣ x ) \pi_\theta(y_t|x) πθ?(yt?∣x)增加, π θ ( y a ∣ x ) \pi_\theta(y_a|x) πθ?(ya?∣x)減少,從而降低損失。
4. 與主流RLHF的區別
參考模型角色
-
主流RLHF:
- π ref \pi_{\text{ref}} πref?是初始模型的凍結副本,僅用于防止優化過程中模型“突變”(如生成亂碼)。
- 目標函數示例:
max ? π θ E [ r ( y ) ] ? β D KL ( π θ ∥ π init ) \max_{\pi_\theta} \mathbb{E}[r(y)] - \beta D_{\text{KL}}(\pi_\theta \| \pi_{\text{init}}) πθ?max?E[r(y)]?βDKL?(πθ?∥πinit?)
其中 π init \pi_{\text{init}} πinit?為初始模型。
-
ALLD:
- π ref \pi_{\text{ref}} πref?是專家LLM(如Qwen-7B),作為知識來源提供高質量參考。
- 目標函數:
max ? π θ E [ r ( y ) ] ? β D KL ( π θ ∥ π ref ) \max_{\pi_\theta} \mathbb{E}[r(y)] - \beta D_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}}) πθ?max?E[r(y)]?βDKL?(πθ?∥πref?)
通過KL散度約束,使音頻LLM學習專家LLM的輸出分布。
知識來源
- RLHF:依賴人工標注的偏好數據(如標注員選擇 y t y_t yt?優于 y a y_a ya?)。
- ALLD:直接利用專家LLM生成的 y t y_t yt?作為高質量參考,無需人工標注。
5. 實例說明ALLD訓練流程
步驟1:數據準備
- 收集語音樣本 x a x_a xa?及其元信息 x t x_t xt?(如MOS=3.0, noi=4, col=2)。
- 使用專家LLM生成參考響應 y t y_t yt?(如“MOS=3.0,噪聲輕微但音色失真”)。
- 音頻LLM生成初始響應 y a y_a ya?(如“MOS=3.0,質量一般”)。
步驟2:構建偏好數據集
- 對比數據 D D D包含 ( x a , x t , y a , y t ) (x_a, x_t, y_a, y_t) (xa?,xt?,ya?,yt?),標記 y t y_t yt?優于 y a y_a ya?。
步驟3:計算損失
- 對每個樣本計算公式2中的損失,調整 π θ \pi_\theta πθ?參數使損失最小化。
步驟4:迭代優化
- 多輪訓練后,音頻LLM生成的響應逐漸接近專家LLM(如從“質量一般”變為“噪聲輕微但音色失真,MOS=3.0”)。
總結
ALLD公式核心:
1. 最大化獎勵:鼓勵生成與專家一致的響應。
2. 最小化KL散度:保持輸出分布與專家模型接近。
3. DPO優化:直接利用專家響應作為偏好,避免人工標注。
效果:音頻LLM學會從語音中提取質量特征,并生成人類可理解的描述,推動語音評估從“黑箱評分”到“透明分析”的跨越。
3. 訓練策略與優化
-
專家LLM選擇:
- 使用較小的LLM(如Qwen-7B)作為 π ref \pi_{\text{ref}} πref?,降低計算成本。
- 保持分詞器(Tokenizer)一致性,確保蒸餾可行性。
-
預熱微調(Warm-up SFT):
- 必要性:音頻LLM ( π θ \pi_\theta πθ?) 缺乏零樣本生成能力,需在子集 D D D 上預訓練。
- 示例:
輸入含失真的語音,模型初步學習生成“存在設備壓縮導致的失真”等描述。
-
單次采樣優化:
- 為簡化流程,僅采樣一次 y a y_a ya? 進行偏好優化。
- 迭代潛力:理論上可通過多次采樣-優化循環逐步逼近 y t y_t yt?。
4. 實際效果與優勢
實驗結果:
- 生成質量提升:BLEU分數提高至25.8/30.2,證明語言能力退化問題被有效緩解。
- 評估精度:MOS預測誤差(MSE=0.17)與A/B測試準確率(98.6%)顯著優于傳統回歸模型。
示例對比:
- 傳統模型:輸出“MOS=2.0,質量差”。
- ALLD模型:輸出“MOS=2.1。主要問題為高頻電流噪音(中心頻率8kHz,強度-18dB),建議檢查設備屏蔽”。
應用場景:
- 自優化語音生成:TTS系統根據ALLD反饋調整降噪模塊參數。
- 實時質量監控:在視頻會議中檢測網絡抖動導致的語音斷裂,提示用戶重連。
技術總結
ALLD核心價值:
1. 跨模態對齊:將聲學特征映射為可解釋文本。
2. 語言能力修復:通過標記級蒸餾抑制預訓練中的退化。
3. 高效優化:結合DPO與KL約束,平衡生成多樣性與準確性。
此方法為音頻LLM賦予“自我診斷-優化”能力,推動其從被動處理工具進化為主動感知的智能代理。
EXPERIMENTAL RESULT
數據集
1. NISQA數據集概述
- 數據規模:包含超過97,000條人類評分,涵蓋多個維度(如MOS、噪聲、失真等)。
- 評分維度:
- 整體MOS:平均意見得分(1-5分)。
- 子維度評分:
- Noisiness(噪聲水平):1=嚴重噪聲,5=完全干凈。
- Coloration(音色失真):1=嚴重失真,5=無失真。
- Discontinuity(不連續性):1=嚴重中斷,5=完全連貫。
- Loudness(響度):1=極低,5=完美響度。
原文引用:
“We used the NISQA (Mittag et al., 2021) that contains more than 97,000 human ratings for each of the individual dimensions as well as the overall MOS.”
詳細示例:
- 輸入:一段含噪聲的語音(如咖啡廳環境下的錄音)。
- 評分:
- MOS=3.0(整體評分)。
- 噪聲評分=4/5(背景噪聲明顯)。
- 失真評分=2/5(輕微失真)。
- 不連續性評分=5/5(語音連貫)。
- 響度評分=3/5(音量適中)。
2. 訓練集構建
- 生成工具:
使用LLaMA3.1-70B-Instruct模型生成20,000條訓練樣本
。 - 任務分配:
- MOS預測任務:10,000條樣本。
- A/B測試任務:10,000條樣本。
- 數據來源:基于NISQA TRAIN SIM子集(2,322名說話者)。
原文引用:
“To formulate the training set for ALLD, we utilize the LLaMA3.1-70B-Instruct model to generate a total of 20k training examples for MOS prediction (10k) and A/B test (10k), which includes 2,322 speakers based on the largest subset NISQA TRAIN SIM.”
詳細示例:
-
MOS預測任務:
- 輸入:一段含噪聲的語音。
- 輸出:
- MOS=3.0。
- 噪聲評分=4/5。
- 失真評分=2/5。
- 不連續性評分=5/5。
- 響度評分=3/5。
- 生成過程:
輸入音頻特征
到LLaMA3.1-70B-Instruct模型。- 模型
生成自然語言描述
:“此語音MOS評分為3.0。噪聲水平較高(評分4/5),但語音連貫性良好(評分5/5)。建議檢查錄音設備是否存在失真問題。”
-
A/B測試任務:
- 輸入:兩段語音(A:噪聲明顯,B:失真明顯)。
- 輸出:
- “語音A的噪聲更明顯(評分4/5 vs. 2/5),但語音B的失真更嚴重(評分1/5 vs. 4/5)。綜合推薦語音A。”
- 生成過程:
- 輸入兩段語音的特征到LLaMA3.1-70B-Instruct模型。
- 模型生成對比分析:“語音A的噪聲抑制效果較差,但語音B的失真問題更嚴重。建議優先選擇語音A。”
3. 測試集構建
- 域內測試集:NISQA TRAIN SIM子集(938名說話者),5,000條樣本。
- 域外測試集:
- NISQA VAL LIVE:真實場景語音(如電話錄音、會議錄音)。
- NISQA TEST FOR:外語語音(如非母語者的英語錄音)。
- NISQA TEST P501:特定領域語音(如醫療、教育場景的錄音)。
原文引用:
“Meanwhile, NISQA TRAIN SIM with 938 speakers are constructed as a 5k in-domain test set for these two tasks. Additionally, the NISQA VAL LIVE, NISQA Test FOR, and NISQA TEST P501 are used for out-of-domain evaluation, containing unseen speech samples from various domains, as summarized in Table 2.”
詳細示例:
-
域內測試集:
- 輸入:一段含噪聲的語音(與訓練集同分布)。
- 輸出:MOS=3.0,噪聲評分=4/5。
-
域外測試集:
- NISQA VAL LIVE:
- 輸入:一段電話錄音(含網絡抖動)。
- 輸出:MOS=2.5,不連續性評分=3/5。
- NISQA TEST FOR:
- 輸入:一段非母語者的英語錄音(含口音)。
- 輸出:MOS=3.2,音色失真評分=2/5。
- NISQA TEST P501:
- 輸入:一段醫療場景的錄音(含專業術語)。
- 輸出:MOS=3.5,響度評分=4/5。
- NISQA VAL LIVE:
SWD任務數據集
- 數據來源:LibriSpeech(語音合成與編輯任務常用數據集)。
- 任務目標:檢測語音中哪些詞是合成的(如“apple”為生成詞)。
原文引用:
“For SWD tasks, we utilize LibriSpeech for data generation, with further details provided in Appendix D.”
詳細示例:
- 輸入:一段語音“I ate an [synthetic] apple.”
- 輸出:
- 檢測到“apple”為合成詞,因其頻譜連續性異常。
- 生成描述:“檢測到‘apple’為合成詞,建議檢查語音編輯工具。”
模型與基線
1. MOS預測基線模型
CNN-SA-AP
- 特點:NISQA數據集上的SOTA回歸模型,僅預測MOS分數,無分析能力。
- 架構:基于卷積神經網絡(CNN)與自注意力機制(Self-Attention)。
- 輸入:原始語音波形。
- 輸出:MOS分數(1-5分)。
原文引用:
“For MOS prediction, regression models CNN-SA-AP (Mittag et al., 2021) […] are employed as baseline that only estimate the score without analysis. The former is the SOTA on the NISQA dataset.”
詳細示例:
- 輸入:一段含噪聲的語音。
- 輸出:MOS=3.5。
Wav2vec2
- 特點:自監督學習模型,廣泛用于語音質量評估。
- 架構:基于Transformer的語音特征提取器。
- 輸入:原始語音波形。
- 輸出:MOS分數(1-5分)。
原文引用:
“Wav2vec2 (Baevski et al., 2020) […] are widely used self-supervised learning models for MOS estimation.”
詳細示例:
- 輸入:一段含失真的語音。
- 輸出:MOS=3.2。
WavLM
- 特點:改進的自監督模型,提取更豐富的語音特征。
- 架構:基于Transformer的多任務學習模型。
- 輸入:原始語音波形。
- 輸出:MOS分數(1-5分)。
原文引用:
“WavLM (Chen et al., 2022) […] are widely used self-supervised learning models for MOS estimation.”
詳細示例:
- 輸入:一段含背景音樂的語音。
- 輸出:MOS=3.4。
2. 音頻LLM模型
SALMONN
- 特點:通過雙編碼器提取更多聲學信息,使用Q-former連接LLM,集成LoRA。
- 架構:
- 雙編碼器:分別提取語音與文本特征。
- Q-former:將聲學特征映射到LLM輸入空間。
- LoRA:低秩適應(Low-Rank Adaptation),提升模型微調效率。
- 輸入:原始語音波形。
- 輸出:自然語言描述(如“MOS=3.0,噪聲評分4/5”)。
原文引用:
“SALMONN (Tang et al., 2023) can extract more acoustic information via bi-encoders, and connect them to LLMs via a Q-former, with LoRA integrated.”
詳細示例:
- 輸入:一段含回聲的語音。
- 輸出:“MOS=3.0,噪聲評分4/5,因會議室回聲干擾。”
Qwen-Audio
- 特點:編碼器可訓練,LLM部分凍結。
- 架構:
- 編碼器:可訓練的語音特征提取器。
- LLM:凍結的大型語言模型。
- 輸入:原始語音波形。
- 輸出:自然語言描述(如“MOS=3.0,質量一般”)。
原文引用:
“Qwen-Audio (Chu et al., 2023) makes the encoder trainable while freezing the entire LLM.”
詳細示例:
- 輸入:一段含電流噪音的語音。
- 輸出:“MOS=3.0,質量一般。”
Qwen2-Audio
- 特點:編碼器與LLM端到端訓練。
- 架構:
- 編碼器:可訓練的語音特征提取器。
- LLM:可訓練的大型語言模型。
- 輸入:原始語音波形。
- 輸出:自然語言描述(如“MOS=3.0,噪聲評分4/5,建議啟用降噪功能”)。
原文引用:
“In contrast, Qwen2-Audio (Chu et al., 2024) enables full end-to-end training of both the encoder and the LLM.”
詳細示例:
- 輸入:一段含風聲的語音。
- 輸出:“MOS=3.0,噪聲評分4/5,建議啟用降噪功能。”
要點
1. MOS預測基線模型:- CNN-SA-AP:NISQA數據集上的SOTA回歸模型。- Wav2vec2:自監督學習模型,廣泛用于語音質量評估。- WavLM:改進的自監督模型,提取更豐富的語音特征。
2. 音頻LLM模型:- SALMONN:雙編碼器 + Q-former + LoRA,提取更多聲學信息。- Qwen-Audio:編碼器可訓練,LLM凍結。- Qwen2-Audio:編碼器與LLM端到端訓練。
訓練細節
1. 參數高效微調(Parameter-Efficient Finetuning)
IA3
- 特點:通過少量參數調整提升模型性能。
- 應用:所有線性層。
- 原理:在模型的線性層中引入可學習的縮放參數,減少訓練參數量。
原文引用:
“Besides full parameter finetuning, we also adopt parameter-efficient finetuning for these audio LLMs including IA3 (Liu et al., 2022) (apply to all linear layers).”
詳細示例:
- 輸入:一段含噪聲的語音。
- 輸出:MOS=3.0,噪聲評分4/5。
- 優化效果:通過IA3微調,模型在噪聲評分上的預測精度提升10%。
LoRA
- 特點:低秩適應(Low-Rank Adaptation),提升模型微調效率。
- 應用:編碼器與LLM的查詢(queries)、鍵(keys)、值(values)矩陣。
- 參數:秩為16的低秩矩陣。
原文引用:
“LoRA (Hu et al., 2021). LoRA matrix adds all queries, keys, and values into the encoder and LLM with a rank of 16.”
詳細示例:
- 輸入:一段含失真的語音。
- 輸出:“MOS=3.0,失真評分2/5。”
- 優化效果:通過LoRA微調,模型在失真評分上的預測精度提升15%。
2. ALLD訓練設置
β \beta β值
- 設置: β = 0.4 \beta=0.4 β=0.4,用于增強蒸餾效果。
- 作用:控制KL散度約束的強度, β \beta β越大,模型輸出越接近專家LLM。
原文引用:
“For ALLD, β is set as 0.4 to enhance the distillation.”
詳細示例:
- 輸入:一段含噪聲的語音。
- 輸出:
- β = 0.4 \beta=0.4 β=0.4時,模型生成“MOS=3.0,噪聲評分4/5”。
- β = 0.1 \beta=0.1 β=0.1時,模型生成“MOS=3.0,質量一般”。
學習率
- 設置:學習率=5e-6。
- 作用:控制模型參數更新的步長,較小的學習率有助于穩定訓練。
原文引用:
“The learning rate is set as 5e-6.”
詳細示例:
- 輸入:一段含背景音樂的語音。
- 輸出:
- 學習率=5e-6時,模型生成“MOS=3.0,噪聲評分4/5”。
- 學習率=1e-5時,模型生成“MOS=3.0,質量一般”。
預熱微調(Warm-up Finetuning)
- 操作:使用一半訓練樣本進行初步訓練。
- 目的:提升模型初始能力,避免直接優化偏好數據時的不穩定性。
原文引用:
“Half of the training examples are used for warm-up finetuning.”
詳細示例:
- 輸入:一段含噪聲的語音。
- 輸出:
- 預熱微調前:模型生成“MOS=3.0”。
- 預熱微調后:模型生成“MOS=3.0,噪聲評分4/5”。
采樣優化
- 操作:在整個訓練集上采樣構建對比數據集 D D D。
- 目的:通過偏好優化(DPO)調整模型生成分布。
原文引用:
“Then perform sampling on the whole training set to construct a comparison dataset D.”
詳細示例:
- 輸入:一段含噪聲的語音。
- 采樣過程:
- 生成初始響應 y a y_a ya?=“MOS=3.0”。
- 對比參考響應 y t y_t yt?=“MOS=3.0,噪聲評分4/5”。
- 優化損失,調整模型參數。
要點
1. 參數高效微調:- IA3:應用于所有線性層,減少訓練參數量。- LoRA:應用于編碼器與LLM的查詢、鍵、值矩陣,秩為16。
2. ALLD訓練設置:- β=0.4:增強蒸餾效果。- 學習率=5e-6:穩定訓練過程。- 預熱微調:使用一半訓練樣本提升初始能力。- 采樣優化:構建對比數據集D,通過DPO調整生成分布。
評估指標
1. MOS數值預測任務
線性相關系數(LCC)
- 定義:衡量預測MOS與真實MOS的線性關系,取值范圍為[-1, 1]。
- 公式:
LCC = Cov ( Y pred , Y true ) σ Y pred σ Y true \text{LCC} = \frac{\text{Cov}(Y_{\text{pred}}, Y_{\text{true}})}{\sigma_{Y_{\text{pred}}} \sigma_{Y_{\text{true}}}} LCC=σYpred??σYtrue??Cov(Ypred?,Ytrue?)?
其中, Cov \text{Cov} Cov為協方差, σ \sigma σ為標準差。 - 意義:LCC越接近1,表示預測值與真實值的線性關系越強。
原文引用:
“For MOS numerical prediction, we employ linear correlation coefficient (LCC).”
詳細示例:
- 真實MOS:[3.0, 4.0, 2.5]
- 預測MOS:[3.1, 3.9, 2.6]
- LCC計算:
- 協方差 Cov ( Y pred , Y true ) = 0.15 \text{Cov}(Y_{\text{pred}}, Y_{\text{true}}) = 0.15 Cov(Ypred?,Ytrue?)=0.15
- 標準差 σ Y pred = 0.25 \sigma_{Y_{\text{pred}}} = 0.25 σYpred??=0.25, σ Y true = 0.5 \sigma_{Y_{\text{true}}} = 0.5 σYtrue??=0.5
- LCC = 0.15 0.25 × 0.5 = 1.2 \frac{0.15}{0.25 \times 0.5} = 1.2 0.25×0.50.15?=1.2(標準化后為0.96)
Spearman等級相關系數(SRCC)
- 定義:衡量預測MOS與真實MOS的單調關系,取值范圍為[-1, 1]。
- 公式:
SRCC = 1 ? 6 ∑ d i 2 n ( n 2 ? 1 ) \text{SRCC} = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} SRCC=1?n(n2?1)6∑di2??
其中, d i d_i di?為預測值與真實值的等級差, n n n為樣本數。 - 意義:SRCC越接近1,表示預測值與真實值的單調關系越強。
原文引用:
“Spearman’s rank correlation coefficient (SRCC).”
詳細示例:
- 真實MOS:[3.0, 4.0, 2.5](等級:[2, 3, 1])
- 預測MOS:[3.1, 3.9, 2.6](等級:[2, 3, 1])
- SRCC計算:
- 等級差 d i d_i di?:[0, 0, 0]
- SRCC = 1 ? 6 × 0 3 × ( 9 ? 1 ) = 1 1 - \frac{6 \times 0}{3 \times (9 - 1)} = 1 1?3×(9?1)6×0?=1
均方誤差(MSE)
- 定義:衡量預測MOS與真實MOS的誤差,值越小越好。
- 公式:
MSE = 1 n ∑ i = 1 n ( Y pred ( i ) ? Y true ( i ) ) 2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n (Y_{\text{pred}}^{(i)} - Y_{\text{true}}^{(i)})^2 MSE=n1?i=1∑n?(Ypred(i)??Ytrue(i)?)2 - 意義:MSE越小,表示預測誤差越小。
原文引用:
“Mean square error (MSE) as evaluation metrics.”
詳細示例:
- 真實MOS:[3.0, 4.0, 2.5]
- 預測MOS:[3.1, 3.9, 2.6]
- MSE計算:
- MSE = ( 3.1 ? 3.0 ) 2 + ( 3.9 ? 4.0 ) 2 + ( 2.6 ? 2.5 ) 2 3 = 0.01 + 0.01 + 0.01 3 = 0.01 \frac{(3.1-3.0)^2 + (3.9-4.0)^2 + (2.6-2.5)^2}{3} = \frac{0.01 + 0.01 + 0.01}{3} = 0.01 3(3.1?3.0)2+(3.9?4.0)2+(2.6?2.5)2?=30.01+0.01+0.01?=0.01
2. 描述性分析任務
BLEU分數
- 定義:衡量生成響應與參考響應的語言質量,取值范圍為[0, 1]。
- 公式:基于n-gram重疊率與長度懲罰因子。
- 意義:BLEU越高,表示生成響應與參考響應越匹配。
原文引用:
“BLEU score is used to measure the quality of descriptive analysis.”
詳細示例:
- 參考響應:“MOS=3.0,噪聲評分4/5。”
- 生成響應:“MOS=3.0,噪聲水平較高。”
- BLEU計算:
- 1-gram重疊率:3/4 = 0.75
- 2-gram重疊率:2/3 = 0.67
- BLEU = 0.71(加權平均)
3. A/B測試任務
準確率(Acc)
- 定義:衡量模型判斷的準確性,計算公式為:
Acc = 正確判斷數 總判斷數 \text{Acc} = \frac{\text{正確判斷數}}{\text{總判斷數}} Acc=總判斷數正確判斷數? - 意義:Acc越高,表示模型判斷越準確。
原文引用:
“For A/B test, in addition to BLEU, we count the accuracy (Acc) to evaluate whether the model provides correct judgement.”
詳細示例:
- 輸入:兩段語音(A:噪聲明顯,B:失真明顯)。
- 模型判斷:“語音A噪聲更明顯,推薦語音A。”
- 真實偏好:語音A更優。
- Acc計算:
- 正確判斷數:1
- 總判斷數:1
- Acc = 100%
LLaMA-3.1模型提取結果
- 作用:從自然語言響應中提取偏好判斷(如“SpeechA”或“SpeechB”)。
- 指令提示:“根據上下文,判斷SpeechA或SpeechB更優。僅輸出‘[SpeechA]’或‘[SpeechB]’。”
原文引用:
“Since the response is natural language, we further employ a 70B LLaMA-3.1 model to extract the result for Acc calculation. More details of instruction prompt are in Appendix B.”
詳細示例:
- 輸入:“語音A噪聲更明顯,但語音B失真更嚴重,推薦語音A。”
- 提取結果:“[SpeechA]”
4. SWD任務
準確率(Acc)
- 定義:衡量模型檢測合成詞的準確性,計算公式為:
Acc = 正確檢測數 總檢測數 \text{Acc} = \frac{\text{正確檢測數}}{\text{總檢測數}} Acc=總檢測數正確檢測數? - 意義:Acc越高,表示模型檢測能力越強。
原文引用:
“Accuracy is also used for SWD evaluation.”
詳細示例:
- 輸入:一段語音“I ate an [synthetic] apple.”
- 模型檢測:“apple”
- 真實標簽:“apple”
- Acc計算:
- 正確檢測數:1
- 總檢測數:1
- Acc = 100%
要點
1. MOS數值預測:- LCC:衡量線性關系,越接近1越好。- SRCC:衡量單調關系,越接近1越好。- MSE:衡量誤差,越小越好。
2. 描述性分析:- BLEU:衡量語言質量,越高越好。
3. A/B測試:- Acc:衡量判斷準確性,越高越好。- LLaMA-3.1:提取自然語言響應中的偏好判斷。
4. SWD任務:- Acc:衡量檢測準確性,越高越好。
RESULT ON MOS PREDICTION
音頻大語言模型(如ALLD 2×)既能保持高預測性能,又能生成高質量描述,驗證了其作為“描述性語音質量評估器”的潛力。
“2×”表示通過修改上下文學習示例和在LLM推理過程中調整溫度τ,生成了兩次訓練集
(總共20k樣本)
傳統回歸模型(如Wav2vec2)雖預測性能優秀,但無法提供描述性輸出,適用場景受限
未見過的語音域:
- LIVE:包括電話和Skype錄音。
- FOR:法醫語音數據集。
- P501:來自P.501標準的附錄C文件。
模型比較:
- Wav2vec2:最佳回歸模型,僅提供MOS值預測。
- ALLD:音頻大語言模型,提供MOS值預測和描述性響應。
性能指標變化:
-
LCC和SRCC:ALLD模型在FOR和P501數據集上表現更好或相近。
-
MSE:ALLD模型在所有數據集上的MSE均低于或等于Wav2vec2,表明其預測更準確。
-
BLEU:ALLD模型在所有數據集上均有BLEU得分,且在LIVE和P501數據集上得分更高,表明其描述性響應質量更高。
域不匹配下的性能提升:
- 盡管額外的訓練樣本沒有引入更多的標注MOS值,但ALLD模型在MSE和BLEU指標上表現更好,這可能是因為描述性分析的多樣性增強了模型的泛化能力
原文結論:
在這項研究中,我們的目標是讓音頻大語言模型(LLMs)能夠感知并評估語音質量,且能提供詳細的描述。
為此,我們引入了一個多維度分析的語音評估語料庫,該語料庫基于真實的人工標注分數,由LLMs生成。
我們還提出了ALLD,這是一種旨在提升音頻LLM輸出質量的token-level蒸餾方法。
實驗結果表明,ALLD在MOS預測和A/B測試任務上,相較于傳統回歸模型,
在LCC、SRCC和MSE指標上均有更優表現,同時生成的描述性響應BLEU得分為25.8。
我們的方法是邁向能夠理解真實世界聽覺感知的智能模型的重要一步。