文章目錄
- 模型設計的考慮
- 量化的方式:
- 比特率:Fixed vs. Adaptive Bitrate
- 碼本內容設計的考慮
- Streamability.
- 模型評估
- Reconstruction Evaluation and Complexity Analysis.
- 識別和生成任務(SE, SR)
- Acoustic Language Modeling.
- Music Generation
- General Trend
模型設計的考慮
量化的方式:
- RVQ
- GVQ,
- SVQ-single vq,
- FSQ,
- Cross-Scale RVQ (CSRVQ). 跨尺度 RVQ ,
- Multi-Scale RVQ (MSRVQ).
- Product Quantization (PQ).
比特率:Fixed vs. Adaptive Bitrate
- 固定比特率
- 動態比特率
- 可擴展比特率(Scalable)
- 可縮放比特率
碼本內容設計的考慮
- disentanglement:TiCodec / FACodec,將音頻分成內容、韻律、音色和聲學細節
- semantic distillation:RVQ 的第一個碼本用semantic token,比如MIMI, X-Codec
- supervised semantic tokenization: 用asr loss 做監督
Streamability.
- CNN 結構,或者casual-transformer,對是否可以流式
模型評估
Reconstruction Evaluation and Complexity Analysis.
- 重建評估:評估重新合成的音頻的質量。
- 復雜度分析:根據模型大小(參數)、幀速率、標記速率和乘法累加運算 (MAC) 評估每個分詞器的計算效率。
- 結果分析:
- 對于 EnCodec 和 DAC,隨著比特率從 24k 降低到 6k 和 1.5k,重建質量會持續下降。這一趨勢證實,更高的比特率可以更好地保留聲學細節,從而提高所有評估指標的重建質量。
- 對于 SpeechTokenizer(4k 對 1k)和 Mimi(4.4k 對 1.1k),它們都對第一個碼本應用了語義蒸餾,所有客觀指標都會在比特率較低時下降。然而,WER 并沒有急劇下降,這表明即使整體重建質量下降,語義蒸餾也能有效地保留語言內容。
- 離散 WavLM 表現出顯著較低的 SDR、SI-SNR、PESQ、STOI 和 Spk-Sim 分數。由于這些指標依賴于參考真值信號,因此性能不佳表明這些模型沒有針對精確的波形重建進行優化。然而,UTMOS、DNSMOS 和 PLCMOS 等指標仍然合理,這表明這些分詞器仍然保持語音質量。這種差異表明,離散分詞器更關注高級表示,而不是精確的波形重建。
- SQ-SMA-16 的性能與大比特率編解碼器模型(例如 Mimi-S-24 4.4kbps 和 DAC-SMA-24 6kbps)相當,甚至更好。
- 指標分析
- SDR 和 SI-SNR 是不太可靠的指標。一個可能的原因是信號被過度壓縮,神經編解碼器的生成(尤其是在低比特率下),通常在本地樣本級信息中一致性較差。這可能是由于非線性偏移或振幅變化造成的。【這兩個指標更多反映的是時域的一致性,模型對于頻域可感知指標的改善,可能并不意味著時域指標的同步優化。】
識別和生成任務(SE, SR)
重建任務好,不能說明token好,也有可能是decoder的強大,因此直接用token ,訓練下游分類任務和生成任務的有效性。
- 方法:使用輕參數的head,避免隱藏 token 中的缺陷。更多細節的設置,可以看 DASB論文里寫。
語音任務結果分析:
- 語音識別任務。 (1)ASR 類識別任務,包括情感分類,意圖分類,關鍵詞識別,離散 WavLM 都是表現最好的;SpeechTokenizer 排名第二;(2)在說話人識別方面,DAC 取得了最好的結果,semantic token類的結果比較差;
- 語音生成任務:對于語音分離和增強,WavLM 在低比特率和中等比特率下表現良好,但在說話人相似度指標上顯示不佳的結果。此外,重建的 DNSMOS 分數(表示編解碼器單獨設置的上限,沒有任何分離)不會超過使用原始混合物作為估計值獲得的分數(即下限),這表明重建質量的限制可能會限制下游性能,特別是對于語音分離等高保真任務。
Audio 和 Music 任務。
- 對于一般的音頻和音樂任務,EnCodec 在所有比特率和域中的性能始終優于其他分詞器,而 DAC 則落后。(因為DAC 更著重優化感知域信號,時域保真度比較低,因此分離任務上表現不好)。而且增加比特率,性能更差,這可能是由于音樂固有的復音性質和較少的稀疏性質(與語音和一般音頻相比),這導致來源高度重疊,更難從詳細但語義糾纏的表示中解出來。
Codebook 大小的影響。
- 增加碼本的數量(例如 2、8、32)可以改善信號重建,但通常會降低下游任務的性能。(更多的碼本可以提高保真度,但它們通常會增加輸出維度和建模復雜性,從而降低判別任務和生成任務的性能。)
- 在基于 RVQ 的模型中,早期的碼本捕獲更多的語音信息,而后來的碼本通常會添加冗余,這可能解釋了這種權衡。這突出了分詞器的一個重要設計原則: 僅針對重建進行優化并不能保證在下游任務上獲得更好的性能 。中等比特率設置通常在音頻重建質量和任務性能之間提供最佳平衡。
離散token與連續emb。
- 離散token雖然簡單,但是對于比如polyphonic music分離或嘈雜的環境會表現不好。信息含量肯定是連續embedding >>離散token。
- 數據越多,下游任務性能越好:例如,離散 WavLM 使用 BiLSTM 頭在低比特率下在 LibriSpeech(960 小時)上實現了 6.0% 的 WER,在巴斯克語(116 小時)上實現了 22.0% 的 WER,在威爾士語(8 小時)上實現了 58.9%,這表明數據規模與 ASR 準確性之間存在很強的相關性。
- 較大的下游模型有助于提高收斂性和性能,特別是對于acoustic tokenizers,它們對數據規模和模型容量都更敏感。semantic tokenizers通常在資源匱乏的環境中更魯棒。data scale & model scale 對于使用離散token提升性能很重要,尤其是acoustic token。
Acoustic Language Modeling.
聲學語言建模。我們使用 SALMon 和 Zero-resource 基準分析每個分詞器(tokenizer)在訓練聲學語言模型方面的有效性。
語義指標
- sWUGGY指標衡量在一對相似的單詞和非單詞(例如,brick 和 blick)中,模型是否更傾向于賦予單詞更高的概率。
- sBLIMP 衡量模型認為一個語法正確的句子比一個類似不正確的句子更有可能(the dogs sleep v.s. the dog sleep)
- sSC:口語故事-完形填空。 模型捕獲細粒度因果關系和時間常識關系的能力
- tSC:主題故事-完形填空 ,反映了模型保持主題連貫性的能力
聲學指標(SALMon 評估套件)
- acoustic consistency:性別, 情緒,說話人,
- sentiment-acoustic alignment(情感-聲學對齊 ):它測試模型是否為聲學情緒與口語內容一致的話語分配更高的分數。這個全面的套件使我們能夠評估 SLM 的語言和副語言建模能力。
結論:
- HuBERT 在語義任務上仍然是表現最強的,而 WavLM 在聲學一致性方面處于領先地位。
- 語義蒸餾的分詞器,通過優化,通過縮小與 HuBERT 的語義差距
- 總的來說,目前還沒有一個分詞器在所有口語和聲學任務中都表現出色。
Music Generation
- text condition gen: 有文本提示,生成音樂
- uncondition gen : 給一個2s 的音頻片段,續寫
- MusicCaps 和FMA 是兩個訓練數據集,其中FMA 音質較差,數據量也少一點
- FAD: 評估語音質量;KLD, 評估語義一致性;CLAP評估和文本prompt的語義一致性;
結果分析 - 對于音樂任務,高采樣率高碼本的結果更好(DAC),更多細粒度的表示(這些表示對于speech是冗余的)
- 無條件生成始終優于文本條件生成,強調了在音樂生成任務中提供旋律提示的好處。