? ? ? ? ? Audio Language Learning (Audio-Text Learning) 是一個新興的研究領域,專注于處理、理解和描述聲音。它的發展動力是機器學習技術的進步以及越來越多地將聲音與其相應的文本描述相結合的數據集的可用性。 Audio Language Models (ALMs) 是這個領域的關鍵技術,它們能夠處理聲音,并提供關于聲音產生事件和場景的語音描述。隨著計算能力和數據集創建方面的最新進展,該領域取得了顯著進展。
1 背景
1.1 領域發展主要驅動因素
計算能力的進步及數據集的創建相互促進,共同推動了音頻語言學習領域的快速發展。計算能力的進步使得處理和分析大量音頻數據成為可能,而數據集的創建則提供了豐富的數據資源,支持了各種音頻語言學習任務的研究。
1.1.1 計算能力的進步
- 大語言模型 (LLM) 的出現: LLM 的出現為音頻語言學習提供了強大的工具。LLM 能夠處理和理解大量文本數據,并生成相應的文本輸出。這為將音頻數據與文本描述相結合提供了可能性,從而推動了音頻語言學習的發展。
- Transformer 模型的應用: Transformer 模型在自然語言處理領域取得了革命性的進展,并成功應用于音頻語言學習。它們能夠有效地處理序列數據,并捕捉音頻和文本之間的復雜關系。
1.1.2 數據集的創建
- Freesound 平臺的發布: Freesound 平臺提供了一個龐大的音頻數據庫,為音頻語言學習提供了豐富的數據資源。用戶可以上傳和下載各種類型的音頻文件,并將其與文本描述相關聯。
- AudioSet 的創建: AudioSet 是由 Google 開發的一個大規模音頻分類數據集,包含超過 200 萬個音頻片段和 527 個音頻事件類別。它為音頻語言學習提供了標準化的數據格式和標簽,并促進了該領域的研究進展。
1.2 音頻語言學習的主要任務
1.2.1 音頻到語言 (Audio-to-Language)
? ? ? ?這類模型將音頻輸入轉換為文本輸出,通常通過模型生成或從數據集中檢索。該類別包含幾個子領域:
- 音頻字幕 (Audio Captioning, AAC): 生成音頻事件的自然語言描述。
- 音頻-文本檢索 (Audio-Text Retrieval, ATR): 使用音頻-語言對數據庫查找給定音頻輸入的相關文本。
- 音頻問答 (Audio-Question Answering, AQA): 回答關于特定音頻內容的自然語言問題。
- 音頻差異字幕 (Audio Difference Captioning, ADC): 生成描述,強調相似音頻片段之間內容差異。
1.2.2 語言到音頻 (Language-to-Audio)
? ? ? ?這類模型使用語言輸入來生成或檢索音頻。
- 音頻生成 (Audio Generation, AG): 根據自然語言提示創建音頻。
- 文本到音頻檢索 (Text-to-Audio Retrieval, TAR): 使用自然語言查詢從包含音頻-語言對的數據庫中查找匹配的音頻片段。
- 語言查詢音頻源分離 (Language-Queried Audio Source Separation, LASS): 使用自然語言描述來確定(并隔離)混合聲音中的特定聲音來源。
1.3 音頻語言模型 (ALM) 的訓練方法
音頻語言模型 (ALM) 的訓練方法主要分為三大類,每種方法都有其獨特的優缺點和適用場景。
1.3.1 基于跨注意力機制的方法
利用跨注意力機制將音頻特征與文本輸出進行對齊,實現音頻和文本之間的信息融合。
1.3.1.1 常見模型架構
?編碼器 (如 CNN 或 Transformer) 處理音頻信號,輸出特征作為注意力機制的鍵和查詢。文本解碼器則利用這些特征生成文本描述。
1.3.1.2 優點
- 能夠有效地融合音頻和文本信息,即使直接從音頻到文本的學習不可行。
- 可以使用靜態 (或凍結) 的音頻編碼器和文本解碼器,降低訓練成本。
1.3.1.3 缺點
- 需要映射網絡來適配編碼器輸出和文本解碼器的輸入,可能引入額外的復雜性。
- 跨注意力機制的計算成本較高。
1.3.2 基于音頻前綴的方法
將音頻編碼器的輸出映射到文本解碼器的序列起始位置,將音頻信息作為文本生成的先驗知識。
1.3.2.1 常見模型架構
音頻編碼器 (如 CNN 或 Transformer) 的輸出與文本解碼器的輸入進行拼接,文本解碼器根據先驗信息和當前文本生成文本描述。
1.3.2.2 優點
- 計算成本較低,訓練速度較快。
- 可以將多種音頻類型進行統一編碼,實現模型泛化。
- 可以使用凍結的編碼器進行預訓練,降低訓練成本。
1.3.2.3 缺點
- 音頻信息對文本生成的影響程度難以控制。
- 可能導致文本生成過程中音頻信息的過度強調。
1.3.3 基于預訓練模型的方法 (零樣本)
利用預訓練的多模態網絡或大型語言模型 (LLM) 進行音頻描述的生成,無需針對音頻描述任務進行特定訓練。
1.3.3.1 常見模型架構
使用預訓練的多模態網絡提取音頻特征,LLM 根據文本描述和音頻特征生成文本描述。
1.3.3.2 優點
- 可以利用預訓練模型的知識和經驗,提高模型性能。
- 可以快速生成音頻描述,無需進行特定訓練。
1.3.3.3 缺點
- 預訓練模型可能存在偏差,影響音頻描述的準確性。
- 難以控制音頻信息對文本生成的影響程度。
2 音頻語言數據集
2.1 調查方法
? ? ? 通過手動審查2019年至2023年在Google Scholar上列出的出版物來識別的。
2.2 數據集分類
- YouTube 數據集:AudioSet, AudioCaps, FAVDBench, Take It Seriously, SoundWords
- Freesound 數據集:Clotho, Clotho-Detail, ClothoAQA, FSD50k
- 音效數據集:WavText5k, BBC Sound Effects, SoundDescs, Pro Sound Effects
- 其他類別:MACS, Hospital & Car Dataset (AudioCaption), AnimalSpeak, CAPTDURE, SAM-S, SoundingEarth
- 音頻問答數據集:ClothoAQA, mClothoAQA, DAQA, AQUALLM, Audio Conversation 10k (MULTIS), LTU / OpenAQA-5M
- 音頻差異字幕數據集:MIMII-Change, AudioDiffCaps
- 音頻語言匯總數據集:Auto-ACD, ONE-PEACE Pretraining set, LAION-Audio-630k, MS-CLAP, TangoPromptBank, WavCaps, NetEase AAC Dataset
- 音頻-語音-音樂匯總數據集:HEAR benchmark, SALMONN, Comp-A, Qwen-Audio, Pengi, Mix-185K, Uniaudio, AudioLDM, CLARA
2.3 音頻語言數據集的特點
- 音頻長度: 音頻片段的長度可能有所不同,從幾秒鐘到幾分鐘不等。
- 文本長度: 字幕的長度也可能不同,從單個單詞到完整的段落不等。
- 音頻類型: 數據集中的音頻類型可能包括人聲、音樂、環境聲音、動物聲音等。
- 文本語言: 字幕的語言可能包括多種語言,包括英語、中文、西班牙語等。
- 數據來源: 數據集的來源可能包括 YouTube、Freesound、音效庫、現場錄音、電視節目等。
2.4 音頻語言數據集的應用
- 音頻字幕: 使用模型將音頻轉換為文本描述。
- 音頻-文本檢索: 使用模型查找與給定音頻輸入相關的文本描述。
- 音頻問答: 使用模型回答關于特定音頻內容的問題。
- 音頻差異字幕: 使用模型生成描述,強調相似音頻片段之間內容差異。
2.5 音頻語言數據集的挑戰
- 數據稀缺: 可用的音頻語言數據集相對較少,限制了模型的發展。
- 數據質量: 一些數據集可能包含噪聲或低質量的文本描述,影響模型的性能。
- 數據偏差: 數據集可能存在偏差,例如性別、種族或語言偏差,影響模型的公平性。
- 數據重疊: 一些數據集可能存在重疊,影響模型的學習效果。
3 評估
我們將對本文中的主要音頻數據集進行評估。首先,我們將提供基于大規模主成分分析的音頻和文本嵌入的可視化,這些可視化圖示說明了不同數據集之間音頻和文本內容的相對距離以及它們在AudioSet頂級類別中的絕對數量。其次,我們將提供數據泄露的定量評估。數據泄露發生在評估數據在訓練期間對機器學習模型可訪問時。
3.1 評估音頻數據集的主要指標
- 數據質量: 評估數據集的噪聲水平、文本描述的準確性和一致性等。
- 數據多樣性: 評估數據集中音頻類型、語言、場景和事件的范圍。
- 數據完整性: 評估數據集的完整性,例如是否有缺失的音頻文件或文本描述。
- 數據分布: 評估數據集中音頻和文本的分布,例如是否存在類別不平衡或分布偏移。
- 數據重疊: 評估數據集中不同數據集之間的重疊,例如是否存在相同的音頻文件或文本描述。
3.2 評估音頻數據集的方法
- 可視化: 使用圖表和圖形來展示數據集中音頻和文本的特征,例如音頻-文本嵌入的主成分分析 (PCA)。
- 統計分析: 使用統計方法來分析數據集的特征,例如計算音頻和文本的平均長度、標準差、唯一單詞數等。
- 數據泄露分析: 檢查訓練數據中是否存在關于測試數據的任何信息,這可能導致模型在測試數據上的過度擬合。
- 重復數據分析: 檢查數據集中是否存在重復的音頻文件或文本描述,這可能導致模型學習到不必要的模式。
3.3 評估結果
3.3.1 音頻和文本嵌入的可視化
- 通過大規模的主成分分析 (PCA),將音頻和文本嵌入進行了可視化,并計算了數據點之間的距離。結果顯示,不同的數據集在音頻和文本內容方面存在著顯著差異,例如 AnimalSpeak 在音頻嵌入方面與其它數據集差異最大,而 mAQA 在文本嵌入方面與其它數據集差異最大。
- 通過將音頻和文本分類到 AudioSet 的頂級類別中,展示了不同數據集中聲音的相對分布。結果顯示,音樂、人類聲音和物體聲音是數據集中最常見的類別,這與 AudioSet 中語音和音樂的廣泛存在有關。
3.3.2 重復分析
通過比較音頻文件的梅爾譜圖,發現了一些數據集之間存在重疊,例如 AudioCaps 和 Clotho 與 WavCaps 之間存在重疊。這表明,在訓練模型時,可能存在數據泄露,導致模型在測試集上獲得過高的性能。
AnimalSpeak和Audioset數據集與其他數據集有相對較高的重疊。AudioDiffCaps、MACS相對很少有其他相似的數據集。
3.3.3 數據質量
由于公開數據集中高質量訓練數據的稀缺,研究人員通常依賴于大規模的噪聲數據集。然而,這些數據集可能會引入分布偏移,導致模型在實際應用中的性能下降。
建議使用經過篩選和處理的數據集,例如 Revised-Clotho 和沒有數據泄露的 SoundDescs 分割版本,以提高數據質量并改善模型性能。
3.3.4 數據偏差
- 交叉污染: 當訓練數據與測試數據重疊時,會導致模型在測試集上獲得過高的性能,掩蓋模型在真實世界數據上的真實性能。
- 視覺支持數據集: 一些數據集包含與視覺內容相關的標簽或注釋,這可能會導致模型學習到與音頻無關的視覺信息,從而引入偏差。
- 多樣性偏差: 音頻數據集可能存在不平衡,這可能會影響模型對代表性不足的群體的性能。
3.4 評估音頻數據集的重要性
- 指導數據集開發: 評估可以幫助研究人員了解數據集的局限性,并指導未來的數據集開發工作,例如增加數據多樣性、改進數據質量或減少數據重疊。
- 選擇合適的模型: 評估可以幫助研究人員選擇最適合特定任務的數據集,例如使用具有更多與任務相關的音頻類型和場景的數據集。
- 提高模型的性能: 評估可以幫助研究人員了解數據集對模型性能的影響,并指導未來的模型訓練工作,例如使用數據增強或數據清洗技術。
3.5 評估音頻數據集的挑戰
- 缺乏標準化的評估指標: 目前沒有標準化的評估指標來衡量音頻數據集的質量和適用性。
- 數據獲取困難: 一些數據集可能難以獲取,例如受版權保護的數據集。
- 數據標注成本高: 音頻數據標注是一個耗時且成本高昂的過程。