目錄
Voice Activity Detection
自己采集:
1. ASR Resources(語音識別資源)
2. LM Resources(語言模型資源)
這是一個數據表:
噪聲數據集:
Voice Activity Detection
自己采集:
自己分別采集有有聲音的,沒有聲音的
多人說話的,
在語音識別(ASR)中,ASR Resources 和 LM Resources 各自有不同的含義和作用。下面是它們的詳細解釋:
1. ASR Resources(語音識別資源)
ASR 是 Automatic Speech Recognition,即 自動語音識別。是將語音信號轉化為文本。包括:
-
音頻數據集:用于訓練ASR模型的語音數據,如包含不同口音、環境噪音、語速等的多樣化音頻文件。
-
聲學模型:用于將音頻信號轉換為音素(語音單元)或詞的模型,通常通過深度神經網絡(如DNN、CNN、RNN)進行訓練。
-
詞典:包含音素與詞匯的映射關系,幫助ASR系統從音頻信號識別出正確的詞。
-
標注數據:通常包括每個音頻片段與其對應的正確轉錄文本,這些數據用于訓練和評估ASR模型。
2. LM Resources(語言模型資源)
LM 是 Language Model(語言模型)的縮寫。語言模型在語音識別中的作用是根據上下文來預測詞語的出現概率,從而提高識別的準確性。LM Resources 指的是構建和使用語言模型所需的各種資源,主要包括:
-
語言建模語料庫:用于訓練語言模型的文本數據集。它包含大量的文本,幫助模型學習語言的結構、語法和常見的詞組搭配。
-
預訓練語言模型:例如3-gram、5-gram等n-gram模型或更復雜的神經網絡語言模型(如RNN、LSTM、Transformer),用于捕捉詞語之間的統計關系。
-
詞匯表:包含所有模型可能識別的詞匯,可以是訓練語言模型時的一個子集,幫助限制可能出現的詞的范圍。
總結:
-
ASR Resources 主要關注與語音信號和音頻處理相關的資源,用來從語音轉化為文本。
-
LM Resources 主要關注文本數據和語言結構,用來提高語音識別的上下文理解和準確性。
這兩者結合,能顯著提高語音識別系統的整體效果。
這是一個數據表:
名稱 | 小時數 | 語言數 | 鏈接 | 許可證 | md5sum |
---|---|---|---|---|---|
Bible.is | 53,138 | 1,596 | https://live.bible.is/bible/EN1ESV/MAT/1 | 獨特的 | ea404eeaf2cd283b8223f63002be11f9 |
globalrecordings.net | 9,743 | 6,171 | Global Recordings Network | CC BY-NC-SA 4.0 | 3c5c0f31b0abd9fe94ddbe8b1e2eb326 |
VoxLingua107 | 6,628 | 107 | https://bark.phon.ioc.ee/voxlingua107/ | CC BY 4.0 | 5dfef33b4d091b6d399cfaf3d05f2140 |
Common Voice | 30,329 | 120 | Common Voice | CC0 | 5e30a85126adf74a5fd1496e6ac8695d |
MLS | 50,709 | 8 | openslr.org | CC BY 4.0 | a339d0e94bdf41bba3c003756254ac4e |
總計 | 150,547 | 6,171+ |
可以直接下載的:
MLS
Common Voice
噪聲數據集:
https://github.com/snakers4/silero-vad/wiki/Quality-Metrics#sample-rate-comparison
?
Dataset | Duration, hours | Domain |
---|---|---|
ESC-50 | 2.7 | Environmental noise |
AliMeeting test | 43 | Far/near meetings speech |
Earnings 21 | 39 | Calls |
MSDWild | 80 | Noisy speech |
AISHELL-4 test | 12.7 | Meetings |
VoxConverse test | 43.5 | Noisy speech |
Libriparty test | 4 | Noisy speech |
Private noise | 0.5 | Noisy calls without speech |
Private speech | 3.7 | Speech |
Multi-Domain Validation | 17 | Multi |
?