音頻數據集

1 多語言

Mozilla Common Voice

下載地址：https://voice.mozilla.org/data
時長：1965小時（目前為止）
最早2017年發布，持續更新，該基金會表示，通過 Common Voice 網站和移動應用，他們正在積極開展 70 種語言的數據收集工作。
Mozilla 宣稱其擁有可供使用的最大的人類語音數據集，當前數據集有包括 29 種不同的語言,其中包括漢語，從 4萬多名貢獻者那里收集了近 2454 小時（其中1965小時已驗證）的錄音語音數據。并且做出了開放的承諾：向初創公司、研究人員以及對語音技術感興趣的任何人公開我們收集到的高質量語音數據。
Common Voice數據集不僅在其大小和許可模型（https://github.com/JRMeyer/open-speech-corpora）方面是獨一無二的，而且在其多樣性上也是獨一無二的。它是一個由語音貢獻者組成的全球社區。貢獻者可以選擇提供諸如他們的年齡、性別和口音等統計元數據，這樣他們的語音片段就會被標記上在訓練語音引擎中有用的信息。這是一種不同于其他可公開獲取的數據集的方法，這些數據集要么是手工制作的多樣性數據集(即男性和女性數量相等)，要么是語料庫與“已發現”的數據集一樣的多樣性數據集(例如，TED演講中的TEDLIUM語料庫是男性和女性的3倍)。

翻譯和口語音頻的大型數據庫Tatoeba

鏈接下載地址：https://tatoeba.org/eng/downloads
項目始于2006年tatoeba是一個用于語言學習的句子、翻譯和口語音頻的大型數據庫。收集面向外語學習者的例句的網站，用戶無須注冊便可以搜索任何單詞的例句。如果例句含有對應的真人發音，也可以點擊收聽。注冊用戶可以添加、翻譯、接管、改進、討論句子。還可以在留言板上和其他注冊用戶討論。在留言板上，所有的語言都是平等的，注冊用戶可以使用自己喜歡的語言與其他用戶交流。

CMU Wilderness Multilingual Speech Dataset

2 英語

VOiCES Dataset

下載地址：https://voices18.github.io/downloads/
文獻：https://arxiv.org/abs/1804.05053
發布時間：2018年
時長：總共15小時（3903個音頻文件）
參與人數：300人
這個數據集是在復雜的環境中采集的。在不同大小的真實房間中錄音，捕捉每個房間的不同背景聲音和混響。其中也包含了各種類型的干擾噪聲（電視，音樂，或潺潺聲）。在房間內精心布置的12個麥克風在遠處錄制音頻，每個麥克風產生120小時的音頻。為了模仿談話中的人類行為，前景說話人使用電動裝置，在記錄期間旋轉一系列角度。
300個不同的說話人從LibriSpeech的“干凈”的數據子集被選擇作為源音頻，確保女男性別比例均衡。

本語料庫的目的是促進聲學研究，包括但不限于：
說話人識別，語音識別，說話人檢測。
事件和背景分類，語音/非語音。
源分離和定位，降噪。
其中音頻包含：
男女聲閱讀的英語。
模擬的頭部運動：使用電動旋轉平臺上的說話人來模擬前景旋轉。
雜散噪聲包含大量的電視、音樂、噪音。
包括大、中、小多個房間的各種混響。

語料庫包含源音頻、重傳音頻、正字法轉錄和說話人標簽，有轉錄和模擬記錄的真實世界的噪音。該語料庫的最終目標是通過提供對復雜聲學數據的訪問來推進聲學研究。語料庫將以開源的形式發布，免費供商業、學術和政府使用。

LibriSpeech

鏈接（內含鏡像）地址：http://www.openslr.org/12/
發布時間：2015年
大小：60GB
時長：1000小時
采樣：16Hz
LibriSpeech該數據集為包含文本和語音的有聲讀物數據集，由Vassil Panayotov編寫的大約1000小時的16kHz讀取英語演講的語料庫。數據來源于LibriVox項目的閱讀有聲讀物，并經過細致的細分和一致。經過切割和整理成每條10秒左右的、經過文本標注的音頻文件，非常適合入門使用。
推薦應用方向：自然語音理解和分析挖掘

2000 HUB5 English：

鏈接地址：https://catalog.ldc.upenn.edu/LDC2002T43
發布時間：2002年
該數據集由NIST（國家標準與技術研究院）2000年發起的HUB5評估中使用的40個英語電話對話的成績單組成，其僅包含英語的語音數據集。HUB5評估系列集中在電話上的會話語音，將會話語音轉錄成文本的特定任務。其目標是探索會話語音識別的新領域，開發融合這些思想的先進技術，并測量新技術的性能。
此版本包含評估中用到的40個源語音數據文件的.txt格式的腳本，即20個未發布的電話交談，是招募的志愿者根據機器人操作員的每日主題進行對話，和20個來自CALLHOME美國英語演講中的母語交流者之間的對話。
推薦應用方向：音樂、人聲、車輛、樂器、室內等自然和人物聲音識別

VoxForge：

下載地址：http://www.voxforge.org/home/downloads
帶口音的清晰英語語音數據集。適用于提升不同口音或語調魯棒性的場景。VoxForge創建的初衷是為免費和開源的語音識別引擎收集標注錄音（在Linux／Unix，Windows以及Mac平臺上）
以GPL協議開放所有提交的錄音文件，并且制作聲學模型。以供開源語音識別引擎使用，如CMUSphinx，ISIP，Julias（github）和HTK（注意：HTK有分發限制）。
推薦應用方向：語音識別

人類語音的大規模視聽數據集（VoxCeleb）

VoxCeleb是一個大型人聲識別數據集。它包含來自 YouTube 視頻的 1251 位名人的約 10 萬段語音。數據基本上是性別平衡的（男性占 55％）。這些名人有不同的口音、職業和年齡。開發集和測試集之間沒有重疊。
該數據集有2個子集：VoxCeleb1和VoxCeleb2

VoxCeleb1
VoxCeleb1包含超過10萬個針對1,251個名人的話語，這些話語是從上傳到YouTube的視頻短片中提取的。
發音人數：1251
視頻數量：21245
音頻數量：145265
下載地址：http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html

VoxCeleb2
說話人深度識別數據集 VoxCeleb2包含超過100萬個6,112個名人的話語，從上傳到YouTube的視頻中提取，VoxCeleb2已經與VoxCeleb1或SITW數據集沒有重疊的說話人身份。
發音人數量：訓練集：5994，測試集：118
視頻數量：訓練集：145569，測試集：4911
音頻數量：訓練集：1092009，測試集：36237
內容時長：2000小時以上
發布時間：2018年
下載地址：http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox2.html

音頻全部采自YouTube，是從網上視頻切除出對應的音軌，再根據說話人進行切分；
屬于完全真實的英文語音；
數據集是文本無關的；
說話人范圍廣泛，具有多樣的種族，口音，職業和年齡；
每句平均時長8.2s，最大時長145s，最短時長4s，短語音較多；
每人平均持有句子116句，最大持有250句，最小持有45句；
數據集男女性別較均衡，男性有690人（55%），女性有561人；
采樣率16kHz，16bit，單聲道，PCM-WAV音頻格式；
語音帶有一定真實噪聲，非人造白噪聲，噪聲出現時間點無規律，人聲有大有小；
噪聲包括：環境突發噪聲、背景人聲、笑聲、回聲、室內噪音、錄音設備噪音；
視頻場景包括：明星紅地毯、名人講臺演講、真人節目訪談、大型體育場解說；
音頻無靜音段，但不是VAD的效果，而是截取了一個人的完整無靜音音頻片段；
數據集自身以劃分了開發集Dev和測試集Test，可直接用于Speaker Verification(V)
參考：https://www.zhihu.com/question/265820133/answer/356203615

TIMIT：英語語音識別數據集

發布時間：1993年
采樣：16kHz 16bit
參與人數：630人
下載地址：https://catalog.ldc.upenn.edu/LDC93S1
TIMIT（英語：The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus），是由德州儀器、麻省理工學院和斯坦福研究院SRI International合作構建的聲學－音素連續語音語料庫。TIMIT數據集的語音采樣頻率為16kHz，一共包含6300個句子，由來自美國八個主要方言地區的630個人每人說出給定的10個句子，所有的句子都在音素級別（phone level）上進行了手動分割、標記。TIMIT語料庫包括時間對齊的正字法，語音和單詞轉錄以及每個話語的16位，16kHz語音波形文件。
在給定的10個句子，包括：
2個方言句子(SA, dialect sentences)，對于每個人這2個方言句子都是相同的；
5個音素緊湊句子(SX, phonetically compact sentences)，這5個是從MIT所給的450
個音素分布平衡的句子中選出，目的是為了盡可能的包含所有的音素對。
3個音素發散句子(SI, phonetically diverse sentences)，這3個是由TI從已有的
Brown 語料庫(the Brown Coupus)和劇作家對話集(the Playwrights Dialog)中隨機選擇的，目的是為了增加句子類型和音素文本的多樣性，使之盡可能的包括所有的音位變體(allophonic contexts)。
TIMIT官方文檔建議按照7:3的比例將數據集劃分為訓練集(70%)和測試集(30%) ，TIMIT的原始錄音是基于61個音素的
由于在實際中61個音素考慮的情況太多，因而在訓練時有些研究者整合為48個音素，當評估模型時，李開復在他的成名作(Lee & Hon, 1989)所提出的將61個音素合并為39個音素方法被廣為使用。
推薦應用方向：語音識別
70%的說話人是男性；大多數說話者是成年白人。
TIMIT語料庫多年來已經成為語音識別社區的一個標準數據庫，在今天仍被廣為使用。其原因主要有兩個方面：
數據集中的每一個句子都在音素級別上進行了手動標記，同時提供了說話人的編號，性別，方言種類等多種信息；
數據集相對來說比較小，可以在較短的時間內完成整個實驗；同時又足以展現系統的性能。
目錄組織形式如下：
/<語料庫>/<用處>/<方言種類>/<性別><說話者ID>/<句子ID>.<文件類型>
語料庫：timit
用法：train | test
方言種類：dr1 | dr2 | dr3 | dr4 | dr5 | dr6 | dr7 | dr8
性別：m | f
說話者ID：<說話者縮寫><0-9任意數字>
句子ID：<文本類型><句子編號>，其中，文本類型：sa | si | sx
文件類型：wav | txt | wrd | phn
舉例：
(1) /timit/train/dr1/fcjf0/sa1.wav
(2) /timit/test/df5/mbpm0/sx407.phn

https://blog.csdn.net/qfire/article/details/78711673

CHIME：

鏈接地址：http://spandh.dcs.shef.ac.uk/chime_challenge/CHiME5/
包含環境噪音的用于語音識別挑戰賽（CHiME Speech Separation and Recognition Challenge）數據集。數據集包含真實、仿真和干凈的錄音。真實錄音由 4 個speaker在 4 個嘈雜位置的近 9000 段錄音構成，仿真錄音由多個語音環境和清晰的無噪聲錄音結合而成。該數據集包含了訓練集、驗證集、測試集三部分，每份里面包括了多個speaker在不同噪音環境下的數據。
推薦應用方向：語音識別
雙麥克風錄制的立體WAV文件包括左右聲道，而陣列麥克風的錄音被分解為每個單聲通道的WAV文件。
轉錄以JSON格式提供。

TED-LIUM：

采樣：16Hz
時長：118小時
TED-LIUM 語料庫由音頻講座及其轉錄本組成，可在 TED 網站上查閱。
下載地址：http://www.openslr.org/resources/7/TEDLIUM_release1.tar.gz
國內鏡像：http://cn-mirror.openslr.org/resources/7/TEDLIUM_release1.tar.gz

TED-LIUM 2
通道：1
采樣：16Hz 16bit
比特率：256k
TED Talk 的音頻數據集，包含1495個錄音和音頻會議、159848條發音詞典和部分WMT12公開的語料庫以及這些錄音的文字轉錄。
下載：http://www.openslr.org/resources/19/TEDLIUM_release2.tar.gz
國內鏡像：http://cn-mirror.openslr.org/resources/19/TEDLIUM_release2.tar.gz

TED-LIUM 3
通道：1
采樣：16Hz 16bit
比特率：256k
新的TED-LIUM版本是由Ubiqus公司與LIUM（法國勒芒大學）合作制作的。包含2351條錄音與對齊腳本，452小時的音頻，159848條發音詞典，從 WMT12 公開可用的 Corpora 中選擇語言建模的單語言數據：這些文件來自 TED-LIUM 2 版本，但已修改以獲得與英語更相關的標記化
下載：http://www.openslr.org/resources/51/TEDLIUM_release-3.tgz
國內鏡像：http://cn-mirror.openslr.org/resources/51/TEDLIUM_release-3.tgz

Google AudioSet

AudioSet是谷歌17年開放的大規模的音頻數據集。該數據集包含了 632 類的音頻類別以及 2084320 條人工標記的每段 10 秒長度的聲音剪輯片段（包括 527 個標簽，片段來自YouTube視頻）。音頻本體 (ontology) 被確定為事件類別的一張層級圖，覆蓋大范圍的人類與動物聲音、樂器與音樂流派聲音、日常的環境聲音。此項研究論文已發表于IEEE ICASSP 2017 會議上。
AudioSet提供了兩種格式：
csv文件，包括音頻所在的YouTube視頻的ID，開始時間，結束時間以及標簽(可能是多標簽)
128維的特征，采樣率為1Hz，也就是把音頻按秒提取為128維特征。特征是使用VGGish模型來提取的，VGGish下載地址為https://github.com/tensorflow/models/tree/master/research/audioset 可以使用該模型提取我們自己的數據。VGGish也是用來提取YouTube-8M的。這些數據被存儲為.tfrecord格式。
鏈接下載地址：https://github.com/audioset/ontology
參考：
https://baijiahao.baidu.com/s?id=1561283095072201&wfr=spider&for=pc
https://blog.csdn.net/qq_39437746/article/details/80793476（含國內鏡像鏈接）
https://cloud.tencent.com/developer/article/1451556

CCPE數據集

發布時間：2019年
CCPE 全稱為 Coached Conversational Preference Elicitation，它是我們提出的一種在對話中獲得用戶偏好的新方法，即它允許收集自然但結構化的會話偏好。通過研究一個領域的對話，我們對人們如何描述電影偏好進行了簡要的定量分析；并且向社區發布了 CCPE-M 數據集，該數據集中有超過 500 個電影偏好對話，表達了 10,000 多個偏好。具體而言，它由 502 個對話框組成的數據集，在用戶和助理之間用自然語言討論電影首選項時有 12,000 個帶注釋的發音。它通過兩個付費人群工作者之間的對話收集，其中一個工作人員扮演「助手」的角色，而另一個工作人員扮演「用戶」的角色。「助手」按照 CCPE 方法引出關于電影的「用戶」偏好。助理提出的問題旨在盡量減少「用戶」用來盡可能多地傳達他或她的偏好的術語中的偏見，并以自然語言獲得這些偏好。每個對話框都使用實體提及、關于實體表達的首選項、提供的實體描述以及實體的其他語句進行注釋。
在面向電影的 CCPE 數據集中，冒充用戶的個人對著麥克風講話，并且音頻直接播放給冒充數字助理的人。「助手」則輸出他們的響應，然后通過文本到語音向用戶播放。這些雙人自然對話包括在使用合成對話難以復制的雙方之間自發發生的不流暢和錯誤。這創建了一系列關于人們電影偏好的自然且有條理的對話。在對這個數據集的觀察中，我們發現人們描述他們的偏好的方式非常豐富。該數據集是第一個大規模表征該豐富度的數據集。我們還發現，偏好也稱為選項的特征，并不總是與智能助理的方式相匹配，或者與推薦網站的方式相匹配。換言之，你最喜愛的電影網站或服務上的過濾器，可能與你在尋求個人推薦時描述各種電影時使用的語言并不匹配。
有關 CCPE 數據集的詳細信息，參閱具體研究論文https://ai.google/research/pubs/pub48414，該論文將在 2019 年話語與對話特別興趣小組（https://www.aclweb.org/portal/content/sigdial-2019-annual-meeting-special-interest-group-discourse-and-dialogue-call-special）年會上發布。
2）鏈接下載相關：https://storage.googleapis.com/dialog-data-corpus/CCPE-M-2019/data.json

Free ST American English Corpus

參與人數：10人
該數據集源自(www.Surfay.ai)的一個自由的美式英語語料庫，包含十個發言者的話語，每個說話者有350個左右的詞句。該語料庫是在室內環境下用手機錄制的，每個詞句都由專人仔細抄寫與核對，保證轉錄的準確性。
鏈接下載地址：http://www.openslr.org/45/
國內鏡像：http://cn-mirror.openslr.org/resources/45/ST-AEDS-20180100_1-OS.tgz

CSTR VCTK

參與人數：109人
這個數據集包括109個以英語為母語、帶有不同口音的英語使用者說出的語音數據。每位發言者宣讀約400句詞句，其中大部分來自報紙，加上rainbow passage和旨在識別說話者口音的引語段落。報紙文章取自《先驅報》（格拉斯哥），并經《先驅報》和《時代》集團許可。每位演講者閱讀一組不同的報紙句子，其中每組句子都是使用貪婪算法選擇的，該算法旨在最大化上下文和語音覆蓋。rainbow passage和引語段落對所有發言者都是一樣的。
彩虹通道可以在英語檔案國際方言中找到：http://web.ku.edu/~idea/readings/rainbow.htm
引出段落與用于語音重音存檔 http://accent.gmu.edu的段落相同。語音重音存檔的詳細信息可查看http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf
See more: http://homepages.inf.ed.ac.uk/jyamagis/page3/page58/page58.html
下載：https://datashare.is.ed.ac.uk/handle/10283/2651

LibriTTS corpus

采樣：24Hz
時長：585小時
LibriTTS 是一種多語言英語語種，以 24kHz 采樣率閱讀英語語音約 585 小時，由 Heiga Zen 在 Google 語音和 Google 大腦團隊成員的協助下編寫。LibriTTS 語料庫專為 TTS 研究而設計。它派生自LibriSpeech語料庫的原始材料（來自LibriVox的MP3音頻文件和古騰堡項目的文本文件）。
以下是 LibriSpeech 語料庫的主要區別：
音頻文件的采樣速率為 24kHz。
演講在句子中斷時被分割。
包含原始文本和規范化文本。
可以提取上下文信息（例如相鄰的句子）。
排除了具有顯著背景噪聲的透口。
鏈接（鏡像）http://www.openslr.org/60/

The AMI Corpus
這是最初托管在http://groups.inf.ed.ac.uk/ami/corpus/上的 AMI Corpus 聲學數據的鏡像。AMI 會議會議記錄包含 100 小時的會議錄音。錄像使用與公共時間線同步的信號范圍。其中包括近距離麥克風和遠場麥克風、獨立和房間視圖攝像機，以及從幻燈機和電子白板輸出。在會議期間，與會者還可以使用不同步的筆來記錄所寫內容。會議以英語錄制，使用三個不同的房間，具有不同的聲學屬性，并且包括大多數非母語人士。
下載：http://www.openslr.org/16/

中文

Free ST Chinese Mandarin Corpus

參與者：855人
這個語料庫是用手機在室內安靜的環境中錄制的。它有855個speakers。每個演講者有120個話語。所有的話語都經過人仔細的轉錄和核對。保證轉錄精度
語料庫包含： 1音頻文件； 2轉錄； 3元數據；
鏈接下載：（8.2G）http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz
國內鏡像：http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

Primewords Chinese Corpus Set 1

參與人數：296人
時長：178小時
這個免費的中文普通話語料庫由上海普力信息技術有限公司發布。(www.primewords.cn)包含178個小時的數據。該語料由296名以中文為母語的人的智能手機錄制。轉錄精度大于 98%，置信度為 95%。免費用于學術用途。轉述和詞句之間的映射以 JSON 格式提供。
鏈接下載：（9.0G）http://www.openslr.org/resources/47/primewords_md_2018_set1.tar.gz
國內鏡像：http://cn-mirror.openslr.org/resources/47/primewords_md_2018_set1.tar.gz

THCHS30

時長:40+小時
THCHS30是一個經典的中文語音數據集，包含了1萬余條語音文件，通過單個碳粒麥克風錄取，大約40小時的中文語音數據，內容以文章詩句為主，全部為女聲。它是由清華大學語音與語言技術中心（CSLT）出版的開放式中文語音數據庫。原創錄音于2002年由朱曉燕教授在清華大學計算機科學系智能與系統重點實驗室監督下進行，原名“TCMSD”，代表“清華連續”普通話語音數據庫’。13年后的出版由王東博士發起，并得到了朱曉燕教授的支持。他們希望為語音識別領域的新入門的研究人員提供玩具級別的數據庫，因此，數據庫對學術用戶完全免費。
鏈接國內鏡像：https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz
國外鏡像：https://link.ailemon.me/?target=http://www.openslr.org/resources/18/data_thchs30.tgz

ST-CMDS

時長:100余小時
參與人數：855人
ST-CMDS是由一個AI數據公司發布的中文語音數據集，包含10萬余條語音文件，大約100余小時的語音數據。數據內容以平時的網上語音聊天和智能語音控制語句為主，855個不同說話者，同時有男聲和女聲，適合多種場景下使用。
國內鏡像：https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz
國外鏡像：https://link.ailemon.me/?target=http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

MAGICDATA Mandarin Chinese Read Speech Corpus

時長：755小時
參與人數：1080人
應用：語音識別，機器翻譯，說話人識別和其他語音相關領域
Magic Data技術有限公司的語料庫，語料庫包含755小時的語音數據，其主要是移動終端的錄音數據。邀請來自中國不同重點區域的1080名演講者參與錄制。句子轉錄準確率高于98％。錄音在安靜的室內環境中進行。數據庫分為訓練集，驗證集和測試集，比例為51：1：2。如語音數據編碼和說話者信息的細節信息被保存在metadata文件中。錄音文本領域多樣化，包括互動問答，音樂搜索，SNS信息，家庭指揮和控制等。還提供了分段的成績單。該語料庫旨在支持語音識別，機器翻譯，說話人識別和其他語音相關領域的研究人員。因此，語料庫完全免費用于學術用途。
下載地址見參考：https://blog.ailemon.me/2018/11/21/free-open-source-chinese-speech-datasets/
鏡像：http://www.openslr.org/68/

AISHELL數據集

AISHELL開源版1

時長：178小時
參與人數：400人
采樣：44.1kHz & 16kHz 16bit
AISHELL是由北京希爾公司發布的一個中文語音數據集，其中包含約178小時的開源版數據。該數據集包含400個來自中國不同地區、具有不同的口音的人的聲音。錄音是在安靜的室內環境中同時使用3種不同設備：高保真麥克風（44.1kHz，16-bit）；Android系統手機（16kHz，16-bit）；iOS系統手機（16kHz，16-bit）。進行錄音，并采樣降至16kHz，用于制作AISHELL-ASR0009-OS1。通過專業的語音注釋和嚴格的質量檢查，手動轉錄準確率達到95％以上。該數據免費供學術使用。他們希望為語音識別領域的新研究人員提供適量的數據。
鏈接下載地址：http://www.aishelltech.com/kysjcp

AISHELL-2 開源中文語音數據庫

時長：1000小時
參與人數：1991人
希爾貝殼中文普通話語音數據庫AISHELL-2的語音時長為1000小時，其中718小時來自AISHELL-ASR0009-[ZH-CN]，282小時來自AISHELL-ASR0010-[ZH-CN]。錄音文本涉及喚醒詞、語音控制詞、智能家居、無人駕駛、工業生產等12個領域。錄制過程在安靜室內環境中，同時使用3種不同設備：高保真麥克風（44.1kHz，16bit）；Android系統手機（16kHz，16bit）；iOS系統手機（16kHz，16bit）。AISHELL-2采用iOS系統手機錄制的語音數據。1991名來自中國不同口音區域的發言人參與錄制。經過專業語音校對人員轉寫標注，并通過嚴格質量檢驗，此數據庫文本正確率在96%以上。（支持學術研究，未經允許禁止商用。）
鏈接下載地址：http://www.aishelltech.com/aishell_2

AISHELL-3 語音合成數據庫

時長：85小時
參與人數：218人
采樣率：44.1kHz，16bit
希爾貝殼中文普通話語音數據庫AISHELL-3的語音時長為85小時88035句，可做為多說話人合成系統。錄制過程在安靜室內環境中，使用高保真麥克風（44.1kHz，16bit）。218名來自中國不同口音區域的發言人參與錄制。專業語音校對人員進行拼音和韻律標注，并通過嚴格質量檢驗，此數據庫音字確率在98%以上。（支持學術研究，未經允許禁止商用。）
詳見：AISHELL-3高保真中文語音數據集

MobvoiHotwords

MobvoiHotwords是從Mobvoi的商業智能揚聲器收集的喚醒單詞的語料庫。它由關鍵字和非關鍵字語音組成。對于關鍵字數據，將收集包含“ Hi xiaowen”或“ Nihao Wenwen”的關鍵字語音。對于每個關鍵字，大約有36k語音。所有關鍵字數據均收集自788名年齡在3-65歲之間的受試者，這些受試者與智能揚聲器的距離（1、3和5米）不同。在采集過程中，具有不同聲壓級的不同噪聲（例如音樂和電視等典型的家庭環境噪聲）會在后臺播放。
國內鏡像|國外鏡像

其他

GigaSpeech:東南亞語種
kespeech：開源方言數據集
完成融合aidatatang、aidatashell、commonvoice、wenetspeech800w中文數據集的fmt3

Sound Event Classification：FSD50K、DCASE2017 Task4、UrbanSound8K
Vocal Sound Classification：vocalsound（可做年齡、性別、健康狀態等識別任務）
Acoustic Scene Classification：TUT 2017、CochlScene
Emotion Recognition：CREMA-D、RAVDESS