AISHELL-5 全球首套智能駕艙中文語音交互數據集開源

隨著汽車成為人們日常生活中不可或缺的一部分，而駕駛艙中傳統的觸摸交互方式容易分散駕駛員的注意力，存在安全風險，因此，車內基于語音的交互方式得到重視。與通常家庭或會議場景中的語音識別系統不同，駕駛場景中的系統面臨更加獨特的挑戰，缺乏大規模的公共真實車內數據一直是該領域發展的主要障礙。AISHELL-5是首個開源的真實車載多通道、多說話人中文自動語音識別（ASR）高質量數據集。AISHELL-5的開源加速了智能駕艙內語音交互的相關技術研究，并且希爾貝殼聯合西工大音頻語音與語言處理研究組（ASLP@NPU）、理想汽車發布的AISHELL-5論文成功入選INTERSPEECH2025國際會議，以下是AISHELL-5數據集的相關介紹。

數據地址：https://www.aishelltech.com/AISHELL_5

論文地址：https://arxiv.org/pdf/2505.23036
GitHub：https://github.com/DaiYvhang/AISHELL-5

數據說明

AISHELL-5?共計893.7小時，單通道145.25小時。邀請165名錄音人，在真實車內，涉及60+車載場景下錄制。錄音內容包含對話（706.59H）和噪聲（187.11H）兩類。拾音點位共計5個：近講為頭戴麥克風（采樣率：16kHz，16bit，數據量：215.63H），遠講為駕艙內麥克風（采樣率：16kHz，16bit，數據量：490.96H，拾音位：4個音位）。噪聲采集由駕艙內麥克風（采樣率：16kHz，16bit，數據量：187.11H，拾音位：4個音位）錄制。

錄制場景示意圖：

錄制環境設計信息：

實驗數據分配如下：

? ??

試驗說明

我們提供了基于該數據集構建的一套開源基線系統。該系統包括一個語音前端模型，利用語音源分離技術從遠場信號中提取出每位說話人的清晰語音，以及一個語音識別模塊，用于準確轉寫每位說話人的語音內容。

系統實驗結果：

實驗結果展示了多種主流ASR 模型在 AISHELL-5 數據集上面臨的挑戰。AISHELL-5 數據的開源能夠推動智駕領域復雜駕艙場景下的語音技術研究。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/83432.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/83432.shtml
英文地址，請注明出處：http://en.pswp.cn/web/83432.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！