AISHELL-5 全球首套智能駕艙中文語音交互數據集開源

隨著汽車成為人們日常生活中不可或缺的一部分,而駕駛艙中傳統的觸摸交互方式容易分散駕駛員的注意力,存在安全風險,因此,車內基于語音的交互方式得到重視。與通常家庭或會議場景中的語音識別系統不同,駕駛場景中的系統面臨更加獨特的挑戰,缺乏大規模的公共真實車內數據一直是該領域發展的主要障礙。AISHELL-5是首個開源的真實車載多通道、多說話人中文自動語音識別(ASR)高質量數據集。AISHELL-5的開源加速了智能駕艙內語音交互的相關技術研究,并且希爾貝殼聯合西工大音頻語音與語言處理研究組(ASLP@NPU)理想汽車發布的AISHELL-5論文成功入INTERSPEECH2025國際會議以下是AISHELL-5數據集的相關介紹。

圖片

數據地址:https://www.aishelltech.com/AISHELL_5

圖片

圖片

  • 論文地址:https://arxiv.org/pdf/2505.23036

  • GitHub:https://github.com/DaiYvhang/AISHELL-5

數據說明

AISHELL-5?共計893.7小時,單通道145.25小時。邀請165名錄音人,在真實車內,涉及60+車載場景下錄制。錄音內容包含對話(706.59H)和噪聲(187.11H)兩類。拾音點位共計5個:近講為頭戴麥克風(采樣率:16kHz,16bit,數據量:215.63H),遠講為駕艙內麥克風(采樣率:16kHz,16bit,數據量:490.96H,拾音位:4個音位)。噪聲采集由駕艙內麥克風(采樣率:16kHz,16bit,數據量:187.11H,拾音位:4個音位)錄制。

錄制場景示意圖:

圖片

錄制環境設計信息:

圖片

實驗數據分配如下:

圖片

? ??

試驗說明

我們提供了基于該數據集構建的一套開源基線系統。該系統包括一個語音前端模型,利用語音源分離技術從遠場信號中提取出每位說話人的清晰語音,以及一個語音識別模塊,用于準確轉寫每位說話人的語音內容。

圖片

系統實驗結果:

圖片

實驗結果展示了多種主流ASR 模型在 AISHELL-5 數據集上面臨的挑戰。AISHELL-5 數據的開源能夠推動智駕領域復雜駕艙場景下的語音技術研究

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/83432.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/83432.shtml
英文地址,請注明出處:http://en.pswp.cn/web/83432.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

openstack之neutron(一)

NFV基礎 neutron是對二層物理網絡的抽象與管理,實例的網絡功能由連接到vSwitch的端口上的vNIC共同實現,再通過物理服務器的物理網卡訪問外部的物理網絡。 NFV實現 網卡虛擬化:tap、tun、veth; 交換機虛擬化:linuxbri…

【Java】Arrays.sort:TimSort

一,概述 書接前文【Java】Arrays.sort:DualPivotQuicksort-CSDN博客 Arrays.sort對基本數據類型使用了雙軸快速排序,但是對Object[]類型,則使用了TimSort,TimSort是穩定的排序,它整合了插入排序歸并排序,…

一個n8n構建的能和LLM對話的Agent

一個n8n構建的能和LLM對話的Agent 1.OLLAMA1.1.下載和安裝1.2.設置環境變量1.3.重啟ollama1.4.測試1.5.拉取模型2.n8n部署2.1. 鏡像拉取和啟動2.2.注冊和登錄2.3.新建一個工作流3.說在后面的話環境搭建說明: windows(RTX 5090)+VM CENTOS 采用本地化的ollama運行LLM n8n是一…

升級 Ubuntu Linux 內核的幾種不同方法

方法 1 - 使用 dpkg 升級 Linux 內核(手動方式) 這個方法可以幫助你從 kernel.ubuntu.com 網站手動下載可用的最新 Linux 內核。如果你打算安裝最新版(而不是穩定版或者正式發布版),那這種方法…

Robots.txt 文件

什么是robots.txt? robots.txt 是一個位于網站根目錄下的文本文件(如:https://example.com/robots.txt),它用于指導網絡爬蟲(如搜索引擎的蜘蛛程序)如何抓取該網站的內容。這個文件遵循 Robots…

Linux 內核 Slab 分配器核心組件詳解

Slab 分配器是 Linux 內核中用于高效管理內存的機制,其核心目標是通過對象緩存減少內存碎片和分配/釋放開銷。以下詳細解析其核心組件及其協作關系: 一、Slab 系統的核心組件 組件 描述 作用場景 Slab 描述符 每個 Slab 的管理結構(如 struc…

Oracle 的AHF (Automatic Health Framework) 工具

Oracle 的AHF (Automatic Health Framework) 工具 Oracle AHF (Automatic Health Framework) 是 Oracle 官方提供的診斷工具集合,用于自動收集、分析和診斷 Oracle 數據庫及集群環境的健康狀態和問題。 一 AHF 核心功能概述 1. 主要組件 TFA (Trace File Analyz…

華為服務器obsutil使用方法

本文不生產技術,只做技術的搬運工!!! 前言 最近在使用華為云服務器進行模型訓練,發現其上傳下載文件都極慢,詢問華為官方人員是否限速,對方推薦使用obsutil作為中轉服務進行下載,在…

【大模型訓練】中短序列attention 和MOE層并行方式(二)

我們考慮一個典型的Transformer模型結構,在多層堆疊中,其中包含Attention層和MoE層(FeedForward層被替換為MoE層)。在模型最后是LM Head(語言模型頭),通常是一個全連接層,將隱層向量…

2025-06-09(批量智能裁剪視頻尺寸并延長視頻時長)

import os import subprocess import random import json # 配置參數 TARGET_WIDTH 500 TARGET_HEIGHT 600 TARGET_DURATION 180 # 目標時長(秒) OUTPUT_DIR "processed_videos" MIRROR_MODES ["none", "horizontal&quo…

CKA考試知識點分享(9)---gateway api

CKA 版本:1.32 第九套題是涉及gateway api相關。 注意:本文不是題目,只是為了學習相關知識點做的實驗。僅供參考 實驗目的 創建一個gateway api,來實現后端鏡像的外部訪問。 gateway api 通過nginx實現 實驗開始 安裝nginx ga…

Kafka 消息模式實戰:從簡單隊列到流處理(一)

一、Kafka 簡介 ** Kafka 是一種分布式的、基于發布 / 訂閱的消息系統,由 LinkedIn 公司開發,并于 2011 年開源,后來成為 Apache 基金會的頂級項目。它最初的設計目標是處理 LinkedIn 公司的海量數據,如用戶活動跟蹤、消息傳遞和…

Linux中使用yum安裝MYSQL

1、關系型數據庫 MySQL 使用 yum 安裝mysql 1、檢查是否已經安裝 Mysql rpm -qa | grep mysql如果安裝了 就進行卸載 rpm -e mysql-community-libs-5.7.44-1.el7.x86_64 rpm -e mysql57-community-release-el7-11.noarch rpm -e mysql-community-common-5.7.44-1.el7.x86_64…

Linux 文件系統與 I/O 編程核心原理及實踐筆記

文章目錄 一、理解文件1.1 狹義理解1.2 廣義理解1.3 文件操作的歸類認識1.4 系統角度:進程與文件的交互1.5 實踐示例 二、回顧 C 文件接口2.1 hello.c 打開文件2.2 hello.c 寫文件2.3 hello.c 讀文件2.4 輸出信息到顯示器的幾種方法2.5 stdin & stdout & st…

1.9 Express

Express 是一個基于 Node.js 平臺的輕量級、靈活的 Web 應用框架,它為構建 Web 應用和 API 提供了一系列強大的功能。 核心特性 中間件支持:Express 使用中間件(middleware)函數來處理 HTTP 請求和響應。中間件可以訪問請求對象&…

面壁智能MiniCPM4.0技術架構與應用場景

📋 目錄 1. 引言:端側智能新時代2. MiniCPM4.0概述3. 核心技術架構 3.1 高效雙頻換擋機制3.2 稀疏注意力機制3.3 系統級優化創新 4. 技術突破與性能表現5. 應用場景深度解析 5.1 智能手機應用5.2 智能家居場景5.3 汽車智能化5.4 其他端側應用 6. 行業影…

RabbitMQ路由核心解密:從Exchange到RoutingKey的深度實踐與避坑指南

🔍 RabbitMQ路由核心解密:從Exchange到RoutingKey的深度實踐與避坑指南 “消息去哪了?”——這是每位RabbitMQ使用者在調試時最常發出的靈魂拷問。 理解Exchange與RoutingKey的協作機制,正是解開路由謎題的關鍵鑰匙。 一、Exchang…

Spring MVC完全指南 - 從入門到精通

目錄 1. Spring MVC簡介 2. MVC架構模式 3. Spring MVC核心組件 4. 請求處理流程 5. 控制器詳解 6. 請求映射 7. 參數綁定 8. 數據驗證 9. 視圖解析器 10. 模型數據處理 11. 異常處理 12. 攔截器 13. 文件上傳下載 14. RESTful API 15. 配置詳解 總結 1. Sprin…

實戰使用docker compose 搭建 Redis 主從復制集群

文章目錄 前言技術積累1、Redis 主從復制機制2、Docker Compose 編排3、 Redis 配置文件定制4、 驗證主從狀態5、 自動化部署與維護 環境準備實戰演示創建redis目錄及配置1、創建redis目錄2、創建redis配置文件 啟動redis集群服務1、創建docker-compose編排文件2、編排docker-c…

【學習筆記】RTSP-Ovnif-GB28181

【學習筆記】RTSP-Ovnif-GB28181 一、RTSP_RTP_RTCP RTSP(Real Time Streaming Protocol),RFC2326,實時流傳輸協議,是TCP/IP協議體系中的一個應用層協議。 RTP協議詳細說明了在互聯網上傳遞音頻和視頻的標準數據包格…