ICASSP2024 | ICMC-ASR 車載多通道語音識別挑戰賽總結

為促進駕駛場景中語音處理和識別研究,在ISCSLP 2022上成功舉辦智能駕駛座艙語音識別挑戰 (ICSRC)的基礎上,西工大音頻語音與語言處理研究組 (ASLP@NPU)聯合理想汽車希爾貝殼WeNet社區字節微軟天津大學南洋理工大學以及國信息通信研究院等多家單位在ICASSP2024上推出了車載多通道語音識別挑戰賽(ICMC-ASR)。作為大會的旗艦賽事之一,ICMC-ASR發布了在新能源汽車內錄制的100多小時多通道語音數據(單通道計算)以及用于數據增廣的40小時噪聲數據。挑戰賽設有語音識別 (ASR)和語音分離和識別 (ASDR)兩個賽道,分別使用字符錯誤率 (CER)和連接最小排列字符錯誤率 (cpCER)作為評價指標。

本次挑戰賽吸引了國內外共計98支隊伍參賽,并在兩個賽道上收到了53個有效提交結果。競賽總結論文“ICMC-ASR: The ICASSP 2024 In-Car Multi-Channel Automatic Speech Recognition Challenge”已被語音研究頂級會議ICASSP2024接收。現對該論文進行分享,包括競賽舉辦的背景、所采用的數據集、賽道設置、比賽結果和各參賽隊伍所采用的關鍵技術等。

賽事網址:https://icmcasr.org/

論文題目:ICMC-ASR: The ICASSP 2024 In-Car Multi-Channel Automatic Speech Recognition Challenge

合作單位:理想、希爾貝殼、WeNet社區、字節、微軟、天津大學、南洋理工大學、中國信息通信研究院

作者列表:王賀、郭鵬程、李越、張奧、孫佳耀、謝磊、陳偉、周盼、卜輝、徐昕、張彬彬、陳卓、巫健、王龍標、Eng Siong Chng、李蓀

論文原文:https://arxiv.org/abs/2401.03473

相關鏈接:NPU-ASLP實驗室10篇論文被ICASSP2024錄用

發表論文截圖

背景動機

隨著深度學習的不斷發展,語音識別(ASR)技術取得了長足的進步,其性能也獲得了大幅提升。然而ASR系統在實際復雜遠距離拾音場景中的表現遠未達到滿意的效果,干擾來自背景噪聲、混響、說話人重疊和需要適配各種麥克風陣列幾何結構拓撲等。為了應對這些挑戰,CHiME系列競賽應運而生,競賽的宗旨是通過鼓勵多通道信號處理算法的研究和創新來促進魯棒 ASR系統的發展。

語音交互已經變成車機系統不可或缺的組成部分。不同于智能家居或者會議等常見語音識別 (ASR)系統部署的場景,密閉且不規則的駕駛艙的聲學環境是相對更加復雜的。此外,在駕駛過程中存在著各種噪聲,如風聲、引擎聲、輪胎聲、車載廣播和音樂、多人交談等。因此,如何利用語音處理和識別領域的最新技術來提高汽車ASR系統的魯棒性是一個值得研究的重要問題。

在2022年,我們舉辦了智能駕駛艙語音識別挑戰 (ICSRC)[1],并發布了一個在新能源汽車中收集的20小時單通道評估集,為車載ASR提供了一個公開評測的平臺。然而,在車載ASR系統的基準測試中仍然缺乏較大規模的實錄數據。為了填補這一空白,我們在ICSRC成功舉辦的基礎上推出了ICASSP 2024車載多通道自動語音識別 (ICMC-ASR)挑戰賽,專注于復雜駕駛條件下的語音處理和識別。此外,ICMC-ASR數據集包括了一個超過100小時的車內實錄多通道、多說話人的普通話對話數據和40小時的汽車內錄制的多通道噪聲音頻(時長均以單通道計算)。ICMC-ASR挑戰賽包括語音識別和語音分離與識別 (ASDR)兩個賽道,針對車內多說話人聊天場景,分別使用字錯誤率 (CER)和連接最小排列字符錯誤率 (cpCER)作為評估指標。最終,ICMC-ASR挑戰吸引了國內外98支團隊參賽,并在兩個賽道中收到了53個有效結果。其中,USTC-iflytek團隊在ASR賽道上13.16%的CER和ASDR賽道上21.48%的cpCER獲得雙賽道冠軍,相較于基線系統有顯著提升。

ISCSLP 2022丨ICSRC 賽事結果公布

ICASSP2024丨車載多通道語音識別挑戰賽排名結果公布

競賽描述

數據集

ICMC-ASR挑戰賽數據集為圖1所示的新能源車內實錄多通道中文語音數據,車內說話人坐在不同的位置,包括駕駛位、副駕駛位和兩個后排座位。具體而言,4個分布式麥克風分別放置在四個座位對應車門上方,錄制每個座位上的說話人的“遠講”數據。為了方便語音轉錄,每位說話人都佩戴了高保真耳機,錄制得到“近講”數據。由于駕駛場景的真實聲學環境復雜,同時涉及各種噪聲干擾,我們精心設計了不同錄制條件來盡可能覆蓋所有的駕駛場景。我們通過排列組合與駕駛相關的各種因素,包括駕駛道路 (市區街道和高速公路)、車輛速度 (停車、緩慢、中等和快速)、空調 (關閉、中檔和高檔)、車載音響 (關閉和開啟)、駕駛位車窗和天窗 (關閉、開啟三分之一和開啟一半)、駕駛時間 (白天和夜晚),來達到這一目的。最終,構成了60種不同的駕駛場景,囊括了大部分的車內聲學環境。

圖1 數據錄制的新能源車和內嵌麥克風示意

表1 ICMC-ASR數據集的統計信息,包括近場音頻的時長 (Duration)、會話數 (Session)、是否提供真實說話人日志 (GT SD)、轉錄文本 (Transcription) 以及近場音頻 (Near-field)。

賽道設置

Track1 — 語音識別 (Automatic Speech Recognition, ASR):在此賽道中,參賽者會得到測試集上的真實時間戳信息。該賽道的主要目標是構建基于多通道多說話人語音數據的魯棒ASR系統。參賽者需要設計并構建能夠有效融合不同通道信息、抑制噪聲、處理多說話人重疊的系統。對于此賽道,ASR系統的準確性將通過字錯誤率(CER)來衡量。

Track2??語音日志與識別 (Automatic Speech Diarization and Recognition, ASDR):與Track1不同,Track2在評估過程中不提供任何關于說話人和時間戳的先驗信息,包括每個語句的分割和說話人標簽以及每個會話中的總說話人數等。此賽道的參賽者需要設計一個既可以獲取說話人日志又可以進行語音轉錄的系統。對于此賽道,我們采用連接最小排列字錯誤率 (cpCER) 作為ASDR系統的度量標準。

競賽結果及討論

表2展示了在本次ICMC-ASR挑戰賽中取得優異成績的團隊以及基于WeNet工具包[11]的基線系統的主要技術點和結果。如查看完整的排行榜和詳細的系統報告,請參閱我們的競賽官方網站。我們分別計算了35支參與Track1的團隊和18支參與Track2團隊的所提交結果的CER和cpCER指標。據此,ICASSP2024 ICMC-ASR挑戰賽的兩個賽道的冠軍均是USTC-iflytek團隊,在Track1和Track2上分別取得了13.16%的CER和21.48%的cpCER。下面就各團隊所使用的技術展開討論,包括語音前端、ASR以及說話人日志三個方面。

基線系統:https://github.com/MrSupW/ICMC-ASR_Baseline

競賽官方網站:https://icmcasr.org/

表2 兩個賽道的Top系統和競基線系統所使用的主要技術和結果。語音前端和ASR在兩個賽道中都被應用,而說話人日志技術僅用于Track2。加粗的團隊受邀提交ICASSP 2024的技術報告論文

語音前端?大多數團隊都在語音前端方面沿用了基線系統中使用的聲學回聲消除 (AEC)和獨立矢量分析 (IVA)技術。基于此,一些團隊整合了用于去混響的加權預測誤差 (WPE)和分離說話人語音的引導源分離 (GSS)技術,例如RoyalFlush團隊、FawAISpeech團隊和HLT2023-NUS團隊。此外,許多參賽團隊也使用了基于神經網絡 (NN)的語音前端降噪模型,包括MP-SENet [3]、DCCRN-VAE [8]和DEEP-FSMN [5]。特別地,USTCiflytek團隊在GSS中使用能量和相位差異代替傳統的最大信號噪聲比 (SNR)標準進行通道選擇,同時在波束形成器中使用遞歸平滑技術評估功率譜密度矩陣,為下游ASR提供了更高質量的單通道音頻。

ASR Backbone?根據ICMC-ASR挑戰賽不允許使用額外文本數據的規則,許多團隊選擇使用開源音頻數據訓練自監督學習 (SSL)模型來生成音頻特征,然后將其輸入主流ASR模型進行訓練。HuBERT?[4] SSL模型是最受歡迎的模型之一,在分析討論的7支團隊中,有4支均使用了HuBERT模型。其余的三支隊伍,Nanjing Longyuan團隊使用了Data2vec2 [6]作為SSL模型,并在訓練過程中引入了噪聲增廣技術;USTC-iflytek團隊對未標記數據迭代生成偽標簽,并提出了針對口音優化的Accent-ASR模型;FawAISpeech團隊提出了基于E-Branchformer和交叉注意力[12]的多通道ASR模型,沒有使用SSL模型。

說話人日志?除Fosafer Research和Nanjing Longyuan團隊,大多數團隊使用基于神經網絡的VAD模型,在說話人日志技術上選擇了TS-VAD [13]并基于此進行改進。具體地,USTC-iflytek團隊將TS-VAD模型擴展到多通道音頻,提出并使用了Multi-Channel TS-VAD [2];RoyalFlush團隊、喜馬拉雅語音團隊和HLT2023-NUS團隊采用了類似的方法,使用不同的基于神經網絡的模型提取說話人表征,取代了傳統TS-VAD中所使用的i-vector特征。

本賽事相關數據后續會開源,敬請關注。

參考文獻

[1] Ao Zhang, Fan Yu, Kaixun Huang, Lei Xie, et al., “The ISCSLP 2022 Intelligent Cockpit Speech Recognition Challenge (ICSRC): Dataset, Tracks, Baseline and Results,” in Proc. ISCSLP. IEEE, 2022, pp. 507–511.

[2] Ruoyu Wang, Maokui He, Jun Du, Hengshun Zhou, et al., “The USTC-Nercslip Systems for the CHiME-7 DASR Challenge,” 2023.

[3] Ye-Xin Lu, Yang Ai, and Zhen-Hua Ling, “MP-SENet: A Speech Enhancement Model with Parallel Denoising of Magnitude and Phase Spectra,” 2023.

[4] Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, et al., “Hubert: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units,” IEEE/ACM TASLP, vol. 29, pp. 3451–3460, 2021.

[5] Shiliang Zhang, Ming Lei, Zhijie Yan, et al., “Deep-FSMN for Large Vocabulary Continuous Speech Recognition,” in Proc. ICASSP, 2018, pp. 5869–5873.

[6] Alexei Baevski, Arun Babu, Wei-Ning Hsu, and Michael Auli, “Efficient Self-Supervised Learning with Contextualized Target Representations for Vision, Speech and Language,” in Proc. ICML. PMLR, 2023, pp. 1416–1429.

[7] Brecht Desplanques, Jenthe Thienpondt, and Kris Demuynck, “ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN based Speaker Verification,” in Proc. Interspeech. 2020, pp. 3830–3834, ISCA.

[8] Yang Xiang, Jingguang Tian, Xinhui Hu, et al., “A Deep Representation Learning-based Speech Enhancement Method using Complex Convolution Recurrent Variational Autoencoder,” arXiv preprint arXiv:2312.09620, 2023.

[9] Jingguang Tian, Xinhui Hu, and Xinkang Xu, “Royalflush Speaker Diarization System for ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Challenge,” arXiv preprint arXiv:2202.04814, 2022.

[10] Hui Wang, Siqi Zheng, Yafeng Chen, Luyao Cheng, and Qian Chen, “CAM++: A Fast and Efficient Network for Speaker Verification using Contextaware Masking,” arXiv preprint arXiv:2303.00332, 2023.

[11] Zhuoyuan Yao, Di Wu, Xiong Wang, et al., “WeNet: Production Oriented Streaming and Non-streaming End-to-End Speech Recognition Toolkit,” 2021.

[12] Pengcheng Guo, He Wang, Bingshen Mu, Ao Zhang, and Peikun Chen, “The NPU-ASLP System for Audio-Visual Speech Recognition in MISP 2022 Challenge,” in Proc. ICASSP. IEEE, 2023, pp. 1–2.

[13] Ivan Medennikov, Maxim Korenevsky, Tatiana Prisyach, Yuri Khokhlov, et al., “Target-Speaker Voice Activity Detection: A Novel Approach for Multispeaker Diarization in A Dinner Party Scenario,” pp. 274–278, 2020.

文章來源于音頻語音與語言處理研究組?,作者王賀

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/713562.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/713562.shtml
英文地址,請注明出處:http://en.pswp.cn/news/713562.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

EMO在哪體驗?阿里對口型視頻生成工具EMO下載地址?阿里巴巴新模型EMO的技術原理

這幾天,阿里的對口型視頻生成工具EMO火了。根據官方宣傳,EMO只需要上傳一張圖片和一段音頻就可以一鍵生成對口型視頻,而且視頻中的嘴型還可以與聲音匹配。這項技術支持多語言、對話、唱歌以及快速語速的適配,但也可能成為制造虛假…

pip降級在pycharm中

PyCharm依賴于"–build-dir"參數安裝第三方庫,但該參數在最新的23.0版pip中已刪除 解決辦法就是降級pip,PyCharm中選擇File,找到編譯器,點擊pip,勾選對應版本即可 或者在cmd中執行運行python -m pip install…

基于centos的linux上docker安裝,及mysql、redis等應用在docker容器中的安裝

Docker環境安裝 安裝yum-utils: yum install ‐y yum‐utils device‐mapper‐persistent‐data lvm2為yum源添加docker倉庫位置: yum‐config‐manager ‐‐add‐repo https://download.docker.com/linux/centos/docker‐ce.repo如果上面執行命令后…

【matlab】matlab隨機函數-rand

matlab中rand相關的隨機函數包括rand(),randn(),randi()等。相關用法如下: 1,rand(m,n) 含義:生成0-1間均勻分布的隨機矩陣(m行,n列),如果mn,則可簡寫為rand(m) >> rand(1) ans 0.8147 ----------…

Linux系統中的高級多線程編程技術

在Linux系統中,多線程編程是一種常見的并發編程模型,通過利用多線程可以實現程序的并發執行,提高系統的性能和響應速度。在Linux系統中,開發人員通常使用 pthread 庫來進行多線程編程,同時需要掌握線程同步技術以避免并…

JVM(4)

垃圾回收問題 垃圾回收算法 通過之前的學習我們可以將死亡對象標記出來了,標記出來后我們就可以進行垃圾回收操作了,在正式學習垃圾處理器之前,我們先來看一下垃圾回收器使用的幾種算法. 標記-清除算法 "標記-清除"算法是基礎的收集算法.算法分為"標記"…

「Vue3系列」Vue3指令

文章目錄 一、Vue3 指令二、注冊-自定義指令三、常見自定義指令1. 聚焦指令(v-focus)2. 高亮指令(v-highlight)3. 防抖指令(v-debounce)4. 限制輸入指令(v-limit)使用注意事項 四、相…

WPF中如何設置自定義控件

1.圓角按鈕的設置: 眾所周知在WPF中自帶有提示信息,當我問創建Button時,點擊空格出現如下可選設置 帶有小扳手🔧圖標為相應的屬性,如果Button有CornerRadius(角半徑)屬性就能夠直接設置Button實…

33. 【Linux教程】Linux 用戶組

前面小節介紹了 Linux 用戶相關的增刪改查,本小節介紹 Linux 用戶組,Linux 系統中采取了一種安全機制(即用戶組),用戶組可以允許多個 Linux 用戶共享同一種權限。 1. 用戶組介紹 Linux 是多任務多用戶的操作系統&…

鴻蒙Harmony應用開發—ArkTS聲明式開發(自定義事件分發)

ArkUI在處理觸屏事件時,會在觸屏事件觸發前進行按壓點和組件區域的觸摸測試,來收集需要響應觸屏事件的組件,再基于觸摸測試結果分發相應的觸屏事件。在父節點,開發者可以通過onChildTouchTest決定如何讓子節點去做觸摸測試&#x…

【AI Agent系列】【MetaGPT多智能體學習】5. 多智能體案例拆解 - 基于MetaGPT的智能體辯論(附完整代碼)

本系列文章跟隨《MetaGPT多智能體課程》(https://github.com/datawhalechina/hugging-multi-agent),深入理解并實踐多智能體系統的開發。 本文為該課程的第四章(多智能體開發)的第三篇筆記。主要是對課程剛開始環境搭…

Linux系統——Shell腳本——一鍵安裝LNMP

#!/bin/bash #安裝nginx echo "安裝nginx服務" wget http://nginx.org/download/nginx-1.11.4.tar.gz &>/dev/null if [ $? -eq 0 ] thenecho "nginx-1.11.4安裝包下載完成"echo "--開始安裝必要的依賴文件--"yum install -y gcc gcc-c…

python中map函數

map(str, path): map函數會將path中的每一個元素傳遞給str函數,從而將它們轉換為字符串。 如果path是一個數字列表,例如[1, 2, 3],那么map(str, path)將返回[1, 2, 3]。 在寫二叉樹時用到map給樹節點進行str轉換是錯的。 map(s…

xsslabs第五關

看一下源碼 <!DOCTYPE html><!--STATUS OK--><html> <head> <meta http-equiv"content-type" content"text/html;charsetutf-8"> <script> window.alert function() { confirm("完成的不錯&#xff01…

MATLAB知識點:條件判斷 if-elseif-else-end語句

?講解視頻&#xff1a;可以在bilibili搜索《MATLAB教程新手入門篇——數學建模清風主講》。? MATLAB教程新手入門篇&#xff08;數學建模清風主講&#xff0c;適合零基礎同學觀看&#xff09;_嗶哩嗶哩_bilibili 節選自?第4章&#xff1a;MATLAB程序流程控制 if、elseif、…

webstorm 創建運行純Typescript項目

創建一個空項目&#xff0c;在項目根目錄創建一個tsconfig.json文件自動配置&#xff1a; 打開終端輸入tsc --init&#xff0c;即可自動生成tsconfig.json文件手動配置&#xff1a; 在項目根目錄下新建一個tsconfig.json文件,并配置如下內容 具體配置可以直接使用下面的配置&am…

【JavaEE】_Spring MVC項目之建立連接

目錄 1. Spring MVC程序編寫流程 2. 建立連接 2.1 RequestMapping注解介紹 2.2 RequestMapping注解使用 2.2.1 僅修飾方法 2.2.2 修飾類與方法 2.3 關于POST請求與GET請求 2.3.1 GET請求 2.3.2 POST請求 2.3.3 限制請求方法 1. Spring MVC程序編寫流程 1. 建立連接&…

如何開好一家汽車美容店,汽車美容保養與裝飾教學

一、教程描述 本套教程共由17張VCD組合而成&#xff0c;教程內容主要包括&#xff1a;美容店的設立和管理&#xff0c;汽車系統與內部結構&#xff0c;汽車美容工具與美容設備&#xff0c;美容用品的選擇與使用&#xff0c;車身打蠟鍍膜與內外清潔&#xff0c;車身拋光與漆面處…

Debezium發布歷史162

原文地址&#xff1a; https://debezium.io/blog/2023/09/22/debezium-2-4-cr1-released/ 歡迎關注留言&#xff0c;我是收集整理小能手&#xff0c;工具翻譯&#xff0c;僅供參考&#xff0c;筆芯筆芯. Debezium 2.4.0.CR1 Released September 22, 2023 by Chris Cranford r…

(介紹與使用)物聯網NodeMCUESP8266(ESP-12F)連接新版onenet mqtt協議實現上傳數據(溫濕度)和下發指令(控制LED燈)

前言 本文詳細介紹了如何利用物聯網技術,通過NodeMCU ESP8266(ESP-12F)模塊連接到新版的OneNet平臺,使用MQTT協議實現數據的上傳與指令的下發。文中首先對NodeMCU ESP8266模塊及其特性進行了簡介,隨后詳細闡述了如何配置和使用MQTT協議連接到OneNet平臺,實現溫濕度數據的…