數據開源|GigaSpeech 2:三萬小時東南亞多語種語音識別開源數據集發布

“Giga”一詞源于“gigantic”,互聯網上具有海量音頻資源,但語音質量良莠不齊,高質量音頻文本對數據十分稀缺且標注成本高昂,特別是在小語種領域。GigaSpeech 是一個非常成功的英文開源數據集,以 YouTube 和 Podcast 為音頻來源,提供了上萬小時的高質量文本標注語音數據集,獲得了廣泛關注和應用。針對多語言領域仍存在的語音識別性能較差、可用高質量標注數據缺乏等問題,我們提出了利用 in-the-wild 無標注音頻,構建高質量大規模語音識別數據集的新范式,制作出面向真實場景的大規模、多領域、多語言的語音識別數據集 GigaSpeech 2。基于Gigaspeech 2 數據集訓練的語音識別模型在三個東南亞語種(泰語、印尼語、越南語)上達到了媲美商業語音識別服務的性能。我們懷揣著技術應當普惠大眾的理念,致力于開源高質量語音識別數據集和模型,促進多語言文化溝通。

1. 概述

上海交通大學跨媒體語言智能實驗室(X-LANCE)、SpeechColab、香港中文大學、清華大學語音與音頻技術實驗室(SATLab)、鵬城實驗室、海天瑞聲(Dataocean AI)、思必馳(AISpeech)、Birch AI、Seasalt AI 共同合作開發了 GigaSpeech 2。GigaSpeech 2 是一個持續擴展的、多領域多語言的大規模語音識別語料庫,旨在促進低資源語言語音識別領域的發展和研究。GigaSpeech 2 raw 擁有 30000 小時的自動轉錄音頻,涵蓋泰語、印尼語、越南語。經過多輪精煉和迭代,GigaSpeech 2 refined 擁有 10000 小時泰語、6000 小時印尼語、6000 小時越南語。我們也開源了基于 GigaSpeech 2 數據訓練的多語種語音識別模型,模型性能達到了商業語音識別服務水平。

2. 數據集構建

GigaSpeech 2 的制作流程也已同步開源,這是一個自動化構建大規模語音識別數據集的流程,面向互聯網上的海量無標注音頻,自動化地爬取數據、轉錄、對齊、精煉。這一流程包含利用 Whisper 進行初步轉錄,使用 TorchAudio 進行強制對齊,經過多維度過濾制作出 GigaSpeech 2 raw。隨后,采用改進的 Noisy Student Training (NST) 方法,通過反復迭代精煉偽標簽,持續提高標注質量,最終制作出 GigaSpeech 2 refined。

GigaSpeech 2 在主題上涵蓋了多樣化話題領域,包括農業、藝術、商業、氣候、文化、經濟、教育、娛樂、健康、歷史、文學、音樂、政治、兩性關系、購物、社會、體育、科技和旅行。同時,在內容形式上涵蓋了多種類型,包含聲書、解說、講座、獨白、電影電視劇、新聞、訪談、視頻博客。

3. 訓練集詳情

GigaSpeech 2 提供了兩個版本的數據集,分別為 raw 和 refined 版本,適用于有監督訓練任務。訓練集時長詳情如下表所示:

4. 開發集和測試集詳情

GigaSpeech 2 開發集和測試集由海天瑞聲的專業人員對語音數據人工標注得到,時長詳情如下表所示:

主題和內容分布詳情如下圖所示,外圈表示主題領域,內圈表示內容形式:

泰語

印尼語

越南語

5. 實驗結果

我們將使用 GigaSpeech 2 數據集訓練的語音識別模型與業界領先的 OpenAI Whisper (large-v3、large-v2、base)、Meta MMS L1107、Azure Speech CLI 1.37.0 和 Google USM Chirp v2 模型在泰語、印尼語和越南語上進行比較。性能評估基于 GigaSpeech 2、Common Voice 17.0 以及 FLEURS 三個測試集,通過字符錯誤率(CER)或單詞錯誤率(WER)指標進行評估。結果表明:

1)在泰語上,我們的模型展現出卓越的性能,全面超越了所有競爭對手,包括微軟和谷歌商用接口。值得一提的是,我們的模型在達到這一顯著成果的同時,參數量僅為 Whisper large-v3 的十分之一。

2)在印尼語和越南語上,我們的系統與現有的基線模型相比表現出具有競爭力的性能。

6. 排行榜

為了便于使用和跟蹤最新的技術發展,GigaSpeech 2 基于主流的語音識別框架提供了基線的訓練腳本,并開放了排行榜,目前提供的系統包括 Icefall 和 ESPNet,后續還將繼續更新與完善。

7. 資源鏈接

GigaSpeech 2 數據集已開放,歡迎大家下載:
https://huggingface.co/datasets/speechcolab/gigaspeech2

大規模語音識別數據集自動化構建流程發布于:
GitHub - SpeechColab/GigaSpeech2: An evolving, large-scale and multi-domain ASR corpus for low-resource languages with automated crawling, transcription and refinement

預印版論文發布于:

https://arxiv.org/pdf/2406.11546

8. 進一步合作

我們是一群試圖讓語音技術更易于使用的志愿者,歡迎各種形式的合作與貢獻。目前我們正在探索以下方向,如果您對某些方向感興趣,并且認為自己能夠提供幫助,請聯系 gigaspeech@speechcolab.org。

  • 不同預訓練模型的推理架構

  • 增加多樣化的數據來源

  • 對語音算法/服務進行基準測試

  • 構建和發布預訓練模型

  • 支持更多語言

  • 支持更多任務

  • 制作新數據集

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/38066.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/38066.shtml
英文地址,請注明出處:http://en.pswp.cn/web/38066.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

[數據庫原理]關系范式總結(自用)

如有錯誤,歡迎指正!!! 有一些題目我放在pdf里面了

解釋 Java 中的封裝、繼承和多態性,并舉例說明相關概念

在Java編程的世界里,封裝、繼承和多態是面向對象編程(OOP)的三大基石,它們支撐起整個Java程序設計的骨架,讓代碼更加靈活、可擴展和易于維護。 接下來,我會用一種輕松的方式,并通過一個貼近生活…

“核心期刊論文選題與寫作技巧分享”——郭順利

講師簡介: 郭順利博士,一位擁有管理學博士學位的副教授及碩士生導師,活躍在學術界,同時在多份CSSCI收錄期刊中擔任審稿專家。在近年的學術生涯中,他發表了超過50篇的核心期刊論文,并成功指導研究生在核心期…

充電寶買哪個牌子好?2024年十大口碑最好充電寶推薦

在如今快節奏的生活中,充電寶已然成為我們出行必備的物品之一。然而,面對市場上琳瑯滿目的充電寶品牌和型號,我們常常陷入選擇的困境:充電寶買哪個牌子好?2024 年,充電寶技術不斷革新,新品牌層出…

1、數據庫模型圖、er圖

關系 user和administarators是多對一的關系 user和order是一對多的關系 shipped和order是多對一的關系 order和books是多對多的關系 leavewords和order是一對一的關系 stock和books是一對多的關系 Chens 數據庫表示法——ER圖 Crows Foot數據庫表示法——數據庫模型圖 Navicat表…

python機器人編程——用pytorch實現六軸機械臂的正向和逆向數值解算,及python算法解析

目錄 一、前言二、實現原理2.1正向建模2.2張量化2.3繪制3D動畫及操作UI 三、結論四、python源碼PS.擴展閱讀ps1.六自由度機器人相關文章資源ps2.四軸機器相關文章資源ps3.移動小車相關文章資源 一、前言 前面對六軸(或多軸)機械臂進行了一些研究&#x…

hadoop分布式云筆記系統-計算機畢業設計源碼15725

摘 要 隨著信息技術的飛速發展,人們對于數據的存儲、管理和共享需求日益增長。傳統的集中式存儲系統在處理大規模數據時面臨著性能瓶頸和擴展性問題。而 Hadoop 作為一種分布式計算框架,為解決這些問題提供了有效的解決方案。 本研究旨在設計并實現一種…

c++裝飾器模式 和 多重繼承區別

在C中,裝飾器模式和多重繼承都可以用來在不修改現有對象結構的情況下增加額外的功能。但是,它們之間有一些關鍵的區別: 1.裝飾器模式通常用于向對象添加額外的職責,而不會影響其他用戶,它遵循“開放-封閉”原則。多重…

【數據結構與算法】堆排序算法原理與實現:基于堆實現的高效排序算法

💓 博客主頁:倔強的石頭的CSDN主頁 📝Gitee主頁:倔強的石頭的gitee主頁 ? 文章專欄:《數據結構與算法》 期待您的關注 ? 目錄 一、引言 堆排序的簡介 堆排序的特點 二、堆的概念 三、堆排序算法的原理 四、堆…

15kg級彈簧刀高速巡飛無人機技術詳解

彈簧刀高速巡飛無人機,作為一種先進的戰術導彈系統,融合了無人機與導彈的雙重特性,成為了現代戰爭中不可或缺的偵察與打擊利器。該無人機以其小巧的外形設計、優異的性能表現和廣泛的適用領域,受到了全球軍事領域的廣泛關注。彈簧…

【吊打面試官系列-MyBatis面試題】Mybatis 是如何進行分頁的?分頁插件的原理是什么?

大家好,我是鋒哥。今天分享關于 【Mybatis 是如何進行分頁的?分頁插件的原理是什么?】面試題,希望對大家有幫助; Mybatis 是如何進行分頁的?分頁插件的原理是什么? Mybatis 使用 RowBounds 對象…

怎么測試遠程服務器能否連通

遠程服務器連接測試的方法很多,下面簡單介紹下其中兩種方法。 ping命令 按WINR快截鍵,打開“運行”對話框,輸入cmd,回車,打開命令提示符。 輸入ping IP地址或ping 域名即可,如ping360服務器通不通&#xf…

32 lambda表達式

c11 c98例子 在c98中&#xff0c;如果想要對一個數據集合中的元素進行排序&#xff0c;可以適用std::sort方法 #include <algorithm>#include <functional>int main(){int array[] {4,1,8,5,3,7,0,9,2,6};// 默認按照小于比較&#xff0c;排出來結果是升序 std…

Django + Vue 實現圖片上傳功能的全流程配置與詳細操作指南

文章目錄 前言圖片上傳步驟1. urls 配置2. settings 配置3. models 配置4. 安裝Pillow 前言 在現代Web應用中&#xff0c;圖片上傳是一個常見且重要的功能。Django作為強大的Python Web框架&#xff0c;結合Vue.js這樣的現代前端框架&#xff0c;能夠高效地實現這一功能。本文將…

【Arduino】小飛魚通達二開實驗ESP32使用紅外尋跡傳感器 (圖文)

在智能小車項目中都會有一個功能就是自動巡線&#xff0c;今天小飛魚通達來實驗的就是這個紅外尋跡傳感器。 紅外尋跡傳感器的原理就是有一個小燈發出紅外光&#xff0c;光線照到物體后進行反射&#xff0c;有一個接收器進行接收&#xff0c;當在一定距離內會導通電路&#xf…

網安加·百家講壇 | 肖文棣:鑄盾護企——面對勒索病毒產業鏈的企業防護之道

作者簡介&#xff1a;肖文棣&#xff0c;OWASP中國廣東分會負責人、網安加社區特聘專家&#xff0c;現任某外企安全架構師&#xff0c;負責應用安全設計、管理和評審等工作。 引言 隨著信息技術的飛速發展&#xff0c;網絡安全問題愈發凸顯&#xff0c;企業面臨的網絡安全威脅…

HarmonyOS NEXT Beta 版開發者及先鋒用戶招募(第一期)報名答題題庫(持續更新中,僅供學習分享使用)

判斷題 All True. 單選題 關于容器組件Row和Column&#xff0c;下面說法錯誤的是&#xff1a; A A. justifyContent用于設置子組件在交叉軸方向上的對齊格式。 B. Row容器主軸為水平方向&#xff0c;Column容器主軸為垂直方向。 C. justifyContent用于設置子組件在主軸方向上的…

瞎談指令集和寄存器讀寫來驅動硬件

文章目錄 前言一、到底什么是指令集&#xff1f;二、為什么現代CPU需要指令集&#xff1f;三、開發完指令集究竟有什么缺點&#xff1f;四、寄存器讀寫怎么驗證&#xff1f;總結 前言 其實很早以前就想對這個話題展開來聊聊&#xff0c;但是對體系結構的理解也僅僅限于《量化體…

應急響應:應急響應流程,常見應急事件及處置思路

「作者簡介」&#xff1a;冬奧會網絡安全中國代表隊&#xff0c;CSDN Top100&#xff0c;就職奇安信多年&#xff0c;以實戰工作為基礎著作 《網絡安全自學教程》&#xff0c;適合基礎薄弱的同學系統化的學習網絡安全&#xff0c;用最短的時間掌握最核心的技術。 這一章節我們需…

交通氣象站:保障道路暢通的守護者

隨著現代社會的飛速發展&#xff0c;交通網絡日益密集&#xff0c;人們的出行越來越依賴于公路、鐵路和航空等交通方式。然而&#xff0c;多變的天氣條件常常給交通安全帶來隱患&#xff0c;如大霧、雨雪、強風等惡劣天氣不僅影響行車視線&#xff0c;還可能造成路面濕滑、結冰…