語音識別dolphin 學習筆記

目錄

Dolphin簡介

Dolphin 中共有 4 個模型,其中 2 個現在可用。

使用demo


Dolphin簡介

Dolphin 是由 Dataocean AI 和清華大學合作開發的多語言、多任務語音識別模型。它支持東亞、南亞、東南亞和中東的 40 種東方語言,同時支持 22 種漢語方言。該模型在超過 210,000 小時的數據上進行訓練,包括 DataoceanAI 的專有數據集和開源數據集。該模型可以執行語音識別、語音活動檢測(VAD)、分割和語言識別(LID)。

small版本與Whisper large v3相比,平均WER降低54.1%,模型大小只有Whisper large v3的約1/4 ?除了語音識別,還能進行語音活動檢測、音頻分割以及語言識別 ?目前開源了兩個基礎版本,一個base版,一個small版

方法
Dolphin 主要遵循 Whisper 和 OWSM 的創新設計方法。采用基于 E-Branchformer 的編碼器和基于標準 Transformer 的解碼器的聯合 CTC-Attention 架構。針對 ASR 的特定關注,引入了幾個關鍵修改。Dolphin 不支持翻譯任務,并消除了對先前文本及其相關標記的使用。

在 Dolphin 中,引入了二級語言標記系統,以更好地處理語言和區域多樣性,尤其是在 Dataocean AI 數據集中。第一個標記指定語言(例如,?<zh>?,?<ja>?),而第二個標記表示區域(例如,?<CN>?,?<JP>?)。詳細信息請參閱論文。

https://github.com/DataoceanAI/Dolphin/blob/main/languages.md

Dolphin 中共有 4 個模型,其中 2 個現在可用。

Model

Parameters??參數

Average WER??平均詞錯誤率

Publicly Available??公開可用

base??基礎

140 M

33.3

?

small??小型

372 M

25.2

?

medium??中等

910 M??910 兆

23.1

large??大型

1679 M

21.6

沒有開源微調 finetune

支持阿拉伯語,但是不支持

安裝:

pip?install -U dataoceanai-dolphin

使用demo

可以自動識別語言

import dolphinwaveform = dolphin.load_audio("audio.wav")
model = dolphin.load_model("small", "/data/models/dolphin", "cuda")
result = model(waveform)# Specify language
result = model(waveform, lang_sym="zh")# Specify language and region
result = model(waveform, lang_sym="zh", region_sym="CN")
print(result.text)

import dolphin
import os
# waveform = dolphin.load_audio("/nas/lbg/project/Whisper-Finetune/dataset/test_long.wav")waveform = dolphin.load_audio("/nas/ASR_DATA/cv-corpus-21.0-2025-03-14/ar/clips/common_voice_ar_24146339.mp3")os.makedirs("/nas/lbg/models/dolphin", exist_ok=True)
model = dolphin.load_model("base", "/nas/lbg/models/dolphin", "cuda")
result = model(waveform)# Specify language
# result = model(waveform, lang_sym="zh")# # Specify language and region
# result = model(waveform, lang_sym="zh", region_sym="CN")
# print(result.text)result = model(waveform)# Specify language and region
result = model(waveform)
print(result.text)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/91378.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/91378.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/91378.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

視頻生成中如何選擇GPU或NPU?

在視頻生成中選擇GPU還是NPU&#xff0c;核心是根據場景需求、技術約束和成本目標來匹配兩者的特性。以下是具體的決策框架和場景化建議&#xff1a; 核心決策依據&#xff1a;先明確你的“視頻生成需求” 選擇前需回答3個關鍵問題&#xff1a; 生成目標&#xff1a;視頻分辨率…

從豆瓣小組到深度洞察:一個基于Python的輿情分析爬蟲實踐

文章目錄 從豆瓣小組到深度洞察:一個基于Python的輿情分析爬蟲實踐 摘要 1. 背景 2. 需求分析 3. 技術選型與實現 3.1 總體架構 3.2 核心代碼解析 4. 難點分析與解決方案 5. 總結與展望 對爬蟲、逆向感興趣的同學可以查看文章,一對一小班教學:https://blog.csdn.net/weixin_…

RustDesk 使用教程

說明&#xff1a; 使用RustDesk 需要在不同的電腦安裝對應系統型號的客戶端&#xff0c;然后再去云服務器安裝一個服務端即可。 1、到網站下載客戶端&#xff1a;https://rustdesk.com/zh-cn/ 兩臺電腦安裝客戶端。 2、在云服務器安裝服務端 1&#xff09;官網教程&#xff1a;…

【C語言網絡編程基礎】TCP 服務器詳解

在網絡通信中&#xff0c;TCP&#xff08;Transmission Control Protocol&#xff0c;傳輸控制協議&#xff09;是一種可靠、面向連接的協議。一個 TCP 服務器正是基于這種協議&#xff0c;為客戶端提供穩定的網絡服務。本文將詳細介紹 TCP 服務器的基本原理和工作流程。 一、什…

一篇就夠!Windows上Docker Desktop安裝 + 漢化完整指南(包含解決wsl更新失敗方案)

前言 在現代軟件開發和人工智能應用中&#xff0c;環境的穩定性和可移植性至關重要。Docker 作為一種輕量級的容器化技術&#xff0c;為開發者提供一致的運行環境&#xff0c;使得軟件可以在不同平臺上無縫運行&#xff0c;極大地提升了開發和部署的效率。無論是本地開發、測試…

設計模式(二十四)行為型:訪問者模式詳解

設計模式&#xff08;二十四&#xff09;行為型&#xff1a;訪問者模式詳解訪問者模式&#xff08;Visitor Pattern&#xff09;是 GoF 23 種設計模式中最具爭議性但也最強大的行為型模式之一&#xff0c;其核心價值在于將作用于某種數據結構中的各元素的操作分離出來&#xff…

USRP X440 和USRP X410 直接RF采樣架構的優勢

USRP X440 和USRP X410 直接RF采樣架構的優勢概述什么是直接RF采樣&#xff1f;如何實現直接采樣&#xff1f;什么情況下應考慮使用直接RF采樣架構&#xff1f;概述 轉換器技術每年都在發展。主要半導體公司的模數轉換器(ADC)和數模轉換器(DAC)的采樣速率比十年前的產品快了好…

P4568 [JLOI2011] 飛行路線

P4568 [JLOI2011] 飛行路線 題目描述 Alice 和 Bob 現在要乘飛機旅行&#xff0c;他們選擇了一家相對便宜的航空公司。該航空公司一共在 nnn 個城市設有業務&#xff0c;設這些城市分別標記為 000 到 n?1n-1n?1&#xff0c;一共有 mmm 種航線&#xff0c;每種航線連接兩個城市…

MySQL 中的聚簇索引和非聚簇索引的區別

MySQL 中的聚簇索引和非聚簇索引的區別 總結性回答 聚簇索引和非聚簇索引的主要區別在于索引的組織方式和數據存儲位置。聚簇索引決定了表中數據的物理存儲順序&#xff0c;一個表只能有一個聚簇索引&#xff1b;而非聚簇索引是獨立于數據存儲的額外結構&#xff0c;一個表可以…

全局異常處理,可以捕捉到過濾器中的異常嗎?

全局異常處理,可以捕捉到過濾器中的異常嗎? 全局異常處理器(如Spring的@ControllerAdvice+@ExceptionHandler)默認無法直接捕獲過濾器(Filter)中拋出的異常,這是由過濾器和Spring MVC的執行順序及職責邊界決定的。具體原因和解決方案如下: 一、為什么全局異常處理器默…

市政道路積水監測系統:守護城市雨天出行安全的 “智慧防線”

市政道路積水監測系統&#xff1a;守護城市雨天出行安全的 “智慧防線”柏峰【BF-DMJS】每逢汛期&#xff0c;強降雨引發的城市道路積水問題&#xff0c;不僅會造成交通擁堵&#xff0c;更可能危及行人和車輛安全&#xff0c;成為困擾城市管理的一大難題。傳統的積水監測主要依…

搭建HAProxy高可用負載均衡系統

一、HAProxy簡介Haproxy 是一個使用C語言編寫的自由及開放源代碼軟件&#xff0c;其提供高可用性、負載均衡&#xff0c;以及基于TCP和HTTP的應用程序代理。haproxy優點 1. Haproxy支持兩種代理模式 TCP&#xff08;四層&#xff09;和HTTP&#xff08;七層&#xff09;&#x…

GO語言 go get 下載 下來的包存放在哪里

在 Go 中&#xff0c;通過 go get&#xff08;或 Go Modules 下的自動下載&#xff09;獲取的第三方包&#xff0c;具體存儲位置取決于你是否啟用了 Go Modules&#xff08;推薦方式&#xff09;。? 1. 如果你使用了 Go Modules&#xff08;Go 1.11 默認開啟&#xff09;當前 …

PostgreSQL 14.4 ARM64 架構源碼編譯安裝指南

PostgreSQL 14.4 ARM64 架構源碼編譯安裝指南文章目錄PostgreSQL 14.4 ARM64 架構源碼編譯安裝指南說明環境要求操作系統1. 系統環境準備1.1 更新系統包1.2 創建 PostgreSQL 用戶2. 解壓 PostgreSQL 14.4 源碼包3. 配置編譯選項4. 編譯源代碼5. 安裝 PostgreSQL6. 初始化數據庫…

【科普】在STM32中有哪些定時器?

在 STM32 單片機中&#xff0c;定時器種類豐富&#xff0c;不同系列&#xff08;如 F1、F4、H7 等&#xff09;略有差異&#xff0c;以下是常見的定時器類型及核心特點&#xff1a;1. 基本定時器&#xff08;TIM6、TIM7&#xff09;功能&#xff1a;僅具備定時計數功能&#xf…

git使用秘訣(詳解0到1)

前言&#xff1a; 不知道大家有沒有使用git提交代碼或者拉取代碼的經歷&#xff0c;自從上一家公司實習結束以后&#xff0c;對git的使用歷歷在目&#xff0c;從一開始的add、commit到后來的pull都有著許多的疑惑。 自從有一次merge代碼以后&#xff0c;被師兄批了一頓以后(不小…

RHEL 9.5 離線安裝 Ansible 完整教程

文章目錄RHEL 9.5 離線安裝 Ansible 完整教程環境準備系統要求準備工作清單方法一&#xff1a;使用 RPM 包離線安裝步驟 1&#xff1a;在聯網機器上下載必要的 RPM 包步驟 2&#xff1a;創建本地倉庫元數據步驟 3&#xff1a;在離線服務器上安裝方法二&#xff1a;使用 Python …

44、鴻蒙HarmonyOS Next開發:視頻播放 (Video)組件和進度條 (Progress)組件的使用

目錄 視頻播放 (Video) 創建視頻組件 加載視頻資源 加載本地視頻 加載沙箱路徑視頻 加載網絡視頻 添加屬性 事件調用 Video控制器使用 其他說明 示例代碼 進度條 (Progress) 創建進度條 設置進度條樣式 場景示例 視頻播放 (Video) Video組件用于播放視頻文件并…

6、微服務架構常用十種設計模式

目錄 1、微服務架構 2、微服務架構的優點 3、微服務架構的缺點 4、何時使用微服務架構 5、微服務架構常用十種設計模式 ① 獨享數據庫&#xff08;Database per Microservice&#xff09; ② 事件源&#xff08;Event Sourcing&#xff09; ③ 命令和查詢職責分離&…

Docker 初學者需要了解的幾個知識點 (六):docker-compose.yml (ThinkPHP)

下面這個文 docker-compose.yml 文件定義了一個包含 PHP、Nginx、MySQL、Redis 的完整 ThinkPHP 開發環境&#xff0c;各配置項的含義如下&#xff1a;version: 3.8services:# PHP-FPM 服務php-fpm:image: php:8.1-fpmvolumes:- ./tp-demo:/var/www/html- ./php.ini:/usr/local…