基于深度學習的端到端語音識別時代

隨著深度學習的發展,語音識別由DNN-HMM時代發展到基于深度學習的“端到端”時代,這個時代的主要特征是代價函數發生了變化,但基本的模型結構并沒有太大變化。總體來說,端到端技術解決了輸入序列長度遠大于輸出序列長度的問題。

采用CTC作為損失函數的聲學模型序列不需要預先將數據對齊,只需要一個輸入序列和一個輸出序列就可以進行訓練。CTC關心的是預測輸出的序列是否和真實的序列相近,而不關心預測輸出的序列中每個結果在時間點上是否和輸入的序列正好對齊。CTC建模單元是音素或者字,因此它引入了Blank。對于一段語音,CTC最后輸出的是尖峰的序列,尖峰的位置對應建模單元的Label,其他位置都是Blank。

Sequence-to-Sequence方法原來主要應用于機器翻譯領域。2017年,Google將其應用于語音識別領域,取得了非常好的效果,將詞錯誤率降低至5.6%。如圖1-4所示,Google提出的新系統框架由三部分組成:Encoder編碼器組件,它和標準的聲學模型相似,輸入的是語音信號的時頻特征;經過一系列神經網絡,映射成高級特征henc,然后傳遞給Attention組件,其使用henc特征學習輸入x和預測子單元之間的對齊方式,子單元可以是一個音素或一個字;最后,Attention模塊的輸出傳遞給Decoder,生成一系列假設詞的概率分布,類似于傳統的語言模型。

而隨著Whisper語音轉換模型的推出開啟了可以用于實際任務的端到端(Task End-to-End)的時代。Whisper是一種自動語音識別(Automatic Speech Recognition,ASR)系統,旨在將語音轉換為文本。作為一款多任務模型,它不僅可以執行多語言語音識別,還可以執行語音翻譯和語言識別等任務。Whisper采用了Transformer架構的編碼器-解碼器模型,使其在各種語音處理任務中表現出色。Whisper模型架構如圖1-5所示。

Whisper的核心技術在于其端到端的架構。輸入的語音首先被分成30秒的模塊,然后轉換為log-Mel頻譜圖,再通過編碼器計算注意力,最后將數據傳遞給解碼器。解碼器被訓練用來預測相應的文本,并添加特殊標記,用于執行諸如語言識別、多語言語音轉錄和英語語音翻譯等任務。Whisper還在Transformer模型中使用了多任務訓練格式,利用一組特殊的令牌作為任務說明符或分類目標。Whisper的優點在于其強大的語音識別能力,能夠處理各種口音、背景噪聲和技術語言。

隨著端到端技術的突破,深度學習模型不再需要對音素內部狀態的變化進行描述,而是將語音識別的所有模塊統一成神經網絡模型,使語音識別朝著更簡單、更高效、更準確的方向發展。

本文節選自《PyTorch語音識別實戰》,獲出版社和作者授權發布。

《PyTorch語音識別實戰(人工智能技術叢書)》(王曉華)【摘要 書評 試讀】- 京東圖書 (jd.com)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/19679.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/19679.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/19679.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Visual Studio中調試信息格式參數:/Z7、/Zi、/ZI參數

一般的調試信息都保存在pdb文件中。 Z7參數表示這些調試信息保存到OBJ目標文件中,這樣的好處是不需要單獨分發PDB文件給下游。Zi就是把所有的調試信息都保存在pdb文件中,以縮小發布文件的大小。ZI和Zi類似,但是增加了熱重載的能力&#xff1…

Django admin后臺創建密文密碼

Django admin后臺創建密文密碼 如題現在有一張用戶表User # user/models.py from django.db import models from django.contrib.auth.models import AbstractUserclass User(AbstractUser):SEX_CHOICES [(0, 男),(1, 女),]sex models.IntegerField(choicesSEX_CHOICES, de…

數據結構:詳解二叉樹(樹,二叉樹順序結構,堆的實現與應用,二叉樹鏈式結構,鏈式二叉樹的4種遍歷方式)

目錄 1.樹的概念和結構 1.1樹的概念 1.2樹的相關概念 1.3樹的代碼表示 2.二叉樹的概念及結構 2.1二叉樹的概念 2.2特殊的二叉樹 2.3二叉樹的存儲結構 2.3.1順序存儲 2.3.2鏈式存儲 3.二叉樹的順序結構和實現 3.1二叉樹的順序結構 3.2堆的概念和結構 3.3堆的特點 3…

k-means聚類算法

在Python中,可以使用scikit-learn庫來實現k-means聚類算法。scikit-learn是一個強大的機器學習庫,提供了許多算法的實現,包括k-means聚類。 以下是使用scikit-learn實現k-means聚類的基本步驟: 安裝scikit-learn: 如果…

一文掌握JavaScript 中類的用法

文章導讀:AI 輔助學習前端,包含入門、進階、高級部分前端系列內容,當前是 JavaScript 的部分,瑤琴會持續更新,適合零基礎的朋友,已有前端工作經驗的可以不看,也可以當作基礎知識回顧。 這篇文章…

SQL常用語句--模糊查詢LIKE

like模糊查詢,支持%和下劃線匹配,%匹配多個字符,_下劃線:任意一個字符,示例: 1)查詢名字中含有張的學生信息 select * from student where sname like ‘%張%’; 2)查…

MySQL統計字符長度:CHAR_LENGTH(str)

對于SQL表,用于計算字符串中字符數的最佳函數是 CHAR_LENGTH(str),它返回字符串 str 的長度。 另一個常用的函數 LENGTH(str) 在這個問題中也適用,因為列 content 只包含英文字符,沒有特殊字符。否則,LENGTH() 可能會返…

django使用fetch上傳文件

在上一篇文章中,我包裝了fetch方法,使其攜帶cookie。但是之前fetch傳遞的是json數據,現在有了一個上傳文件的需求,因此需要進行修改: const sendRequest (url, method, data) > {const csrftoken Cookies.get(cs…

discuz如何添加主導航

大家好,今天教大家怎么樣給discuz添加主導航。方法其實很簡單,大家跟著我操作既可。一個網站的導航欄是非常重要的,一般用戶進入網站的第一印象就是看網站的導航欄。如果大家想看效果的話可以搜索下網創有方,或者直接點擊查看效果…

精選免費在線工具與資源推薦20240531

精選免費在線工具與資源推薦 引言 在互聯網高速發展的今天,我們身處一個信息爆炸的時代。為了更好地應對工作和學習中的挑戰,我們時常需要借助各種工具和資源來提高效率。幸運的是,網絡上存在著大量免費且高效的在線工具和資源,…

Google VertexAI API 接入

import vertexai import os #此步非常重要,否則無法訪問,去GCP創建服務賬號密鑰。 os.environ["GOOGLE_APPLICATION_CREDENTIALS"] "服務賬號json格式key" from vertexai.generative_models import GenerativeModel, Part # TO…

嵌入式學習——4——c++ 結構體+類

1、數據類型 基本數據類型:char、int 、float、 double、string、bool 構造數據類型:數組、指針、結構體、共用體、枚舉、類 2、引用 引用就是 別名 數據類型 &引用名 同類型的變量名 (&引用符號) int a 10;int &…

標準發布 | 反滲透和納濾水處理膜修復再利用技術要求

本文件由浙江大學、中華環保聯合會水環境治理專業委員會提出。 本文件由中華環保聯合會歸口。 本文件主編單位:浙江大學、河南一膜環保技術有限公司、安徽精高水處理有限公司、國能龍源環保有限公司、湖南沁森高科新材料有限公司。 本文件參編單位:深…

rtl8723DU移植 android4.4 4418

一、 linux 的移植。 首先編譯一遍確保沒有問題。 將驅動拷貝到 driver/net/wireless 目錄下。 使用的是: 改寫 makefile Kconfig 去改寫 8723 的makefile 設置menuconfig 使能固有的 庫。 使能USB部分 ieee 部分 編譯一遍 有報錯。 解決: …

MATLAB R2024a下載安裝

目錄 前言 下載安裝教程 資源 前言 一個很好的資源,我自己是一遍過了,非常順利,不說廢話,直接上菜。 下載安裝教程 MATLAB R2024a下載及安裝演示_嗶哩嗶哩_bilibili 資源 MATLAB R2024a網盤資源

Java對sqlserver表的image字段圖片讀取和輸出本地

Java代碼實現對sqlserver數據庫表的image字段圖片的讀取,和輸出存儲到本地 由于表image字段圖片存的內容是二進制值,如何輸出保存到本地: 代碼示例:(注:連接sqlserver數據庫需配置其驅動文件) …

Linux【工具 03】Telnet服務安裝使用(安全性較差 非特殊情況盡量不要使用)

Telnet服務安裝使用 1.說明2.安裝 1.說明 現在大多數服務器的遠程連接基本都是走的SSH協議,也就是常用的22端口【默認端口可以自行調整】。在升級OpenSSH的過程中要卸載老版本,安裝新版本,也就意味著升級過程中如果出現了問題,且…

Spring MVC 應?分層

什么是應用分層 引用分層是一種軟件開發思想 將應用程序分為N個層次每個層次負責各個職責 其中MVC是常見的設計模式這就是應用分層的具體體現 目前主流的開發方式是前后段分離后端開發工程師不再需要關注前端的實現,對此就需要分為表現層,數據層,業務邏…

FPGA DMA IP核使用指南

摘要 本文旨在介紹FPGA中DMA(Direct Memory Access)IP核的使用,包括其基本框架、測試代碼編寫以及仿真波形的分析。DMA是一種允許外圍設備直接與內存進行數據交換的技術,無需CPU的介入,從而提高了數據傳輸的效率。 1. 引言 在現代FPGA設計中,DMA IP核因其…

Day15—圖像爬蟲與簡單處理

圖像爬蟲是一種專門用于從互聯網上下載圖像的網絡爬蟲。除了文本內容,圖像也是網站中的重要組成部分,它們可以用于多種目的,如圖像識別、內容分析、數據備份等。 環境準備 首先,確保你的環境中已安裝Python和必要的庫。如果沒有安裝Pillow庫,可以通過以下命令安裝:pip in…