訓練與解碼

訓練與解碼

news/2025/7/16 2:21:41/文章來源:https://blog.csdn.net/weixin_30954265/article/details/96851054

BW算法是對某一個HMM(一個音素)進行訓練，需要該HMM對應的觀察向量(一段音頻)，如何讓一段文本中的某個音素找到對應一整段音頻中的一小段音頻？需要用到對齊來找到所有的[音素-音頻]的配對。

? ?

訓練時也需要解碼

1，設訓練的一句話有n個音素，即n個HMM，即3n個狀態。將這句話對應的音頻平均地切分為n個片段(無環回的HMM)，每個片段有3個狀態(無環回，否則一個HMM大于三個狀態)

2，使用k-means算法，將每個狀態對應的所有特征向量聚類為M個簇(這句話有3nM個簇)

3，為狀態i中的每個簇計算均值、協方差矩陣和混合權重(即計算一個GMM，這句話有3nM個GMM)

4，用3中計算好的所有GMMs(3nM個)將這一段音頻解碼(維特比解碼)為多個狀態，多個HMM

5，重復上述2-4步直至收斂

? ?

hmm_chinese.pdf p59

在訓練時用的是Viterbi算法，在識別時則用狀態Viterbi算法處理狀態級數據，用詞匯Viterbi算法處理詞匯級數據

? ?

識別過程

不考慮句法時，識別過程很類似連接詞識別中的一次通過算法

將詞匯表中所有詞對應的所有音素的所有狀態排成一排，讀入一個待識別句子的語音數據，由維特比算法可得到一個最佳狀態序列。得到狀態序列后，可通過類似編譯原理中的文法來得到對應的HMM序列。

? ?

聲學模型(HMMs)表示的是各詞內狀態之間的轉移

語言模型(n-gram)表示的是詞之間的轉移概率關系

? ?

解碼時需要用到狀態Viterbi算法和詞匯Viterbi算法

? ?

一句話的識別過程需要在狀態層與詞匯層之前不斷切換，狀態層:為當前狀態選擇概率最大的幾個下一狀態，直至詞的最后狀態處；詞匯層:為當前詞選擇概率最大的幾個下一詞。這樣直至這句話的結尾，就得到了多條路徑，每條路徑包含兩個信息:累積概率和回溯路徑，選擇多條路徑中累積概率最大的那條路徑，使用其回溯路徑進行回溯，就得到了該句子的識別結果。

轉載于:https://www.cnblogs.com/JarvanWang/p/7499575.html

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/253443.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/253443.shtml
英文地址，請注明出處：http://en.pswp.cn/news/253443.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

Atlassian發布事故管理解決方案Jira Ops

Atlassian發布事故管理解決方案Jira Ops

Atlassian聯合首席執行官兼聯合創始人Scott Farquhar于9月4日宣布，Atlassian推出了一款名為Jira Ops的新產品，并且他們將收購OpsGenie。\\正如“Jira Ops \u0026amp; OpsGenie: powerful incident management”所描述的那樣，Jira Ops是一款新…

閱讀更多...

U-Boot如何向內核傳遞Flash的分區信息

U-Boot如何向內核傳遞Flash的分區信息

1.如何對nand 分區。修改mtdparts環境變量就可以了么？ 對于目前的U-boot而言,是的.而且, 設置了mtdparts變量之后,你可以在nand read/write/erase命令中直接使用分區的名字而不必指定分區的偏移位置. set bootargs noinitrd consolettySAC0 root/dev/mtdblock3 ro…

閱讀更多...

Python爬蟲學習系列教程

Python爬蟲學習系列教程

大家好哈，我呢最近在學習Python爬蟲，感覺非常有意思，真的讓生活可以方便很多。學習過程中我把一些學習的筆記總結下來，還記錄了一些自己實際寫的一些小爬蟲，在這里跟大家一同分享，希望對Python爬蟲感興趣的…

閱讀更多...

ICer 常用網站推薦

ICer 常用網站推薦

總結一下我經常用到的IC網站，主要是數字IC，大致分資源類和資訊類吧： 一、資訊類 CSDN：目前關于IC的文章也越來越多啊。。https://www.csdn.net/ 知乎：目前來說應該是活躍大佬比較多。。https://www.zhihu.com/ DVCO…

閱讀更多...

C++成員訪問限定符 private public

C++成員訪問限定符 private public

private和public稱為成員訪問限定符。用它們來聲明個成員的被訪問權限。 ? ?private?稱為私有的，只能在本類中的成員函數引用，類外不能調用。 ? ?public ?稱為共有的，既可以被本類中的成員函數所引用，也可以被本類中的成員…

閱讀更多...

內核kernel以及根文件系統rootfs是如何映射到對應的nand flash的

內核kernel以及根文件系統rootfs是如何映射到對應的nand flash的

原文初始化代碼讀取uboot到內存里面，然后跳轉到uboot那里去執行uboot，uboot初始化必要的硬件，加載一些驅動，其中包括nand flash的驅動，然后根據uboot里面設置的一個啟動命令TAG: NAND rootfs Flash 【系統啟動過程…

閱讀更多...

CMOS 圖像傳感器——Color Filter Array

CMOS 圖像傳感器——Color Filter Array

在介紹CMOS圖像傳感器的工作原理時候說道，像點（Sensor感光的基本單元叫做“像點”）吸收入射光后會有一定概率激發出電子，這個過程叫做光電轉換。光子激發出電子會被像點下方的電場捕獲并存儲起來備用。像點的作用可以類比成一個盛水的小桶，它可以在一定范圍內記錄其捕獲的…

閱讀更多...

我的一點企業做云經驗

我的一點企業做云經驗

最近，經常有朋友問我在企業做云的經驗，也有人問我OpenStack二次開發項目經驗。正好這方面也有點經歷，那現在就把我過往有關經歷整理整理，總結出幾條心得體會，分享給大家。技術：我們OpenStack二次開發做了什…

閱讀更多...

CMOS圖像傳感器——黑電平校正

CMOS圖像傳感器——黑電平校正

黑電平（black level ），也稱作Optical Black，很多人也稱呼為OB，指的是光學暗區，即黑色數據的最低電平值，指在經過一定校準的顯示裝置上，沒有一行光亮輸出的視頻信號電平，通常指圖像數據為0時對應的sensor信號電平值。在CMOS圖像傳感器對圖像進行處理的過程中，黑電平是…

閱讀更多...

C#利用WebClient 兩種方式下載文件（一）

C#利用WebClient 兩種方式下載文件（一）

WebClient client new WebClient(); 第一種 string URLAddress "http://files.cnblogs.com/x4646/tree.zip"; string receivePath"C:\"; client.DownloadFile(URLAddress, receivePath System.IO.Path.GetFileName(URLAddress)); 就OK了。第二種 Strea…

閱讀更多...

文件的行操作

文件的行操作

1.1 第8題輸出test.txt文件內容時，不包含clsn字符串的命令文件內容： [rootznix ~]# cat /data/test.txt test liyao clsn 1.1.1 方法一grep 使用grep命令，找什么就寫什么 -v 參數是排除的意思 [rootznix ~]# grep -v "clsn" /dat…

閱讀更多...

linux多線程編程5--信號量(semaphore)

linux多線程編程5--信號量(semaphore)

信號量本質上是一個非負的整數計數器，也是UNIX中古老的實現進程互斥和同步的手段，Linux下信號量概念是在線程中，信號則在進程控制中，不過原理差不多，最基本最經典的操作莫過于P、V操作了，能實現進程、線程的…

閱讀更多...

【leetcode】910. Smallest Range II

【leetcode】910. Smallest Range II

題目如下： 解題思路：我的思路是先找出最大值。對于數組中任意一個元素A[i]來說，如果A[i] K 是B中的最大值，那么意味著從A[i1]開始的元素都要減去K，即如果有A[i] K > A[-1] - K，那么A[i] K 就可以作為…

閱讀更多...

CMOS圖像傳感器架構的演變

CMOS圖像傳感器架構的演變

01、引言圖像傳感器目前用于多種應用。自 1969 年電荷耦合器件 (CCD) 發明以來，固態圖像傳感器已蔓延到各種消費市場，例如小型攝像機和數碼相機。自 2005年以來已成為主流固態圖像傳感器的 CMOS 圖像傳感器在為 CCD 開發的技術的基礎上不斷發展。除了…

閱讀更多...

Linux系統中/dev/mtd與/dev/mtdblock的區別

Linux系統中/dev/mtd與/dev/mtdblock的區別

MTD(memory technology device內存技術設備)是用于訪問memory設備（ROM、flash）的Linux的子系統。MTD的主要目的是為了使新的memory設備的驅動更加簡單，為此它在硬件和上層之間提供了一個抽象的接口。MTD的所有源代碼在/drivers/mtd子目錄下。…

閱讀更多...

Python判斷變量的數據類型的兩種方法

Python判斷變量的數據類型的兩種方法

2019獨角獸企業重金招聘Python工程師標準>>> 1、isinstance(變量名，類型) def varargsql(self, sql, *args):if isinstance(args, tuple):self.cursor.execute(sql, args)self.conn.commit() 2、通過與其他已知類型的常量進行對比（type()&…

閱讀更多...

svn圖標的含義

svn圖標的含義

http://www.cnblogs.com/genhaosan/articles/5129791.html 轉載于:https://www.cnblogs.com/wangc04/p/6400477.html

閱讀更多...

基于事件的視覺傳感器

基于事件的視覺傳感器

在之前的文章里人工智能與圖像傳感器_滄海一升的博客-CSDN博客_人工智能和傳感器的關系第一類是圖像傳感器與人工智能計算相結合，即圖像傳感器模組除了可以輸出圖像之外，還可以直接輸出人工智能算法計算的結果。另一類智能圖像傳感器則是為人工智能應用專門設計的圖像傳感器…

閱讀更多...

RocketMQ多Master多Slave模式部署

RocketMQ多Master多Slave模式部署

每個 Master 配置一個 Slave，有多對Master-Slave，HA采用同步雙寫方式，主備都寫成功，向應用返回成功。優點：數據與服務都無單點，Master宕機情況下，消息無延遲，服務可用性與數據可用性…

閱讀更多...

FPGA的ip核之概念和分類

FPGA的ip核之概念和分類

ip核之概念和分類 IP（Intellectual Property）內核模塊是一種預先設計好的甚至已經過驗證的具有某種確定功能的集成電路、器件或部件。它有幾種不同形式。IP內核模塊有行為（behavior）、結構（structure）和物理…

閱讀更多...

最新文章