AI語音識別的技術解析

動態時間規整（DTW）

語音識別中，由于語音信號的隨機性，即使同一個人發的同一個音，只要說話環境和情緒不同，時間長度也不盡相同，因此時間規整是必不可少的。DTW是一種將時間規整與距離測度有機結合的非線性規整技術，在語音識別時，需要把測試模板與參考模板進行實際比對和非線性伸縮，并依照某種距離測度選取距離最小的模板作為識別結果輸出。動態時間規整技術的引入，將測試語音映射到標準語音時間軸上，使長短不等的兩個信號最后通過時間軸彎折達到一樣的時間長度，進而使得匹配差別最小，結合距離測度，得到測試語音與標準語音之間的距離。

支持向量機（SVM）

支持向量機是建立在VC維理論和結構風險最小理論基礎上的分類方法，它是根據有限樣本信息在模型復雜度與學習能力之間尋求最佳折中。從理論上說，SVM就是一個簡單的尋優過程，它解決了神經網絡算法中局部極值的問題，得到的是全局最優解。SVM已經成功地應用到語音識別中，并表現出良好的識別性能。

矢量量化（VQ）

矢量量化是一種廣泛應用于語音和圖像壓縮編碼等領域的重要信號壓縮技術，思想來自香農的率-失真理論。其基本原理是把每幀特征矢量參數在多維空間中進行整體量化，在信息量損失較小的情況下對數據進行壓縮。因此，它不僅可以減小數據存儲，而且還能提高系統運行速度，保證語音編碼質量和壓縮效率，一般應用于小詞匯量的孤立詞語音識別系統。

隱馬爾科夫模型（HMM）

隱馬爾科夫模型是一種統計模型，目前多應用于語音信號處理領域。在該模型中，馬爾科夫(Markov)鏈中的一個狀態是否轉移到另一個狀態取決于狀態轉移概率，而某一狀態產生的觀察值取決于狀態生成概率。在進行語音識別時，HMM首先為每個識別單元建立發聲模型，通過長時間訓練得到狀態轉移概率矩陣和輸出概率矩陣，在識別時根據狀態轉移過程中的最大概率進行判決。

高斯混合模型（GMM）

高斯混合模型是單一高斯概率密度函數的延伸，GMM能夠平滑地近似任意形狀的密度分布。高斯混合模型種類有單高斯模型（Single Gaussian Model, SGM）和高斯混合模型（Gaussian Mixture Model, GMM）兩類。類似于聚類，根據高斯概率密度函數（Probability Density Function, PDF）參數不同，每一個高斯模型可以看作一種類別，輸入一個樣本x，即可通過PDF計算其值，然后通過一個閾值來判斷該樣本是否屬于高斯模型。很明顯，SGM適合于僅有兩類別問題的劃分，而GMM由于具有多個模型，劃分更為精細，適用于多類別的劃分，可以應用于復雜對象建模。目前在語音識別領域，GMM需要和HMM一起構建完整的語音識別系統。

人工神經網絡（ANN/BP）

人工神經網絡由20世紀80年代末提出，其本質是一個基于生物神經系統的自適應非線性動力學系統，它旨在充分模擬神經系統執行任務的方式。如同人的大腦一樣，神經網絡是由相互聯系、相互影響各自行為的神經元構成，這些神經元也稱為節點或處理單元。神經網絡通過大量節點來模仿人類神經元活動，并將所有節點連接成信息處理系統，以此來反映人腦功能的基本特性。盡管ANN模擬和抽象人腦功能很精準，但它畢竟是人工神經網絡，只是一種模擬生物感知特性的分布式并行處理模型。ANN的獨特優點及其強大的分類能力和輸入輸出映射能力促成在許多領域被廣泛應用，特別是在語音識別、圖像處理、指紋識別、計算機智能控制及專家系統等領域。但從當前語音識別系統來看，由于ANN對語音信號的時間動態特性描述不夠充分，大部分采用ANN與傳統識別算法相結合的系統。

深度神經網絡/深信度網絡-隱馬爾科夫（DNN/DBN-HMM）

當前諸如ANN、BP等多數分類的學習方法都是淺層結構算法，與深層算法相比存在局限。尤其當樣本數據有限時，它們表征復雜函數的能力明顯不足。深度學習可通過學習深層非線性網絡結構，實現復雜函數逼近，表征輸入數據分布式，并展現出從少數樣本集中學習本質特征的強大能力。在深度結構非凸目標代價函數中普遍存在的局部最小是訓練效果不理想的主要根源。為了解決以上問題，提出基于深度神經網絡(DNN) 的非監督貪心逐層訓練算法，它利用空間相對關系減少參數數目以提高神經網絡的訓練性能。相比傳統的基于GMM-HMM的語音識別系統，其最大的改變是采用深度神經網絡替換GMM模型對語音的觀察概率進行建模。最初主流的深度神經網絡是最簡單的前饋型深度神經網絡（Feedforward Deep Neural Network，FDNN）。DNN相比GMM的優勢在于：1. 使用DNN估計HMM的狀態的后驗概率分布不需要對語音數據分布進行假設；2. DNN的輸入特征可以是多種特征的融合，包括離散或者連續的；3. DNN可以利用相鄰的語音幀所包含的結構信息。基于DNN-HMM識別系統的模型如圖2所示。

循環神經網絡（RNN）

語音識別需要對波形進行加窗、分幀、提取特征等預處理。訓練GMM時候，輸入特征一般只能是單幀的信號，而對于DNN可以采用拼接幀作為輸入，這些是DNN相比GMM可以獲得很大性能提升的關鍵因素。然而，語音是一種各幀之間具有很強相關性的復雜時變信號，這種相關性主要體現在說話時的協同發音現象上，往往前后好幾個字對我們正要說的字都有影響，也就是語音的各幀之間具有長時相關性。采用拼接幀的方式可以學到一定程度的上下文信息。但是由于DNN輸入的窗長是固定的，學習到的是固定輸入到輸入的映射關系，從而導致DNN對于時序信息的長時相關性的建模是較弱的。

考慮到語音信號的長時相關性，一個自然而然的想法是選用具有更強長時建模能力的神經網絡模型。于是，循環神經網絡（Recurrent Neural Network，RNN）近年來逐漸替代傳統的DNN成為主流的語音識別建模方案。如圖3，相比前饋型神經網絡DNN，循環神經網絡在隱層上增加了一個反饋連接，也就是說，RNN隱層當前時刻的輸入有一部分是前一時刻的隱層輸出，這使得RNN可以通過循環反饋連接看到前面所有時刻的信息，這賦予了RNN記憶功能。這些特點使得RNN非常適合用于對時序信號的建模。

長短時記憶模塊（LSTM）

長短時記憶模塊 (Long-Short Term Memory，LSTM) 的引入解決了傳統簡單RNN梯度消失等問題，使得RNN框架可以在語音識別領域實用化并獲得了超越DNN的效果，目前已經使用在業界一些比較先進的語音系統中。除此之外，研究人員還在RNN的基礎上做了進一步改進工作，如圖4是當前語音識別中的主流RNN聲學模型框架，主要包含兩部分：深層雙向RNN和序列短時分類（Connectionist Temporal Classification，CTC）輸出層。其中雙向RNN對當前語音幀進行判斷時，不僅可以利用歷史的語音信息，還可以利用未來的語音信息，從而進行更加準確的決策；CTC使得訓練過程無需幀級別的標注，實現有效的“端對端”訓練。

卷積神經網絡（CNN）

CNN早在2012年就被用于語音識別系統，并且一直以來都有很多研究人員積極投身于基于CNN的語音識別系統的研究，但始終沒有大的突破。最主要的原因是他們沒有突破傳統前饋神經網絡采用固定長度的幀拼接作為輸入的思維定式，從而無法看到足夠長的語音上下文信息。另外一個缺陷是他們只是將CNN視作一種特征提取器，因此所用的卷積層數很少，一般只有一到二層，這樣的卷積網絡表達能力十分有限。針對這些問題，提出了一種名為深度全序列卷積神經網絡（Deep Fully Convolutional Neural Network，DFCNN）的語音識別框架，使用大量的卷積層直接對整句語音信號進行建模，更好地表達了語音的長時相關性。DFCNN，它直接將一句語音轉化成一張圖像作為輸入，即先對每幀語音進行傅里葉變換，再將時間和頻率作為圖像的兩個維度，然后通過非常多的卷積層和池化（pooling）層的組合，對整句語音進行建模，輸出單元直接與最終的識別結果比如音節或者漢字相對應。

識別技術的發展方向

更有效的序列到序列直接轉換的模型。序列到序列直接轉換的模型目前來講主要有兩個方向，一是CTC模型；二是Attention 模型。

雞尾酒會問題（遠場識別）。這個問題在近場麥克風并不明顯，這是因為人聲的能量對比噪聲非常大，而在遠場識別系統上，信噪比下降得很厲害，所以這個問題就變得非常突出，成為了一個非常關鍵、比較難解決的問題。雞尾酒會問題的主要困難在于標簽置換（Label Permutation），目前較好的解決方案有二，一是深度聚類（Deep Clustering）；二是置換不變訓練（Permutation invariant Training）。

持續預測與自適應模型。能否建造一個持續做預測并自適應的系統。它需要的特點一個是能夠非常快地做自適應并優化接下來的期望識別率。另一個是能發現頻度高的規律并把這些變成模型默認的一部分，不需要再做訓練。前后端聯合優化。前端注重音頻質量提升，后端注重識別性能和效率提升。