姓名:成杰? ? ?學號:21021210653? ? 學院:電子工程學院
【嵌牛導讀】
應用語音智能這項識別技術是為了使計算機可以聽懂人類的語言,并執行人類的某項操作。現階段這項技術已經成為人工智能領域的重點研究方向和實現人機語音交互的關鍵性技術,一直備受世界各國人工智能領域專家的重點關注。
【嵌牛鼻子】
人工智能、語音識別
【嵌牛提問】
語音識別技術的當前主要解決方法以及深度學習框架下語音識別技術的發展前景
【嵌牛正文】?
1. 人工智能簡介
??? 人工智能(英語:Artificial Intelligence,縮寫為AI)亦稱智械、機器智能,指由人制造出來的機器所表現出來的智能。通常人工智能是指通過普通計算機程序來呈現人類智能的技術。該詞也指出研究這樣的智能系統是否能夠實現,以及如何實現。人工智能的研究是高度技術性和專業的,各分支領域都是深入且各不相通的,因而涉及范圍極廣。
AI的核心問題包括建構能夠跟人類似甚至超卓的推理、知識、規劃、學習、交流、感知、移物、使用工具和操控機械的能力等。當前有大量的工具應用了人工智能,其中包括搜索和數學優化、邏輯推演。而基于仿生學、認知心理學,以及基于概率論和經濟學的算法等等也在逐步探索當中。 思維來源于大腦,而思維控制行為,行為需要意志去實現,而思維又是對所有數據采集的整理,相當于數據庫,所以人工智能最后會演變為機器替換人類。
早期的人工智能研究人員直接模仿人類進行逐步的推理,就像是玩棋盤游戲或進行邏輯推理時人類的思考模式。到了1980和1990年代,利用概率和經濟學上的概念,人工智能研究還發展了非常成功的方法處理不確定或不完整的資訊。
對于困難的問題,有可能需要大量的運算資源,也就是發生了“可能組合爆增”:當問題超過一定的規模時,電腦會需要天文數量級的存儲器或是運算時間。尋找更有效的算法是優先的人工智能研究項目。
人類解決問題的模式通常是用最快捷,直觀的判斷,而不是有意識的,一步一步的推導,早期人工智能研究通常使用逐步推導的方式。人工智能研究已經于這種“次表征性的”解決問題方法取得進展:實體化AGENT研究強調感知運動的重要性。神經網絡研究試圖以模擬人類和動物的大腦結構重現這種技能。
2. 問題——語音識別技術在人工智能中的應用
應用語音智能這項識別技術是為了使計算機可以聽懂人類的語言,并執行人類的某項操作。現階段這項技術已經成為人工智能領域的重點研究方向和實現人機語音交互的關鍵性技術,一直備受世界各國人工智能領域專家的重點關注。現階段各種以語音智能這項識別技術為基礎的產品也被開發出來,并廣泛應用于我國社會發展的各個領域,還在應用方面展現出了極大的優勢,如聲控電話交換和語音通信系統等。但在語音識別這項技術的實際應用過程中,還存在不少技術方面的瓶頸,怎樣通過融合人工智能技術和芯片,來使語音智能識別這項技術實現更好地發展,這是本世紀內中最重要的一項研究課題之一。
3. 當前主要解決方法
????? 目前具有代表性的語音識別方法主要有動態時間規整技術(DTW)、隱馬爾可夫模型(HMM)、矢量量化(VQ)、人工神經網絡(ANN)、支持向量機(SVM)等方法。
4. 各個方法分析
(1)動態時間規整算法
動態時間規整算法是在非特定人語音識別中一種簡單有效的方法,該算法基于動態規劃的思想,解決了發音長短不一的模板匹配問題,是語音識別技術中出現較早、較常用的一種算法。在應用DTW算法進行語音識別時,就是將已經預處理和分幀過的語音測試信號和參考語音模板進行比較以獲取他們之間的相似度,按照某種距離測度得出兩模板間的相似程度并選擇最佳路徑。
(2)隱馬爾可夫模型(HMM)
隱馬爾可夫模型是語音信號處理中的一種統計模型,是 由Markov鏈演變來的,所以它是基于參數模型的統計識別方法。由于其模式庫是通過反復訓練形成的與訓練輸出信號吻合概率最大的最佳模型參數而不是預先儲存好的模式樣本,且其識別過程中運用待識別語音序列與HMM參數之間的似然概率達到最大值所對應的最佳狀態序列作為識別輸出,因此是較理想的語音識別模型。
?? (3)矢量量化
?????????? 矢量量化(Vector Quantization)是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語音識別中。其過程是將若干個語音信號波形或特征參數的標量數據組成一個矢量在多維空間進行整體量化。把矢量空間分成若干個小區域,每個小區域尋找一個代表矢量,量化時落入小區域的矢量就用這個代表矢量代替。矢量量化器的設計就是從大量信號樣本中訓練出好的碼書,從實際效果出發尋找到好的失真測度定義公式,設計出最佳的矢量量化系統,用最少的搜索和計算失真的運算量實現最大可能的平均信噪比。在實際的應用過程中,人們還研究了多種降低復雜度的方法,包括無記憶的矢量量化、有記憶的矢量量化和模糊矢量量化方法。
? (4)人工神經網絡(ANN)
????????? 人工神經網絡(ANN)是20世紀80年代末期提出的一種新的語音識別方法。其本質上是一個自適應非線性動力學系統,模擬了人類神經活動的原理,具有自適應性、并行性、魯棒性、容錯性和學習特性,其強大的分類能力和輸入—輸出映射能力在語音識別中都很有吸引力。其方法是模擬人腦思維機制的工程模型,它與HMM正好相反,其分類決策能力和對不確定信息的描述能力得到舉世公認,但它對動態時間信號的描述能力尚不盡如人意,通常MLP分類器只能解決靜態模式分類問題,并不涉及時間序列的處理。盡管學者們提出了許多含反饋的結構,但它們仍不足以刻畫諸如語音信號這種時間序列的動態特性。由于ANN不能很好地描述語音信號的時間動態特性,所以常把ANN與傳統識別方法結合,分別利用各自優點來進行語音識別而克服HMM和ANN各自的缺點。近年來結合神經網絡和隱含馬爾可夫模型的識別算法研究取得了顯著進展,其識別率已經接近隱含馬爾可夫模型的識別系統,進一步提高了語音識別的魯棒性和準確率。
?(5)支持向量機(Support vector machine)
支持向量機是應用統計學理論的一種新的學習機模型,采用結構風險最小化原理,有效克服了傳統經驗風險最小化方法的缺點。兼顧訓練誤差和泛化能力,在解決小樣本、非線性及高維模式識別方面有許多優越的性能,已經被廣泛地應用到模式識別領域。
5. 語言智能方面識別技術的應用瓶頸
截止目前,語音智能這項識別技術有以下幾個主要問題:
(1)識別語音的過程中很容易受到外界干擾。不同種類的麥克風所具備的性能存在差異性,這也會對識別的結果造成很大影響。另外,在環境噪音較強的情況下提取聲音,其識別結果也會受到一定程度的干擾。這些因素的存在都會影響識別聲音效果的準確性。
(2)識別聲音的系統仍然不夠完善。這項技術在識別不同種類語言方面會受到較大限制,一般只能識別普通話,無法識別地方方言。這項技術在汽車和手機上都有廣泛使用,針對的用戶群體相對比較復雜,如果用戶不會說普通話或者方言口音較重,那么聲音識別系統暫時還無法有效識別。這種類型的語音導致實際應用范圍比較受限。
(3)無法進行準確識別和判斷。通常情況下人類聲音在各種不同條件下,可能會發生一定程度的變化。例如,在人類身體狀況有一定變化時,也會影響語音識別系統對語音的識別效果。另外,在一些特殊情況下,這種瓶頸的存在容易導致安全隱患。
6. 總結與反思
就現階段而言,人工智能技術在我國社會發展的各個領域中都有著廣泛的應用,而且發展速度十分迅猛。在其迅猛發展的背景下,也遇到了亟待解決的技術問題,主要是因為計算機還未能實現全智能化的技術控制,這為人工智能領域識別技術的創新和發展造成了一定制約。在人工智能領域發展識別技術,要想真正實現全智能化操作,就需要進一步完善和優化其主觀意識。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務

喜歡的朋友記得點贊、收藏、關注哦!!!