語音識別技術在人工智能中的應用

姓名:成杰? ? ?學號:21021210653? ? 學院:電子工程學院

【嵌牛導讀】

應用語音智能這項識別技術是為了使計算機可以聽懂人類的語言,并執行人類的某項操作。現階段這項技術已經成為人工智能領域的重點研究方向和實現人機語音交互的關鍵性技術,一直備受世界各國人工智能領域專家的重點關注。

【嵌牛鼻子】

人工智能、語音識別

【嵌牛提問】

語音識別技術的當前主要解決方法以及深度學習框架下語音識別技術的發展前景

【嵌牛正文】?

1. 人工智能簡介

??? 人工智能(英語:Artificial Intelligence,縮寫為AI)亦稱智械、機器智能,指由人制造出來的機器所表現出來的智能。通常人工智能是指通過普通計算機程序來呈現人類智能的技術。該詞也指出研究這樣的智能系統是否能夠實現,以及如何實現。人工智能的研究是高度技術性和專業的,各分支領域都是深入且各不相通的,因而涉及范圍極廣。

AI的核心問題包括建構能夠跟人類似甚至超卓的推理、知識、規劃、學習、交流、感知、移物、使用工具和操控機械的能力等。當前有大量的工具應用了人工智能,其中包括搜索和數學優化、邏輯推演。而基于仿生學、認知心理學,以及基于概率論和經濟學的算法等等也在逐步探索當中。 思維來源于大腦,而思維控制行為,行為需要意志去實現,而思維又是對所有數據采集的整理,相當于數據庫,所以人工智能最后會演變為機器替換人類。

早期的人工智能研究人員直接模仿人類進行逐步的推理,就像是玩棋盤游戲或進行邏輯推理時人類的思考模式。到了1980和1990年代,利用概率和經濟學上的概念,人工智能研究還發展了非常成功的方法處理不確定或不完整的資訊。

對于困難的問題,有可能需要大量的運算資源,也就是發生了“可能組合爆增”:當問題超過一定的規模時,電腦會需要天文數量級的存儲器或是運算時間。尋找更有效的算法是優先的人工智能研究項目。

人類解決問題的模式通常是用最快捷,直觀的判斷,而不是有意識的,一步一步的推導,早期人工智能研究通常使用逐步推導的方式。人工智能研究已經于這種“次表征性的”解決問題方法取得進展:實體化AGENT研究強調感知運動的重要性。神經網絡研究試圖以模擬人類和動物的大腦結構重現這種技能。

2. 問題——語音識別技術在人工智能中的應用

應用語音智能這項識別技術是為了使計算機可以聽懂人類的語言,并執行人類的某項操作。現階段這項技術已經成為人工智能領域的重點研究方向和實現人機語音交互的關鍵性技術,一直備受世界各國人工智能領域專家的重點關注。現階段各種以語音智能這項識別技術為基礎的產品也被開發出來,并廣泛應用于我國社會發展的各個領域,還在應用方面展現出了極大的優勢,如聲控電話交換和語音通信系統等。但在語音識別這項技術的實際應用過程中,還存在不少技術方面的瓶頸,怎樣通過融合人工智能技術和芯片,來使語音智能識別這項技術實現更好地發展,這是本世紀內中最重要的一項研究課題之一。

3. 當前主要解決方法

????? 目前具有代表性的語音識別方法主要有動態時間規整技術(DTW)、隱馬爾可夫模型(HMM)、矢量量化(VQ)、人工神經網絡(ANN)、支持向量機(SVM)等方法。

4. 各個方法分析

(1)動態時間規整算法

動態時間規整算法是在非特定人語音識別中一種簡單有效的方法,該算法基于動態規劃的思想,解決了發音長短不一的模板匹配問題,是語音識別技術中出現較早、較常用的一種算法。在應用DTW算法進行語音識別時,就是將已經預處理和分幀過的語音測試信號和參考語音模板進行比較以獲取他們之間的相似度,按照某種距離測度得出兩模板間的相似程度并選擇最佳路徑。

(2)隱馬爾可夫模型(HMM)

隱馬爾可夫模型是語音信號處理中的一種統計模型,是 由Markov鏈演變來的,所以它是基于參數模型的統計識別方法。由于其模式庫是通過反復訓練形成的與訓練輸出信號吻合概率最大的最佳模型參數而不是預先儲存好的模式樣本,且其識別過程中運用待識別語音序列與HMM參數之間的似然概率達到最大值所對應的最佳狀態序列作為識別輸出,因此是較理想的語音識別模型。

?? (3)矢量量化

?????????? 矢量量化(Vector Quantization)是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語音識別中。其過程是將若干個語音信號波形或特征參數的標量數據組成一個矢量在多維空間進行整體量化。把矢量空間分成若干個小區域,每個小區域尋找一個代表矢量,量化時落入小區域的矢量就用這個代表矢量代替。矢量量化器的設計就是從大量信號樣本中訓練出好的碼書,從實際效果出發尋找到好的失真測度定義公式,設計出最佳的矢量量化系統,用最少的搜索和計算失真的運算量實現最大可能的平均信噪比。在實際的應用過程中,人們還研究了多種降低復雜度的方法,包括無記憶的矢量量化、有記憶的矢量量化和模糊矢量量化方法。

? (4)人工神經網絡(ANN)

????????? 人工神經網絡(ANN)是20世紀80年代末期提出的一種新的語音識別方法。其本質上是一個自適應非線性動力學系統,模擬了人類神經活動的原理,具有自適應性、并行性、魯棒性、容錯性和學習特性,其強大的分類能力和輸入—輸出映射能力在語音識別中都很有吸引力。其方法是模擬人腦思維機制的工程模型,它與HMM正好相反,其分類決策能力和對不確定信息的描述能力得到舉世公認,但它對動態時間信號的描述能力尚不盡如人意,通常MLP分類器只能解決靜態模式分類問題,并不涉及時間序列的處理。盡管學者們提出了許多含反饋的結構,但它們仍不足以刻畫諸如語音信號這種時間序列的動態特性。由于ANN不能很好地描述語音信號的時間動態特性,所以常把ANN與傳統識別方法結合,分別利用各自優點來進行語音識別而克服HMM和ANN各自的缺點。近年來結合神經網絡和隱含馬爾可夫模型的識別算法研究取得了顯著進展,其識別率已經接近隱含馬爾可夫模型的識別系統,進一步提高了語音識別的魯棒性和準確率。

?(5)支持向量機(Support vector machine)

支持向量機是應用統計學理論的一種新的學習機模型,采用結構風險最小化原理,有效克服了傳統經驗風險最小化方法的缺點。兼顧訓練誤差和泛化能力,在解決小樣本、非線性及高維模式識別方面有許多優越的性能,已經被廣泛地應用到模式識別領域。

5. 語言智能方面識別技術的應用瓶頸

截止目前,語音智能這項識別技術有以下幾個主要問題:

(1)識別語音的過程中很容易受到外界干擾。不同種類的麥克風所具備的性能存在差異性,這也會對識別的結果造成很大影響。另外,在環境噪音較強的情況下提取聲音,其識別結果也會受到一定程度的干擾。這些因素的存在都會影響識別聲音效果的準確性。

(2)識別聲音的系統仍然不夠完善。這項技術在識別不同種類語言方面會受到較大限制,一般只能識別普通話,無法識別地方方言。這項技術在汽車和手機上都有廣泛使用,針對的用戶群體相對比較復雜,如果用戶不會說普通話或者方言口音較重,那么聲音識別系統暫時還無法有效識別。這種類型的語音導致實際應用范圍比較受限。

(3)無法進行準確識別和判斷。通常情況下人類聲音在各種不同條件下,可能會發生一定程度的變化。例如,在人類身體狀況有一定變化時,也會影響語音識別系統對語音的識別效果。另外,在一些特殊情況下,這種瓶頸的存在容易導致安全隱患。

6. 總結與反思

就現階段而言,人工智能技術在我國社會發展的各個領域中都有著廣泛的應用,而且發展速度十分迅猛。在其迅猛發展的背景下,也遇到了亟待解決的技術問題,主要是因為計算機還未能實現全智能化的技術控制,這為人工智能領域識別技術的創新和發展造成了一定制約。在人工智能領域發展識別技術,要想真正實現全智能化操作,就需要進一步完善和優化其主觀意識。



喜歡的朋友記得點贊、收藏、關注哦!!!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/907032.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/907032.shtml
英文地址,請注明出處:http://en.pswp.cn/news/907032.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

uniapp實現大視頻文件上傳-- 阿里云oss直傳方式 - app、H5、微信小程序

之前的項目文件上傳比較慢,使用預簽名方式上傳H5正常,微信小程序和app使用axios時出現了各種報錯,配置完后還是不行。所以換一種oss直傳方式。 找到一個 實現了的 參考:https://blog.csdn.net/qq_44860866/article/details/129670188

【Java學習筆記】抽象類

抽象類 引入關鍵字:abstract 應用場景:當子類中共有的部分 / 特性可以放到抽象類中 1. 通過子類的方法重寫實現不同的功能 2. 編寫一個方法把共有的部分放入其中,在該方法中調用抽象方法(動態綁定機制) 3. 便可以實…

EPT(Efficient Prompt Tuning)方法,旨在解決提示調優(Prompt Tuning)中效率與準確性平衡和跨任務一致性的問題

EPT(Efficient Prompt Tuning)方法,旨在解決提示調優(Prompt Tuning)中效率與準確性平衡和跨任務一致性的問題 一、核心原理:分解提示與多空間投影 1. 提示分解:用低秩矩陣壓縮長提示 傳統問題: 長提示(如100個token)精度高但訓練慢,短提示(如20個token)速度快但…

深入剖析Java中的偽共享:原理、檢測與解決方案

在高性能Java應用的開發中,尤其是多線程環境下,開發者往往會關注鎖競爭、線程調度等顯性問題,但有一個隱蔽的性能殺手——偽共享(False Sharing)?,卻容易被忽視。本文將通過原理分析、代碼案例與實戰工具&…

JMeter 教程:響應斷言

目錄 JMeter 教程:響應斷言的簡單介紹【輕松上手】 ? 什么是響應斷言? 📌 使用場景示例 🛠? 添加響應斷言步驟 1. 選中 HTTP 請求 → 右鍵 → Add → Assertions → Response Assertion 2. 設置斷言內容: ? …

11.11 TypedDict與Pydantic實戰:Python高效狀態管理秘籍

使用 TypedDict 和 Pydantic 管理狀態 關鍵詞:LangGraph 狀態管理, TypedDict 類型化字典, Pydantic 數據模型, 狀態持久化, 多輪對話設計 1. 狀態管理的核心挑戰 在復雜 AI Agent 系統中,狀態管理需要解決三個關鍵問題: #mermaid-svg-0sX3763L7VP2RvuX {font-family:&quo…

ThreadLocal線程本地變量在dubbo服務使用時候遇到的一個坑

我昨天遇到一個問題,就是我springboot項目里面有一個提供代辦服務審核的dubbo接口,這個接口給房源項目調用,但是碰到一個問題就是,房源項目每天凌晨5點會查詢滿足條件過期的數據,然后調用我這邊的代辦審核dubbo接口&am…

[Java實戰]Spring Boot整合達夢數據庫連接池配置(三十四)

[Java實戰]Spring Boot整合達夢數據庫連接池配置(三十四) 一、HikariCP連接池配置(默認) 1. 基礎配置(application.yml) spring:datasource:driver-class-name: dm.jdbc.driver.DmDriverurl: jdbc:dm://…

【MySQL】08.視圖

視圖就是一個由查詢到的內容定義的虛擬表。它和真實的表一樣,視圖包含一系列帶有名稱的列和行數據。視圖的數據變化會影響到基表,基表的數據變化也會影響到視圖。 1. 基本使用 mysql> select * from user; -------------------- | id | age | name …

4 通道1250MSPS‐16bit DAC 回放板

簡介 4 通道1250MSPS‐16bit DAC 回放板 是一款4 路轉換速率最高為1250MSPS 的DAC 回放板, DAC 位數16bit;板卡支持觸發輸出/觸發輸入;DAC 采樣時鐘源支持內部參考時 鐘、外部參考時鐘、外部采樣時鐘三種方式,可通過SPI 總線實現時…

C/C++---類型轉換運算符

在C中,類型轉換運算符(Type Conversion Operator)允許類對象在需要時自動轉換為其他類型。這是一種特殊的成員函數,能夠增強類的靈活性和交互性。 1. 基本語法 類型轉換運算符的聲明格式為: operator 目標類型() co…

大模型Agent

手撕 Agent 1、功能描述 設計一個 Agent,自動選擇使用以下工具回答用戶的問題: 查看目錄下的文件基于給定的文檔回答用戶問題查看與分析 Excel 文件撰寫文檔調用 Email 客戶端發郵件2、演示用例 實驗中使用三個文檔演示 Agent 的能力 ./data|__2023年8月-9月銷售記錄.xlsx…

超臨界機組協調控制系統建模項目開發筆記

超臨界機組協調控制系統建模項目開發筆記 項目概述 本項目基于兩篇論文的方法,對超臨界機組協調控制系統進行數據驅動建模。主要使用LSTMTransformer混合架構,實現對主蒸汽壓力(Pst)、分離器蒸汽焓值(hm)和機組負荷(Ne)的預測。同時,通過消…

mysql安全管理

數據庫管理系統用于管理數據庫服務器的各種數據庫資源,MYSQL是一個支持多用戶的數據庫管理系統,實現多用戶下,各種數據庫資源的安全訪問控制,確保數據庫資源安全訪問成為了數據庫管理系統的核心功能。MYSQL安全管理是指允許合法賬…

QT中常用的類

Qt 是一個功能強大的跨平臺框架,提供了豐富的類庫來開發 GUI 和應用程序。以下是 ??Qt 中常用的核心類??,按模塊分類整理: ??1. GUI 和窗口管理?? 類名用途示例場景??QWidget??所有 GUI 控件的基類(按鈕、窗口等&…

【Redis原理篇】五大基本數據類型的底層編碼方式

上文:redis底層數據結構 String底層結構 一、編碼方式 1.int編碼 **適用范圍:**64位整數(long) **實現:**直接將數據存儲在redisObject的ptr指針位置。 內存布局: 2.embstr編碼 **適用條件&#xf…

自動編碼器 潛在空間 Autoencoders 視頻截圖

【雙語】Autoencoders_嗶哩嗶哩_bilibili 【雙語】Autoencoders_嗶哩嗶哩_bilibili

ZLG USBCANFD python UDS刷寫腳本

文章目錄 概述python UDS 刷寫腳本UI交互界面概述 在實際工作中,有使用周立功的UDSCANFD設備,用來收發CAN數據和UDS on CAN的診斷測試或者UDS on CAN的ECU升級。上位機使用ZCANPro,軟件自帶ECU刷新界面,可以編輯UDS服務,加載升級文件等,能用是能用,但是仍不能滿足一些特…

線程安全問題的成因

前言 大家晚上好呀~~ 今天學習了線程不安全問題的成因。線程安全問題是十分重要的知識點,我想把我所學的與大家分享一波,希望可以幫助到有需要的人,同時加深自己對于線程安全問題的理解。 分析過程如下 結語 今天心情還不錯~ 要堅持持續…

C++可變參數宏定義語法筆記

1. 基礎語法 定義格式: #define MACRO_NAME(fixed_args, ...) macro_body#define LOG(fmt, ...) printf(fmt, __VA_ARGS__) LOG("Value: %d, Name: %s", 42, "Alice"); // 展開為 printf("Value: %d, Name: %s", 42, "Alice&q…