可理解性評估:使用Google Gemini優化語音識別的意義保留

??每周跟蹤AI熱點新聞動向和震撼發展 想要探索生成式人工智能的前沿進展嗎?訂閱我們的簡報,深入解析最新的技術突破、實際應用案例和未來的趨勢。與全球數同行一同,從行業內部的深度分析和實用指南中受益。不要錯過這個機會,成為AI領域的領跑者。點擊訂閱,與未來同行! 訂閱:https://rengongzhineng.io/

語音識別中的可理解性評估:超越詞錯誤率的意義保留

在自動語音識別(ASR)模型的評估中,詞錯誤率(WER)及其逆值詞準確率(WACC)是衡量句法準確性的常用指標。然而,這些指標未能反映ASR性能的一個關鍵方面:可理解性。這種局限性在針對具有非典型言語模式的用戶時尤為明顯,他們的WER往往超過20%,在某些情況下甚至超過60%。盡管如此,如果ASR模型能較好地保留其言語的意義,這些用戶仍能從中受益。這在實時對話、語音輸入文本信息、家庭自動化等對語法錯誤容忍度較高的應用中尤為重要。實際上,這些用戶和應用場景最能從保留意義的ASR模型中獲益,因為它們能顯著改善交流。

WER的局限性與意義保留的重要性

盡管WER和WACC可以衡量語音識別的句法準確性,但它們并不總能準確反映轉錄錯誤的嚴重性。以下是一些示例,展示了WACC如何未能準確反映轉錄錯誤的嚴重性。在兩個例子中,盡管WACC相似,第一個例子的錯誤相對無害,而第二個例子的錯誤則更為嚴重。

創建意義保留評估系統

為了解決這一問題,開發了一種新系統,以自動評估ASR模型有效傳達用戶意圖的能力。在論文《利用大型語言模型評估語音轉錄的可理解性》(ICASSP 2024)中,介紹了一種新方法,使用大型語言模型(LLM)來確定轉錄是否準確捕捉了與參考文本相比的預期意義。基于這一方法,還報告了使用Gemini模型如何在不顯著損失性能的情況下使用更小的模型,并在無需額外訓練的情況下實現多語言意義評估。

意義保留作為替代指標

研究利用了Project Euphonia語料庫,這是一個包含約2000名具有各種言語障礙的個體超過120萬條語句的語料庫。為了擴展對西班牙語使用者的數據收集,Project Euphonia與ALS/MND國際聯盟合作,收集了來自墨西哥、哥倫比亞和秘魯ALS患者的語音樣本。同樣,通過與巴黎腦科學研究所的Romain Gombert合作,Project Euphonia擴展到法國,收集了法國非典型言語者的數據。

在實驗中,生成了4731個包含真實值和轉錄錯誤對的示例數據集,并附有人類標注,指示這些對是否保留了意義。將數據集分為訓練集、測試集和驗證集(分別為80% / 10% / 10%),確保三個數據集在真實語句級別上沒有重疊。

訓練與評估

在基礎LLM上訓練了意義保留分類器。通過提示微調(一種參數高效的LLM適應方法),將基礎LLM調整為能夠預測“是”或“否”的標簽,以指示是否保留了意義。

在推理過程中,沒有生成響應,而是獲取LLM的logits作為兩個類別標簽(“是”和“否”)的分數。可以選擇得分較高的標簽,或在評估意義保留分類器時,使用“是”類別的得分。

使用Gemini進行意義保留評估

盡管在PaLM模型上取得的結果令人鼓舞,但最近AI模型的巨大進步激勵評估其在此任務中的適用性。重新訓練了意義保留分類器,現在使用Google的Gemini作為基礎LLM。對于許多相關的用例,這一評估任務最好使用小模型(例如用于設備上的應用)。因此,選擇了Google的Gemini小版本(Gemini Nano-1,具有1.8B參數,詳見Gemini 1.0技術報告)進行更高效的推理,其參數量不到最初使用的PaLM 62B模型的3%。在意義保留測試集上評估時,微調后的Gemini Nano-1表現非常競爭,AUC ROC得分為0.88,盡管其規模較小。

多語言意義保留評估

還創建了法語和西班牙語的意義保留測試集,作為Project Euphonia擴展數據收集工作的一部分。這些測試集基于收集的語句、說話者言語障礙的嚴重程度和病因學的元數據,以及從Google的高度多語言通用語音模型(USM)獲得的真實轉錄和ASR轉錄。

西班牙語測試集由來自六名說話者的518個示例組成,而法語測試集由來自十名說話者的199個示例組成。對于兩種語言,不同說話者具有不同的病因學和言語障礙程度,包括輕度、中度和重度。

基于Gemini Nano-1模型的意義保留分類器在法語和西班牙語測試集上獲得了約0.89的ROC AUC性能。鑒于該分類器僅用英文示例進行訓練,這一結果相當顯著。由于基礎Gemini模型的多語言能力,這些能力在無需重新訓練模型或創建新語言的訓練數據集的情況下得以顯現。

結論

提出使用意義保留作為比WER更有效的ASR系統評估指標,特別是在高錯誤率的情況下,如非典型言語和其他低資源領域或語言。通過關注意義保留,可以更好地評估模型對個體用戶的有用性,尤其是在Project Relate等助聽技術中,這些技術旨在通過訓練完全個性化的語音識別模型使非典型言語者得到更好的理解。

為了進一步推進意義保留工作,并將其惠及更多用戶和語言,還探索了Google Gemini模型的能力。Gemini Nano-1使能夠在使用顯著較小模型的情況下實現類似的分類器性能。盡管僅在英文示例上訓練,分類器顯示出在其他語言中準確評估意義保留的能力,如法語和西班牙語的測試所示。這一激動人心的發展為構建更高效、更通用的模型開辟了新的可能性,使更多用戶受益。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/43584.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/43584.shtml
英文地址,請注明出處:http://en.pswp.cn/web/43584.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

nftables(5)表達式(3)PAYLOAD EXPRESSIONS

PAYLOAD EXPRESSIONS Payload expressions在nftables中扮演著重要的角色,因為它們允許用戶定義復雜的規則,這些規則可以基于數據包的內容(即有效載荷)來過濾、修改或允許數據包通過。這些表達式可以執行諸如數據拷貝、比較、位操…

實驗1 —— 安全策略的練習

實驗拓撲圖 實驗要求 1.DMZ區內的服務器,辦公區僅能在辦公時間內(9:00-18:00)可以訪問,生產區的設備全天可以訪問; 2.生產區不允許訪問互聯網,辦公區和游客區允許訪問互聯網 3.辦公區…

RabbitMQ保證消息被成功發送和消費

一 : 在使用 RabbitMQ 作為消息隊列時,保證消息被成功發送和消費是一個非常重要的問題。以下是一些關鍵點和最佳實踐,以確保消息的可靠傳輸和處理。* 配置方式: 保證消息被成功發送 確認模式(Confirm Mode):生產者可以…

在SpringBoot使用AOP防止接口重復提交

前言 防止接口重復提交有跟多種方法,可以在前端做處理。同樣在后端也能處理,而且后端的處理也有很多中方法。最先能想到的就是加鎖,也可以直接在該接口的實現過程中進行處理(可以參考防止數據重復提交的6種方法(超簡單)&#xff…

動手學Avalonia:基于硅基流動構建一個文生圖應用(一)

文生圖 文生圖,全稱“文字生成圖像”(Text-to-Image),是一種AI技術,能夠根據給定的文本描述生成相應的圖像。這種技術利用深度學習模型,如生成對抗網絡(GANs)或變換器(T…

【Mac】Charles for Mac(HTTP協議抓包工具)及同類型軟件介紹

軟件介紹 Charles for Mac 是一款功能強大的網絡調試工具,主要用于HTTP代理/HTTP監視器。以下是它的一些主要特點和功能: 1.HTTP代理:Charles 可以作為HTTP代理服務器,允許你查看客戶端和服務器之間的所有HTTP和SSL/TLS通信。 …

金航標kinghelm宋仕強在介紹自己公司時說

金航標kinghelm宋仕強在介紹自己公司時說,金航標成立于2007年,成立地點在華強北雷圳大廈803室,后搬到華強北廣業大廈24樓CD室,后搬遷到龍華展滔科技大廈C座C809和C817室,現在的辦公地址為龍崗區坂田街道百瑞達大廈&…

WSL安裝USB驅動

wsl用不了USB盤,需要安裝驅動 1、安裝windows驅動 https://github.com/dorssel/usbipd-win/releases 下載msi,并且安裝 2、linux里面安裝 sudo apt install linux-tools-5.4.0-77-generic hwdata sudo update-alternatives --install /usr/local/bin/usb…

PageDTO<T>,PageQuery,BeanUtils,CollUtils的封裝

一、PageDTO<T> import com.baomidou.mybatisplus.extension.plugins.pagination.Page; import com.fasterxml.jackson.annotation.JsonIgnore; import com.tianji.common.utils.BeanUtils; import com.tianji.common.utils.CollUtils; import com.tianji.common.utils.…

C#中的MD5摘要算法與哈希算法

文章目錄 一、哈希算法基礎二、MD5 算法原理三、MD5摘要算法四、哈希算法五、C#實現示例MD5算法示例哈希算法示例字符串MD5值對比 六、總結 一、哈希算法基礎 哈希算法是一種單向密碼體制&#xff0c;它將任意長度的數據轉換成固定長度的字符串。這種轉換是不可逆的&#xff0…

IDEA中配置代理,解決Codearts Snap登陸不了的問題

問題描述&#xff1a;在mac電腦中的idea中安裝了華為的codearts snap插件&#xff0c;一直登錄不了&#xff0c;賬號是沒問題的&#xff0c;后來我懷疑是我的代理有問題&#xff0c;找到IDEA中的代理設置先是有這個問題“You have JVM property "https.proxyHost" se…

千呼新零售2.0分銷商城視頻介紹

千呼新零售2.0系統是零售行業連鎖店一體化收銀系統&#xff0c;包括線下收銀線上商城連鎖店管理ERP管理商品管理供應商管理會員營銷等功能為一體&#xff0c;線上線下數據全部打通。 適用于商超、便利店、水果、生鮮、母嬰、服裝、零食、百貨、寵物等連鎖店使用。 詳細介紹請…

C語言 將兩個字符串連接起來,不用strcat函數

編一個程序,將兩個字符串連接起來,不要用strcat函數。 #include <stdio.h>void my_strcat(char *s1, const char *s2) {while (*s1) {s1;}while (*s2) {*s1 *s2;s1;s2;}*s1 \0; }int main() {char s1[100] "Hello, ";char s2[] "World!";my_str…

Android初學者書籍推薦

書單 1.《Android應用開發項目式教程》&#xff0c;機械工業出版社&#xff0c;2024年出版2.《第一行代碼Android》第二版3.《第一行代碼Android》第三版4.《瘋狂Android講義》第四版5.《Android移動應用基礎教程&#xff08;Android Studio 第2版&#xff09;》 從學安卓到用安…

uniapp 打包成安卓APP預覽base64pdf實現方法

下載PDF.js 問題描述 在uniapp中預覽base64的PDF&#xff0c;可以使用web-view組件嵌入一個PDF.js的實例。以下是一個簡單的示例&#xff1a; 解決方案&#xff1a; 1.在頁面的.vue文件中添加web-view組件&#xff1a; <template><view style"width: 50%;&qu…

【機器學習】支持向量機與主成分分析在機器學習中的應用

文章目錄 一、支持向量機概述什么是支持向量機&#xff1f;超平面和支持向量大邊距直覺 二、數據預處理與可視化數據集的基本信息導入必要的庫加載數據集數據概況數據可視化特征對的散點圖矩陣類別分布條形圖平均面積與平均光滑度的散點圖變量之間的相關性熱圖 三、模型訓練&am…

JS【詳解】類 class ( ES6 新增語法 )

本質上&#xff0c;類只是一種特殊的函數。 console.log(typeof 某類); //"function"聲明類 class 方式 1 – 類聲明 class Car {constructor(model, year) {this.model model;this.year year;} }方式 2 – 類表達式 匿名式 const Car class {constructor(mod…

在conda的環境中安裝Jupyter及其他軟件包

Pytorch版本、安裝和檢驗 大多數軟件包都是隨Anaconda安裝的&#xff0c;也可以根據需要手動安裝一些其他軟件包。 目錄 創建虛擬環境 進入虛擬環境 安裝Jupyter notebook 安裝matplotlib 安裝 pandas 創建虛擬環境 基于conda包的環境創建、激活、管理與刪除http://t.cs…

podman 替代 docker ? centos Stream 10 已經棄用docker,開始用podman了!

&#x1f468;?&#x1f393;博主簡介 &#x1f3c5;CSDN博客專家 ??&#x1f3c5;云計算領域優質創作者 ??&#x1f3c5;華為云開發者社區專家博主 ??&#x1f3c5;阿里云開發者社區專家博主 &#x1f48a;交流社區&#xff1a;運維交流社區 歡迎大家的加入&#xff01…

淺談React

forwardRef和useImperativeHandle的聯動使用 import React, { useImperativeHandle, useRef } from "react" import { forwardRef } from "react"const CustomInput forwardRef((props, ref) > {const inputRef useRef<HTMLInputElement>(null…