目錄
CER(Character Error Rate)
WER = Word Error Rate(詞錯誤率)
🧮 WER 計算方式
📌 示例
? 理解要點
CER(Character Error Rate)
語音識別中的 CER(Character Error Rate) 是衡量語音識別系統準確性的一個重要指標,表示預測文本與參考文本在字符級別上的差異程度。
CER(Character Error Rate)定義:
CER 是編輯距離(Levenshtein 距離)與參考文本字符總數的比值:
語音識別 WER 是什么意思
WER = Word Error Rate(詞錯誤率)
在語音識別(ASR, Automatic Speech Recognition)領域,WER 是一個常用的性能評估指標,全稱是:WER = Word Error Rate(詞錯誤率)
🧮 WER 計算方式
WER 是通過比較 識別結果(Hypothesis) 和 真實文本(Reference) 之間的差異來計算的,公式如下:
WER=S+D+IN\text{WER} = \frac{S + D + I}{N}WER=NS+D+I?
其中:
-
S(Substitutions):替換錯誤數(識別成了其他詞)
-
D(Deletions):漏識別的詞數
-
I(Insertions):多識別出的詞數
-
N:真實文本中的詞總數(即 Reference 中的詞數)
📌 示例
假設真實文本是:
我 愛 自然語言處理
識別結果是:
我 喜歡 語言 處理
對比:
-
“愛” → “喜歡”:1 個替換(S)
-
“自然” 被刪掉:1 個刪除(D)
-
沒有額外多出的詞:0 個插入(I)
-
總詞數 N = 4
則:
WER=1(S)+1(D)+0(I)4=0.5=50%\text{WER} = \frac{1(S)+ 1(D)+ 0(I)}{4} = 0.5 = 50\%WER=41(S)+1(D)+0(I)?=0.5=50%
? 理解要點
-
WER 越低越好,0% 表示識別完全正確。
-
常見語音識別模型,比如 Whisper、Kaldi、Wav2Vec2,在高質量數據上 WER 可以低至 5% 以下。
-
對于方言、多語種或嘈雜環境,WER 通常會高一些。