【NLP】 28. 語言模型的評估方式：MRR, PERPLEXITY, BLEU, WER從困惑度到實際效果

語言模型的評估方式：從困惑度到實際效果

評估語言模型（LLM）是否有效，并不僅僅是看它生成句子是否“聽起來通順”，我們需要定量的指標對模型性能做出系統性評價。評估方法主要分為兩大類：

用途：衡量模型在預測多個候選項時，正確答案排第幾位。
公式：
$\frac{1}{|Q|} \sum_{i=1}^{|Q|} \frac{1}{\text{rank}\_i}$

其中 $\text{rank}\_i$ 表示第 $i$ 個查詢中正確答案的排序位置。
例子：
- 輸入：The student submitted the
- 候選輸出（按概率排序）：[report, homework, form]
- 正確答案為 assignment，排名第 4
- MRR = $\frac{1}{4} = 0.25$
優點：衡量模型排序能力；適合開放式問答、多選題預測
缺點：只關注第一個正確答案；不適合多標簽預測任務

定義：衡量語言模型對測試集的平均預測難度，數值越低越好。
公式：
$\text{Perplexity} = \exp\left(-\frac{1}{N} \sum_{i=1}^{N} \log P(w_i | w_{<i})\right)$
直觀理解：模型在每個位置平均“有多少個選擇”。完美模型的困惑度為 1。
例子：
- 模型 A 預測 “The student submitted the assignment.” 中每個詞概率均為 1/10
  - Perplexity = $\left(\frac{1}{10}\right)^5 = 10^5$ , 非常高
- 模型 B 預測大部分詞準確，只有一個詞較不確定（如 1/2）
  - Perplexity 更低 → 模型更好
優點：
- 標準、通用、訓練過程直接相關
缺點：
- 不適用于非語言建模類任務（如分類）
- 對 tokenizer 敏感（BPE vs WordPiece 結果不同）

這些指標用于實際任務效果的衡量，模型不再作為主角，而是作為系統中的一環：

衡量生成句子和參考答案之間的詞級錯誤率
$\text{WER} = \frac{S + D + I}{N}$ ，其中：
- S = 替換（substitutions）
- D = 刪除（deletions）
- I = 插入（insertions）
- N = 總詞數

類型	示例	優點	缺點
內在指標	Perplexity, MRR	快速、直接、易復現	不一定能反映實際應用中的表現
外在指標	BLEU, WER	真實任務導向，評估全面	與系統其他模塊耦合，受上下游影響大

一個優秀的語言模型，不只是能“說得好”，更要能“答得對”、“用得穩”。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/79782.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/79782.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/79782.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！