【NLP】 28. 語言模型的評估方式:MRR, PERPLEXITY, BLEU, WER從困惑度到實際效果

語言模型的評估方式:從困惑度到實際效果

評估語言模型(LLM)是否有效,并不僅僅是看它生成句子是否“聽起來通順”,我們需要定量的指標對模型性能做出系統性評價。評估方法主要分為兩大類:

  • 內在評價(Intrinsic Evaluation):直接衡量模型本身的語言建模能力。
  • 外在評價(Extrinsic Evaluation):模型作為子模塊嵌入下游任務時的表現。

1?? Mean Reciprocal Rank (MRR):排名相關指標

  • 用途:衡量模型在預測多個候選項時,正確答案排第幾位。

  • 公式
    M R R = 1 ∣ Q ∣ ∑ i = 1 ∣ Q ∣ 1 rank _ i MRR = \frac{1}{|Q|} \sum_{i=1}^{|Q|} \frac{1}{\text{rank}\_i} MRR=Q1?i=1Q?rank_i1?

    其中 rank _ i \text{rank}\_i rank_i 表示第 i i i 個查詢中正確答案的排序位置。

  • 例子

    • 輸入:The student submitted the
    • 候選輸出(按概率排序):[report, homework, form]
    • 正確答案為 assignment,排名第 4
    • MRR = 1 4 = 0.25 \frac{1}{4} = 0.25 41?=0.25
  • 優點:衡量模型排序能力;適合開放式問答、多選題預測

  • 缺點:只關注第一個正確答案;不適合多標簽預測任務


2?? Perplexity(困惑度):語言模型專屬指標

  • 定義:衡量語言模型對測試集的平均預測難度,數值越低越好。

  • 公式
    Perplexity = exp ? ( ? 1 N ∑ i = 1 N log ? P ( w i ∣ w < i ) ) \text{Perplexity} = \exp\left(-\frac{1}{N} \sum_{i=1}^{N} \log P(w_i | w_{<i})\right) Perplexity=exp(?N1?i=1N?logP(wi?w<i?))

  • 直觀理解:模型在每個位置平均“有多少個選擇”。完美模型的困惑度為 1。

  • 例子

    • 模型 A 預測 “The student submitted the assignment.” 中每個詞概率均為 1/10

      • Perplexity = ( 1 10 ) 5 = 1 0 5 \left(\frac{1}{10}\right)^5 = 10^5 (101?)5=105, 非常高
    • 模型 B 預測大部分詞準確,只有一個詞較不確定(如 1/2)

      • Perplexity 更低 → 模型更好
  • 優點

    • 標準、通用、訓練過程直接相關
  • 缺點

    • 不適用于非語言建模類任務(如分類)
    • 對 tokenizer 敏感(BPE vs WordPiece 結果不同)

3?? 外在指標:BLEU / WER 等

這些指標用于實際任務效果的衡量,模型不再作為主角,而是作為系統中的一環

🧪 BLEU:用于機器翻譯

  • 衡量模型生成的翻譯和參考翻譯的 n-gram 重合度
  • 范圍通常 0–1,越高越好

🧪 WER(Word Error Rate):用于語音識別

  • 衡量生成句子和參考答案之間的詞級錯誤率

  • WER = S + D + I N \text{WER} = \frac{S + D + I}{N} WER=NS+D+I?,其中:

    • S = 替換(substitutions)
    • D = 刪除(deletions)
    • I = 插入(insertions)
    • N = 總詞數

4?? 內在 vs 外在指標對比

類型示例優點缺點
內在指標Perplexity, MRR快速、直接、易復現不一定能反映實際應用中的表現
外在指標BLEU, WER真實任務導向,評估全面與系統其他模塊耦合,受上下游影響大

? 小結:什么是“好”的語言模型?

  1. 在 Perplexity 上表現好 → 預測合理
  2. 在排序任務中有高 MRR 或準確率 → 輸出合理排序
  3. 在具體任務中提升 BLEU/WER 等指標 → 實際可用
  4. 在統一任務設置下泛化能力強 → 可 Few-shot/Zero-shot 適應多任務

一個優秀的語言模型,不只是能“說得好”,更要能“答得對”、“用得穩”。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/79782.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/79782.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/79782.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java 企業級開發設計模式全解析

Java 企業級開發設計模式全解析 在 Java 企業級開發的復雜領域中&#xff0c;設計模式如同精湛的工匠工具&#xff0c;能夠幫助開發者構建高效、可維護、靈活且健壯的軟件系統。它們是無數開發者在長期實踐中總結出的解決常見問題的最佳方案&#xff0c;掌握這些模式對于提升開…

小剛說C語言刷題—1038編程求解數學中的分段函數

1.題目描述 編程求解數學中的分段函數。 …………x1 (當 x>0 )。 yf(x)…0 (當 x0 )。 ………x?1 (當 x<0 )。 上面描述的意思是&#xff1a; 當x>0 時 yx1 ; 當 x0 時 y0 ; 當 x<0 時 yx?1 。 輸入 輸入一行&#xff0c;只有一個整數x(?30000≤x≤30…

滾珠螺桿的精度如何保持?

滾珠螺桿通常用于需要精確定位的地方&#xff0c;高機械效率、低傳遞扭矩和幾乎為零的軸向游隙&#xff0c;使滾珠螺桿成為工具定位和飛機副翼驅動等應用中的重要設備。但是&#xff0c;連續工作產生的阻力和熱量會導致較大的摩擦力和定位誤差。那么&#xff0c;滾珠螺桿的精度…

在 Laravel 中深度集成 Casbin 到原生 Auth 系統

在 Laravel 中深度集成 Casbin 到原生 Auth 系統需要實現多層次的融合&#xff0c;以下是專業級實現方案&#xff1a; 一、核心集成架構 #mermaid-svg-WYM1aoAyHrR5bCdp {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-…

JavaScript 實現輸入框的撤銷功能

在 Web 開發中&#xff0c;為輸入框添加撤銷功能可以極大地提升用戶體驗&#xff0c;方便用戶快速回滾到之前的輸入狀態。本文將通過一段簡單的 HTML、CSS 和 JavaScript 代碼&#xff0c;詳細介紹如何實現輸入框的撤銷功能。 整體實現思路 利用 JavaScript 監聽輸入框的inpu…

計算機視覺與深度學習 | 點云配準算法綜述(1992-2025)

點云配準算法綜述(1992-2025) 點云配準 點云配準算法綜述(1992-2025)一、傳統方法(1992-2020)1. **ICP(Iterative Closest Point)**2. **NDT(Normal Distributions Transform)**3. **4PCS(4-Points Congruent Sets)**二、深度學習驅動的方法(2018-2025)1. **Poin…

數據庫的二級索引

二級索引 10.1 二級索引作為額外的鍵 表結構 正如第8章提到的&#xff0c;二級索引本質上是包含主鍵的額外鍵值對。每個索引通過B樹中的鍵前綴來區分。 type TableDef struct {// 用戶定義的部分Name stringTypes []uint32 // 列類型Cols []string // 列名Indexes …

Java IO流核心處理方式詳解

一、IO流概述 Java IO&#xff08;Input/Output&#xff09;流是處理輸入輸出操作的核心機制&#xff0c;通過流&#xff08;Stream&#xff09;的形式實現設備間的數據傳輸。所有操作都基于以下兩個核心抽象&#xff1a; InputStream/OutputStream&#xff1a;字節流基類 Re…

WidowX-250s 機械臂的簡單數字孿生案例

前面一段時間記錄了一下WidowX-250s機械臂的學習與遙操作演示&#xff0c;相關鏈接如下&#xff1a; WidowX-250s 機械臂學習記錄&#xff1a; https://blog.csdn.net/qq_54900679/article/details/145556979 WidowX-250s 機械臂遙操作演示記錄&#xff1a; https://blog.c…

uniapp 云開發全集 云開發的概念

一、云開發的概念 1.1 云開發介紹 云開發 unicloud 是 DCloud 聯合阿里云、騰訊云、支付寶云&#xff0c;為開發者提供的基于 serverless 模式和 js 編程的云開發平臺&#xff0c;可以使用極小的成本代價開發具輕松實現前后臺整體業務。 1.2 云開發的核心組成 云開發的核心組…

GGD獨立站的優勢

GGD模式(基于Google生態的獨立站模式)越來越受歡迎&#xff0c;主要有以下原因&#xff1a; 1. 全球化覆蓋 GGD獨立站依托Google強大的生態系統&#xff0c;能夠幫助企業輕松觸達全球用戶&#xff0c;實現國際化布局&#xff0c;拓展業務范圍。Google作為全球最大的搜索引擎&…

簽名去背景圖像處理實例

一、前言 在生活中我們經常用到電子簽名&#xff0c;但有時候我們所獲取的圖像的彩色圖像&#xff0c;我們需要獲取白底黑字的電子簽名&#xff0c;我們可以通過下面程序對彩色圖像進行處理達到我們的處理目的。 原始彩色圖像如下&#xff1a; 二、程序和運行結果 clear all;c…

WebAssembly(Wasm):現代Web開發的超級加速器

在當今的Web開發領域&#xff0c;性能和效率是開發者們永恒的追求目標。隨著Web應用的復雜度不斷增加&#xff0c;傳統的JavaScript在某些場景下已經難以滿足高性能計算和復雜邏輯處理的需求。此時&#xff0c;WebAssembly&#xff08;Wasm&#xff09;作為一種新興的Web技術&a…

簡單理解MCP:AI如何使用工具

簡單理解MCP&#xff1a;AI如何使用工具&#xff08;以天氣/新聞服務為例&#xff09; 你是否注意到人工智能(AI)助手正變得越來越智能&#xff1f;它們不再僅僅是聊天&#xff0c;還能執行實際操作&#xff0c;比如查詢天氣、在線搜索&#xff0c;甚至預訂會議。這通常涉及到…

護網奇談: 紅隊工程師手記

零、引言&#xff1a;在演練中活著&#xff0c;在現實中消失 人們常說&#xff0c;護網是網絡安全界的“大閱兵”。 每年一次&#xff0c;紅藍對陣&#xff0c;政企聯動&#xff0c;戰鼓擂響&#xff0c;態勢大屏高掛&#xff0c;PPT如潮&#xff0c;報告成山。 你在屏幕前看…

機器翻譯與數據集

機器翻譯與數據集 語言模型是自然語言處理的關鍵&#xff0c;而機器翻譯是語言模型最成功的基準測試。因為機器翻譯正是將輸入序列轉換成輸出序列的序列轉換模型&#xff08;sequence transduction&#xff09;的核心問題。序列轉換模型在各類現代人工智能應用中發揮著至關重要…

基于 HTML 和 CSS 實現的 3D 翻轉卡片效果

一、引言 在網頁設計中&#xff0c;為了增加用戶的交互體驗和視覺吸引力&#xff0c;常常會運用一些獨特的效果。本文將詳細介紹一個基于 HTML 和 CSS 實現的 3D 翻轉卡片效果&#xff0c;通過對代碼的剖析&#xff0c;讓你了解如何創建一個具有立體感的卡片&#xff0c;在鼠標…

C++ 中二級指針的正確釋放方法

C 中二級指針的正確釋放 一、什么是二級指針&#xff1f; 簡單說&#xff0c;二級指針就是指向指針的指針。 即&#xff1a; int** p;它可以指向一個 int*&#xff0c;而 int* 又指向一個 int 類型的變量。 常見應用場景 動態二維數組&#xff08;例如 int** matrix&#x…

大數據平臺與數據倉庫的核心差異是什么?

隨著數據量呈指數級增長&#xff0c;企業面臨著如何有效管理、存儲和分析這些數據的挑戰。 大數據平臺和 數據倉庫作為兩種主流的數據管理工具&#xff0c;常常讓企業在選型時感到困惑&#xff0c;它們之間的界限似乎越來越模糊&#xff0c;功能也有所重疊。本文旨在厘清這兩種…

Winform(11.案例講解1)

今天寫兩個案例,用于更好的理解控件的使用 在寫之前先寫一個類 using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks; namespace _1.案例講解 { internal class Student { public string …