【機器學習深度學習】模型微調時的4大基礎評估指標（1）

前言：基礎評估指標（從 “對與錯” 到 “準與全”）

一、基礎評估4大指標

二、類比理解

2.1 準確率（Accuracy）：整體對的比例

2.2?精確率（Precision）：你說是垃圾的，有多少真的是？

2.3?召回率（Recall）：所有垃圾郵件中，你抓住了多少？

2.4?F1 分數（F1 Score）：“精確率”和“召回率”的平衡點

小結

三、一個簡單的例子練練手

四、大典型業務場景指標側重

前言：基礎評估指標（從 “對與錯” 到 “準與全”）

在自然語言處理（NLP）或計算機視覺（CV）等任務中，模型微調（Fine-tuning）已成為遷移學習不可或缺的步驟。我們常說“調模型”，可問題是，調到什么程度才算調得好？核心就在于：如何評估微調后的模型是否達標。

本文將系統梳理模型微調過程中的核心評估指標，幫助你科學判斷模型性能，避免“調不準、評不清”的尷尬局面。

一、基礎評估4大指標

微調模型后，第一步就是搞清楚“預測得準不準”。以下四類基礎指標，是所有監督學習任務的評估基石：

指標	公式	適用場景
準確率 Accuracy	(TP + TN) / (TP + TN + FP + FN)	類別均衡時反映整體正確性
精確率 Precision	TP / (TP + FP)	假正例代價高（如垃圾郵件）
召回率 Recall	TP / (TP + FN)	假負例代價高（如疾病漏診）
F1 分數 F1 Score	2 × (P × R) / (P + R)	平衡考慮“準”與“全”，適合類別不平衡場景

理解提示：

TP：預測為正且實際為正

FP：預測為正但實際為負

FN：預測為負但實際為正

TN：預測為負且實際為負

二、類比理解

📦 假設你在做一個“垃圾郵件識別器”

你的模型要判斷每封郵件是否是垃圾郵件（正類），正常郵件是非垃圾郵件（負類）。

模型預測后你得到這樣的結果：

實際 \ 預測垃圾郵件（正類）正常郵件（負類）
垃圾郵件（正類） ? 預測對了：TP ? 漏掉了：FN
正常郵件（負類） ? 誤判了：FP ? 沒判斷是垃圾：TN

縮寫中文名稱含義（預測結果 vs 實際情況）舉例說明
TP 真正例 模型預測是垃圾郵件，實際也是垃圾郵件 你說它是垃圾，它也確實是垃圾（預測對了）
FP 假正例 模型預測是垃圾郵件，但實際是正常郵件 你誤把正常郵件當成垃圾郵件（誤判）
FN 假負例 模型預測是正常郵件，但實際是垃圾郵件 你沒發現它是垃圾郵件（漏掉了）
TN 真負例 模型預測是正常郵件，實際也是正常郵件 你說它是正常郵件，它也確實正常（預測對了）

實際 \ 預測	垃圾郵件（正類）	正常郵件（負類）
垃圾郵件（正類）	? 預測對了：TP	? 漏掉了：FN
正常郵件（負類）	? 誤判了：FP	? 沒判斷是垃圾：TN

縮寫	中文名稱	含義（預測結果 vs 實際情況）	舉例說明
TP	真正例	模型預測是垃圾郵件，實際也是垃圾郵件	你說它是垃圾，它也確實是垃圾（預測對了）
FP	假正例	模型預測是垃圾郵件，但實際是正常郵件	你誤把正常郵件當成垃圾郵件（誤判）
FN	假負例	模型預測是正常郵件，但實際是垃圾郵件	你沒發現它是垃圾郵件（漏掉了）
TN	真負例	模型預測是正常郵件，實際也是正常郵件	你說它是正常郵件，它也確實正常（預測對了）

?🧠 四個指標通俗解釋

2.1 準確率（Accuracy）：整體對的比例

你總共判斷了多少封郵件？你猜對了多少？

📌 公式：

Accuracy = (TP + TN) / 總郵件數

?? 適合用在“垃圾郵件”和“正常郵件”數量差不多時。如果90%都是正常郵件，那模型哪怕啥都不做，只說“都是正常郵件”，準確率都能高達90% —— 所以不能總用它判斷。

2.2?精確率（Precision）：你說是垃圾的，有多少真的是？

你標了10封垃圾郵件，結果只有6封真的是，其它4封是誤判的（誤傷），那么你的精確率是 60%。

📌 公式：

Precision = TP / (TP + FP)

?? 適合在“誤傷很嚴重”的場景，比如：

正常郵件被誤判為垃圾（你可能錯過重要郵件）
把好人當壞人（治安系統）

2.3?召回率（Recall）：所有垃圾郵件中，你抓住了多少？

10封真實垃圾郵件你只識別出6封，那召回率是60%。還有4封你沒發現，被放進了收件箱（漏判）

📌 公式：

Recall = TP / (TP + FN)

?? 適合在“漏掉很嚴重”的場景，比如：

癌癥診斷（不能漏掉任何患者）
安檢（不能漏掉任何違禁物品）

2.4?F1 分數（F1 Score）：“精確率”和“召回率”的平衡點

當你想又“抓得準”又“抓得全”，F1就是這個中間值。

?📌 公式：

F1 = 2 × (Precision × Recall) / (Precision + Recall)

? 適合 類別不平衡任務（比如只有1%的郵件是垃圾），因為準確率可能失真，而F1分數更真實反映模型在“正類”上的能力。

小結

🎯 一個表格總結四者：

指標	問的問題	更關注哪一類錯誤？	舉例適用場景
Accuracy	總體猜對了嗎？	不區分	分類均衡的數據
Precision	說是“正”的，有多少是對的？	少犯假正例（FP）	垃圾郵件、司法錯判
Recall	真正的“正”，你找到了多少？	少漏真正例（FN）	癌癥篩查、異常檢測
F1 Score	精確率 vs 召回率的折中	平衡兩者	類別不平衡、重點關注正類

三、一個簡單的例子練練手

假設我們有 100 封郵件：

實際有 20 封是垃圾（正類），80 封是正常（負類）

模型預測了 25 封為垃圾，其中：

真正是垃圾的有 15 封（TP）

誤判的有 10 封（FP）

漏掉的垃圾郵件有 5 封（FN）

判斷為正常的 75 封中有 70 封真的是正常（TN）

我們來算一下四個指標：

Accuracy = (TP + TN) / 所有郵件 = (15 + 70) / 100 = 85%
Precision = TP / (TP + FP) = 15 / (15 + 10) = 60%
Recall = TP / (TP + FN) = 15 / (15 + 5) = 75%
F1 = 2 × (0.6 × 0.75) / (0.6 + 0.75) ≈ 66.7%

四、大典型業務場景指標側重

下面按 5?大典型業務場景 展開，說明為什么要偏重某一指標、具體怎么做權衡，并給出常見做法參考。讀完你就知道：面對不同任務，該把“注意力”放在 Accuracy、Precision、Recall 還是?F1 上。

場景類型	錯誤成本特點	首選指標	為什么	常見做法 & Tips
1. 類別基本均衡（情感三分類、貓狗二分類等）	正反例數量相近，FP 與 FN 代價也差不多	準確率?(Accuracy)	既能直觀反映整體正確率，又不會被類別失衡“稀釋”	- 仍需同時監控 P/R，防止模型“懶惰”- 若類別稍不平衡，可補充 Macro?F1
2. 假正例代價高（垃圾郵件、司法誤判、廣告點擊扣費）	把正常樣本錯判為正樣本會直接傷害用戶或帶來損失	精確率?(Precision)	希望“凡是你說是正類的，基本都靠譜”	- 通過升高閾值提高 Precision- 將 FP 加入損失函數權重- 提供手動復核流程來彌補召回下降
3. 假負例代價高（癌癥篩查、金融欺詐預警、危險品檢測）	漏掉真實正樣本可能造成巨大風險	召回率?(Recall)	情愿多報幾個可復查，也不能漏掉關鍵正例	- 降低閾值提升 Recall- 采用級聯模型：先高 Recall 粗篩→再高 Precision 精篩- 人工二審去除 FP
4. 類別極度不平衡（罕見缺陷檢測、少數客戶流失預測）	正類稀少，Accuracy 失真，FP/FN 代價往往都高	F1（宏或加權）	同時關注“抓得全”與“抓得準”，避免單邊傾斜	- 報告 Macro?F1 + per?class P/R- 采樣或代價敏感學習處理失衡- PR?Curve 找最佳閾值
5. 多標簽 / 大規模分類（文本多標簽、商品千分類）	單條樣本可屬于多類，或類數特別多	微平均 F1 或 Micro P/R	把所有 TP/FP/FN 匯總，更能體現全局覆蓋	- 業務看“能覆蓋多少標簽” → 看 Recall- 看“推薦列表質量” → 看 Precision@k- 別忘對長尾類別做 Macro?分析