4.1 機器學習 - 評估指標

模型評估是判斷 “模型是否有效” 的核心環節，需結合任務類型（分類 / 回歸）、數據分布（如類別不平衡）和商業目標選擇指標。本節聚焦分類任務的核心評估指標，從定義、計算邏輯到適用場景逐一拆解，同時補充商業場景的特殊需求。

一、分類任務的核心評估指標（基礎篇）

分類任務的本質是 “將樣本預測為某一類別”，需通過指標量化 “預測結果與真實標簽的匹配程度”。首先明確混淆矩陣（Confusion Matrix） —— 所有分類指標的計算基礎：

真實 \ 預測	正類（Positive）	負類（Negative）
正類（Positive）	TP（True Positive，真陽性）	FN（False Negative，假陰性）
負類（Negative）	FP（False Positive，假陽性）	TN（True Negative，真陰性）

TP：真實正類，預測為正類（正確預測）；
FN：真實正類，預測為負類（漏判，如癌癥患者被判為健康）；
FP：真實負類，預測為正類（誤判，如健康人被判為癌癥）；
TN：真實負類，預測為負類（正確預測）。

基于混淆矩陣，衍生出 4 個最常用的基礎指標：

指標名稱	核心定義	計算公式	適用場景
Accuracy（準確度）	所有預測正確的樣本占總樣本的比例，衡量 “整體預測正確性”	$Accuracy=TP+TNTP+FN+FP+TN\large \text{Accuracy} = \frac{TP + TN}{TP + FN + FP + TN}$	數據分布均衡的場景（如正、負類樣本占比接近 1:1），如 “手寫數字識別”（10 類樣本占比相近）。 ?? 局限性：類別不平衡時失效（如 “fraud 檢測” 中欺詐樣本僅占 1%，全預測為 “非欺詐” 也能得 99% 準確度，但模型無實際價值）。
Precision（精度 / 精確率）	預測為正類的樣本中，真實為正類的比例，衡量 “正類預測的準確性”（降低誤判）	$Precision=TPTP+FP\large\text{Precision} = \frac{TP}{TP + FP}$	需嚴格控制 “假陽性” 的場景：垃圾郵件檢測（避免將正常郵件誤判為垃圾郵件，即 FP 要少）；癌癥診斷初篩（避免健康人被誤判為癌癥，減少不必要的后續檢查）。
Recall（召回率 / 查全率）	真實為正類的樣本中，被預測為正類的比例，衡量 “正類的覆蓋能力”（降低漏判）	$Recall=TPTP+FN\large\text{Recall} = \frac{TP}{TP + FN}$	需嚴格控制 “假陰性” 的場景：欺詐交易檢測（避免將欺詐交易漏判為正常交易，即 FN 要少，否則損失資金）；新冠病毒檢測（避免感染者漏判為陰性，防止疫情擴散）。
F1 Score（F1 分數）	精度（Precision）和召回率（Recall）的調和平均數，平衡二者矛盾	$F1=2×Precision×RecallPrecision+Recall\large\text{F1} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$	精度與召回率均需兼顧的場景：電商商品推薦（既不能推薦大量無關商品（低 Precision），也不能漏推用戶可能喜歡的商品（低 Recall））；招聘簡歷篩選（既不能誤篩優秀候選人（低 Recall），也不能讓大量不合格簡歷進入面試（低 Precision））。 ?? 特點：當 Precision 和 Recall 都高時，F1 才高；若一方極低，F1 也會很低（避免單一指標欺騙）。

指標計算示例（代碼片段）

以二分類任務為例，基于 PyTorch 張量計算上述指標（假設y為真實標簽，y_hat為預測標簽，取值 0/1）：

import torch# 模擬數據：真實標簽y，預測標簽y_hat（各100個樣本）
y = torch.tensor([1,0,1,1,0]*20)  # 真實正類40個，負類60個
y_hat = torch.tensor([1,0,0,1,1]*20)  # 預測正類40個，負類60個# 1. 計算混淆矩陣元素
TP = ((y_hat == 1) & (y == 1)).sum().item()  # 真陽性：26
FN = ((y_hat == 0) & (y == 1)).sum().item()  # 假陰性：14
FP = ((y_hat == 1) & (y == 0)).sum().item()  # 假陽性：14
TN = ((y_hat == 0) & (y == 0)).sum().item()  # 真陰性：46# 2. 計算各指標
Accuracy = (TP + TN) / (TP + FN + FP + TN)  # (26+46)/100 = 0.72
Precision = TP / (TP + FP)  # 26/(26+14) = 0.65
Recall = TP / (TP + FN)  # 26/(26+14) = 0.65
F1 = 2 * Precision * Recall / (Precision + Recall)  # 2*0.65*0.65/(0.65+0.65) = 0.65print(f"Accuracy: {Accuracy:.2f}, Precision: {Precision:.2f}, Recall: {Recall:.2f}, F1: {F1:.2f}")

二、分類任務的核心評估指標（進階篇）：ROC 曲線與 AUC

基礎指標（如 Precision、Recall）依賴 “固定的分類閾值 θ”（如將模型輸出概率≥0.5 的樣本預測為正類），而ROC 曲線與 AUC通過 “遍歷所有閾值”，全面衡量模型的 “類別區分能力”，尤其適合類別不平衡場景。

1. ROC 曲線：閾值無關的區分能力可視化

核心概念（基于混淆矩陣）

FPR（False Positive Rate，假正例率）：真實負類中被預測為正類的比例（對應 ROC 的 X 軸），衡量 “誤判負類的概率”： $FPR=FPFP+TN\large \text{FPR} = \frac{FP}{FP + TN}$
TPR（True Positive Rate，真正例率）：真實正類中被預測為正類的比例（對應 ROC 的 Y 軸），即 “Recall（召回率）”： $\large \text{TPR} = \frac{TP}{TP + FN} = \text{Recall}$

ROC 曲線的繪制邏輯

獲取模型對所有樣本的 “預測概率”（而非固定標簽，如模型輸出 “樣本為正類的概率 = 0.8”）；
遍歷一系列閾值 θ（如從 0 到 1，步長 0.01）：
- 對每個 θ，將 “預測概率≥θ” 的樣本判為正類，“<θ” 判為負類；
- 計算該 θ 對應的 FPR（X 值）和 TPR（Y 值）；
將所有（FPR, TPR）點連成曲線，即為 ROC 曲線。

ROC 曲線的解讀

理想曲線：緊貼左上角（即 FPR 接近 0 時，TPR 接近 1）—— 意味著 “幾乎不誤判負類，且能覆蓋所有正類”；
隨機猜測曲線：沿對角線（y=x）分布 ——AUC=0.5，模型無區分能力（如拋硬幣預測類別）；
差模型曲線：在對角線下方 —— 模型區分能力比隨機猜測還差（可反向預測改善）。

2. AUC（Area Under ROC Curve）：ROC 曲線下的面積

核心定義

AUC 是 ROC 曲線與 X 軸（FPR 軸）圍成的面積，取值范圍為 [0,1]，直接量化模型的 “類別區分能力”：

AUC=1：完美模型（所有正類樣本的預測概率都大于負類，無任何誤判）；
0.5 < AUC < 1：模型有一定區分能力（AUC 越接近 1，區分能力越強）；
AUC=0.5：模型無區分能力（與隨機猜測無異）；
AUC < 0.5：模型區分能力差于隨機猜測（通常是標簽定義反了，可調整正 / 負類后重新計算）。

適用場景

需評估 “模型整體區分能力” 而非 “某一閾值下的性能”，如 “信用評分模型”（需判斷用戶 “違約概率” 的排序能力，而非固定閾值下的分類結果）；
類別不平衡場景（如 “疾病診斷” 中陽性樣本極少），AUC 比 Accuracy 更能反映模型真實性能。

三、商業場景中的模型評估：不止于技術指標

在工業落地中，技術指標（如 Accuracy、AUC）需結合商業目標轉化為 “可量化的業務價值指標”，常見場景如下：

業務場景	技術指標	商業評估指標	核心目標
電商推薦系統	Precision（推薦準確率）、Recall（推薦覆蓋度）	1. 點擊率（CTR）：推薦商品中被點擊的比例； 2. 轉化率（CVR）：點擊推薦商品后下單的比例； 3. 客單價（ARPU）：推薦帶來的平均用戶消費額	提升用戶點擊與下單，最終增加平臺營收
金融欺詐檢測	Recall（欺詐召回率）、FPR（誤判率）	1. 欺詐損失挽回率：被模型識別并攔截的欺詐交易損失占總欺詐損失的比例； 2. 正常用戶誤攔截率：被誤判為欺詐的正常交易占總正常交易的比例	最大化挽回欺詐損失，同時最小化正常用戶體驗影響
在線廣告投放	AUC（廣告點擊率預測的區分能力）	1. 廣告投放 ROI：廣告花費與廣告帶來的營收比； 2. 千次展現收益（eCPM）：每千次廣告展現帶來的收益	提升廣告投放效率，降低廣告主成本，增加平臺廣告收入
內容審核（如短視頻違規檢測）	Precision（違規識別準確率）、Recall（違規召回率）	1. 人工復核率：模型標記為違規的內容中需人工二次審核的比例； 2. 違規漏審率：未被模型識別的違規內容占總違規內容的比例	降低人工審核成本，同時避免違規內容流出（減少平臺風險）