機器學習常用評估指標
機器學習的評價指標有精度、精確率、召回率、P-R曲線、F1 值、TPR、FPR、ROC等指標,還有在生物領域常用的敏感性、特異性等指標。
基礎
在分類任務中,各指標的計算基礎都來自于對正負樣本的分類結果,用混淆矩陣表示,如 圖1 所示:
其中:
-
TP(True Positives)表示真正例,即模型正確預測為正類的樣本數量。
-
FN(False Negatives)表示假負例,即模型錯誤預測為負類的正類樣本數量。
-
FP(False Positive)表示假正例,即模型錯誤地將負類預測為正類的情況。
-
TN(True Negative)表示真正例,即模型正確地將負類預測為負類的情況。
精度
Accuracy = T P + T N T P + F N + F P + T N \text{Accuracy} = \frac{TP + TN}{TP + FN + FP + TN} Accuracy=TP+FN+FP+TNTP+TN?
即所有分類正確的樣本占全部樣本的比例。
精確率
精確率又叫Precision
Precision = T P T P + F P \text{Precision} = \frac{TP}{TP + FP} Precision=TP+FPTP?
模型預測為正例的樣本中,真正為正例的比例。
召回率
召回率又叫:Recall、查全率
Recall = T P T P + F N \text{Recall} = \frac{TP}{TP + FN} Recall=TP+FNTP?
即模型正確識別出的正類樣本占所有實際正類樣本的比例。
P-R曲線
P-R曲線又叫做:PRC,通過可視化的方式展示了模型在精確率和召回率兩個關鍵指標之間的權衡關系。
理想情況下,曲線應盡可能靠近右上角(精確率和召回率均為 1)。
AP(Average Precision)是 P-R 曲線與坐標軸圍成的面積,用于量化模型整體性能。AP 值越高,模型在不同閾值下的綜合表現越好。
F1 值
F1 值是機器學習中用于衡量分類模型性能的綜合指標,它通過調和平均的方式整合了精確率和召回率。
F 1 = 2 ? P ? R P + R F1 = \frac{2 \ast P \ast R}{P + R} F1=P+R2?P?R?
相較于算術平均,調和平均更強調對較小值的敏感性。這意味著當精確率或召回率任意一方過低時,F1 值會顯著下降,從而強制模型在兩者間尋求平衡。
TPR
真正例率,衡量正例識別能力,即召回率。
TPR = T P T P + F N \text{TPR} = \frac{TP}{TP + FN} TPR=TP+FNTP?
FPR
假正例率,衡量負例誤判為正例的比例。
FPR = F P F P + T N \text{FPR} = \frac{FP}{FP + TN} FPR=FP+TNFP?
ROC
ROC曲線起源于二戰時期的雷達信號檢測理論,用于衡量 “信號” 與 “噪聲” 的區分能力。
P-R 和 ROC 的區別:
ROC 曲線以FPR為橫軸、TPR為縱軸,側重展示模型在不同閾值下區分正負樣本的整體能力,對樣本不均衡不敏感,適用于醫療診斷等需平衡誤判成本的場景;而 P-R 曲線以Recall為橫軸、Precision為縱軸,直接刻畫正例預測的 “查準率” 與 “查全率” 權衡,在正負樣本高度失衡(如欺詐檢測)時更能反映模型對稀有正例的識別性能,兩者分別從不同維度揭示模型在分類閾值調整下的表現,需結合數據分布和業務目標選擇使用。
AUC 即 ROC 曲線下的面積,是評估二分類模型性能的核心指標。其本質是衡量模型對正負樣本的排序能力——AUC 值越高,模型將正樣本排在負樣本之前的概率越大。