機器學習基礎理論 - 分類問題評估指標

幾個定義：混淆矩陣

TP： True Positives，表示實際為正例且被分類器判定為正例的樣本數
FP： False Positives，表示實際為負例且被分類器判定為正例的樣本數
FN： False Negatives，表示實際為正例但被分類器判定為負例的樣本數
TN： True Negatives，表示實際為負例且被分類器判定為負例的樣本數

一個小技巧，第一個字母表示劃分正確與否， T 表示判定正確（判定正確）， F表示判定錯誤(False)；第二個字母表示分類器判定結果， P表示判定為正例， N表示判定為負例。

幾個常規的指標

Accuracy： $$ accuracy = \frac{TP + TN}{TP + FP + FN + TN}= \frac{正確預測的樣本數}{所有的樣本數} \ $$ Accuracy 能夠清晰的判斷我們模型的表現，但有一個嚴重的缺陷：在正負樣本不均衡的情況下，占比大的類別往往會成為影響 Accuracy 的最主要因素，此時的 Accuracy 并不能很好的反映模型的整體情況。

Precision： $$ Precision = \frac{TP}{TP + FP} \ Precision = \frac{\sum_{l=1}^{L}TP_l}{\sum_{l=1}^LTP_l + FP_l} = \frac{\text{label 預測為 l 且預測正確的樣本個數}}{\text{label 預測為 l 樣本個數}} \ $$ Recall： $$ Recall = \frac{TP}{TP + FN} \ Recall = \frac{\sum_{l=1}^L TP_l}{ \sum_{l=1}^LTP_l + FN_l} = \frac{\text{label 預測為 l 且預測正確的樣本個數}}{\text{真實樣本中所有 label 為 l 的樣本個數}} $$

Precision 與 Recall 的權衡

精確率高，意味著分類器要盡量在 “更有把握” 的情況下才將樣本預測為正樣本，這意味著精確率能夠很好的體現模型對于負樣本的區分能力，精確率越高，則模型對負樣本區分能力越強。

召回率高，意味著分類器盡可能將有可能為正樣本的樣本預測為正樣本，這意味著召回率能夠很好的體現模型對于正樣本的區分能力，召回率越高，則模型對正樣本的區分能力越強。

從上面的分析可以看出，精確率與召回率是此消彼長的關系，如果分類器只把可能性大的樣本預測為

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/78612.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/78612.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/78612.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！