【機器學習】ROC 曲線與 PR 曲線

一、混淆矩陣：分類評估的基礎

二. ROC 曲線 (Receiver Operating Characteristic Curve)

三. PR 曲線 (Precision-Recall Curve)

3.1 核心思想

4. 何時使用 ROC 曲線和 PR 曲線？

實驗結果

6. 總結

? ? 在機器學習的分類任務中，我們訓練模型的目標是準確地區分不同的類別。然而，模型的性能并非總是完美，它可能會犯一些錯誤。為了更好地評估和比較不同分類模型的性能，我們需要一些有效的評估指標和可視化工具。其中，ROC (Receiver Operating Characteristic) 曲線和 PR (Precision-Recall) 曲線 就是兩種非常重要的工具，尤其是在處理不平衡數據集時。

本文將深入探討 ROC 曲線和 PR 曲線的概念、計算方法以及如何使用 Python 中的 scikit-learn 庫來繪制它們。

一、混淆矩陣：分類評估的基礎

在理解 ROC 和 PR 曲線之前，我們需要先了解混淆矩陣 (Confusion Matrix)。對于一個二分類問題，混淆矩陣是一個 2x2 的表格，它總結了模型預測結果與真實標簽之間的關系：

預測為正例 (Positive)

預測為負例 (Negative)

真實為正例 (Positive)

真陽性

(True Positive, TP)

假陰性

(False Negative, FN)

真實為負例 (Negative)

假陽性

(False Positive, FP)

真陰性

(True Negative, TN)

基于混淆矩陣，我們可以計算出一些基本的評估指標：

準確率 (Accuracy): $\frac{TP+TN}{TP+TN+FP+FN}$ ?，表示模型預測正確的樣本比例。
精確率 (Precision): $\frac{TP}{TP+FP}$ ，表示在所有預測為正例的樣本中，真正例的比例。
召回率 (Recall) (也稱為靈敏度或真正例率): $\frac{ TP}{ TP+FN}$ ?，表示在所有真實為正例的樣本中，被模型正確預測為正例的比例。
假陽性率 (False Positive Rate, FPR): $\frac{ FP}{ FP+TN}$ ?，表示在所有真實為負例的樣本中，被模型錯誤預測為正例的比例。
真陽性率 (True Positive Rate, TPR) (與召回率相同): $\frac{TP}{TP+FN}$ 。

二. ROC 曲線 (Receiver Operating Characteristic Curve)

ROC 曲線是一種以 假陽性率 (FPR) 為橫軸，真陽性率 (TPR) 為縱軸繪制的曲線。它展示了在不同的分類閾值下，模型的 TPR 和 FPR 之間的權衡關系。

大多數分類器會輸出一個概率值或置信度分數，用于判斷樣本屬于哪個類別。我們可以通過調整這個分類閾值來改變模型的預測結果。例如，如果我們提高閾值，模型會更保守地將樣本預測為正例，這通常會降低 FPR，但也可能降低 TPR。ROC 曲線則將所有可能的閾值對應的 (FPR, TPR) 點連接起來，形成一條曲線。

AUC (Area Under the ROC Curve)

AUC 是 ROC 曲線下的面積，它是一個介于 0 和 1 之間的值。AUC 值越大，表示模型的整體性能越好。

AUC = 1: 完美分類器。
AUC = 0.5: 模型的性能與隨機猜測相當。
AUC < 0.5: 模型的性能比隨機猜測還要差（通常表示模型學習的方向錯誤，可以考慮反轉預測結果）。

三. PR 曲線 (Precision-Recall Curve)

PR 曲線是一種以 召回率 (Recall) 為橫軸，精確率 (Precision) 為縱軸繪制的曲線。它展示了在不同的分類閾值下，模型的精確率和召回率之間的權衡關系。

3.1 核心思想

與 ROC 曲線類似，PR 曲線也是通過調整分類閾值來觀察模型性能的變化。PR 曲線更關注正例的預測情況。

Average Precision (AP)

AP 是 PR 曲線下的面積，它衡量了在不同召回率水平上的平均精確率。AP 值越高，表示模型的性能越好。

4. 何時使用 ROC 曲線和 PR 曲線？

ROC 曲線: 通常在正負樣本比例相對平衡的情況下使用。它對類別不平衡問題不太敏感。ROC 曲線關注的是模型區分正負樣本的能力。
PR 曲線: 更適用于正負樣本比例非常不平衡的情況下。當正例非常稀少時，即使模型預測了一些假陽性，其假陽性率 (FPR) 可能仍然很低，導致 ROC 曲線看起來不錯。然而，此時的精確率 (Precision) 可能會很低，PR 曲線能夠更敏感地反映出這個問題。PR 曲線更關注模型在正例上的預測能力。

5. Python 代碼實現

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_curve, auc, precision_recall_curve, average_precision_score# 隨機生成一個二分類數據集
features, labels = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)# 將數據集劃分為訓練集和測試集
features_train, features_test, labels_train, labels_test = train_test_split(features, labels, test_size=0.3, random_state=42)# 初始化并訓練隨機森林分類器
model = RandomForestClassifier(random_state=42)
model.fit(features_train, labels_train)# 獲取模型在測試集上預測為正類的概率
probabilities = model.predict_proba(features_test)[:, 1]  # 獲取第二列，即正類的概率# 計算 ROC 曲線的 FPR、TPR 和閾值
false_positive_rate, true_positive_rate, thresholds_roc = roc_curve(labels_test, probabilities)
roc_auc_score = auc(false_positive_rate, true_positive_rate)# 計算 PR 曲線的精確率、召回率和閾值
precision_values, recall_values, thresholds_pr = precision_recall_curve(labels_test, probabilities)
average_precision = average_precision_score(labels_test, probabilities)# 繪制 ROC 曲線
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
plt.plot(false_positive_rate, true_positive_rate, color='darkorange', lw=2, label=f'ROC curve (AUC = {roc_auc_score:.2f})')
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate (FPR)')
plt.ylabel('True Positive Rate (TPR) / Recall')
plt.title('Receiver Operating Characteristic (ROC) Curve')
plt.legend(loc="lower right")# 繪制 PR 曲線
plt.subplot(1, 2, 2)
plt.plot(recall_values, precision_values, color='blue', lw=2, label=f'PR curve (AP = {average_precision:.2f})')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('Precision-Recall (PR) Curve')
plt.legend(loc="best")# 顯示繪制的圖像
plt.tight_layout()
plt.show()

實驗結果

ROC曲線解讀：

左下角 (0, 0): 表示模型將所有樣本都預測為負例。
右上角 (1, 1): 表示模型將所有樣本都預測為正例。
左上角 (0, 1): 這是理想的情況，表示模型在不產生任何假陽性的情況下，能夠識別出所有的真實正例。
對角線 (y=x): 表示模型的性能與隨機猜測相當。
曲線越靠近左上角，模型的性能越好。

PR曲線解讀：

右上角 (1, 1): 這是理想的情況，表示模型在識別出所有正例的同時，預測的正例都是正確的。
靠近右上角的曲線表示模型性能越好。
曲線下的面積 (Average Precision, AP) 可以作為衡量 PR 曲線性能的指標。

6. 總結

ROC 曲線和 PR 曲線是評估二分類模型性能的強大工具。ROC 曲線關注模型區分正負樣本的能力，而 PR 曲線更關注模型在正例上的預測能力，尤其適用于不平衡數據集。通過理解和繪制這兩種曲線，我們可以更全面地了解模型的優缺點，并為模型選擇和調優提供有力的支持。在實際應用中，應根據具體的問題和數據的特點選擇合適的評估指標和可視化方法。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/77015.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/77015.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/77015.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！