【NLP】10. 機器學習模型性能評估指標（含多類別情況）, ROC,PRC

機器學習模型性能評估指標（含多類別情況）

1. 模型評估指標簡介

在機器學習中，模型的性能評估非常重要。常用的模型評估指標有：

準確率（Accuracy）
精度（Precision）
召回率（Recall）
F-Score
Micro Average 和 Macro Average

這些指標能夠幫助我們了解模型在預測中的表現，尤其是在不同類別不平衡的情況下，選擇適合的評估標準非常重要。

2. 常用的評估指標

2.1 準確率（Accuracy）

準確率是正確預測的樣本占所有樣本的比例，計算公式為：
$\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}$
其中：

TP：真正例（True Positive）
TN：真反例（True Negative）
FP：假正例（False Positive）
FN：假反例（False Negative）

準確率適用于類別分布比較均衡的情況，但在類別不平衡的情況下，可能會導致誤導。

2.2 精度（Precision）

精度表示預測為正類的樣本中，實際為正類的比例，計算公式為：
$\text{Precision} = \frac{TP}{TP + FP}$
精度可以幫助我們了解預測為正的樣本有多少是準確的。

2.3 召回率（Recall）

召回率表示實際為正類的樣本中，被正確預測為正類的比例，計算公式為：
$\text{Recall} = \frac{TP}{TP + FN}$
召回率能夠告訴我們有多少正類被模型捕獲。

2.4 F-Score

F-Score 是精度和召回率的調和平均值，計算公式為：

$\times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$
F-Score 綜合了精度和召回率，是常用的評估指標，尤其在不平衡分類問題中尤為重要。

3. 多類別評估

當我們面臨多類別問題時，計算方式稍微復雜一些。常用的評估方式包括 Micro Average 和 Macro Average。

3.1 多類別混淆矩陣

在多類別分類問題中，混淆矩陣會擴展為一個矩陣，其中每一行表示真實類別，每一列表示預測類別。舉個例子，如果有四個類別（0, 1, 2, 3），混淆矩陣如下所示：

類別	預測為 0	預測為 1	預測為 2	預測為 3
實際為 0	50	5	3	2
實際為 1	15	40	2	3
實際為 2	8	4	60	5
實際為 3	3	4	5	30

我們可以從這個混淆矩陣中計算出每個類別的 TP, FP, FN, TN。

3.2 每個類別的指標

例如，類別 0 的 TP, FP, FN, TN 計算如下：

TP: 50（實際為 0 且預測為 0）
FP: 15 + 8 + 3 = 26（實際不是 0，但預測為 0）
FN: 5 + 3 + 2 = 10（實際為 0，但預測為其他類別）
TN: 所有其他未預測為 0 的項：40 + 60 + 30 + 3 + 4 + 5 = 142

類似地，我們可以計算其他類別的指標。

3.3 Precision, Recall 和 F-Score 的計算

接下來，我們根據每個類別的 TP, FP, FN 來計算 Precision, Recall 和 F-Score。

類別	TP	FP	FN	Precision	Recall	F-Score
0	50	26	10	0.657	0.833	0.740
1	40	17	20	0.701	0.667	0.684
2	60	12	14	0.833	0.811	0.822
3	30	12	10	0.714	0.750	0.731

3.4 Micro Average 和 Macro Average

Micro Average：先匯總所有類別的 TP, FP, FN，然后計算 Precision, Recall 和 F-Score。
Macro Average：對每個類別的 Precision, Recall 和 F-Score 進行平均。

Micro Average 和 Macro Average 的計算可以幫助我們從整體和類別均值兩個角度評估模型。

Micro Average：

Micro TP = 50+40+60+30=180
Micro FP = 26+17+12+12=67
Micro FN = 10+20+14+10=54

Micro Precision =
$\frac{180}{180 + 67} = 0.729$
Micro Recall =
$\frac{180}{180 + 54} = 0.769$
Micro F-Score =
$\times \frac{0.729 \times 0.769}{0.729 + 0.769} = 0.748$

Macro Average：

Macro Precision =
$\frac{0.657 + 0.701 + 0.833 + 0.714}{4} = 0.751$

Macro Recall =
$\frac{0.833 + 0.667 + 0.811 + 0.750}{4} = 0.765$

Macro F-Score =
$\frac{0.740 + 0.684 + 0.822 + 0.731}{4} = 0.744$

4. 總結

指標	類別 0	類別 1	類別 2	類別 3	Micro Average	Macro Average
Precision	0.657	0.701	0.833	0.714	0.729	0.751
Recall	0.833	0.667	0.811	0.750	0.769	0.765
F-Score	0.740	0.684	0.822	0.731	0.748	0.744

準確率（Accuracy）：適用于類別分布較為平衡的情況。
精度（Precision）：反映了模型對正類預測的準確性。
召回率（Recall）：反映了模型捕獲到正類的能力。
F-Score：綜合了精度和召回率，是綜合性評估指標。
Micro Average：考慮每個樣本的貢獻，適合不平衡數據集。
Macro Average：對各類別的表現取平均，適合類別均衡時的綜合評估。

5. 應用場景

這些評估指標廣泛應用于分類問題，尤其是當數據類別不平衡時，F-Score 和 Macro Average 常常比 Accuracy 更具參考價值。

6. 任務相關性對評估指標選擇的影響

不同任務對 False Positive (FP) 和 False Negative (FN) 的容忍度不同，因此在選擇評估指標時，必須考慮任務的目標和后果。

6.1 垃圾郵件檢測（Spam Detection）

在垃圾郵件檢測任務中：

False Positive (FP)：將一個真實郵件誤判為垃圾郵件。這個錯誤的影響比較大，因為用戶可能會錯過重要的郵件。
False Negative (FN)：將垃圾郵件誤判為正常郵件。這個錯誤影響較小，用戶可以手動刪除多余的垃圾郵件。

模型評估建議：

對于垃圾郵件檢測任務，False Positives (FP) 更為嚴重，因為用戶寧愿刪除一些額外的垃圾郵件，也不希望錯過重要郵件。
因此，在這種情況下，我們應該更加關注 Precision，即我們預測為正的郵件中，有多少是真正的垃圾郵件。

6.2 法院文件提交（Providing Document in Court）

在法庭文件提交任務中：

False Positive (FP)：錯誤地提交了不相關的文件。這個錯誤的后果較小，可能僅會導致一些額外的工作。
False Negative (FN)：漏掉了需要提交的重要文件。這個錯誤的后果非常嚴重，可能會導致案件失敗或法律后果。

模型評估建議：

對于這種任務，False Negatives (FN) 更為嚴重，因為漏掉重要文件可能會對案件產生災難性的后果。
因此，我們應該更加關注 Recall，即模型能識別出多少真實需要提交的文件。

6.3 任務翻轉的影響

如果任務發生翻轉，評估指標的優先級也可能發生變化。例如：

如果將“垃圾郵件檢測”任務翻轉為“相關郵件檢測”任務，目標是找出所有與用戶相關的重要郵件，而不僅僅是過濾垃圾郵件，那么 Recall 變得更加重要。
在這種情況下，漏掉一個重要郵件（False Negative）可能比誤將一些不重要郵件標記為重要（False Positive）更加嚴重。

7. ROC 曲線與 Precision-Recall 曲線

7.1 什么是 ROC 曲線？

7.1.1 ROC 曲線的定義

ROC（Receiver Operating Characteristic）曲線用于評估分類模型在不同閾值下的表現。它描繪了模型的 True Positive Rate (TPR) 和 False Positive Rate (FPR) 之間的關系。

TPR（True Positive Rate），即 Recall：表示模型在所有實際為正類的樣本中預測正確的比例。
FPR（False Positive Rate）：表示模型在所有實際為負類的樣本中錯誤預測為正類的比例，計算公式為：

$\frac{FP}{FP + TN}$

7.1.2 ROC 曲線的含義

TPR（True Positive Rate） 對應的是 Recall。
FPR（False Positive Rate） 對應的是 1 - Specificity，其中 Specificity 是指模型在所有實際為負類的樣本中預測正確的比例。

通過繪制不同閾值下的 TPR 和 FPR，我們可以得到 ROC 曲線。ROC 曲線的理想情況是 TPR 為 1，FPR 為 0，這意味著模型的分類能力完美。

7.1.3 AUC（Area Under Curve）

AUC 是 ROC 曲線下的面積，值越接近 1，表示模型越好。AUC 值為 0.5 表示模型沒有任何區分能力，相當于隨機猜測。

7.2 什么是 Precision-Recall 曲線？

與 ROC 曲線類似，Precision-Recall 曲線也是評估模型性能的一種方法，但其更加關注正類樣本的表現。當數據集是高度不平衡時，Precision-Recall 曲線往往比 ROC 曲線更能準確反映模型的性能。

7.2.1 Precision-Recall 曲線的定義

Precision-Recall 曲線 描繪了 Precision 和 Recall 在不同閾值下的變化。我們通過調整分類閾值來計算不同閾值下的 Precision 和 Recall，然后繪制出曲線。

7.2.2 Precision-Recall 曲線的作用

Precision-Recall 曲線 可以幫助我們理解模型在正類樣本的分類表現，尤其是當正類樣本數量較少時。
如果 Precision 和 Recall 都較高，則說明模型在正類預測時既準確又完整。

7.3 如何計算 Precision 和 Recall 并繪制 Precision-Recall 曲線

7.3.1 準備數據

假設我們有以下數據集，包含了每個樣本的真實標簽和模型輸出的預測概率：

樣本編號	真實標簽 (y_true)	模型預測概率 (y_scores)
1	1	0.9
2	0	0.7
3	1	0.8
4	0	0.4
5	1	0.85

7.3.2 選擇不同閾值并計算 Precision 和 Recall

根據預測概率排序：

樣本編號	真實標簽 (y_true)	模型預測概率 (y_scores)
1	1	0.9
3	1	0.8
5	1	0.85
2	0	0.7
4	0	0.4

選擇閾值：0.9, 0.8, 0.7, 0.5，分別計算 Precision 和 Recall。

閾值 = 0.9

預測為正類的樣本：樣本 1
TP = 1, FP = 0, FN = 2, TN = 2
Precision = 1, Recall = 0.33

閾值 = 0.8

預測為正類的樣本：樣本 1, 3, 5
TP = 3, FP = 1, FN = 0, TN = 1
Precision = 0.75, Recall = 1

閾值 = 0.7

預測為正類的樣本：樣本 1, 2, 3, 5
TP = 3, FP = 1, FN = 0, TN = 1
Precision = 0.75, Recall = 1

閾值 = 0.5

預測為正類的樣本：樣本 1, 2, 3, 4, 5
TP = 3, FP = 2, FN = 0, TN = 0
Precision = 0.6, Recall = 1

7.3.3 繪制 Precision-Recall 曲線

通過計算不同閾值下的 Precision 和 Recall，我們可以繪制 Precision-Recall 曲線。以下是不同閾值下的 Precision 和 Recall 的數據：

閾值	Precision	Recall
0.9	1	0.33
0.8	0.75	1
0.7	0.75	1
0.5	0.6	1

使用 matplotlib 繪制 Precision-Recall 曲線：

import matplotlib.pyplot as plt# Precision 和 Recall 的值
precision = [1, 0.75, 0.75, 0.6]
recall = [0.33, 1, 1, 1]
thresholds = [0.9, 0.8, 0.7, 0.5]# 繪制 Precision-Recall 曲線
plt.plot(recall, precision, marker='o', color='b')
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('Precision-Recall Curve')
plt.grid(True)
plt.show()