機器學習--分類

陽性（Positive）和陰性（Negative）

陽性（Positive） = 正類：通常指的是我們關注的類別或事件；
陰性（Negative） = 負類：指的是與陽性相反的類別或事件。

如果對貓類別感興趣，那么貓就是正類，而其他事物（例如狗，牛，人類）都是負類。

如果目標是檢測/識別行人，那么行人就是正類，而其余的則是負類。

陽性和陰性完全是一個相對的概念，取決于任務中關注的對象。

混淆矩陣（Confusion Matrix）

混淆矩陣 = 可能性矩陣 = 錯誤矩陣，它是一種用于評估機器學習分類模型表現的工具，它將模型的預測結果分為四類，以預測垃圾郵件為例子：
在這里插入圖片描述

真陽性（True Positive, TP）：實際為陽性，預測也為陽性。垃圾郵件，模型分類為垃圾郵件
真陰性（True Negative, TN）：實際為陰性，預測也為陰性。普通郵件，模型分類為普通郵件
假陽性（False Positive, FP） = 第一類錯誤（Type I Error） = 誤報 ：實際為陰性，預測為陽性。普通郵件，模型分類為垃圾郵件。
假陰性（False Negative, FN） = 第二類錯誤（Type II Error） = 漏報：實際為陽性，預測為陰性。垃圾郵件，模型分類為普通郵件

閾值 Threshold

通過設置閾值，我們可以直接指示模型以何種置信度（Confident Level）來區分正類和負類

假設有一個用于垃圾郵件檢測的邏輯回歸模型，該模型預測一個介于 0 到 1 之間的值，表示給定電子郵件是垃圾郵件的概率。預測結果為 0.50 表示電子郵件為垃圾郵件的可能性為 50%，預測為 0.75 表示電子郵件為垃圾郵件的可能性為 75%，依此類推。

您想在電子郵件應用中部署此模型，以將垃圾郵件過濾到單獨的郵件文件夾中。不過，為此，您需要轉換模型的原始數值輸出（例如 0.75）分為“垃圾郵件”或“非垃圾郵件”這兩類。

如需進行此轉換，您需要選擇一個閾值概率，稱為分類閾值（Classification Threshold）。然后，概率高于閾值的樣本會被分配到正類別（即要測試的類，此處為 spam）。概率較低的樣本會被分配到負類別（即備選類別，此處為 not spam）。

雖然 0.5 看起來像是一個直觀的閾值，但如果一種錯誤分類的代價高于另一種類型，例如將非常重要的正常郵件錯誤歸類為垃圾郵件（這就是后面會提到的假陽性/第一類錯誤/誤報），應顯著提高閾值避免誤判。

先給結論

降低閾值，會提高真正例、假正例（誤報），降低真負例、假負例（漏報）；
提高閾值，會提高真負例、假負例（漏報），降低真正例、假正例（誤報）
原因顯而易見，閾值更高，模型需要更高的信心才會歸類為正例，因此不管實際正負，模型預測為正的樣本都會變少，而結果是二元化，不預測為正就會預測為負，因此模型預測為負的樣本都會變多。

舉個例子，假設在數據集中，實際正例和實際負例分別為 50，合計 100
在這里插入圖片描述

當閾值設為 0 時，代表著指示模型，將可能性大于 0 的例子歸類為正例，實質就是將所有例子歸類為正例
這樣做的優點是能找出所有正例，但相對的，會引入很多誤報。
以垃圾郵件為例，即雖然能準確找到所有垃圾郵件，但也會把所有普通郵件都當成垃圾郵件誤報。
在這里插入圖片描述

當閾值設為 0.53 時，代表著指示模型，將可能性大于 0.53 的例子歸類為正例
這樣做，我們可以極大減少誤報，但相應地也會引入一些漏報。

以垃圾郵件為例，雖然此時有 8 封垃圾郵件沒有被正確分類，但至少，有 47 封普通郵件被正確分類，顯然，在郵件分類中，我們多看幾封垃圾郵件，也不愿意遺漏任何一封普通郵件，因此可以說，0.53 的閾值比 0 的閾值更合理。

在這里插入圖片描述

當閾值設為 0.68 時，代表著指示模型，將可能性大于 0.68 的例子歸類為正例
這樣做，我們可以將誤報完全消除，但相應地引入了大量的漏報。

以垃圾郵件為例，雖然此時所有普通郵件都沒有被誤傷(FP = 0)，但相應的，漏網之魚垃圾郵件大大增加到 22。

在做深度學習預測分類時，有些任務絕對不能出現漏報，為此就算帶來了很多誤報，也可以接受；有些任務，可以容忍出現一些漏報，只要將漏報和誤報控制在一個較低的水平就可以。

癌癥篩查：漏診癌癥（FN）可能導致患者錯過最佳治療時機，危及生命。此時采取的策略應是召回率優先（將閾值降低），即使將許多良性腫瘤誤判為惡性（FP），也需確保盡可能檢出所有癌癥病例。
電商商品推薦：??誤推不相關商品（FP）降低用戶體驗；漏推潛在喜歡商品（FN）損失部分轉化率。此時采取的策略應是平衡精確率和召回率，即將閾值調整到合理地步，類似上面的 0.52 。

數據集不平衡

作為訓練模型的一部分，我們希望提供給模型的數據集中，每個類別包含的實際個例數，應當大致相當。如果實際正例的總數與實際負例的總數不接近，則表示數據集不平衡。以預測垃圾郵件為例，數據集中可能數千條普通郵件，而垃圾郵件只有幾例。

評價模型的指標

真正例、假正例和假負例是用于計算評估模型的幾個實用指標。哪些評估指標最有意義，取決于具體模型和具體任務、不同錯誤分類的代價，以及數據集是平衡的還是不平衡的。

本部分中的所有指標均基于單個固定閾值計算得出，并且會隨閾值的變化而變化。很多時候，用戶會調整閾值以優化其中某個指標。

在這里插入圖片描述

準確率（Accuracy）：準確率用于衡量一個分類模型的效果。它表示模型預測對的次數占總預測次數的百分比。
- 由于精度包含混淆矩陣中的所有四種結果（TP、FP、TN、FN），因此，在執行通用或未指定任務的通用或未指定模型、數據集平衡、兩個類別中的示例數量相近的情況下，精度可以用作衡量模型質量的粗略指標。
- 例如，模型測試了 100 張圖片，其中有 90 張預測正確（TP + TN = 90），那么準確率就是 90%。
- 對于嚴重不均衡的數據集（例如普通郵件占比非常低為1%，垃圾郵件占比為 90%），如果我們將閾值調到最高，模型 100% 都預測為負類（普通郵件），則準確率得分為 99%。盡管得分很高，這個模型實質毫無用處
精確率（Precision）：所有被預測為正類的樣本中，實際為正類的比例。
召回率（Recall） = 靈敏度（Sensitivity） = 真正例率（TPR）：所有實際為正類的樣本中，被預測為正類的比例，衡量模型正確識別正類的能力。召回率。
- 在實際正例數量非常少的不均衡數據集中，召回率作為指標的意義不大。
準確率會在一個合適的閾值達到最高；但精確率和召回率通常呈反函數關系，其中一個提高會反過另一個，無法同時提高二者。
F1 Score ：是精確率和召回率的調和平均數（一種平均值）。該指標在精確率和召回率的重要性之間進行了平衡，對于類別不平衡的數據集，該指標優于準確率。更廣泛地說，當精確率和召回率的值接近時，F1 也會接近它們的值。當精確率和召回率相差很大時，F1 將與較差的指標相似。