上一章:機器學習04——決策樹
下一章:機器學習06——支持向量機
機器學習實戰項目:【從 0 到 1 落地】機器學習實操項目目錄:覆蓋入門到進階,大學生就業 / 競賽必備
文章目錄
- 一、多分類學習
- (一)一對一(One vs. One, OvO)
- (二)一對其余(One vs. Rest, OvR)
- (三)兩種策略的比較
- (四)多對多(Many vs. Many, MvM)
- 二、類別不平衡問題
- (一)再縮放(Rescaling)
- (二)采樣方法
- (三)閾值移動(Threshold-moving)
- (四)方法選擇
一、多分類學習
多分類學習旨在解決類別數大于2的分類問題,核心思路是通過任務拆分將多分類問題轉化為多個二分類問題,再集成二分類器的結果得到最終分類。常見的拆分策略包括一對一、一對其余和多對多。
(一)一對一(One vs. One, OvO)
- 任務拆分:將N個類別兩兩配對,生成N(N?1)/2N(N-1)/2N(N?1)/2個二分類任務(如類別C1C_1C1?與C2C_2C2?、C1C_1C1?與C3C_3C3?等),每個任務僅使用對應兩個類別的樣本訓練分類器,最終得到N(N?1)/2N(N-1)/2N(N?1)/2個分類器。
- 測試階段:將新樣本輸入所有分類器,每個分類器會判定樣本屬于兩個類別中的一個,通過“投票”機制確定最終類別——被預測次數最多的類別即為結果。
- 特點:每個分類器的訓練僅使用兩個類的樣本,訓練時間較短,但需訓練和存儲的分類器數量多(如10個類別需45個分類器),存儲和測試開銷較大。
(二)一對其余(One vs. Rest, OvR)
- 任務拆分:為每個類別構建一個二分類任務,將該類別視為“正例”,其余所有類別視為“反例”,共生成N個二分類任務,訓練得到N個分類器。
- 測試階段:將新樣本輸入所有分類器,每個分類器會輸出樣本屬于其對應“正例”類別的置信度,選擇置信度最大的類別作為最終結果。
- 特點:分類器數量少(N個),存儲和測試開銷小,但每個分類器的訓練需使用全部樣本(正例少、反例多),訓練時間較長,且可能因類別不平衡影響單個分類器性能。
(三)兩種策略的比較
- 性能:在多數情況下,OvO和OvR的預測性能相近,具體取決于數據分布。
- 效率:OvO的訓練時間更短(單個分類器樣本少),但存儲和測試開銷更大;OvR則相反,適合類別數較多的場景。
(四)多對多(Many vs. Many, MvM)
- 核心思想:通過預設的“類別子集”劃分任務,每個任務將一部分類別作為正例,另一部分作為反例(如利用糾錯輸出碼機制,為每個類別分配唯一的二進制編碼,通過多個二分類器學習編碼的每一位)。
- 特點:能更好地利用類別間的關聯信息,抗噪聲能力較強,但任務設計較復雜,實際應用中不如OvO和OvR廣泛。
二、類別不平衡問題
類別不平衡指訓練集中不同類別的樣本數量相差懸殊(如正例僅占10%,反例占90%),可能導致分類器偏向多數類,忽視少數類。常見解決方法包括再縮放、采樣和閾值移動。
(一)再縮放(Rescaling)
- 原理:基于貝葉斯決策理論,調整分類閾值。對于二分類問題,若正例先驗概率為p+p_+p+?、反例為p?p_-p??,最優決策應滿足y1?y>p?p+\frac{y}{1-y} > \frac{p_-}{p_+}1?yy?>p+?p???(其中yyy為樣本屬于正例的預測概率)。當訓練集類別不平衡時(如正例樣本數m+m^+m+、反例m?m^-m?),可用m?m+\frac{m^-}{m^+}m+m??近似p?p+\frac{p_-}{p_+}p+?p???,調整決策閾值。
(二)采樣方法
- 欠采樣(Undersampling):通過移除部分多數類(反例)樣本,使正反例數量接近。例如EasyEnsemble算法,多次隨機采樣多數類樣本與少數類組成訓練集,訓練多個分類器后集成,避免因單次采樣丟失重要信息。
- 過采樣(Oversampling):通過增加少數類(正例)樣本,平衡類別比例。例如SMOTE算法,基于少數類樣本的近鄰生成“虛擬樣本”,避免簡單復制樣本導致的過擬合。
(三)閾值移動(Threshold-moving)
- 原理:不改變訓練數據,直接調整分類器的決策閾值。例如,當正例樣本少而反例多時,降低正例的判定閾值(如將默認的0.5調整為0.3),使分類器更“容易”將樣本判定為正例,從而平衡對少數類的識別率。
(四)方法選擇
- 小規模數據集優先考慮過采樣(避免信息丟失);
- 大規模數據集可采用欠采樣(減少計算開銷);
- 閾值移動常與采樣結合使用,進一步優化分類器對少數類的敏感性。
上一章:機器學習04——決策樹
下一章:機器學習06——支持向量機
機器學習實戰項目:【從 0 到 1 落地】機器學習實操項目目錄:覆蓋入門到進階,大學生就業 / 競賽必備