? 一、有監督學習(Supervised Learning)
定義:有監督學習中,模型訓練依賴于已標注的樣本,即輸入和輸出(標簽)成對出現。
標簽空間可能是:
-
離散型(Discrete):如分類任務(Classification)中的類別標簽;
-
連續型(Continuous):如回歸任務(Regression)中的數值標簽。
常見有監督學習方法:
方法名稱 | 類型 | 標簽空間 | 簡要說明 |
---|---|---|---|
線性回歸(Linear Regression) | 回歸 | 連續 | 預測連續值,如房價預測 |
邏輯回歸(Logistic Regression) | 分類 | 離散 | 二分類常用方法,輸出概率 |
K近鄰(KNN) | 分類/回歸 | 離散/連續 | 基于鄰居樣本投票或平均 |
支撐向量機(SVM) | 分類/回歸 | 離散/連續 | 最大化間隔的判別模型 |
決策樹(Decision Tree) | 分類/回歸 | 離散/連續 | 樹形結構,規則清晰可解釋 |
隨機森林(Random Forest) | 分類/回歸 | 離散/連續 | 多棵樹的集成,魯棒性強 |
神經網絡(NN) | 分類/回歸 | 離散/連續 | 表達能力強,可擬合復雜映射 |
貝葉斯分類器(Naive Bayes) | 分類 | 離散 | 基于概率模型的簡單有效方法 |
? 二、無監督學習(Unsupervised Learning)
定義:無監督學習中,模型僅依賴輸入數據,不依賴標注信息,目標是挖掘數據的結構或分布規律。
標簽空間:無原始標簽,但可以形成隱含結構,如簇類別、主成分方向等,通常是離散型或低維表示。
常見無監督學習方法:
方法名稱 | 類型 | 輸出空間(是否離散) | 簡要說明 |
---|---|---|---|
K均值聚類(K-Means) | 聚類 | 離散 | 將樣本分為 K 個簇 |
層次聚類(Hierarchical Clustering) | 聚類 | 離散 | 形成聚類樹結構 |
高斯混合模型(GMM) | 聚類 | 離散(概率軟分配) | 假設數據由多個高斯分布組成 |
主成分分析(PCA) | 降維 | 連續(低維嵌入) | 保留數據主方向特征 |
獨立成分分析(ICA) | 降維 | 連續 | 提取統計獨立源信號 |
t-SNE / UMAP | 可視化降維 | 連續 | 非線性降維用于數據可視化 |
自編碼器(AutoEncoder) | 特征學習 | 連續(低維編碼) | 神經網絡進行非線性壓縮重構 |
DBSCAN | 聚類 | 離散 | 基于密度的聚類方法,能發現任意形狀簇 |
? 三、總結對比表格
方法名稱 | 學習類型 | 標簽/輸出空間 | 空間類型 | 簡要說明 |
---|---|---|---|---|
線性回歸 | 有監督 | 連續 | 連續 | 房價預測等連續值建模 |
邏輯回歸 | 有監督 | 離散(0/1) | 離散 | 二分類任務,如垃圾郵件檢測 |
K近鄰(KNN) | 有監督 | 離散或連續 | 離散/連續 | 基于鄰居投票或平均 |
SVM | 有監督 | 離散或連續 | 離散/連續 | 間隔最大化,支持核函數擴展 |
決策樹 | 有監督 | 離散或連續 | 離散/連續 | 結構清晰,適用于小樣本 |
隨機森林 | 有監督 | 離散或連續 | 離散/連續 | 集成多個決策樹提高性能 |
神經網絡 | 有監督 | 離散或連續 | 離散/連續 | 表達能力強,適合大數據 |
K-means | 無監督 | 聚類標簽(偽標簽) | 離散 | 聚類,常用于圖像或文本壓縮 |
GMM | 無監督 | 聚類標簽(概率分布) | 離散 | 軟聚類,適合復雜分布數據 |
PCA | 無監督 | 主成分方向 | 連續 | 線性降維,便于可視化 |
ICA | 無監督 | 獨立成分 | 連續 | 信號分離,如語音去混疊 |
t-SNE / UMAP | 無監督 | 低維坐標 | 連續 | 可視化高維數據結構 |
AutoEncoder | 無監督 | 編碼向量 | 連續 | 用于特征壓縮、異常檢測等 |
🔍 結論
-
有監督學習根據任務分為分類(離散標簽)和回歸(連續標簽);
-
無監督學習不依賴標簽,多為聚類(輸出離散)或降維(輸出連續);
-
標簽的“連續 or 離散”主要取決于任務的本質,而非方法本身。