以下是機器學習核心概念的詳細梳理。
1. 機器學習三大范式
類型 | 定義 | 典型應用 |
---|---|---|
監督學習 | 使用帶標簽的數據訓練模型,預測未知數據的標簽。 | 分類(郵件垃圾過濾)、回歸(房價預測) |
無監督學習 | 從無標簽的數據中發現隱藏模式或結構。 | 聚類(客戶分群)、降維(數據可視化) |
強化學習 | 通過試錯與獎勵機制訓練智能體,使其在環境中做出最優決策。 | 游戲AI(AlphaGo)、自動駕駛 |
2. 核心算法分類
監督學習算法
-
分類
- 邏輯回歸:二分類問題,輸出概率值。
- 決策樹:基于特征閾值遞歸分割數據。
- 支持向量機(SVM):尋找最大化分類間隔的超平面。
- 隨機森林:多棵決策樹的集成,降低過擬合風險。
-
回歸
- 線性回歸:擬合數據的最佳直線/超平面。
- 嶺回歸/Lasso回歸:加入正則化項防止過擬合。
無監督學習算法
- 聚類
- K-Means:將數據劃分為K個簇,最小化簇內距離。
- 層次聚類:通過樹狀圖展示數據分層聚合過程。
- 降維
- 主成分分析(PCA):通過正交變換提取主要特征。
- t-SNE:非線性降維,適用于高維數據可視化。
其他重要方法
- 半監督學習:結合少量標簽數據和大量無標簽數據訓練模型。
- 集成學習:通過Bagging(隨機森林)、Boosting(XGBoost)提升模型性能。
3. 模型評估指標
任務類型 | 評估指標 | 解釋 |
---|---|---|
分類 | 準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1分數、ROC-AUC | - 精確率:預測為正的樣本中實際為正的比例。 - 召回率:實際為正的樣本中被正確預測的比例。 |
回歸 | 均方誤差(MSE)、平均絕對誤差(MAE)、R2分數 | - R2分數:模型對數據變動的解釋能力(0~1,越大越好)。 |
聚類 | 輪廓系數(Silhouette Score)、Calinski-Harabasz指數 | - 輪廓系數:衡量簇內緊密度和簇間分離度(-1~1,越大越好)。 |
4. 關鍵問題與解決方法
過擬合(Overfitting)
- 現象:模型在訓練集表現極佳,但在測試集表現差。
- 解決:
- 增加訓練數據量。
- 正則化(L1/L2正則化)。
- 交叉驗證(如K-Fold)。
- 減少模型復雜度(如剪枝決策樹)。
欠擬合(Underfitting)
- 現象:模型在訓練集和測試集均表現不佳。
- 解決:
- 增加模型復雜度(如使用更深的神經網絡)。
- 添加更多特征或進行特征工程。
偏差-方差權衡
- 高偏差:模型過于簡單,無法捕捉數據規律(欠擬合)。
- 高方差:模型過于復雜,對噪聲敏感(過擬合)。
- 目標:通過調整模型復雜度和正則化,找到平衡點。
5. 核心流程
- 數據預處理:缺失值填充、標準化/歸一化、編碼類別特征。
- 特征工程:特征選擇(如卡方檢驗)、特征構造(如多項式特征)。
- 模型訓練:劃分訓練集/驗證集/測試集,選擇算法并調參。
- 模型評估:根據任務類型選擇指標,分析結果。
- 模型部署:將訓練好的模型轉化為API服務或嵌入應用。
6. 實際應用場景
- 分類:垃圾郵件識別、圖像分類(貓 vs 狗)。
- 回歸:股票價格預測、銷售額趨勢分析。
- 聚類:用戶分群(電商推薦)、異常檢測(信用卡欺詐)。
- 降維:高維數據可視化(如將100維數據壓縮為2維)。
掌握這些核心概念后,可以通過框架(如Scikit-learn)快速實現算法,并逐步深入理論細節。下一步建議通過實戰項目(如Kaggle競賽)鞏固知識! 🚀