有監督學習
線性模型
多元線性回歸:預測連續的數值(如房價、銷量)。
邏輯回歸:解決二分類問題(如判斷郵件是否是垃圾郵件),輸出概率。
非線性模型
決策樹:通過一系列if-then規則進行決策,非常直觀易懂。
用途:分類和回歸。
隨機森林:集成學習方法。通過構建多棵決策樹并綜合它們的結果(如投票或平均),極大地提升了模型的準確性和魯棒性,不易過擬合。
用途:幾乎可用于任何問題,是非常強大的基準模型。
梯度提升機:另一種集成學習方法,如 XGBoost, LightGBM, CatBoost。通過迭代地訓練新樹來修正前一輪樹的錯誤,性能通常比隨機森林更優,是許多數據科學競賽的“大殺器”。
用途:處理結構化/表格數據的最佳選擇之一。
支持向量機
傳統圖像處理中最好用的算法,目前不用了。
SVM:尋找一個“最大間隔”的超平面來區分不同類別的數據。對于非線性問題,可以使用“核技巧”映射到高維空間進行分離。
用途:尤其在中小規模數據集上表現優異,適用于高維數據(如文本、圖像)。
神經網絡與深度學習
神經網絡:由大量神經元連接構成的模型,可以擬合極其復雜的非線性關系。
深度學習:特指層次更深的神經網絡。
多層感知機:最基礎的前饋神經網絡,可用于表格數據的分類和回歸。
卷積神經網絡:專門為處理網格狀數據(如圖像)設計,是計算機視覺領域的核心。
循環神經網絡:專門為處理序列數據(如文本、時間序列、語音)設計。
Transformer:目前自然語言處理領域的絕對主力模型(如BERT, GPT系列),在計算機視覺等領域也表現優異。
其他經典模型
樸素貝葉斯:基于貝葉斯定理,假設特征之間相互獨立。雖然“樸素”,但在文本分類等領域非常高效。
K近鄰:一種“懶學習”算法,通過查找最接近的K個已知樣本的標簽來預測新樣本。簡單但計算開銷大。
無監督學習
無監督學習的數據沒有標簽。模型的任務是發現數據內在的結構和模式。
聚類算法
K-Means:將數據分成K個簇,使得同一簇內的數據點盡可能相似。
用途:客戶分群、圖像壓縮、異常檢測。
DBSCAN:基于密度的聚類算法,能發現任意形狀的簇,并能識別出噪聲點。
層次聚類:通過構建樹狀的簇結構來形成數據集的層次分組。
降維算法
主成分分析:將高維數據投影到低維空間,盡可能保留原始數據的方差。常用于數據可視化和特征預處理。
t-SNE, UMAP:更現代的非線性降維技術,特別擅長將高維數據可視化到2維或3維空間,能保留復雜的局部結構。
關聯規則學習
Apriori:用于從大規模數據中發現物品之間的關聯規則。
用途:“購物籃分析”(經典的“啤酒和尿布”故事)。
異常檢測
隔離森林:專門用于異常檢測的算法,通過隨機分割來隔離異常點,效率很高。
自編碼器:一種神經網絡,通過將輸入壓縮再重建來學習數據的核心特征。重建誤差大的點可以被視為異常。
半監督學習
半監督學習:處理只有少量數據有標簽,大部分數據無標簽的情況。它結合了監督和無監督學習的方法。
強化學習
強化學習:模型(智能體)通過與環境交互,根據獲得的獎勵或懲罰來學習最佳策略。
用途:AlphaGo、機器人控制、自動駕駛、游戲AI。
模型選擇
問題類型
預測數值? -> 回歸問題(線性回歸、隨機森林回歸、梯度提升回歸)。
預測類別? -> 分類問題(邏輯回歸、SVM、隨機森林、神經網絡)。
發現分組? -> 聚類(K-Means, DBSCAN)。
發現異常? -> 異常檢測(隔離森林)。
降低維度? -> 降維(PCA, t-SNE)。
數據規模和特征
樣本少、特征少:從簡單模型開始,如SVM、邏輯回歸。
樣本多、特征多(表格數據):樹模型(隨機森林、XGBoost)通常是首選。
圖像、文本、語音數據:深度學習(CNN, RNN, Transformer)幾乎是不二之選。
對可解釋性的要求
需要解釋模型為什么這樣預測:決策樹、邏輯回歸、線性模型。
追求極致精度,可解釋性不重要:深度學習、復雜的集成模型。