三種決策樹算法的特點和區別
- ID3算法:基本的決策樹算法,適用于簡單的分類問題
- C4.5算法:改進了ID3算法,適用于更復雜的分類問題,可以處理連續型數據和缺失值
- CART算法:更加通用的決策樹算法,適用于分類和回歸問題,可以處理連續型數據和多分類問題
決策樹算法詳解:從構造到剪枝,實戰Titanic生存預測_決策樹分類算法及應用-CSDN博客
Lightgbm原理以及過程
- LightGBM(Light Gradient Boosting Machine)是由微軟開發的一種基于決策樹的分布式梯度提升框架,專門用于快速、高效的機器學習模型訓練。
- LightGBM 是一個性能高度優化的 GBDT(Gradient Boosting Decision Trees)算法。
- LightGBM 對傳統的 GBDT 進行了多種改進和優化,以提高效率和性能。
- 它在處理大規模數據集和高維數據時速度更快,占用內存更少。
以下是 LightGBM 的基本原理簡單講解:?
梯度提升(Gradient Boosting):
- 梯度提升是一種集成學習方法,通過逐步構建一系列弱學習器(通常是決策樹),每個學習器試圖糾正前一個學習器的錯誤。LightGBM 采用這種方法,但對算法進行了多種優化,以提高效率和性能。
基于葉子的增長策略(Leaf-wise Growth Strategy):
- 與其他基于深度或寬度的增長策略不同,LightGBM 使用基于葉子的增長策略,即每次選擇一個葉子節點來分裂,從而最大化信息增益。這種方法能夠更好地減少損失,但也可能導致樹的不平衡。
直方圖優化(Histogram-based Optimization):
- LightGBM 通過將連續特征離散化為多個區間(直方圖桶),大大減少了數據的存儲和計算成本。每個區間代表一個特定的特征值范圍,模型僅在這些區間上進行計算,從而加速了訓練過程。
支持并行和分布式訓練:
- LightGBM 支持數據并行和特征并行,可以在多核 CPU 和多機環境下進行高效訓練。這使得它能夠處理大規模數據集。
大數據分析案例-基于LightGBM算法構建乳腺癌分類預測模型_lightgbm 醫療-CSDN博客
數據挖掘比賽比較基礎的baseline_比賽baseline-CSDN博客
梯度消失的概念,如何解決
梯度消失的原因
梯度消失是指在神經網絡的訓練過程中,從輸出層向輸入層傳遞的誤差梯度逐漸變小,以至于到達輸入層時已經接近于零。這個問題通常發生在使用了sigmoid或tanh這類激活函數的深度網絡中。這些激活函數的導數在其值域的兩端都非常小(接近于零),因此在多層網絡中連續乘以這些小的導數會導致梯度迅速減小,從而使得網絡的前幾層學習非常緩慢或幾乎不學習,這嚴重阻礙了模型的訓練效率。
解決梯度消失的方法
改用ReLU及其變體作為激活函數:
- ReLU(Rectified Linear Unit)激活函數在正區間的導數為1,這樣可以有效防止梯度消失的問題。其變體如Leaky ReLU或Parametric ReLU (PReLU) 也是不錯的選擇,它們在負區間提供一個小的非零斜率,保持信息的流動。
使用批歸一化(Batch Normalization):
- 批歸一化通過規范化每一層的輸入來緩解內部協變量偏移(每層輸入的分布改變),可以幫助改善網絡的訓練速度,減少梯度消失的問題。
采用合適的權重初始化策略:
- 選擇合適的方法初始化網絡權重對預防梯度消失至關重要。例如,He 初始化是為ReLU激活函數專門設計的,可以在訓練開始時保持激活和梯度的尺度。
使用殘差網絡(ResNet)架構:
- 殘差網絡通過引入跳過連接(skip connections),允許梯度直接流向更早的層。這樣的結構有助于梯度更好地流動,防止在深層網絡中消失。
使用梯度剪輯(Gradient Clipping):
- 這是一種在訓練中控制梯度爆炸問題的技術,但它也可以間接幫助緩解梯度消失,因為它可以幫助保持數值穩定性,尤其是在RNNs中。
改進的RNN架構,如LSTM和GRU:
- 長短期記憶(LSTM)和門控循環單元(GRU)是特別設計來防止梯度消失問題的RNN變體。它們通過引入門控機制來控制信息的流動,有效避免了傳統RNN中梯度消失的問題。
K折交叉驗證
數據挖掘比賽比較基礎的baseline_比賽baseline-CSDN博客
K折交叉驗證找到最佳超參數
K-means的原理以及過程
時間和空間復雜度
K的值怎么確定
K-Means(K-均值)聚類算法理論和實戰-CSDN博客
SVM的原理?
- 最大化邊際:SVM的核心理念是尋找一個決策邊界(在二維空間中是一條線,在更高維空間中是一個平面或超平面),這個邊界能夠最大程度地區分不同類別的數據點。SVM嘗試最大化各類數據點到決策邊界的最小距離,這個距離被稱為“邊際”。
- 支持向量:決策邊界的確切位置由距離它最近的幾個訓練樣本確定,這些樣本被稱為“支持向量”。SVM模型特別關注這些關鍵樣本。
- 核技巧:對于非線性可分的數據,SVM使用所謂的“核技巧”將數據映射到更高維的空間,從而使得數據在新空間中線性可分。常見的核函數包括線性核、多項式核、徑向基函數(RBF)核等。
向量機SVM原理理解和實戰_svm實戰-CSDN博客
降維分析方法
PCA原理及實現過程
主成分分析(Principal Component Analysis)是一種常用的降維技術,通過線性變換將高維數據投影到低維空間,同時盡量保留數據的方差信息。PCA 常用于數據預處理、特征提取和數據可視化。
KPCA降維原理
核主成分分析(Kernel Principal Component Analysis)對于輸入空間中的矩陣X,先用一個非線性映射把X中的所有樣本映射到一個高維甚至是無窮維的空間(特征空間),使其線性可分,然后在這個高維空間進行PCA降維
T-SNE降維原理
TSNE是另一種常用的數據降維方法。由T和SNE組成,也就是T 分布和隨機近鄰嵌入 (Stochastic neighbour Embedding)。其主要優勢在于高維數據 空間中距離相近的點投 影到低維空間中仍然相近。 T-SNE(TSNE)將數據點之間的相似度轉換為概率。原始空間中的 相似度由高斯聯合概率 表示,嵌入空間的相似度由“學生T分布”表
葡萄酒品質揭秘:運用PCA和KPCA技術深度解析葡萄酒分類-CSDN博客