【機器學習基礎】機器學習入門核心算法：GBDT（Gradient Boosting Decision Tree）

在這里插入圖片描述

機器學習入門核心算法：GBDT（Gradient Boosting Decision Tree）

- - 1. 算法邏輯
  - 2. 算法原理與數學推導
  - - 2.1 目標函數
    - 2.2 負梯度計算
    - 2.3 決策樹擬合
    - 2.4 葉子權重計算
    - 2.5 模型更新
  - 3. 模型評估
  - - 評估指標
    - 防止過擬合
  - 4. 應用案例
  - - 4.1 金融風控
    - 4.2 推薦系統
    - 4.3 計算機視覺
  - 5. 面試題及答案
  - 6. 優缺點分析
  - - 優點
    - 缺點
  - 7. 數學推導示例（回歸問題）

1. 算法邏輯

GBDT 是一種基于決策樹的集成學習算法，屬于 Boosting 家族。其核心思想是串行訓練多個弱學習器（決策樹），每棵樹學習前序模型殘差的負梯度，最終通過加權求和得到強學習器。核心邏輯如下：

初始化：用常數值初始化模型（如目標均值）
$F_0(x) = \arg\min_\gamma \sum_{i=1}^n L(y_i, \gamma)$
迭代訓練：
- 計算當前模型的偽殘差（負梯度）
- 訓練新樹擬合該殘差
- 更新模型： $F_m(x) = F_{m-1}(x) + \nu h_m(x)$ （ $\nu$ 為學習率）
最終輸出：加權樹組合
$\sum_{m=0}^M \nu h_m(x)$

2. 算法原理與數學推導

2.1 目標函數

設訓練集 ${(x_i,y_i)\}_{i=1}^n$ ，損失函數 $L (y, F (x))$ ，目標是最小化正則化目標函數：
$\mathcal{L} = \sum_{i=1}^n L(y_i, F(x_i)) + \sum_{m=1}^M \Omega(h_m)$
其中 $\Omega(h_m) = \gamma T + \frac{1}{2}\lambda \|w\|^2$ （ $T$ 為葉子數， $w$ 為葉子權重）

2.2 負梯度計算

在第 $m$ 次迭代，計算偽殘差：
$r_{im} = -\left[ \frac{\partial L(y_i, F(x_i))}{\partial F(x_i)} \right]_{F(x)=F_{m-1}(x)}$

損失函數	偽殘差 $r_{im}$
平方損失	$y_i - F_{m-1}(x_i)$
絕對損失	$\text{sign}(y_i - F_{m-1}(x_i))$
Huber損失	分段函數
對數損失（分類）	$y_i - \frac{1}{1+e^{-F_{m-1}(x_i)}}$

2.3 決策樹擬合

訓練新樹 $h_m$ 擬合偽殘差 ${(x_i, r_{im})\}$ ，通過遞歸分裂節點：

分裂準則：最大化增益（Gain）
$\text{Gain} = \frac{1}{2} \left[ \frac{G_L^2}{H_L + \lambda} + \frac{G_R^2}{H_R + \lambda} - \frac{(G_L+G_R)^2}{H_L+H_R+\lambda} \right] - \gamma$
其中 $\sum_{i \in I} g_i$ ， $\sum_{i \in I} h_i$ （ $g_i$ 為一階導， $h_i$ 為二階導）

2.4 葉子權重計算

對葉子節點 $j$ ，最優權重為：
$w_j^* = -\frac{\sum_{i \in I_j} g_i}{\sum_{i \in I_j} h_i + \lambda}$

2.5 模型更新

$F_m(x) = F_{m-1}(x) + \nu \sum_{j=1}^J w_j \mathbf{1}(x \in R_j)$

3. 模型評估

評估指標

任務類型	常用指標
回歸	MSE, MAE, $R^2$
分類	Accuracy, F1-Score, AUC-ROC
排序	NDCG, MAP

防止過擬合

早停法：驗證集性能不再提升時停止迭代
正則化：通過 $\gamma$ , $\lambda$ 控制復雜度
子采樣：每次迭代隨機選擇部分樣本或特征

4. 應用案例

4.1 金融風控

場景：信用評分卡
特征：收入、負債比、交易頻率
效果：AUC 提升 12% 對比邏輯回歸

4.2 推薦系統

場景：電商點擊率預測
特征組合：自動學習“用戶年齡×商品類別”等交叉特征
優勢：處理高維稀疏特征優于協同過濾

4.3 計算機視覺

場景：圖像語義分割
做法：GBDT 處理 CNN 提取的特征向量
結果：在 Pascal VOC 上 mIOU 提升 3.2%

5. 面試題及答案

Q1：GBDT 為什么擬合負梯度？
A：通過梯度下降在函數空間優化，負梯度是損失下降最快的方向。

Q2：如何處理分類特征？
A：最佳實踐是使用直方圖算法（如 LightGBM）：

按特征取值排序
根據梯度直方圖尋找最優分裂點
復雜度從 $O(\#\text{categories})$ 降至 $O(\text{bin})$

Q3：GBDT vs Random Forest？

維度	GBDT	Random Forest
基學習器關系	串行依賴	并行獨立
偏差-方差	低偏差	低方差
過擬合	易過擬合（需早停）	抗過擬合能力強
數據敏感度	需特征縮放	無需特征縮放

6. 優缺點分析

優點

非線性能力強：自動捕捉高階交互特征
魯棒性好：對異常值和缺失值不敏感
可解釋性：可通過特征重要性分析（累積分裂增益）
$\text{Importance}_j = \sum_{\text{splits}(j)} \text{Gain}$
適用廣泛：支持回歸/分類/排序任務

缺點

訓練效率低：串行訓練無法并行化（改進：LightGBM 用 leaf-wise 生長）
高維稀疏數據：文本數據表現不如神經網絡
超參敏感：需精細調參（樹深度、學習率等）

7. 數學推導示例（回歸問題）

目標：最小化平方損失 $\frac{1}{2}(y_i - F(x_i))^2$
偽殘差：
$r_i = -\frac{\partial L}{\partial F} \bigg|_{F=F_{m-1}} = y_i - F_{m-1}(x_i)$
葉子權重（設 $\lambda=0$ ）：
$w_j^* = \frac{\sum_{i \in R_j} r_i}{|R_j|} = \text{殘差的均值}$
模型更新：
$F_m(x) = F_{m-1}(x) + \nu \sum_{j=1}^J w_j \mathbf{1}(x \in R_j)$

💡 關鍵洞察：GBDT 將優化問題轉化為函數空間的梯度下降，每棵樹對應一次梯度更新。實際應用優先選擇改進算法（XGBoost/LightGBM/CatBoost），它們在效率、準確性和工程實現上均有顯著提升。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/84867.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/84867.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/84867.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！