【機器學習】（算法優化二）提升算法之：AdaBoost與隨機梯度

文章目錄

一、 AdaBoost：自適應提升算法
- 1、AdaBoost數學原理詳解
- - 1.1、目標函數
  - 1.2、樣本權重更新的邏輯
  - 1.3、模型權重計算的含義
  - 1.4、 AdaBoost的核心思想
- 2、為什么AdaBoost如此有效？
二、隨機梯度提升算法：梯度優化下更精細的優化
- 1、隨機梯度提升算法：殘差驅動的梯度優化
- - 1.1、核心目標函數
  - 1.2、殘差驅動的訓練過程
  - - 殘差的本質：模型錯誤的量化
    - 步驟1：計算負梯度（殘差）
    - 步驟2：模型對殘差進行優化
    - 步驟3：更新預測
  - 1.3、為什么用殘差而不是直接預測？
  - - 避免重復學習
    - 逐步精細化
  - 1.4、隨機性的雙重作用
  - - 樣本隨機性
    - 特征隨機性
  - 1.5、隨機梯度提升的核心思想
- 2、為什么隨機梯度提升如此強大？
三、提升算法與裝袋算法的對比
- 1、訓練方式的差異
- 2、數學原理的差異

提升算法是集成學習中的另一重要分支，與裝袋算法不同，提升算法通過順序訓練和權重調整，實現了與裝袋算法不同的集成策略。AdaBoost通過自適應權重調整關注難分類樣本，隨機梯度提升通過梯度優化實現精確的損失函數最小化。

一、 AdaBoost：自適應提升算法

AdaBoost的核心思想是：通過調整樣本權重，讓后續模型專注于之前模型預測錯誤的樣本。這種方法確保了每個基模型都能為集成貢獻獨特的價值。

1、AdaBoost數學原理詳解

1.1、目標函數

$\sum_{t=1}^{T} \alpha_t h_t(x)$

這個公式表示：最終的預測是所有基模型預測的加權和

具體解釋：

$F (x)$ 是最終的集成預測
$h_t(x)$ 是第 $t$ 個基模型（比如決策樹）的預測
$αt\alpha_t$ 是第 $t$ 個模型的權重（重要性）
$T$ 是基模型的總數量

舉個例子：
假設有3個基模型，預測結果分別是：

模型1： $h_1(x) = 1$ ，權重 $α1=0.5\alpha_1 = 0.5$
模型2： $h_2(x) = -1$ ，權重 $α2=0.3\alpha_2 = 0.3$
模型3： $h_3(x) = 1$ ，權重 $α3=0.2\alpha_3 = 0.2$

那么最終預測為：
$\times 1 + 0.3 \times (-1) + 0.2 \times 1 = 0.4$

1.2、樣本權重更新的邏輯

$Dt+1(i)=Dt(i)exp?(?αtyiht(xi))ZtD_{t+1}(i) = \frac{D_t(i) \exp(-\alpha_t y_i h_t(x_i))}{Z_t}$

這個公式表示：根據當前模型的預測結果調整樣本權重

具體解釋：

$D_t(i)$ 是第 $t$ 輪第 $i$ 個樣本的權重
$y_i$ 是第 $i$ 個樣本的真實標簽（1或-1）
$h_t(x_i)$ 是第 $t$ 個模型對第 $i$ 個樣本的預測
$αt\alpha_t$ 是第 $t$ 個模型的權重
$Z_t$ 是歸一化因子，確保權重和為1

關鍵理解：

如果 $y_i h_t(x_i) = 1$ （預測正確），則 $exp?(?αt)<1\exp(-\alpha_t) < 1$ ，權重減小
如果 $y_i h_t(x_i) = -1$ （預測錯誤），則 $exp?(αt)>1\exp(\alpha_t) > 1$ ，權重增大

舉個例子：
假設第1個模型權重 $α1=0.5\alpha_1 = 0.5$ ，對某個樣本的預測：

如果預測正確： $y_i h_1(x_i) = 1$ ，權重變為原來的 $exp?(?0.5)≈0.61\exp(-0.5) \approx 0.61$ 倍
如果預測錯誤： $y_i h_1(x_i) = -1$ ，權重變為原來的 $exp?(0.5)≈1.65\exp(0.5) \approx 1.65$ 倍

1.3、模型權重計算的含義

$αt=12ln?(1??t?t)\alpha_t = \frac{1}{2} \ln(\frac{1 - \epsilon_t}{\epsilon_t})$

這個公式表示：根據模型的錯誤率計算其權重

具體解釋：

$?t\epsilon_t$ 是第 $t$ 個模型的加權錯誤率
$αt\alpha_t$ 是第 $t$ 個模型的權重

關鍵理解：

錯誤率越低，權重越大
錯誤率越高，權重越小
當錯誤率 = 0.5時，權重 = 0（沒有貢獻）

舉個例子：

如果錯誤率 $?t=0.1\epsilon_t = 0.1$ （很好），則 $αt=12ln?(0.90.1)=1.1\alpha_t = \frac{1}{2} \ln(\frac{0.9}{0.1}) = 1.1$ （高權重）
如果錯誤率 $?t=0.4\epsilon_t = 0.4$ （一般），則 $αt=12ln?(0.60.4)=0.2\alpha_t = \frac{1}{2} \ln(\frac{0.6}{0.4}) = 0.2$ （中等權重）
如果錯誤率 $?t=0.5\epsilon_t = 0.5$ （隨機），則 $αt=0\alpha_t = 0$ （無貢獻）

1.4、 AdaBoost的核心思想

設計思路

樣本權重更新：讓后續模型更關注之前預測錯誤的樣本
模型權重計算：讓表現好的模型在最終預測中有更大話語權
順序訓練：每個新模型都試圖糾正之前模型的錯誤

整體流程：

訓練第1個模型，計算錯誤率和權重
根據預測結果調整樣本權重（錯誤樣本權重增大）
訓練第2個模型（更關注權重大的樣本）
重復這個過程，直到訓練完所有模型
最終預測是所有模型預測的加權和

這就是AdaBoost如何通過"讓每個模型專注于之前模型預測錯誤的樣本"來實現強大集成效果的原理。

2、為什么AdaBoost如此有效？

AdaBoost的有效性可以從多個角度理解。從統計學角度看，AdaBoost通過調整樣本權重，讓每個基模型專注于不同的數據子集，從而實現了比簡單平均更強的集成效果。

從機器學習角度看，AdaBoost的自適應特性使得它能夠自動識別和關注難分類的樣本，這種機制確保了模型在復雜數據上的強大表現。

二、隨機梯度提升算法：梯度優化下更精細的優化

隨機梯度提升算法的核心思想是：通過梯度下降的方式順序訓練基模型，每個新模型都試圖糾正之前模型的殘差。這種方法實現了比AdaBoost更精細的損失函數優化。

1、隨機梯度提升算法：殘差驅動的梯度優化

1.1、核心目標函數

隨機梯度提升算法的目標函數為：

$\sum_{t=1}^{T} f_t(x)$

這個公式表示：最終的預測是所有基模型預測的簡單累加

具體解釋：

$F (x)$ 是最終的集成預測
$f_t(x)$ 是第 $t$ 個基模型（通常是決策樹）的預測
$T$ 是基模型的總數量

與AdaBoost的區別：

AdaBoost： $\sum_{t=1}^{T} \alpha_t h_t(x)$ （加權和）
隨機梯度提升： $\sum_{t=1}^{T} f_t(x)$ （簡單累加）

1.2、殘差驅動的訓練過程

殘差的本質：模型錯誤的量化

殘差就是當前模型預測與真實值之間的差距，它量化了模型預測錯誤的程度。

數學定義：
$殘差 = 真實值 ? 當前預測值$

步驟1：計算負梯度（殘差）

$rti=??L(yi,Ft?1(xi))?Ft?1(xi)r_{ti} = -\frac{\partial L(y_i, F_{t-1}(x_i))}{\partial F_{t-1}(x_i)}$

這個公式表示：計算當前模型預測與真實值之間的"殘差"

具體解釋：

$L(y_i, F_{t-1}(x_i))$ 是損失函數（如均方誤差）
$?L?Ft?1(xi)\frac{\partial L}{\partial F_{t-1}(x_i)}$ 是損失函數對預測的導數
負號表示我們要沿著梯度的反方向優化

對于均方誤差損失：
$L(y, F) = (y - F)^2$
$?L?F=2(F?y)\frac{\partial L}{\partial F} = 2(F - y)$
$??L?F=2(y?F)=2×殘差-\frac{\partial L}{\partial F} = 2(y - F) = 2 \times 殘差$