【機器學習筆記 Ⅱ】12隨機森林

隨機森林（Random Forest）詳解

隨機森林是一種基于集成學習（Ensemble Learning）的高性能分類/回歸算法，通過構建多棵決策樹并綜合其預測結果，顯著提升模型的準確性和魯棒性。其核心思想是“集體智慧優于個體決策”。

1. 核心思想

Bagging（Bootstrap Aggregating）：通過有放回抽樣生成多個訓練子集，每棵樹獨立訓練。
隨機特征選擇：每個節點分裂時，僅考慮隨機子集的特征（進一步增加多樣性）。
投票/平均機制：
- 分類任務：多數投票（Majority Voting）。
- 回歸任務：預測均值。

2. 算法步驟

數據采樣：
- 從原始訓練集中通過Bootstrap抽樣（有放回）生成 ( T ) 個子集（每子集≈63.2%原始數據）。
構建決策樹：
- 對每個子集訓練一棵決策樹，節點分裂時從隨機選擇的 ( m ) 個特征中找最優劃分（通常 ( m = \sqrt{\text{總特征數}} )）。
聚合結果：
- 分類：統計所有樹的預測類別，取票數最多的類別。
- 回歸：計算所有樹的預測平均值。

3. 關鍵特性

特性	說明
降低方差	多棵樹平均減少過擬合風險（相比單棵決策樹）。
抗噪聲	通過多數投票抑制異常值影響。
并行化訓練	各樹獨立訓練，適合分布式計算。
特征重要性	基于特征在分裂時的貢獻度（如基尼下降）自動評估。

4. 代碼實現

(1) Scikit-learn分類

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris# 加載數據
data = load_iris()
X, y = data.data, data.target# 訓練模型
rf = RandomForestClassifier(n_estimators=100,      # 樹的數量max_depth=5,           # 單樹最大深度max_features='sqrt',   # 每節點分裂考慮的特征數（sqrt為特征數平方根）random_state=42
)
rf.fit(X, y)# 預測
y_pred = rf.predict(X)

(2) Scikit-learn回歸

from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_errorrf_reg = RandomForestRegressor(n_estimators=200)
rf_reg.fit(X_train, y_train)
mse = mean_squared_error(y_test, rf_reg.predict(X_test))

(3) 特征重要性可視化

import matplotlib.pyplot as pltplt.barh(data.feature_names, rf.feature_importances_)
plt.xlabel("Feature Importance")
plt.show()

特征重要性

5. 超參數調優

參數	作用	推薦范圍
`n_estimators`	樹的數量	100-500（越多越好，但計算成本增加）
`max_depth`	單棵樹的最大深度	5-30（防過擬合）
`max_features`	節點分裂時的特征子集大小	`'sqrt'`（分類）、`'log2'`或0.3-0.8
`min_samples_split`	節點分裂所需最小樣本數	2-10
`bootstrap`	是否使用Bootstrap抽樣	`True`（默認）

網格搜索示例：

from sklearn.model_selection import GridSearchCVparam_grid = {'n_estimators': [100, 200],'max_depth': [5, 10, None],'max_features': ['sqrt', 'log2']
}
grid_search = GridSearchCV(RandomForestClassifier(), param_grid, cv=5)
grid_search.fit(X_train, y_train)
print("最佳參數：", grid_search.best_params_)

6. 優缺點對比

優點	缺點
1. 高準確性：優于單棵決策樹和許多其他算法。	1. 計算成本高：樹數量多時訓練慢。
2. 抗過擬合：通過隨機性降低方差。	2. 內存占用大：需存儲多棵樹。
3. 無需特征縮放：對數據分布不敏感。	3. 可解釋性弱：相比單棵樹更難解釋。

7. 進階應用

(1) 異常檢測

利用樣本在所有樹中的平均深度（Isolation Forest原理相近）。

(2) 缺失值處理

通過隨機森林的相似性矩陣估算缺失值。

(3) 分類-回歸混合任務

使用MultiOutputRegressor處理多目標預測。

8. 與梯度提升樹（GBDT/XGBoost）對比

特性	隨機森林	梯度提升樹（如XGBoost）
訓練方式	并行獨立訓練多棵樹	串行訓練，每棵樹修正前序錯誤
偏差-方差	主要降低方差	同時降低偏差和方差
參數敏感性	相對不敏感	需精細調參（如學習率、樹深度）
適用場景	高維數據、快速原型開發	高精度需求、中小規模數據

9. 總結

隨機森林 = Bagging + 隨機特征選擇 + 決策樹，通過“集體決策”提升泛化能力。
核心優勢：抗過擬合、處理高維數據、天然支持特征重要性評估。
適用場景：
- 分類/回歸任務（尤其特征間存在復雜交互）。
- 需要快速基線模型或特征重要性分析的場景。
升級方向：
- 對速度要求高時→ 使用RandomForest的warm_start增量訓練。
- 對精度要求高時→ 嘗試XGBoost或LightGBM。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/88055.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/88055.shtml
英文地址，請注明出處：http://en.pswp.cn/web/88055.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！