相比于Boosting的集成學習框架,Bagging(Bootstrap Sampling,自助聚集法,又稱為自助采樣)作為一種自助聚集且并行化的集成學習方法,其通過組合多個基學習器的預測結果來提高模型的穩定性和泛化能力。其中隨機森林是Bagging學習框架的一個經典算法
Bagging的核心思想是:從原始數據集中有放回隨機抽取樣本,生成多個子數據集(每個子數據集大小與原始數據集相同),比如原始數據集有500個,每個子數據集可能包含400個不重復的樣本(加上重復的樣本后,子數據集樣本的總數就為500)
Boosting集成學習框架是序列(串行)迭代方式,而Bagging集成學習框架是并行方式。
隨機森林的“隨機”來源:樣本隨機獲取和結點分裂時特征隨機選擇。
其將訓練得到的大量決策樹進行組合得到隨機森林,由于決策樹分為分類決策樹和回歸決策樹。當使用的是分類決策樹時,其大量分類決策樹可以采用結果投票的方式得到綜合后的分類結果;當使用的是回歸決策樹時,其大量回歸決策樹可以采用均值回歸的方式得到綜合后的回歸結果。
其隨機森林的實現思路:樹結點-》決策樹(分類/回歸)-》自動抽樣(行抽樣(樣本隨機獲取)-》列抽樣(特征隨機獲取))-》隨機森林構建(多棵樹集成-》擬合方法-》預測方法)-》數據預測
其Bagging由于其并行和高精度的特點,使得隨機森林在機器學習領域大受應用