在集成學習原理小結中，我們講到了集成學習有兩個流派，一個是boosting派系，它的特點是各個弱學習器之間有依賴關系。另一種是bagging流派，它的特點是各個弱學習器之間沒有依賴關系，可以并行擬合。本文就對集成學習中Bagging與隨機森林算法做一個總結。

　　　　隨機森林是集成學習中可以和梯度提升樹GBDT分庭抗禮的算法，尤其是它可以很方便的并行訓練，在如今大數據大樣本的的時代很有誘惑力。

1.? bagging的原理

　　　　在集成學習原理小結中，我們給Bagging畫了下面一張原理圖。

　　　　從上圖可以看出，Bagging的弱學習器之間的確沒有boosting那樣的聯系。它的特點在“隨機采樣”。那么什么是隨機采樣？

　　　　隨機采樣(bootsrap)就是從我們的訓練集里面采集固定個數的樣本，但是每采集一個樣本后，都將樣本放回。也就是說，之前采集到的樣本在放回后有可能繼續被采集到。對于我們的Bagging算法，一般會隨機采集和訓練集樣本數m一樣個數的樣本。這樣得到的采樣集和訓練集樣本的個數相同，但是樣本內容不同。如果我們對有m個樣本訓練集做T次的隨機采樣，，則由于隨機性，T個采樣集各不相同。

　　　　注意到這和GBDT的子采樣是不同的。GBDT的子采樣是無放回采樣，而Bagging的子采樣是放回采樣。

　　　　對于一個樣本，它在某一次含m個樣本的訓練集的隨機采樣中，每次被采集到的概率是1m

　　　　對于這部分大約36.8%的沒有被采樣到的數據，我們常常稱之為袋外數據(Out Of Bag, 簡稱OOB)。這些數據沒有參與訓練集模型的擬合，因此可以用來檢測模型的泛化能力。

　　　　bagging對于弱學習器沒有限制，這和Adaboost一樣。但是最常用的一般也是決策樹和神經網絡。

　　　　bagging的集合策略也比較簡單，對于分類問題，通常使用簡單投票法，得到最多票數的類別或者類別之一為最終的模型輸出。對于回歸問題，通常使用簡單平均法，對T個弱學習器得到的回歸結果進行算術平均得到最終的模型輸出。

　　　　由于Bagging算法每次都進行采樣來訓練模型，因此泛化能力很強，對于降低模型的方差很有作用。當然對于訓練集的擬合程度就會差一些，也就是模型的偏倚會大一些。

2.? bagging算法流程

　　　　上一節我們對bagging算法的原理做了總結，這里就對bagging算法的流程做一個總結。相對于Boosting系列的Adaboost和GBDT，bagging算法要簡單的多。

　　　　輸入為樣本集D={(x,y1),(x2,y2),...(xm,ym)}

　　　　輸出為最終的強分類器f(x)

　　　　1）對于t=1,2...,T:

　　　　　　a)對訓練集進行第t次隨機采樣，共采集m次，得到包含m個樣本的采樣集Dt

　　　　　　b)用采樣集Dt

　　　　2) 如果是分類算法預測，則T個弱學習器投出最多票數的類別或者類別之一為最終類別。如果是回歸算法，T個弱學習器得到的回歸結果進行算術平均得到的值為最終的模型輸出。

3. 隨機森林算法

　　　　理解了bagging算法，隨機森林(Random Forest,以下簡稱RF)就好理解了。它是Bagging算法的進化版，也就是說，它的思想仍然是bagging,但是進行了獨有的改進。我們現在就來看看RF算法改進了什么。　　　

　　　　首先，RF使用了CART決策樹作為弱學習器，這讓我們想到了梯度提示樹GBDT。第二，在使用決策樹的基礎上，RF對決策樹的建立做了改進，對于普通的決策樹，我們會在節點上所有的n個樣本特征中選擇一個最優的特征來做決策樹的左右子樹劃分，但是RF通過隨機選擇節點上的一部分樣本特征，這個數字小于n，假設為nsub

　　　　如果nsub=n

　　　　除了上面兩點，RF和普通的bagging算法沒有什么不同，下面簡單總結下RF的算法。

　　　　輸入為樣本集D={(x,y1),(x2,y2),...(xm,ym)}

　　　　輸出為最終的強分類器f(x)

　　　　1）對于t=1,2...,T:

　　　　　　a)對訓練集進行第t次隨機采樣，共采集m次，得到包含m個樣本的采樣集Dt

　　　　　　b)用采樣集Dt

4. 隨機森林的推廣

　　　　由于RF在實際應用中的良好特性，基于RF，有很多變種算法，應用也很廣泛，不光可以用于分類回歸，還可以用于特征轉換，異常點檢測等。下面對于這些RF家族的算法中有代表性的做一個總結。

?4.1 extra trees

　　　　extra trees是RF的一個變種, 原理幾乎和RF一模一樣，僅有區別有：

　　　　1）對于每個決策樹的訓練集，RF采用的是隨機采樣bootstrap來選擇采樣集作為每個決策樹的訓練集，而extra trees一般不采用隨機采樣，即每個決策樹采用原始訓練集。

　　　　2）在選定了劃分特征后，RF的決策樹會基于基尼系數，均方差之類的原則，選擇一個最優的特征值劃分點，這和傳統的決策樹相同。但是extra trees比較的激進，他會隨機的選擇一個特征值來劃分決策樹。

　　　　從第二點可以看出，由于隨機選擇了特征值的劃分點位，而不是最優點位，這樣會導致生成的決策樹的規模一般會大于RF所生成的決策樹。也就是說，模型的方差相對于RF進一步減少，但是偏倚相對于RF進一步增大。在某些時候，extra trees的泛化能力比RF更好。

4.2 Totally Random Trees Embedding

　　　　Totally Random Trees Embedding(以下簡稱 TRTE)是一種非監督學習的數據轉化方法。它將低維的數據集映射到高維，從而讓映射到高維的數據更好的運用于分類回歸模型。我們知道，在支持向量機中運用了核方法來將低維的數據集映射到高維，此處TRTE提供了另外一種方法。

　　　　TRTE在數據轉化的過程也使用了類似于RF的方法，建立T個決策樹來擬合數據。當決策樹建立完畢以后，數據集里的每個數據在T個決策樹中葉子節點的位置也定下來了。比如我們有3顆決策樹，每個決策樹有5個葉子節點，某個數據特征x

　　　　映射到高維特征后，可以繼續使用監督學習的各種分類回歸算法了。

4.3 Isolation Forest

　　　　Isolation Forest（以下簡稱IForest）是一種異常點檢測的方法。它也使用了類似于RF的方法來檢測異常點。

　　　　對于在T個決策樹的樣本集，IForest也會對訓練集進行隨機采樣,但是采樣個數不需要和RF一樣，對于RF，需要采樣到采樣集樣本個數等于訓練集個數。但是IForest不需要采樣這么多，一般來說，采樣個數要遠遠小于訓練集個數？為什么呢？因為我們的目的是異常點檢測，只需要部分的樣本我們一般就可以將異常點區別出來了。

　　　　對于每一個決策樹的建立， IForest采用隨機選擇一個劃分特征，對劃分特征隨機選擇一個劃分閾值。這點也和RF不同。

　　　　另外，IForest一般會選擇一個比較小的最大決策樹深度max_depth,原因同樣本采集，用少量的異常點檢測一般不需要這么大規模的決策樹。

　　　　對于異常點的判斷，則是將測試樣本點x