- 目錄
- 1、了解熵、條件熵、互信息的概念及公式
- 1.1、熵
- 1.2、條件熵
- 1.3、信息增益/互信息
- 2、了解決策樹
- 2.1、了解決策樹的概念和特點以及和熵的關系
- 2.2、了解樹生成的過程
- 2.3、了解決策樹三種算法的區別
- 2.4、了解決策樹的損失函數
- 2.5、了解解決決策樹過擬合的方法
- 2.6、了解后剪枝的過程
- 3、了解Bagging和隨機森林
- 4、掌握樣本不均衡常用的處理方法
- 5、隨機森林算法常用參數詳解
目錄
1、了解熵、條件熵、互信息的概念及公式
1.1、熵
熵本身是描述事物的混亂程度的
決策樹乃至隨機森林最關鍵的一點就是如何來劃分一個節點分裂數據讓結果達到最好。
信息熵的作用(即判定特征分裂的好壞)
了解信息熵的表示形式(負號代表x發生的概率越大對應的熵值越小):
知道這個信息熵的概念(x發生的概率越大,結果越穩定對應的熵值也就越小;P(X,Y)=H(X)+H(Y)代表X、Y發生的事件的熵相加)
1.2、條件熵
知道條件熵的概念:H(Y|X)表示在X發生的前提下,Y發生新帶來的熵。
1.3、信息增益/互信息
信息增益即為互信息,信息增益即為相關系數(計算一個特征對類X是否有影響)
信息增益:度量特征A對數據集D的不確定性的減小程度(即不確定減小也就是D發生概率增加)。
信息增益即為互信息,信息增益即為相關系數(計算一個特征對類X的影響程度)
信息增益:度量特征A對數據集D的不確定性的減小程度(即不確定減小也就是D發生概率增加)。
2、了解決策樹
2.1、了解決策樹的概念和特點以及和熵的關系
信息熵又稱為經驗熵,重點注意下面選取分裂特征的過程。
2.2、了解樹生成的過程
樹的生成過程:首先你能得到對應的數據集D的經驗熵(即根節點的信息熵),之后遍歷所有的特征,進行以下步驟:(前提條件是你肯定能得到數據集D的經驗熵H(D)公式如下圖)。
一、計算特征A對于數據集D的條件熵即H(D|A);
二、計算特征A的信息增益g(D,A)=H(D)-H(D|A);
三、選擇信息增益最大的特征作為當前的分裂特征。(信息增益越大,也就說明D在A特征下發生的概率越大,也就說明D對應的信息熵越小。而樹生成的過程即是從信息熵大的根節點到信息熵為0的葉子節點)
2.3、了解決策樹三種算法的區別
知道gini系數(同信息增益一樣也可以作為特征分析的依據)
2.4、了解決策樹的損失函數
了解評價函數的意義:實際上就是每個葉子結點的熵值和對應的葉子結點上的數據量做一個乘積的加和(這里的N其實就是對H(t)做一個加權處理)
掌握損失函數(又稱為評價函數)的表達式以及對應的含義(可不可以理解為:因為葉子節點代表分類的最終結果,那么葉子節點的熵值也就代表分類的好壞的程度,那么所有葉子節點的熵值的加權和也就代表整棵樹分類的好壞程度)。
結論:損失函數越小即代表整體的熵值越小,整棵樹越穩定,分類的效果越好。
2.5、了解解決決策樹過擬合的方法
1、剪枝(過程見下文)
2、隨機森林
了解剪枝的思路:即如何從Ti到Ti+1
了解修正后的損失函數的含義 :實質上就是添加了葉子節點的影響權重值
了解α的公式(C(r):單個根節點的評價函數值。C(R):子樹的評價函數值。如下圖所示)以及對應的求解過程
2.6、了解后剪枝的過程
一、先求出各個內部節點的α值,
二、然后將α值從小到大進行排列得到對應得樹T0、T1…
三、按照這個順序依次進行剪枝的操作直到剪到最后的根節點為止。
四、最終利用test集合去測試看那棵樹的損失函數最小就選取哪棵樹。
3、了解Bagging和隨機森林
知道這個Bagging是什么
了解隨機森林的建立過程
4、掌握樣本不均衡常用的處理方法
1、A類隨機欠采樣:A類樣本過多,可以通過隨機采取A中的少部分(如20%)樣本來和B中的樣本匯總作為總的樣本。
2、基于聚類的A類的分割:將A類樣本進行一個聚類操作,然后隨機的選取A中的任何一個類族和B一起構成一個總的樣本。
3、B類過采樣:B類數據太少,可以不斷的復制B類的樣本從而使B樣本的數量增加滿足A樣本的要求。
4、B類數據合成:在空間中將兩個B樣本連接,隨機在連線上選取某些點用于生成樣本以達到增加樣本B的數量的目的。(如下圖所示)
5、代價敏感學習(降低A類權值,提高B類權值)
總結:1-4為對樣本的處理,5對算法的處理。
5、隨機森林算法常用參數詳解
詳見:https://blog.csdn.net/qq_16633405/article/details/61200502