決策樹在很多公司都實際運用于風險控制,之前闡述了決策樹-ID3算法和C4.5算法、CART決策樹原理(分類樹與回歸樹)、Python中應用決策樹算法預測客戶等級和Python中調用sklearn決策樹。
本文介紹應用決策樹批量自動生成效果好,非過擬合的策略集。
文章目錄
- 一、什么是決策樹
- 二、決策樹中專有名詞理解
- 三、應用決策樹算法生成規則集
- 1 導入數據
- 2 看下數據基本情況
- 2.1 用head函數看下數據表頭和前幾行數據
- 2.2 用value_counts函數觀測因變量y的數據分布
- 3 把數據集拆分成訓練集和測試集
- 4 定義從決策樹生成規則集的函數
- 5 訓練決策樹生成規則集
- 6 生成規則集數據框
- 7 生成可視化決策樹
- 8 合并訓練集和測試集規則數據
- 9 篩選效果好的規則
??
一、什么是決策樹
??
決策樹:通過對已知樣本的學習,一步一步將特征進行分類,從而將整個特征空間進行劃分,進而區分出不同類別的算法。我們在邏輯判斷中用到的思想if, else if ,else, then,其實就是決策樹的思想。
??
??
二、決策樹中專有名詞理解
??
1.根節點:包含數據集中所有數據集合的節點,即初始分裂節點。
??
2.葉節點/終端節點:最終的決策結果(該節點不再進行劃分),被包含在該葉節點的數據屬于該類別。
??
3.內部節點:非根節點和葉節點的節點,該節點包含數據集中從根節點到該節點所有條件的數據集合。根據內部節點的判斷條件結果,其對應的數據集合被分到兩個或多個子節點中。
??
4.父節點:劃分出子節點的節點。
??
5.子節點:由父節點根據某一規則分裂而來的節點。
??
6.節點的深度:節點與決策樹根節點的距離,如根節點的子節點的深度為1.
??
7.決策樹的深度:所有葉子節點的最大深度。
??
借用CART決策樹原理(分類樹與回歸樹)中的簡單決策樹說明以上名詞,用圖形展示如下: