機器學習——決策樹（筆記）

一、認識決策樹

1. 介紹

2. 決策樹生成過程

二、sklearn中的決策樹

1. tree.DecisionTreeClassifier（分類樹）

（1）模型基本參數

（2）模型屬性

（3）接口

2. tree.DecisionTreeRegressor（回歸樹）

3. tree.export_graphviz（將生成的決策樹導出為DOT格式，畫圖專用）

4. 其他（補充）

三、決策樹的優缺點

1. 優點

2. 缺點

一、認識決策樹

1. 介紹

????????決策樹（Decision Tree）是一種非參數的有監督學習方法，它能夠從一系列 有特征和標簽的數據中總結出決策規則，并用樹狀圖的結構來呈現這些規則，以解決分類和回歸問題。決策樹算法容易理解，適用各種數據，在解決各種問題時都有良好表現，尤其是以樹模型為核心的各種集成算法，在各個行業和領域都有廣泛的應用。

2. 決策樹生成過程

????????上面這組數據集為 一系列已知物種以及所屬類別的數據。我們現在的目標是，將動物們分為哺乳類和非哺乳類。根據已經收集到的數據，決策樹算法可以算出了下面的這棵決策樹：

????????假如我們現在發現了一種新物種 A，它是冷血動物，體表帶鱗片，并且不是胎生，我們就可以通過這棵決策樹來判斷它的 所屬類別。

涉及關鍵概念：節點

? ?① 根節點：沒有進邊，有出邊。包含最初的，針對特征的提問。

? ?② 中間節點：既有進邊也有出邊，進邊只有一條，出邊可以有很多條。都是針對特征的提問。

? ?③ 葉子節點：有進邊，沒有出邊，每個葉子節點都是一個類別標簽。

? ?④ 子節點和父節點：在兩個相連的節點中，更接近根節點的是父節點，另一個是子節點。

二、sklearn中的決策樹

????????涉及模塊：sklearn.tree

1. tree.DecisionTreeClassifier（分類樹）

（1）模型基本參數

（2）模型屬性

（3）接口

2. tree.DecisionTreeRegressor（回歸樹）

重要參數：criterion

????????回歸樹衡量分枝質量的指標，支持的標準有三種：

????① 輸入“mse”使用均方誤差mean squared error（MSE），父節點和葉子節點之間的均方誤差的差額將被用來作為特征選擇的標準，這種方法通過使用葉子節點的均值來最小化 L2損失。

? ? ?② 輸入“friedman_mse”，使用費爾德曼均方誤差，這種指標使用弗里德曼針對潛在分枝中的問題改進后的均方誤差。

? ? ?③ 輸入“mae”使用絕對平均誤差MAE （mean absolute error），這種指標使用葉節點的中值來最小化 L1損失。

3. tree.export_graphviz（將生成的決策樹導出為DOT格式，畫圖專用）

4. 其他（補充）

????????① 信息熵的計算比基尼系數緩慢一些，因為基尼系數的計算不涉及對數。另外，因為信息熵對不純度更加敏感，所以信息熵作為指標時，決策樹的生長會更加“精細”，因此對于高維數據或者噪音很多的數據，信息熵很容易過擬合，基尼系數在這種情況下效果往往比較好。

????????② random_state用來設置分枝中的隨機模式的參數，默認None，在高維度時隨機性會表現更明顯，低維度的數據（比如鳶尾花數據集），隨機性幾乎不會顯現。輸入任意整數，會一直長出同一棵樹，讓模型穩定下來。

????????③ splitter也是用來控制決策樹中的隨機選項的，有兩種輸入值，輸入“best”，決策樹在分枝時雖然隨機，但是還是會優先選擇更重要的特征進行分枝（重要性可以通過屬性feature_importances_查看），輸入“random”，決策樹在分枝時會更加隨機，樹會因為含有更多的不必要信息而更深更大，并因這些不必要信息而降低對訓練集的擬合。

????????④ 在不加限制的情況下，一棵決策樹會生長到衡量不純度的指標最優，或者沒有更多的特征可用為止，這樣的決策樹往往會過擬合。為了讓決策樹有更好的泛化性，需要要對決策樹進行剪枝。剪枝策略對決策樹的影響巨大，正確的剪枝策略是優化決策樹算法的核心。

三、決策樹的優缺點

1. 優點

????① 易于理解和解釋，因為樹木可以畫出來被看見。

????② 需要很少的數據準備。其他很多算法通常都需要數據規范化，需要創建虛擬變量并刪除空值等。但 sklearn中的決策樹模塊不支持對缺失值的處理。

????③ 使用樹的成本（比如說，在預測數據的時候）是用于訓練樹的數據點的數量的對數，相比于其他算法，這是一個很低的成本。

????④ 能夠同時處理數字和分類數據，既可以做回歸又可以做分類。其他技術通常專門用于分析僅具有一種變量類型的數據集。

????⑤ 能夠處理多輸出問題，即含有多個標簽的問題（注意與一個標簽中含有多種標簽分類的問題區別開）

????⑥ 是一個白盒模型，結果很容易能夠被解釋。如果在模型中可以觀察到給定的情況，則可以通過布爾邏輯輕松解釋條件。相反，在黑盒模型中（例如，在人工神經網絡中），結果可能更難以解釋。

????⑦ 可以使用統計測試驗證模型，這讓我們可以考慮模型的可靠性。即使其假設在某種程度上違反了生成數據的真實模型，也能夠表現良好。

2. 缺點

????① 決策樹學習者可能創建過于復雜的樹，這些樹不能很好地推廣數據。這稱為過度擬合。修剪，設置葉節點所需的最小樣本數或設置樹的最大深度等機制是避免此問題所必需的。

????② 決策樹可能不穩定，數據中微小的變化可能導致生成完全不同的樹，這個問題需要通過集成算法來解決。

????③ 決策樹的學習是基于貪婪算法，它靠優化局部最優（每個節點的最優）來試圖達到整體的最優，但這種做法不能保證返回全局最優決策樹。這個問題也可以由集成算法來解決，在隨機森林中，特征和樣本會在分枝過程中被隨機采樣。

????④ 有些概念很難學習，因為決策樹不容易表達它們，例如 XOR，奇偶校驗或多路復用器問題。

????⑤ 如果標簽中的某些類占主導地位，決策樹學習者會創建偏向主導類的樹。因此，建議在擬合決策樹之前平衡數據集。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/44164.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/44164.shtml
英文地址，請注明出處：http://en.pswp.cn/web/44164.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！