數據挖掘——決策樹分類

決策樹分類
- Hunt算法
- 信息增益
- 增益比率
- 基尼指數
- 連續數據
- 總結

決策樹分類

樹狀結構，可以很好的對數據進行分類；

決策樹的根節點到葉節點的每一條路徑構建一條規則；
具有互斥且完備的特點，即每一個樣本均被且只能被一條路徑所覆蓋；
只要提供的數據量足夠龐大真實，通過數據挖掘模式，就可以構造決策樹。

Hunt算法

設 $D_t$ 是與節點相關聯的訓練記錄集
算法步驟:

如果 $D_t$ 中所有記錄都屬于同一個類 $y_t$ ,則t是葉節點，用 $y_t$ 標記。
如果 $D_t$ 中包含屬于多個類的記錄,則選擇一個屬性測試條件，將記錄劃分成較小的子集
對于測試條件的每個輸出，創建一個子結點，并根據測試結果將 $D_t$ 中的記錄分布到子結點中。然后，對于每個子結點，遞歸地調用該算法。

Hunt算法采用貪心策略構建決策樹

在選擇劃分數據的屬性時，采取一系列局部最優決策來構造決策樹。

決策樹歸納的設計問題

如何分裂訓練記錄？
- 怎樣為不同類型的屬性指定測試條件？
- 怎樣評估每種測試條件？
如何停止分裂過程？

怎樣為不同類型的屬性指定測試條件？

依賴于屬性的類型
- 標稱
- 序數
- 連續
依賴于劃分的路數
- 多路劃分
- 二元劃分

怎樣選擇最佳劃分？
選擇最佳劃分的度量通常是根據劃分后子節點純性的程度。
純性的程度越高，類分布就越傾斜，劃分結果越好。
在這里插入圖片描述

信息增益

熵的定義如下：
$\operatorname{Entropy}(S)=-\sum_{i=1}^{c} p_{i} \log \left(p_{i}\right)$
信息增益定義如下：
$\operatorname{Gain}(S, A)=\operatorname{Entropy}(S)-\sum_{v \in A} \frac{\left|S_{v}\right|}{|S|} \operatorname{Entropy}\left(S_{v}\right)$

信息增益表示的是：得知特征X的信息而使得分類Y的信息的不確定性減少的程度，如果某個特征的信息增益比較大，就表示該特征對結果的影響較大。

舉例說明:
在這里插入圖片描述

增益比率

信息增益問題：取值比較多的特征比取值少的特征信息增益大
解決方案：使用增益率，K越大，SplitINFO越大，增益率被平衡
${{GainRATIO_{split}}}=\frac{\text { GAIN }_{\text {split }}}{\text { SplitINFO}}$
$SplitINFO=-\sum_{n=1}^{k} \frac{n_{i}}{n} \log \frac{n_{i}}{n}$

增益率準則對可取值數目較少的屬性有偏好，因此C4.5算法并不是直接選擇增益率最大的屬性作為分支標準，而是先從侯選屬性中找出信息增益高于平均水平的屬性，再從中選擇增益率最高的屬性。

基尼指數

在這里插入圖片描述

連續數據

二元劃分： $（ A < v ） or （ A \geq v ）$
- 考慮所有的劃分點，選擇一個最優劃分點v
多路劃分： $v_i≤A<v_{i+1} （i=1,…,k）$

總結

決策樹是一種構建分類（回歸）模型的非參數方法
不需要昂貴的的計算代價
決策樹相對容易解釋
決策樹是學習離散值函數的典型代表
決策數對于噪聲的干擾具有相當好的魯棒性
冗余屬性不會對決策樹的準確率造成不利影響
數據碎片問題：隨著樹的生長，可能導致葉結點記錄數太少，對于葉結點代表的類，不能做出具有統計意義的判決
子樹可能在決策樹中重復多次，使決策樹過于復雜
決策樹無法學習特征之間的線性關系，難以完成特征構造

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/65019.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/65019.shtml
英文地址，請注明出處：http://en.pswp.cn/web/65019.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！