不純度與決策樹構建
不純度概念:
決策樹通過不純度指標來選擇最佳分割節點和分枝方式
不純度衡量節點中樣本類別的混雜程度
不純度越低,節點中樣本類別越純凈,擬合效果越好
常用不純度指標:
信息熵(Entropy):基于信息論的概念,衡量不確定性(這個比基尼系數讓樹的生長更加細膩,擬合程度高)
基尼系數(Gini Index):計算隨機抽樣時分類錯誤的概率(默認是這個)
節點分裂原則:
選擇使子節點不純度降低最多的特征進行分裂
子節點的不純度總是低于父節點
葉子節點的不純度是最低的
剪枝與防止過擬合
過擬合風險:
完全生長的決策樹會對訓練數據擬合得非常好(不純度很低)
但可能導致樹結構過于復雜,泛化能力差
剪枝方法:
預剪枝:在樹完全生長前限制
限制最大深度(max_depth)
設置最小樣本分裂數(min_samples_split)
設置葉子節點最小樣本數(min_samples_leaf)
后剪枝:先讓樹完全生長,然后剪去不重要的分支
剪枝效果:
減少樹的復雜度
提高模型泛化能力
防止對訓練數據的過度擬合