【漫話機器學習系列】274.基尼指數（Gini Index）

決策樹中的基尼指數（Gini Index）詳解 —— 從公式理解到實際應用

在構建決策樹模型時，一個核心問題是：如何選擇最優的特征來進行節點劃分？
這就涉及到了“劃分準則”的問題。常見的準則有信息增益、信息增益率以及本文的主角：基尼指數（Gini Index）。

在這篇文章中，我們將借助一張手繪風圖解，深入淺出地理解基尼指數的含義、公式構成、應用場景及其在構建決策樹過程中的作用。

基尼指數（Gini Index）是一種用于衡量一個數據集合“純度”的指標，主要用于分類問題中的決策樹構建，尤其是 CART（Classification and Regression Tree）算法。

通俗理解：

基尼指數越小，說明這個集合中樣本類別越“集中”，即越“純”；反之，值越大，說明類別混雜，純度低。

參考圖中的公式：

公式如下：

$G = \sum_{k=1}^{K} \hat{p}_{mk} (1 - \hat{p}_{mk})$

各符號說明如下：

假設我們有一個節點，其中 70% 是正類（positive），30% 是負類（negative），那么：

G = 0.7(1-0.7) + 0.3(1-0.3) = 0.21 + 0.21 = 0.42

如果節點中全部為正類，即 $\hat{p}_{mk}=1$ ，那么：

G = 1(1 - 1) = 0

也就是說，這個節點是完全純的（只含一個類別），基尼指數為 0。

圖中給出了簡潔直觀的解釋：

G 的值越小，節點中的分布就越平均（即越純）
G 的值越大，說明分布越分散（即越雜亂）

這是決策樹在每一個節點要選擇分裂的依據：選擇使得 G 值最小的特征和分裂方式，從而得到更“純”的子集。

圖中總結如下重點：

什么時候用基尼指數？
當你使用的是 CART 決策樹時，或者在意分類速度、效率優先時。
為什么選擇基尼指數？
相比熵的計算（涉及對數），Gini 指數更易實現、速度更快，且在許多實際場景下效果相當。
下一步建議：
- 實現一個基于 Gini 指數的二分類決策樹；
- 用 sklearn 決策樹時，設置 criterion='gini' 來啟用它。

如果你覺得這篇文章對你有幫助，歡迎點贊 + 收藏 + 關注！后續我會繼續發布更多圖解機器學習的內容！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/81957.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/81957.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/81957.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！