決策樹 GBDT XGBoost LightGBM

一、決策樹

1. 決策樹有一個很強的假設:

????信息是可分的,否則無法進行特征分支

2. 決策樹的種類:

2. ID3決策樹:

ID3決策樹的數劃分標準是信息增益:

信息增益衡量的是通過某個特征進行數據劃分前后熵的變化量。但是,它沒有考慮到特征本身的熵,因此容易偏向于取值較多的特征

3. C4.5決策樹:

C4.5決策樹的數劃分標準是信息增益比:

信息增益比則是 信息增益 除以 該特征自身的熵(也稱為分裂信息)。這種方法旨在糾正信息增益對于取值較多特征的偏愛,通過將信息增益與特征自身的熵相除來懲罰那些擁有大量取值的特征。

C4.5并沒有直接偏向于取值少的特征,而是通過分裂信息來調整信息增益,使得特征的基數大小影響其最終的選擇概率。這種方式幫助算法避免了僅僅基于信息增益選擇特征可能導致的過擬合問題,特別是當存在高基數特征時。

4. CART 回歸樹 和 分類樹:

回歸樹:每個子樹的輸出是該子樹節點值的均值:

步驟(1):選擇最優切分變量和切分點

步驟(2):劃分區域并決定輸出值?

根據特征jj和切分點ss將數據集劃分為兩個子區域

計算子區域內的樣本目標值的平均值作為該區域的預測值

這兩個步驟描述了遞歸地應用上述過程,直到滿足停止條件,并最終生成決策樹的過程。

5. CART 的參數:?

6. CART 訓練后的回歸樹常用屬性:

為什么獲取樹的葉子節點數 就可以用于評估泛化能力?

???????葉子節點數量越多,意味著決策樹越復雜。每個葉子節點代表一個具體的預測規則或輸出值。如果一棵樹的葉子節點過多,說明它可能已經學習了訓練數據中的很多細節甚至是噪音,這種現象通常被稱為過擬合。過擬合模型在訓練集上表現很好,但在未見過的數據(測試集)上的表現較差。

7. 回歸樹demo展示,可視化回歸樹:

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeRegressor, plot_tree
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt# 1. 加載數據
data = load_iris()
X = data.data
y = X[:, 0]  # 用 sepal length 做回歸目標# 2. 數據劃分
X_train, X_test, y_train, y_test = train_test_split(X[:, 1:], y, test_size=0.2, random_state=42)# 3. 建立模型
reg = DecisionTreeRegressor(max_depth=3, random_state=42)
reg.fit(X_train, y_train)# 4. 模型預測與評估
y_pred = reg.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f"\n【模型評估】\n均方誤差 MSE: {mse:.4f}")# 5. 打印常用屬性
print("\n【模型屬性展示】")
print("特征重要性 feature_importances_:", reg.feature_importances_)
print("使用特征數 n_features_in_:", reg.n_features_in_)
print("輸出維度數 n_outputs_:", reg.n_outputs_)
print("實際使用的 max_features_:", reg.max_features_)
print("樹最大深度 get_depth():", reg.get_depth())
print("葉子節點數 get_n_leaves():", reg.get_n_leaves())# 6. 可視化特征重要性
feature_names = data.feature_names[1:]
plt.figure(figsize=(6, 4))
plt.bar(feature_names, reg.feature_importances_, color='teal')
plt.title("Feature Importances")
plt.ylabel("Importance")
plt.grid(axis='y')
plt.tight_layout()
plt.show()# 7. 可視化樹結構
plt.figure(figsize=(10, 6))
plot_tree(reg, feature_names=feature_names, filled=True, rounded=True)
plt.title("Decision Tree Structure")
plt.show()

8. 分類樹:

sklearn 的模型參數:

模型屬性對比:

demo:

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score# 1. 數據準備
iris = load_iris()
X = iris.data
y = iris.target# 2. 劃分數據
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 3. 構建模型(使用信息增益)
clf = DecisionTreeClassifier(criterion='entropy', max_depth=3, random_state=42)
clf.fit(X_train, y_train)# 4. 預測與評估
y_pred = clf.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f"準確率: {acc:.4f}")# 5. 展示分類專有屬性
print("\n【分類樹專有屬性】")
print("類別標簽 classes_:", clf.classes_)
print("類別數量 n_classes_:", clf.n_classes_)
print("每個測試樣本的預測概率 predict_proba():\n", clf.predict_proba(X_test[:5]))

?二、Boosting:

Boosting?中文是“提升方法”,是一種集成學習方法,它只是一個“策略思想”。

AdaBoost、GDBT、 XGBoost、LightGBM 都是這個思想的具體實現。

Boosting 將多個弱學習器(weak learner),如小決策樹,串行地組合在一起,每一輪都“糾正”上一輪的錯誤,最終得到一個強大的集成模型。

Gradient Boosting:英文縮寫 GDBT ,中文是“梯度提升樹”或“提升樹”、“提升樹模型”。

(2)Gradient Boosting:英文縮寫 GDBT ,中文是“梯度提升樹”或“提升樹”、“提升樹模型”。

注意:提升樹 GBDT(及其變種) ≠??AdaBoost?

1. AdaBoost:

注意:不同于GDBT,AdaBoost 在第 t 輪不直接使用前一輪訓練出的模型,而是通過樣本權重的改變,間接地反映之前模型的表現。

AdaBoost 每一輪都是從頭訓練一個新的弱學習器??h_{t}(x)?,只是通過每次迭代將?訓練樣本分布進行調整,令錯分樣本權重更大

2. GDBT:

GBDT 是一種通過迭代擬合損失函數負梯度(即殘差)的方式訓練多個決策樹并進行加權求和的Boosting 方法。GDBT使用回歸樹作為弱學習器(哪怕是分類任務)。

GBDT 的“Gradient”不是裝飾,它真的是在做梯度下降,只是回歸時,常用的損失函數是平方誤差(MSE)的公式為:

\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2?

對于MSE 的負梯度為:

MSE的負梯度剛好有一個可描述的名字,就是殘差,因此可以理解為一種巧合hh

再舉個例子:

GBDT 用于二分類,使用對數損失(Log Loss):

那么,在 GBDT 的每一輪中,就是用這些 負梯度 gi? 作為新的“偽標簽”來訓練一個 回歸樹。在新的一輪迭代中,這個回歸樹試圖學習xi → gi 。該回歸樹不是去做分類,而是用回歸樹去逼近這個負梯度值(偽殘差)

你看到的是“殘差”,其實它背后是“負梯度”;
這個巧合讓 GBDT 在回歸問題上看起來像“殘差堆樹”,但本質上是一種通用的函數空間梯度優化方法。

1. 集成學習:

2. Boosting 工作機制:

Boosting 的每一輪訓練模型都試圖學習 當前預測值與真實值之間的差值(殘差),從而逐步縮小誤差。?

Boosting 不是一開始就擬合目標,而是每次都只擬合 還沒學會的部分,就像學生每天復習昨天不會的題,反復訓練,直到掌握。

?

提升樹算法通過逐次擬合殘差并不斷優化模型,能夠有效地提高模型的預測精度,且避免模型過擬合,具體來說,原因如下:

(1)逐步擬合殘差,避免直接過擬合目標
每一步學習的目標是上一步的誤差(殘差),不是一次性“猜中全部”。
這種“加法模型”方式可以讓模型以小步慢走的方式逐漸逼近真實目標。

(2)模型弱但組合強
Boosting 通常使用弱學習器(如深度很淺的決策樹)。
單個模型能力弱,不容易過擬合,但組合起來又能表現強。

總結參考:

感謝大佬的無私分享,同時加入了一些自己的總結和理解,歡迎批評指正,相互交流~

決策樹(ID3、C4.5、CART)的原理、Python實現、Sklearn可視化和應用 - 知乎

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/82539.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/82539.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/82539.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

java基礎學習(十四)

文章目錄 4-1 面向過程與面向對象4-2 Java語言的基本元素:類和對象面向對象的思想概述 4-3 對象的創建和使用內存解析匿名對象 4-1 面向過程與面向對象 面向過程(POP) 與 面向對象(OOP) 二者都是一種思想,面向對象是相對于面向過程而言的。面向過程&…

TCP 三次握手,第三次握手報文丟失會發生什么?

文章目錄 RTO(Retransmission Timeout)注意 客戶端收到服務端的 SYNACK 報文后,會回給服務端一個 ACK 報文,之后處于 ESTABLISHED 狀態 因為第三次握手的 ACK 是對第二次握手中 SYN 的確認報文,如果第三次握手報文丟失了,服務端就…

deepseek告訴您http與https有何區別?

有用戶經常問什么是Http , 什么是Https ? 兩者有什么區別,下面為大家介紹一下兩者的區別 一、什么是HTTP HTTP是一種無狀態的應用層協議,用于在客戶端瀏覽器和服務器之間傳輸網頁信息,默認使用80端口 二、HTTP協議的特點 HTTP協議…

openresty如何禁止海外ip訪問

前幾天,我有一個徒弟問我,如何禁止海外ip訪問他的網站系統?操作系統采用的是centos7.9,發布服務采用的是openresty。通過日志他發現,有很多類似以下數據 {"host":"172.30.7.95","clientip&q…

理解 Redis 事務-20 (MULTI、EXEC、DISCARD)

理解 Redis 事務:MULTI、EXEC、DISCARD Redis 事務允許你將一組命令作為一個單一的原子操作來執行。這意味著事務中的所有命令要么全部執行,要么全部不執行。這對于在需要一起執行多個操作時保持數據完整性至關重要。本課程將涵蓋 Redis 事務的基礎知識…

Milvus分區-分片-段結構詳解與最佳實踐

導讀:在構建大規模向量數據庫應用時,數據組織架構的設計往往決定了系統的性能上限。Milvus作為主流向量數據庫,其獨特的三層架構設計——分區、分片、段,為海量向量數據的高效存儲和檢索提供了堅實基礎。 本文通過圖書館管理系統的…

Kettle 遠程mysql 表導入到 hadoop hive

kettle 遠程mysql 表導入到 hadoop hive (教學用 ) 文章目錄 kettle 遠程mysql 表導入到 hadoop hive創建 對象 執行 SQL 語句 -mysql 導出 CSV格式CSV 文件遠程上傳到 HDFS運行 SSH 命令遠程登錄 run SSH 并執行 hadoop fs -put 建表和加載數據總結 創…

Linux輸出命令——echo解析

摘要 全面解析Linux echo命令核心功能,涵蓋文本輸出、變量解析、格式控制及高級技巧,助力提升Shell腳本開發與終端操作效率。 一、核心功能與定位 作為Shell腳本開發的基礎工具,echo命令承擔著信息輸出與數據傳遞的重要角色。其主要功能包…

Windows系統下 NVM 安裝 Node.js 及版本切換實戰指南

以下是 Windows 11 系統下使用 NVM 安裝 Node.js 并實現版本自由切換的詳細步驟: 一、安裝 NVM(Node Version Manager) 1. 卸載已有 Node.js 如果已安裝 Node.js,請先卸載: 控制面板 ? 程序與功能 ? 找到 Node.js…

【leetcode】977. 有序數組的平方

有序數組的平方 題目代碼1. 使用sorted2. 雙指針 題目 977. 有序數組的平方 給你一個按 非遞減順序 排序的整數數組 nums,返回 每個數字的平方 組成的新數組,要求也按 非遞減順序 排序。 示例 1: 輸入:nums [-4,-1,0,3,10] 輸…

Obsidian 數據可視化深度實踐:用 DataviewJS 與 Charts 插件構建智能日報系統

Obsidian 數據可視化深度實踐:用 DataviewJS 與 Charts 插件構建智能日報系統 一、核心架構解析 本系統基于 Obsidian 的 DataviewJS 和 Charts 插件,實現日報數據的自動采集、可視化分析及智能回溯功能(系統架構原理見)。其技術…

深入解析Spring Boot與Kafka集成:構建高效消息驅動應用

深入解析Spring Boot與Kafka集成:構建高效消息驅動應用 引言 在現代分布式系統中,消息隊列是實現異步通信和解耦的關鍵技術之一。Apache Kafka作為一款高性能、分布式的消息隊列系統,廣泛應用于大數據和實時數據處理場景。本文將詳細介紹如…

Rust 學習筆記:關于生命周期的練習題

Rust 學習筆記:關于生命周期的練習題 Rust 學習筆記:關于生命周期的練習題生命周期旨在防止哪種編程錯誤?以下代碼能否通過編譯?若能,輸出是?如果一個引用的生命周期是 static,這意味著什么&…

word解決不同文檔同樣的字體段落設置下看起來行距不同的問題

問題: 有時候我們照著模板修改文檔格式,明明字體和段落設置一模一樣,但是看起來行距不一樣。 解決辦法: 一般照著模板修改文檔內容,要注意以下幾點,如果以下幾點與模板設置相同時就可解決上述問題 1、紙…

Jenkins實踐(9):配置“構建歷史的顯示名稱,加上包名等信息“

Jenkins實踐(9):配置“構建歷史的顯示名稱,加上包名等信息“ 版本:Jenkins 4.262.2 需求:想要在構建歷史中展示,本次運行的是哪個版本或哪個包 操作步驟: 1、先安裝插件Build Name and Description Setter 2、Set Build Name 3、構建歷史處查看展示 插件特性說明 安裝依賴…

matIo庫及.mat數據格式介紹

一.概述 1..mat數據格式 (1).mat 是 MATLAB 軟件的標準二進制數據存儲格式,用于保存變量、矩陣、數組、結構體等數據類型。其名稱源于 “MATLAB Data” 的縮寫,最初設計為高效存儲和加載 MATLAB 環境中的數據,后來逐…

企業級調度器LVS (面試版)

1. 什么是 LVS?有什么作?? LVS ( Linux Virtual Server )是?個基于 Linux 內核實現的?性能、可擴展和可靠的負載均衡。它將多個服務器組成?個?可?、?性能和?可靠的虛擬服務器集群,通過將客戶端的請求轉發到不同的后端服務器,實現負載均衡和?可?性。 2.什么是 …

用python制作一個簡易的聊天室軟件

文章目錄 效果圖python源碼使用說明效果圖 只需要一百多行的python代碼,就能制作一個簡易的聊天室軟件。效果如下: 操作說明: 1、先運行server.py啟動服務器; 2、每運行一次client.py可以創建一個聊天用戶(需要輸入用戶昵稱); 3、輸入對方的昵稱即可與其聊天,輸入“a…

Android13 開機時間優化

前言 在實際應用場景中,特定領域對 Android 系統的啟動時間有著極為嚴苛的要求,車載領域便是典型代表。想象一下,當車輛已經行駛出數公里之遙,車內的信息娛樂系統(IVI)卻仍未完成啟動,這無疑會…

08SpringBoot高級--自動化配置

目錄 Spring Boot Starter 依賴管理解釋 一、核心概念 二、工作原理 依賴傳遞: 自動配置: 版本管理: 三、核心流程 四、常用 Starter 示例 五、自定義 Starter 步驟 創建配置類: 配置屬性: 注冊自動配置&a…