Day21_【機器學習—決策樹(2)—ID3樹 、C4.5樹、CART樹】

一、ID3 決策樹

1. 核心思想

使用信息增益(Information Gain)作為特征選擇的標準,遞歸地構建決策樹。

2. 特征選擇標準

  • 信息增益(IG)

    ????????? ?

  • 選擇使信息增益最大的特征進行劃分。

3. 優點

  • 算法簡單,易于理解。
  • 能夠生成可解釋性強的規則。

4. 缺點

  • 只能處理離散(分類)特征,不能直接處理連續特征。
  • 偏向于選擇取值較多的特征(因為信息增益會偏高)。

5. 適用任務

僅支持分類任務


二、C4.5 決策樹

1. 核心思想

在 ID3 基礎上改進,使用信息增益率(Gain Ratio)來克服信息增益的偏向性。

2. 特征選擇標準

  • 信息增益率(Gain Ratio)

    ???????????????????????? ? ??

  • 使用增益率可以懲罰取值較多的特征,減少偏向。

3. 改進點(相比 ID3)

  • ? 支持連續特征:通過二分法尋找最佳分割點。
  • ? 支持缺失值處理:使用概率分布分配樣本。
  • ? 引入剪枝(后剪枝):提高泛化能力。
  • ? 支持不同代價的誤分類(代價敏感學習)。

4. 優點

  • 適用于真實世界復雜數據。

5. 缺點

  • 對噪聲敏感。
  • 可能產生較多小分支。

7. 適用任務

僅支持分類任務


三、CART 決策樹

1. 核心思想

使用基尼指數(分類)或平方誤差(回歸)作為劃分標準,構建二叉樹結構。

2. 特征選擇標準

  • 分類任務:使用基尼指數(Gini Impurity)

  • 回歸任務:使用最小平方誤差(MSE),選擇使子集方差最小的劃分。

3. 樹的結構

  • 必須是二叉樹:每個節點只分裂為兩個子節點。
  • 對離散特征:相當于進行“是/否”判斷。
  • 對連續特征:尋找最優分割閾值。

4. 優點

  • 支持分類和回歸兩種任務。
  • 輸出結果穩定,易于實現。
  • 支持剪枝,防止過擬合。

5. 缺點

  • 二叉樹可能導致樹較深。
  • 對數據變化敏感(小變化可能導致樹結構大變)。

6. 適用任務

? 支持分類回歸任務。

四、對比

五、小結

信息增益(ID3)、信息增益率值越大(C4.5),則說明優先選擇該特征。

基尼指數值越小(cart),則說明優先選擇該特征。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/96025.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/96025.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/96025.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

2025計算機視覺新技術

CLIP / BLIP-3 類「視覺-語言大模型」 ? 是什么:讓網絡自己學會“看圖說話”,zero-shot 就能分類、檢測、檢索。 ? 能干什么:不寫訓練代碼,直接一句中文 prompt 就把商品圖分成 500 類。 ? 落地難度:★☆☆&#xf…

[光學原理與應用-431]:非線性光學 - 能生成或改變激光波長的物質或元件有哪些?

要生成或改變激光波長,可依賴增益介質、非線性光學元件、調諧元件及特殊激光器設計,以下是一些關鍵物質和元件及其作用機制:一、增益介質:波長的“決定者”增益介質是激光器的核心,其原子或分子的能級結構直接決定輸出…

接口權限驗證有哪些方式

接口權限驗證是保障 API 安全的核心機制,常見的方式有以下幾類,適用于不同場景和安全需求: 1. 基于令牌(token)的驗證 (1)JWT(JSON Web Token) 原理: 服務器驗…

Go開發的自行托管代理加速服務:支持Docker與GitHub加速

HubProxy:一站式解決Docker與GitHub訪問難題的輕量級代理服務作為開發者,我們經常遇到這些問題:Docker鏡像拉取速度慢得讓人抓狂,GitHub Release文件下載到一半斷開,或者某些境外容器倉庫完全無法訪問。最近發現的hubp…

用Python打造逼真的照片桌面:從拖拽到交互的完整實現

在這個數字化時代,我們經常需要處理大量的照片和圖片文件。今天我將帶你一步步實現一個功能豐富的照片桌面程序,讓你可以像在真實桌面上擺放照片一樣操作數字圖片。這個程序使用wxPython構建,支持拖拽、調整大小、刪除等交互功能。C:\pythonc…

《sklearn機器學習——模型的持久性》joblib 和 pickle 進行模型保存和加載

模型持久性在 Scikit-learn 中的應用詳解 模型持久性的基本概念 在機器學習領域,模型持久性是指將訓練好的模型保存到磁盤或數據庫中,以便在后續的預測任務中能夠直接使用,而無需重新訓練模型。這一過程不僅提高了模型的可重用性,…

前端-組件化開發

目錄 一.組件化 二.根組件 三.App.vue文件(單文件組件)的三個組成部分 四.普通組件的注冊和使用: 1.普通組件的創建 2.局部注冊 3.全局注冊 🧠 補充小技巧: 💡 關于組件名(第一個參數&…

UNIX/macOS路由表查詢原理與實現

🌐 UNIX/macOS路由表查詢原理與實現📌 功能全景圖 #mermaid-svg-mz6rxrQ73xinNsqc {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-mz6rxrQ73xinNsqc .error-icon{fill:#552222;}#mermaid-svg…

Python爬蟲實戰:研究Style sheets模塊,構建電商平臺筆記本電腦銷售數據采集和分析系統

1. 引言 1.1 研究背景 在數字經濟時代,互聯網蘊含的海量數據已成為企業決策與學術研究的核心資源。網絡爬蟲技術通過自動化請求、解析網頁,能夠高效提取公開數據,為市場分析、競品研究等場景提供基礎支撐。Python 憑借其豐富的生態庫(如 Requests、BeautifulSoup、Pandas…

lesson55:CSS導航組件全攻略:從基礎導航條到動態三級菜單與伸縮菜單實現

目錄 一、CSS導航條:構建基礎導航系統 1.1 語義化HTML結構 1.2 現代Flexbox布局實現 1.3 核心技術解析 二、三級菜單:構建多層級導航體系 2.1 嵌套HTML結構 2.2 多級菜單CSS實現 2.3 關鍵技術解析 三、伸縮菜單:實現動態交互導航 3…

Linux基礎知識(二)

文件操作1. 怎么理解 I/O 重定向? 2. /dev/null 是什么,有什么用途? 3. 解釋下列命令的結果:&> /dev/null 、2>> file 4. 怎么理解管道?管道和重定向有什么區別? 5. 在什么情況下需要使用 tee…

Ribbon和LoadBalance-負載均衡

Ribbon和LoadBalance-負載均衡 Ribbon 和 Spring Cloud LoadBalancer (SCL) 都是 Spring Cloud 生態中實現客戶端負載均衡的核心組件,但它們在定位、架構、實現和功能上有顯著區別。以下是詳細的對比分析: ?1. 核心定位與背景??Ribbon:??起源于 ?N…

【數據可視化-107】2025年1-7月全國出口總額Top 10省市數據分析:用Python和Pyecharts打造炫酷可視化大屏

🧑 博主簡介:曾任某智慧城市類企業算法總監,目前在美國市場的物流公司從事高級算法工程師一職,深耕人工智能領域,精通python數據挖掘、可視化、機器學習等,發表過AI相關的專利并多次在AI類比賽中獲獎。CSDN…

Java中的字符串

字符串 String Java編譯器對String類型有特殊處理,可用使用"…"來表示一個字符串。實際上字符串在String內部是通過一個數組表示的。 Java中字符串的一個重要特點是不可變。這種不可變性是通過內部的private final char[]字段,以及沒有任何修改…

ragflow MCP 調用核心提示詞解析:邏輯閉環與優化方向

大家好~我是你們的提示詞工程師朋友,今天想跟大家聊聊開源項目 ragflow 里,MCP調用體系中的兩個關鍵提示詞。最近在研究調用工具和提示詞撰寫之間的平衡態。這倆家伙在信息處理和問題解決里作用不小,既有讓人眼前一亮的優勢?&…

從基礎功能到自主決策, Agent 開發進階路怎么走?

Agent 開發進階路線 基礎功能開發 環境感知與數據采集:傳感器集成、數據預處理(濾波、歸一化)、多模態數據融合簡單規則引擎:基于if-then的邏輯決策樹、狀態機實現基礎行為控制基礎交互能力:語音識別/TTS集成、基礎對話…

ModelScope概述與實戰

概述 ModelScope,簡稱MS,魔搭社區,由阿里巴巴達摩院推出的一個多任務、多模態的預訓練模型開放平臺,提供模型下載與運行、數據集管理、在線推理體驗、開發者社區交流等一站式服務,支持多種主流框架(如PyTo…

人工智能學習:LR和SVM的聯系與區別?

LR和SVM的聯系與區別?相同點:(1) LR和SVM都可以處理分類問題 ,且— 般都用于處理線性二 分類問題(在改進的情況下可以處理多分類問題)(2)兩個方 法都可以增加不同的正則化…

Integer 緩存機制

現象描述 Integer a 100; Integer b 100; System.out.println(a b); // true(引用相同,從緩存中取)Integer c 200; Integer d 200; System.out.println(c b); // false(超出緩存范圍,new Integer(200)&#xff0…

生物化學Learning Track(II)——多肽+蛋白質一級結構

本筆記基于楊榮武教授第四版《生物化學》(持續更新)1. 多肽我們在上一節筆記里面介紹了什么是氨基酸,還有氨基酸的種類以及氨基酸基本的一些性質如等電點極性手性等等,這里我們開始介紹氨基酸結合的產物,因為氨基酸是脫…