1.6、機器學習-決策樹模型(金融實戰)

決策樹是一種基于特征分割的監督學習算法,通過遞歸分割數據空間來構建預測模型。

1.1、決策樹模型基本原理

決策樹思想的來源樸素,程序設計中的條件分支結構就是 if-then結構,最早的決策樹就是利用這類結構分割數據的一種分類學習方法。為了更好理解決策樹具體怎么分類的,我們通過以下問題例子?

問題:如何對這些客戶進行分類預測?你是如何去劃分?我們怎么知道這些特征哪個更好放在最上面,那么決策樹的真是劃分是這樣的。

1.2、決策樹模型的建樹依據

為了易于生成決策樹的理解,下面我們使用“信息熵”來說明決策樹的構建。

1.2.1、信息熵

       需要用到信息論專業的知識!此處,通過經典“猜冠軍”的例子來引入信息熵:

       我們玩個猜測類游戲,猜猜下圖32支球隊那支是冠軍。并且猜測錯誤會付出代價,每猜錯一次給一塊錢,告訴我是否猜對了,那么我需要掏多少錢才能知道誰是冠軍呢? (這有個前提是:你不知道任意球隊的信息、歷史比賽記錄、球隊實力等)。

為了使代價最小,可以使用二分法來猜測:我可以把球依次編上號,從1到32,然后提問:冠 軍在1-16號嗎?依次詢問,只需要五次,就可以知道結果。

 我們來看這個式子:

  • 32支球隊,log32=5比特
  • 64支球隊,log64=6比特

香農指出,它的準確信息量應該是,p為每個球隊獲勝的概率(假設概率相等,都為1/32),我們不用錢去衡量這個代價了,香濃指出用比特:

1.2.1.1、信息熵的定義

信息熵(Information Entropy)是信息論中的專業術語,其標準單位為比特(bit),用于衡量系統混亂程度的指標。對于一個離散隨機變量 X,其可能的取值為 x1?,x2…,xn?,應的概率為P(x1?),P(x2?),…,P(xn?),則信息熵 H(X)(單位為比特)定義為:

“誰是世界杯冠軍”的信息量應該比5比特少,特點(重要):

  • 當這32支球隊奪冠的幾率相同時,對應的信息熵等于5比特
  • 只要概率發生任意變化,信息熵都比5比特大

1.2.1.2、總結

信息和消除不確定性是相聯系的:當我們得到的額外信息(球隊歷史比賽情況等等)越多的話,那么我們猜測的代價越小(猜測的不確定性減小)

  • 當所有事件等概率時(最大不確定性),熵值最大,需要更多比特來編碼,對應系統混亂,純度低

  • 當某個事件必然發生時(無不確定性),熵值為0,不需要任何比特編碼(因為結果已知),對應系統穩定,純度高

import numpy as np
# 計算信息熵?例
p = np.array([39, 37, 44]) / 120 # 概率分布
entropy = -(p * np.log2(p)).sum()
print(f"信息熵: {entropy:.4f}")

問題: 回到我們之前的貸款案例,怎么去劃分?可以利用當得知某個特征(比如是否有房子)之后,我們能夠減少的不確定性大小。越大我們可以認為這個特征很重要。那怎么去衡量減少的不確定性大小呢?

1.2.2 、信息增益(樹劃分依據之一)

1.2.2.1 、定義與公式

特征A對訓練數據集D的信息增益g(D,A),定義為集合D的信息熵H(D)與特征A給定條件下D的信息條件熵H(D|A)之差,即公式為:

H(D)-數據集D的信息熵(經驗熵):

  • K:目標變量中的類別數量

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/97728.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/97728.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/97728.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

常見中間件的同步算法、CAP 默認傾向及自定義支持情況

文章目錄CAP 概念1、比較2、關鍵說明:CAP 概念 CAP 定理指分布式系統無法同時滿足??一致性(C??onsistency)、??可用性(??A??vailability)、??分區容錯性(??P??artition Tolerance&#xf…

Spring 中處理 HTTP 請求參數注解全解析

在 Spring 框架的 Web 開發中,處理 HTTP 請求參數是一項基礎且重要的工作。除了 PathVariable、RequestParam 和 Valid RequestBody 外,還有一些其他注解也用于此目的。本文將對這些注解進行全面的區分和解析,幫助開發者在實際項目中更準確地…

【代碼隨想錄算法訓練營——Day11】棧與隊列——150.逆波蘭表達式求值、239.滑動窗口最大值、347.前K個高頻元素

LeetCode題目鏈接 https://leetcode.cn/problems/evaluate-reverse-polish-notation/ https://leetcode.cn/problems/sliding-window-maximum/ https://leetcode.cn/problems/top-k-frequent-elements/ 題解 150.逆波蘭表達式求值、 不能用tokens[i] > "0" &&…

Docker 容器化部署核心實戰——鏡像倉庫管理與容器多參數運行詳解

摘要: 在當今云原生技術迅速發展的背景下,Docker 已成為應用容器化的首選工具。本文作為“Docker 容器化部署核心實戰:從鏡像倉庫管理、容器多參數運行到 Nginx 服務配置與正反向代理原理解析”系列的第一篇,將深入探討 Docker 鏡…

ESP8266無法連接Jio路由器分析

我查了一下關于這些 Jio 路由器型號(尤其是 JCOW414 和 JIDU6801)的公開資料,下面是我能拿到的內容 對比這些型號可能帶來的問題,以及對你排障的補充建議。 路由器型號 & 公開已知特性 型號已知 / 可查特性和 ESP8266 的潛在…

傳智播客--MySQL

DAY01 MySQL入門 第一章 數據庫介紹 1.1 什么是數據庫 數據存儲的倉庫,本質上是一個文件系統,作用:方便管理數據的。 1.2 數據庫管理系統 數據庫管理系統(DataBase Management System, DBMS):指一種操作和管…

[Dify] 實現“多知識庫切換”功能的最佳實踐

在構建知識驅動的問答系統或 AI 助手時,一個常見需求是:根據用戶問題所屬領域或上下文,切換使用不同的知識庫(Knowledge Base, KB)進行檢索。這樣可以提升回答的準確性、減少無關內容干擾,在多業務線或多主題應用中尤其有用。 本文將介紹: 為什么要做知識庫切換 Dify …

Jenkins運維之路(Jenkins流水線改造Day02-2-容器項目)

上篇文章中已經將絕大部分,Jenkins容器項目打包的相關功能改造完成了,這里在對構建部署后的告警類操作進行一些補充1.流水線告警1.1 安裝釘釘插件image-202509151111086851.2 配置釘釘插件image-20250915111235865image-202509151115328291.3 Pipeline釘…

64_基于深度學習的蝴蝶種類檢測識別系統(yolo11、yolov8、yolov5+UI界面+Python項目源碼+模型+標注好的數據集)

目錄 項目介紹🎯 功能展示🌟 一、環境安裝🎆 環境配置說明📘 安裝指南說明🎥 環境安裝教學視頻 🌟 二、數據集介紹🌟 三、系統環境(框架/依賴庫)說明🧱 系統環…

N1ctf-2025-PWN-ez_heap近隊容器的禮儀

ez_heap 保護全開 程序邏輯: 讀入0x30的字符串,進行字符串校驗:以冒號為標志split,分成四份。最后輸入字符串形如: xor 0x111111111111111 validate badmin:p64(xor)b:Junior:111111創建0x180的chunk存放note 結構體…

縱深防御實踐:東方隱俠CI/CD安全體系構建全解析

前言:CI/CD安全的必要性 企業上云是近些年的潮流,但是風險如影隨形。之前有家電商平臺出了個大岔子——半夜自動發新版本的時候,因為流程里沒做安全檢查,直接導致系統故障,一天就損失了300多萬。這還不算完,某銀行測試人員通過未授權的自動發布流程把代碼推到了生產環境…

2025年滲透測試面試題總結-71(題目+回答)

安全領域各種資源,學習文檔,以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各種好玩的項目及好用的工具,歡迎關注。 目錄 2. 滲透測試流程 & 內網滲透經驗 3. SQL注入報錯利用 4. XSS利用(反射型/DOM型&#xff0…

基于Echarts+HTML5可視化數據大屏展示-茶園大數據平臺指揮艙

效果展示&#xff1a;代碼結構&#xff1a;主要代碼實現 index.html布局 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0&quo…

華為網路設備學習-33(BGP協議 八)BGP路由 選路規則

一、目標與背景BGP路由特性&#xff1a;支持豐富的路徑屬性選路規則多樣注&#xff1a;在BGP路由表中最優選&#xff0c;不一定是路由表中的最優選。有可能存在靜態路由或者ospf路由等&#xff0c;其優先級高于BGP路由。二、選路規則概述從1到12&#xff0c;依次對比優先級。一…

深度學習(七):梯度下降

梯度下降&#xff08;Gradient Descent&#xff09;是深度學習中最核心的優化方法之一&#xff0c;它通過迭代更新模型參數&#xff0c;使得損失函數達到最小值&#xff0c;從而訓練出性能良好的神經網絡模型。 基礎原理 損失函數 在深度學習中&#xff0c;損失函數 L(θ) 是衡…

常見巖性分類與油氣勘探意義筆記

常見巖性分類與油氣勘探意義筆記 相關科普視頻可查看【說說巖石的分類-嗶哩嗶哩】 一、巖石基本分類體系 根據成因&#xff0c;自然界巖石可分為三大類&#xff0c;其中沉積巖與油氣勘探關系最為密切&#xff1a; 1. 火成巖&#xff08;巖漿巖&#xff09; 由巖漿冷卻凝固…

【Kubernetes】Tomcat 啟用 Prometheus 監控指標

之前出過一篇文章關于 “自定義監控指標實現業務 HPA 伸縮” &#xff0c;其中使用了 webapp 應用的指標數據&#xff08;JVM&#xff09;&#xff0c;接下來&#xff0c;這篇文章將介紹如何在通過 Tomcat 部署的 webapp 中啟用 Metrics 指標&#xff0c;一起來看看吧&#xf…

JVM 三色標記算法詳解!

目錄1. 什么是三色標記算法&#xff1f;三種顏色及其含義&#xff1a;2. 基礎三色標記算法流程 (非并發)3. 并發場景下的挑戰&#xff1a;一致性問題3.1. 漏標 (Missing Live Object) - 最嚴重的問題3.2. 錯標 (Floating Garbage) - 不那么嚴重的問題4. 屏障機制 (Barrier) - 解…

優化神經網絡模型以提升R2值至0.99的全面方案

優化神經網絡模型以提升R值至0.99的全面方案 1. 問題分析與背景 在深度學習項目中&#xff0c;提升模型的R&#xff08;決定系數&#xff09;值至0.99是一個具有挑戰性的目標&#xff0c;特別是在處理復雜的時間序列數據時。我們的現有模型結合了LSTM層、自注意力機制和MLP處理…

pgNow:一款免費的PostgreSQL監控與性能診斷工具

pgNow 是一款免費的桌面工具&#xff0c;可以為 PostgreSQL 數據庫提供快速集中的監控與性能診斷。 pgNow 不依賴代理&#xff0c;無需任何配置&#xff0c;可以幫助開發者或數據庫管理員&#xff08;DBA&#xff09;直觀地查看數據庫的統計信息和關鍵性能指標。 功能特性 跨平…