【數據分析十:Classification prediction】分類預測

一、分類的定義

已知:一組數據(訓練集) (X, Y)

例如:

x:數據特征/屬性(如收入)

y:類別標記(是否有借款)

任務:

學習一個模型,利用每一條記錄的特征x去預測它對應的類別y

即:輸入未標記的數據(含特征x),預測數據的類別y每一條記錄表示為 (x, y)

如何建立分類與預測模型?

一般流程:有監督學習

通常包括兩個階段:模型訓練模型預測

分類預測的準確性

二、規則方法

基于規則的分類器(Rule-based Classifier)就是使用一組 if-then 的模式來進行分類

例如:

(胎生= 否) ? (飛行動物= 是) → 鳥類

(胎生= 是) ? (體溫= 恒溫) → 哺乳類

三、決策樹

對數據進行處理,利用歸納算法生成可讀的規則

模型以樹狀形式呈現出來

非葉節點:一個屬性上的測試,每個分枝代表該測試的輸出

葉節點:存放一個類標記

規則:從根節點到葉節點的一條屬性取值路徑

基本的決策樹學習過程,可以歸納為以下三個步驟:

  1. 特征選擇:選取對于訓練數據有著較強區分能力的特征
  2. 生成決策樹:基于選定的特征,逐步生成完整的決策樹
  3. 決策樹剪枝:簡化部分枝干,避免過擬合因素影響

特征選擇

選取對于訓練數據有著較強區分能力的特征

常用特征選擇準則

????????信息增益(熵)

????????信息增益率

????????基尼指數

信息熵:計算數據的不確定性

此時:表示某個節點t (即某個特征)的信息不確定性

例子:

?信息增益: 按某個特征劃分之后,數據不確定性降低的程度

?信息增益率(Gain ratio): 綜合考慮劃分結果信息增益劃分數量的信息

選擇最大的信息增益率對應的特征m

信息增益率有矯枉過正的危險

采用信息增益率的情況下,往往傾向于選擇取值較少的特征

當特征的取值較少時,IV較小,因此懲罰項相對較小

基尼指數

目的在于表示樣本集合中一個隨機樣本被分錯的概率

基尼指數越低,表明被分錯的概率越低,相應的信息純度也就越高

計算特征節點t的基尼指數 :

例子:

當一個特征節點p 分裂成 k 個子節點(如兩個子節點)

選擇準則:選擇最大的GINI 對應的特征m

分類錯誤

計算單個節點錯誤

決策樹——剪枝

當利用訓練集生成決策樹之后,樹的很多分枝屬于噪音或者會對分類準確率造成負面影響,因此需要對決策樹進行剪枝來提高決策樹的分類能力。

先剪枝

????????通過提前停止生成分枝對決策樹進行剪枝,可以利用信息增益等測度來對分枝生成情況(優劣)進行評估

后剪枝

????????首先完全地構建一個決策樹,然后刪除不必要的結點和對應的分枝

四、K近鄰算法

對數據空間內的樣本,可提出相似樣本假設表征上相近的樣本應該屬于同一個類別

K近鄰思想:用K個最相似樣本的類別來預測未知樣本的類別(投票方法)

核心問題:距離度量、K的取值

距離度量:

基本方法:歐式距離

離散0/1向量,則可使用漢明距離(Hamming)代替

除此之外,對于文本而言(如采用TF-IDF),可使用余弦相似度

K的取值:

K近鄰分類的效果同樣嚴重依賴于 K 的取值(即鄰居的數量)

K太小,容易受噪聲干擾;

K太大,可能導致錯誤涵蓋其他類別樣本

五、支持向量機(SVM)


內容有限,具體內容可以去西瓜書了解,帶大家過一下

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/84318.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/84318.shtml
英文地址,請注明出處:http://en.pswp.cn/web/84318.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

設計模式-接口隔離原則(Interface Segregation Principle, ISP)

接口隔離原則(Interface Segregation Principle, ISP) 核心思想:客戶端不應被迫依賴它們不使用的接口方法。 目標:通過拆分臃腫的接口為更小、更具體的接口,減少不必要的依賴,提高系統的靈活性和可維護性。…

超融合:系統工程還是軟件工程? 從H3C UIS9.0看超融合的技術本質

在數字化轉型的浪潮中,超融合基礎架構(Hyper-Converged Infrastructure, HCI)憑借其簡化部署、彈性擴展和高效運維的優勢,成為企業IT基礎設施升級的重要選擇。 然而,關于超融合究竟屬于系統工程還是軟件工程的討論一直…

青少年編程與數學 01-012 通用應用軟件簡介 01 Microsoft Office辦公軟件

青少年編程與數學 01-012 通用應用軟件簡介 01 Microsoft Office辦公軟件 **一、Microsoft Office辦公軟件概述****二、發展過程**(一)早期起源(二)技術演進 **三、主要用途或功能**(一)文字處理&#xff0…

vivado IP綜合選項

在 Vivado 中,生成 IP 文件時的 Synthesis Options 提供了兩種主要的綜合模式:Global 和 Out of Context per IP。這兩種模式的主要區別如下: 1. Global Synthesis(全局綜合) 定義:在這種模式下&#xff…

零信任一招解決智慧校園的遠程訪問、數據防泄露、安全運維難題

隨著數字化轉型持續深入,“智慧校園”已成為高校發展的必經之路。從統一門戶、一卡通到教務系統、選課系統,各類應用極大地便利了師生的工作與學習。 然而,便捷的背后也隱藏著一系列安全挑戰。為了滿足師生校外訪問的需求,許多應…

web布局08

flex-basis 是 Flexbox 布局模塊中 flex 屬性的另一個子屬性,在前面的課程中我們深度剖析了瀏覽器是如何計算 Flex 項目尺寸的,或者說 Flexbox 是如何工作的。對于眾多 Web 開發者而言,在 CSS 中都習慣于使用像 width 、height 、min-* 和 ma…

在 Docker 27.3.1 中安裝 PostgreSQL 16 的實踐

前言:為什么在 Docker 中部署 PostgreSQL? 在云原生時代,容器化部署已成為生產環境的首選方案。通過 Docker 部署 PostgreSQL 具有以下顯著優勢: 環境一致性:消除“在我機器上能運行”的問題快速部署:秒級…

日志混亂與數據不一致問題實戰排查:工具協同調試記錄(含克魔使用點)

日志調試、狀態驗證和數據一致性排查,是iOS開發中最費時間、最易出錯的工作之一。尤其是在模塊之間異步通信頻繁、本地緩存與遠程狀態需保持同步時,如果缺乏一套合適的流程與工具,開發人員極容易陷入“盲查狀態”。 在一次跨部門聯合開發的A…

Redis底層數據結構與內部實現

目錄 一、RedisDB結構 1、RedisDB在Redis實例中的位置 2、RedisDB結構與核心組件 二、RedisObject結構 1、核心數據結構 1.1 簡單動態字符串 (Simple Dynamic String - SDS) 1.2 字典 (Dict / Hash Table) 1.3 雙端鏈表 (Linked List) 1.4 跳躍表 (Skip List) 1.5 壓…

【項目實訓】【項目博客#07】HarmonySmartCodingSystem系統前端開發技術詳解(5.12-6.15)

【項目實訓】【項目博客#07】HarmonySmartCodingSystem系統前端開發技術詳解(5.12-6.15) 一、項目概述與目標 HarmonySmartCodingSystem是一個面向HarmonyOS開發者的智能編碼輔助平臺,旨在通過自然語言交互簡化開發流程,提供智能…

系統性能優化-2 CPU

系統性能優化-2 CPU 其實除了 CPU 的頻率,多核架構以及多 CPU 架構對系統運行的性能也是很大影響的,那么該如何充分利用 CPU 呢? CPU 架構 首先介紹一下當前主流的 CPU 架構,現在的系統基本都是多 CPU,一個 CPU 處理…

Docker Pull 相關配置指南

在Docker環境中,docker pull命令用于從Docker鏡像倉庫拉取鏡像。為了確保Docker鏡像能夠快速、穩定地拉取,配置 docker pull相關的設置是非常重要的。本文將詳細介紹如何配置Docker以優化 docker pull操作,涵蓋鏡像源配置、登錄私有倉庫、網絡…

Python的Matplotlib庫:從入門到精通的數據可視化實戰指南

💝💝💝歡迎蒞臨我的博客,很高興能夠在這里和您見面!希望您在這里可以感受到一份輕松愉快的氛圍,不僅可以獲得有趣的內容和知識,也可以暢所欲言、分享您的想法和見解。 持續學習,不斷…

CentOS查日志

在 CentOS 系統中,查看日志是系統維護和故障排查的重要技能。以下是常用的日志查看方法和工具: 1. 基本日志位置 CentOS 使用systemd管理服務,主要日志存儲在: /var/log/messages:系統主日志/var/log/secure&#x…

Linux運維新人自用筆記(用虛擬機Ubuntu部署lamp環境,搭建WordPress博客)

內容全為個人理解和自查資料梳理,歡迎各位大神指點! 每天學習較為零散。 day20 一、./configure 腳本命令 ./configure 是 Unix/Linux 系統中用于配置軟件源代碼的腳本命令,通常用于為后續的 make 和 make install 準備編譯環境。 選項作…

JetBrains 2025 全家桶 包含 IDEA、WebStorm、DataGrip、Pycharm、CLion、GoLand、PhpStorm

JetBrains 2025 全家桶 11合1 包含:IDEA、WebStorm、DataSpell、DataGrip、Pycharm、RustRover、CLion、Rider、PhpStorm、RubyMine、GoLand。 原文地址:JetBrains 2025 全家桶 11合1 含 IDEA、PyCharm、DataGrip、WebStrom、GoLand、CLion、PhpStorm、D…

【一手實測】字節豆包 1.6 + Trae + 火山 MCP + FaaS:AI云原生 Agent 開發部署全流程體驗!

原創 Aitrainee AI進修生 2025年06月13日 16:42 湖南 標題已修改 緣起 —— 火山引擎在 2025 原動力大會上,也端出了自家的豆包大模型:Doubao-Seed-1.6 系列。 這三兄弟都支持文本、圖片、視頻輸入,都帶著 256K 的長上下文。 Doubao-Seed-…

Vulkan學習筆記8—頂點輸入描述與頂點緩沖

一、著色器代碼更新及構建時自動編譯著色器腳本 用內存中的頂點緩沖區替換頂點著色器中硬編碼的頂點數據 之前的頂點著色器: #version 450layout(location 0) out vec3 fragColor;// 頂點數據硬編碼 vec2 positions[3] vec2[](vec2(0.0, -0.5),vec2(0.5, 0.5),…

Day04_數據結構(棧鏈棧循環隊列)

01.棧 main.c #include "stack.h" int main() { stack_p S(stack_p)create_stack(); //1.入棧 …

PyTorch 的 CUDA GPU 支持 · 安裝五條鐵律(最新版 2025 修訂)(適用于所有用戶)

相關參考資料(往期博客): 是否需要預先安裝 CUDA Toolkit?——按使用場景分級推薦及進階說明-CSDN博客 太方便,WIN系統CUDA12.4下使用conda便捷管理虛擬環境中的不同版本的CUDA、cuDNN、PyTorch-CSDN博客 好消息&#…