python學習打卡：DAY 18 推斷聚類后簇的類型

python學習打卡：DAY 18 推斷聚類后簇的類型

news/2025/7/6 18:24:51/文章來源:https://blog.csdn.net/qq_57589581/article/details/149121633

@浙大疏錦行

聚類后的分析：推斷簇的類型

知識點回顧：

推斷簇含義的2個思路：先選特征和后選特征
通過可視化圖形借助ai定義簇的含義
科研邏輯閉環:通過精度判斷特征工程價值

作業：參考示例代碼對心臟病數據集采取類似操作，并且評估特征工程后模型效果有無提升。

在聚類分析中，推斷簇的類型是理解數據內在結構和業務意義的關鍵步驟。以下是系統化的推斷方法及常見簇類型的總結：

一、簇的基本類型
??明顯分離的簇??

??特征??：不同簇中任意兩點之間的距離 > 簇內任意兩點間距離。
??適用場景??：數據自然分組清晰，如生物學中的物種分類。
??示例??：球形或任意形狀的分離簇（圖10-2a）。
??基于原型的簇（中心型簇）??

??特征??：簇內對象到質心（均值）的距離 < 到其他簇質心的距離。
??典型算法??：K-Means、層次聚類。
??局限性??：傾向于生成球形簇，對不規則形狀效果差。
??基于密度的簇??

??特征??：通過高密度區域識別，可處理噪聲和離群點。
??典型算法??：DBSCAN。
??優勢??：適用于纏繞或不規則形狀（如啞鈴狀簇）。
??基于連片的簇??

??特征??：相鄰對象距離在閾值內即歸為同簇，依賴連通性。
??適用場景??：圖結構數據（如社交網絡）。
二、推斷簇含義的方法
??先選特征法??

??步驟??：聚類前選擇與業務強相關的特征（如消費記錄）。
??優點??：結果可直接解釋，避免無關特征干擾。
??案例??：分析用戶購買習慣時，僅用“消費頻率”“金額”等特征聚類。
??后選特征法??

??步驟??：
用全部特征聚類，生成簇標簽；
將簇標簽作為目標變量，構建分類模型（如隨機森林）；
通過SHAP值、特征重要性篩選關鍵特征解釋簇
??可視化輔助分析??

降維（如PCA）后繪制散點圖，觀察簇分布；
結合業務知識標注簇類型（如“高風險心臟病患者簇”）。
三、實際應用注意事項
??評估簇的合理性??

檢查每個簇的樣本量（避免過小無意義）；
結合輪廓系數、CH指數等指標優化聚類參數。
??業務邏輯閉環??

將聚類結果作為新特征加入監督模型（如分類預測）；
通過精度提升驗證特征工程價值（如心臟病數據集預測）。
??避免常見誤區??

非球狀簇勿強制用K-Means（可選DBSCAN）；
高維數據需先降維再解釋，避免“維度災難”。
總結
推斷簇類型需結合??數據特性??（形狀、密度）與??業務目標??。優先嘗試“后選特征法”+可視化全面探索，再通過“先選特征法”聚焦業務解釋。最終需以監督模型驗證聚類的實際價值（如預測效果提升）。若效果未達預期，可嘗試過采樣（SMOTE）或調整聚類算法進一步優化。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/913203.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/913203.shtml
英文地址，請注明出處：http://en.pswp.cn/news/913203.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

Ubuntu for ARM 更換為阿里云鏡像源

Ubuntu for ARM 更換為阿里云鏡像源

1. 簡介該鏡像適用于配置 ARM, PowerPC 等其他架構的 ubuntu系統，不適用 x86 ！！！ 各種版本的Ubuntu for ARM下載地址：https://cdimage.ubuntu.com/releases 2. 配置方法打開 sources.list 文件。 vim /etc/apt/s…

閱讀更多...

HTML與JavaScript：構建動態交互式Web頁面的基石

HTML與JavaScript：構建動態交互式Web頁面的基石

HTML與JavaScript：構建動態交互式Web頁面的基石在現代Web開發中，HTML和JavaScript是不可或缺的兩位主角。HTML負責頁面的結構和內容，而JavaScript則賦予頁面生命，使其能夠響應用戶交互、動態更新內容，并與后端服務進…

閱讀更多...

Python數據分析基礎03：探索性數據分析

Python數據分析基礎03：探索性數據分析

相關文章： 《python數據分析基礎02：數據可視化分析》《Python數據分析基礎01：描述性統計分析》探索性數據分析（Exploratory Data Analysis, EDA） 的深度解析，涵蓋核心目標、方法論框架、關鍵技術及可視…

閱讀更多...

D3 面試題100道之（41-60）

D3 面試題100道之（41-60）

這里是D3的面試題，我們從第 41~60題開始逐條解答。一共100道，陸續發布中。 ?? 面試題（第 41~60 題） 41. D3 中如何添加圖例？圖例可以通過手動創建 SVG 元素或使用 D3 的輔助函數來實現。常見做法是結合 d3.scaleOrdinal() 和 .range() 創建顏色映射圖例。示例： c…

閱讀更多...

Spring Boot事件驅動模型深度解析

Spring Boot事件驅動模型深度解析

目錄一、什么是Spring事件機制？ 與傳統方法調用的對比： 二、四大核心組件解析 1. ApplicationEvent：事件對象 2. ApplicationEventPublisher：事件發布器 3. ApplicationListener：事件監聽接口 4. EventListener…

閱讀更多...

Python gmssl.SM4使用案例

Python gmssl.SM4使用案例

Python gmssl.SM4使用案例摘要：在異構計算系統驗證中，通常會有數據加解密的要求，例如用戶數據、權重參數等，本文將詳細介紹在UVM驗證環境中，調用Python的gmssl庫，用SM4實現加解密的驗證方案。一、Python gmssl 庫介紹 gmssl 是一個開源的、純Python實現的國密算…

閱讀更多...

迅為高情性6TOPS算力的RK3576開發板NPU rknn-model-zoo例程演示

迅為高情性6TOPS算力的RK3576開發板NPU rknn-model-zoo例程演示

迅為iTOP-3576開發板采用瑞芯微RK3576高性能、低功耗的應用處理芯片，集成了4個Cortex-A72和4個Cortex-A53核心，以及獨立的NEON協處理器。它適用于ARM PC、邊緣計算、個人移動互聯網設備及其他多媒體產品。支持INT4/INT8/INT16/FP16/BF16/TF32混合運算&am…

閱讀更多...

rsync 命令詳解

rsync 命令詳解

目錄 rsync 傳輸備份工作原理詳解一、核心算法：差異傳輸二、傳輸流程三、關鍵技術四、與cp/scp復制的本質區別rsync的使用基本語法常用選項常用組合案例1. **本地目錄同步**2. **遠程同步（SSH協議）**3. **刪除目標端多余文件**4. **排除特定文件**5. **限速傳輸（避免占用帶…

閱讀更多...

【MySQL進階】錯誤日志，二進制日志，mysql系統庫

【MySQL進階】錯誤日志，二進制日志，mysql系統庫

目錄一.錯誤日志 1.1 配置錯誤日志 1.1.1 Windows的默認錯誤日志路徑 1.1.2 Unix和Linux系統的默認錯誤日志路徑 1.2 錯誤日志中事件的字段 1.2.1 核心錯誤事件字段 1.2.2.MySQL 錯誤消息的兩種不同輸出渠道 1.2.3 可選錯誤事件字段 1.3. 刷新錯誤日志文件和重命名二…

閱讀更多...

day45-nginx復雜跳轉與https

day45-nginx復雜跳轉與https

1. ?nginx復雜跳轉客戶端ip不是內網(172.16/192.168)ip時，維護文件存在時，返回503或者錯誤頁面 1.1. 📝修改配置文件 server {listen 80;server_name re.linux.cn; root /app/code/re/;set $flag 0;if ( $remote_addr !~* "^172…

閱讀更多...

基于pcl點云庫實現激光雷達數據采集

基于pcl點云庫實現激光雷達數據采集

基于pcl點云庫實現倍加福R2000激光雷達數據采集一、項目介紹二、開發詳情三、顯示效果展示四、說明一、項目介紹最近用pcl庫實現了倍加福R2000激光雷達的數據采集，并實時在viewer上實時更新顯示。軟件的開發是基于vs2019qt插件pcl庫實現，可以完成如下…

閱讀更多...

微信小程序61~70

微信小程序61~70

1.組件wxml的slot-插槽在使用基礎組件時，可以在組件中間寫子節點，從而將子節點內容展示到頁面中，自定義組件也可以接收子節點但是要在組件模板中定義節點，承載組件中間的子節點需要使用多個插槽時，要在組件.js中聲明…

閱讀更多...

03_性能優化：讓軟件呼吸更順暢

03_性能優化：讓軟件呼吸更順暢

引言在用戶對軟件響應速度近乎苛刻的今天，性能已成為產品競爭力的核心指標。據Google研究，頁面加載時間每增加1秒，轉化率就會下降20%。本文將從前端、后端、移動端三個維度，揭示性能優化的核心策略與實戰技巧，幫助你打…

閱讀更多...

LangChain4j 框架模仿豆包實現智能對話系統：架構與功能詳解

LangChain4j 框架模仿豆包實現智能對話系統：架構與功能詳解

系統整體架構設計基于 LangChain4j 框架構建的智能對話系統采用 "前后端分離大模型中樞" 的三層架構設計，實現了與豆包類似的智能交互體驗。系統架構圖如下所示：┌────────────────────────────────────…

閱讀更多...

基于uni-app的書法學習管理小程序的設計與實現

基于uni-app的書法學習管理小程序的設計與實現

一、設計的目的書法是中華民族傳統文化的瑰寶，更是人類文明的寶貴財富，具有深遠的意義和實價值。在當今數字化時代，隨著信息技術的飛速發展，傳統書法學習模式面臨著諸多挑戰和需要解決的問題。為推動書法學習的現代化轉型&#…

閱讀更多...

NumPy 函數庫在數學建模中的基本使用方法

NumPy 函數庫在數學建模中的基本使用方法

一、引言在數學建模的世界里，我們常常需要處理大量的數據和進行復雜的數值計算。Python 中的 NumPy 庫就像是一位得力的助手，它為我們提供了強大的多維數組對象和豐富的數學函數，讓我們能夠高效地完成各種數值計算任務。接下來，我們將深入探討 NumPy 在數學建模中的基本使…

閱讀更多...

模塊三：現代C++工程實踐（4篇）第一篇《C++模塊化開發：從Header-only到CMake模塊化》

模塊三：現代C++工程實踐（4篇）第一篇《C++模塊化開發：從Header-only到CMake模塊化》

引言：現代C工程化的核心挑戰（終極擴展版） 在云計算與物聯網時代，C項目規模呈指數級增長。傳統Header-only開發模式暴露出編譯效率低下、依賴管理混亂、版本沖突頻發等致命問題。本文通過CMake 3.22Conan 2.0工具鏈的深度集成&…

閱讀更多...

uniapp啟動圖被拉伸問題

uniapp啟動圖被拉伸問題

記錄下： 安卓手機有不同的規格，很難所有規格都去適配。如果不適配所有機型，那么就會導致部分機型的啟動圖被拉伸。安卓提供了.9.png圖片格式，允許標注部分拉伸，這樣啟動圖中間的logo就不會被拉伸。下面2張圖是沒有…

閱讀更多...

stm32的三種開發方式

stm32的三種開發方式

以下是針對STM32F103RC實現LED閃爍（PC13引腳）的三種開發方式示例代碼，每種方式均保持相同的核心邏輯： 1. 寄存器開發方式（直接操作寄存器） #include "stm32f10x.h"int main(void) {// 1. 開啟G…

閱讀更多...

SpringBoot問卷調查系統設計與實現

SpringBoot問卷調查系統設計與實現

概述基于SpringBoot開發的問卷調查系統，該系統集成了問卷管理、題目管理等多種功能模塊。主要內容核心功能模塊： ??個人信息管理??： 修改密碼個人信息修改 ??問卷管理??： 問卷新增問卷修改問卷刪除 ??題目管理?…

閱讀更多...

最新文章