TomatoSCI分析日記——層次聚類

TomatoSCI分析日記——層次聚類

今天介紹的是一種常見的聚類方法——層次聚類。層次聚類會將數據集劃分成嵌套的簇,形成一個層次結構(樹狀圖),經常用于探究樣本的相似性。用大白話來說,就是:我有一大堆樣品,每個樣品都有n個特征,我們通過層次聚類利用這些特征可以把這些樣品劃分為不同的類群。


1.層次聚類的兩種方式

層次聚類通常分為“向下分裂”和“向上合并”兩類。

向下分裂:從一個整體開始,每一步將最不相似的點或子簇分開,直到每個樣本成為單獨的簇。

向上合并:每一步合并兩個最相似的簇,直到只剩一個簇或達到設定的聚類數。

兩種方法各有千秋,向下分裂不容易受異常值影響,向上合并策略更靈活。在實際中,更多的是選擇“向上合并”。


2.如何確定分多少類(簇數)?

在講解實例之前,我們還要確定一件事,就是要分多少類(簇數)。我們最好是通過一個有說服力的指標去確定簇數,而不是分幾簇有利于我的實際情況就去分幾簇,隨意分簇導致的后果就是當我們的分析結果遭到質疑的時候我們往往很難有足夠證據去反駁。

這里就需要引入“輪廓系數”。輪廓系數是衡量聚類效果好壞的一個經典指標,它能夠同時反映數據點與自身簇的緊密度以及與最近鄰簇的分離度,用來評價聚類的合理性。通常使用所有樣本的輪廓系數的平均值對聚類整體質量進行評價,數值越大效果越好。在聚類時,可以比較不同k下的平均輪廓系數,選擇輪廓系數最大時的k。這樣我們的聚類就有了有力的依據。


3.示例

圖1是示例數據,每行為一個樣本,每列為一個特征,量綱如果不同則需要標準化。圖2是聚2-10簇時的輪廓系數,我們可以看到當簇數為2時輪廓系數最大,因此我們選擇聚2類。圖3的樹狀圖是層次聚類的經典可視化方式,使用了不同顏色區分不同簇,結果一目了然。


4.結語

歡迎來訪TomatoSCI。等你就位!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/84460.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/84460.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/84460.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

mysql都有哪些鎖?

MySQL中的鎖機制是確保數據庫并發操作正確性和一致性的重要組成部分,根據鎖的粒度、用途和特性,可以分為多種類型。以下是MySQL中常見的鎖及其詳細說明: 一、按鎖的粒度劃分 行級鎖(Row-level Locks) 描述:…

flutter 項目調試、flutter run --debug調試模式 devtools界面說明

Flutter DevTools 網頁界面說明 1. 頂部導航欄 Inspector:查看和調試 Widget 樹,實時定位 UI 問題。Performance-- 性能分析面板,查看幀率、CPU 和 GPU 使用情況,識別卡頓和性能瓶頸。Memory-- 內存使用和對象分配分析&#xff…

使用Kotlin創建Spring Boot用戶應用項目

項目初始化與配置 通過Spring Initializr創建Kotlin項目 若需使用Kotlin語言開發Spring Boot應用(假設已安裝Kotlin環境),可通過start.spring.io進行項目初始化。在項目創建頁面需進行以下關鍵配置: 語言選擇:切換至Kotlin選項項目元數據:需填寫Group(如com.apress.us…

【Linux網絡篇】:Socket網絡套接字以及簡單的UDP網絡程序編寫

?感謝您閱讀本篇文章,文章內容是個人學習筆記的整理,如果哪里有誤的話還請您指正噢? ? 個人主頁:余輝zmh–CSDN博客 ? 文章所屬專欄:Linux篇–CSDN博客 文章目錄 網絡編程套接字一.預備知識1.理解源IP地址和目的IP地址2.認識端…

Python爬蟲實戰:研究Newspaper框架相關技術

1. 引言 1.1 研究背景與意義 互聯網的快速發展使得新聞信息呈現爆炸式增長,如何高效地獲取和分析這些新聞數據成為研究熱點。新聞爬蟲作為一種自動獲取網頁內容的技術工具,能夠幫助用戶從海量的互聯網信息中提取有價值的新聞內容。本文基于 Python 的 …

【node.js】實戰項目

個人主頁:Guiat 歸屬專欄:node.js 文章目錄 1. 項目概覽與架構設計1.1 實戰項目:企業級電商管理系統1.2 技術棧選擇 2. 項目初始化與基礎架構2.1 項目結構設計2.2 基礎配置管理 3. 用戶服務實現3.1 用戶服務架構3.2 用戶模型設計3.3 用戶服務…

Mybatis框架的構建(IDEA)

選擇maven項目 修改設置 在設置中添加自定義代碼模板 開始寫代碼 動態SQL語句的示例&#xff1a; pom文件&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"…

經濟法-6-公司法律制度知識點

一、出資期限 1.有限責任公司&#xff1a;全體股東需在公司成立之日起5年內繳足認繳的注冊資本 2.股份有限公司&#xff1a;以發起方式設立的&#xff0c;發起人需在公司登記前實繳全部股款 3.認繳期加速到期 公司不能清償到期債務的&#xff0c;公司或者已到期債權的債權人…

jquery.table2excel方法導出

jquery提供了一個table2excel方法可以用來導出頁面到xls等 $("#grid_595607").table2excel({exclude: ".noExport", // 排除類名為 noExport 的元素filename: "導出數據.xls",exclude_img: true, // 不導出圖片exclude_links: true, // 不導…

echarts設置標線和最大值最小值

echarts設置標線和最大值最小值 基本ECharts圖表初始化配置 設置動態的y軸范圍&#xff08;min/max值&#xff09; 通過markPoint標記最大值和最小值點 使用markLine添加水平參考線 配置雙y軸圖表 自定義標記點和線的樣式&#xff08;顏色、符號等&#xff09; 響應式調整圖表大…

Java文件操作:從“Hello World”到“Hello File”

&#x1f50d; 開發者資源導航 &#x1f50d;&#x1f3f7;? 博客主頁&#xff1a; 個人主頁&#x1f4da; 專欄訂閱&#xff1a; JavaEE全棧專欄 文件 什么是文件&#xff1f; 廣義&#xff1a;操作系統進行資源管理的一種機制&#xff0c;很多的軟件/硬件資源&#xff0c;…

2025第三屆黃河流域網絡安全技能挑戰賽--Crypto--WriteUp

2025第三屆黃河流域網絡安全技能挑戰賽–Crypto–WriteUp Crypto sandwitch task from Crypto.Util.number import * import gmpy2 flag bflag{fake_flag} assert len(flag) 39 p getPrime(512) q getPrime(512) n p * q e 0x3 pad1 beasy_problem pad2 bHow_to_so…

三重天理論

第一重天&#xff1a;公理層&#xff08;形而上地基&#xff09; 這里構建的是人類理性的"操作系統"&#xff0c;公理作為不證自明的邏輯起點&#xff08;如矛盾律/同一律&#xff09;&#xff0c;恰似海德格爾所說的"存在之鏡"。黑格爾辯證法在此顯現為動…

2025年第八屆廣西大學生程序設計大賽(正式賽)題解(更新中)

知乎評價&#xff1a;如何評價2025年第八屆GXCPC廣西大學生程序設計大賽暨中國-東盟國際大學生程序設計大賽&#xff1f; 榜單&#xff1a;牛客比賽排名 題目鏈接&#xff1a;第八屆廣西大學生程序設計大賽暨2025邀請賽 TIP&#xff1a;提交處可查看別人過題代碼 難度簽到題普通…

WHAT - 兆比特每秒 vs 兆字節每秒

文章目錄 Mbps 解釋Mbps 和 MB/s&#xff08;兆字節每秒&#xff09;換算總結網絡場景1. 在路由器設置中的 Mbps2. 在游戲下載時的 Mbps / MB/s總結 Mbps 解釋 首先&#xff0c;Mbps 是一個常見的網絡帶寬單位&#xff0c;意思是&#xff1a; Megabits per second&#xff08;…

[C語言實戰]C語言內存管理實戰:實現自定義malloc與free(四)

[C語言實戰]C語言內存管理實戰&#xff1a;實現自定義malloc與free&#xff08;四&#xff09; 摘要&#xff1a;通過實現簡化版的內存管理器&#xff0c;深入理解動態內存分配的核心原理。本文包含內存塊設計、分配算法、空閑合并策略的完整實現&#xff0c;并附可運行的代碼…

YOLOv8源碼修改(5)- YOLO知識蒸餾(下)設置蒸餾超參數:以yolov8-pose為例

目錄 前言 1. 不同蒸餾算法資源占用 2. 不動態調整蒸餾損失 2.1 訓練定量化結果 2.1 訓練結果可視化結果 3. 動態調整蒸餾損失權重及實驗分析 3.1 余弦衰減和指數衰減 3.2 CWD蒸餾損失 3.3 MGD蒸餾損失 3.4 AT蒸餾損失 3.5 SKD和PKD蒸餾損失 4. 調權重心得總結 5…

歷年華東師范大學保研上機真題

2025華東師范大學保研上機真題 2024華東師范大學保研上機真題 2023華東師范大學保研上機真題 在線測評鏈接&#xff1a;https://pgcode.cn/school?classification1 簡單一位數代數式計算 題目描述 給一個小學生都會算的1位數與1位數運算的代數式&#xff0c;請你求出這個表…

Oracle 中 SHRINK 與 MOVE 操作的比較

Oracle 中 SHRINK 與 MOVE 操作的比較 在 Oracle 數據庫中&#xff0c;SHRINK 和 MOVE 都是用于重組表和索引以減少空間碎片的重要操作&#xff0c;但它們在實現方式和適用場景上有顯著區別。 SHRINK 操作 基本語法 ALTER TABLE table_name SHRINK SPACE [COMPACT] [CASCAD…

展銳 Android 15 鎖定某個App版本的實現

Android 15 系統鎖定Antutu版本的實現方法 在Android系統開發中,有時需要鎖定特定應用的版本以確保系統穩定性或測試一致性。本文將介紹如何通過修改Android源碼來鎖定Antutu跑分軟件的版本。 修改概述 這次修改主要涉及以下幾個方面: 禁用產品復制文件的檢查添加指定版本…