數學建模【聚類模型】

一、聚類模型簡介

“物以類聚, 人以群分”,所謂的聚類,就是將樣本劃分為由類似的對象組成的多個類的過程。聚類后,我們可以更加準確的在每個類中單獨使用統計模型進行估計、分析或預測,也可以探究不同類之間的相關性和主要差異。

聚類和分類的區別:分類是已知類別的,聚類未知。

注:聚類模型一般有三種算法,K-means++法、系統層次法和DBSCAN法。

二、適用賽題

只有一對數據,要求將數據分為幾類,類數不定。如有全國34個省的關于消費水平的幾個指標,現要求將34個省分為幾類分析。

三、模型流程

四、流程解析

1.K-means++聚類算法

K-means++算法是由K-means算法改進而來,對于K-means算法

優點

  • 算法簡單、快速
  • 對處理大數據集,該算法是相對高效率的

缺點

  • 要求用戶必須事先給出要生成的簇的數目K
  • 對初值敏感
  • 對于孤立點數據敏感

而K-means++算法可解決后兩個缺點。

①確定參數

聚類個數也就是簇的個數,也就是像分為多少個類。

迭代次數是指數據每經過一次迭代,都會有不同的數據進入不同的類,直到達到最大迭代次數,一般10次后,每次迭代后類中的數據就不會改變了。

②初始化聚類中心

這里就是優化的地方。K-means算法在初始化的時候,只是隨機地選擇K個數據對象作為初始的聚類中心。而K-means++算法選擇初始聚類中心的基本原則是:初始的聚類中心之間的相互距離要盡可能的遠。

具體流程如下

  1. 隨機選取一個樣本作為第一個聚類中心
  2. 計算每個樣本與當前已有聚類中心的最短距離(即與最近一個聚類中心的距離),這個值越大,表示被選取作為聚類中心的概率較大。最后,用輪盤法(依據概率大小來進行抽選)選出下一個聚類中心
  3. 重復步驟二,直到選出K個聚類中心。選出初始點后,就繼續使用標準的K-means算法了
③分配和更新

分配數據對象是指計算其余的各個數據對象到這K個初始聚類中心的距離,把數據對象劃歸到距離它最近的那個中心所處在的簇類中變成一個新類。

更新聚類中心是指重新計算出新類的中心,新的中心就是所有數據對象的重心。

下面是K-means算法的演示圖

④輸出結果

當完成迭代次數后,得到結果。

⑤補充

聚類的個數K值怎么定?

答:分幾類主要取決于個人的經驗與感覺,通常的做法是多嘗試幾個K值,看分成幾類的結果更好解釋,更符合分析目的等。

數據的量綱不一致怎么辦?

答:如果數據的量綱不一樣,那么算距離時就沒有意義。例如:如果X1單位是米,X2單位是噸,用距離公式計算就會出現“米的平方”加上“噸的平方”再開平方,最后算出的東西沒有數學意義,這就有問題了。這就需要標準化。

這里還是推薦使用SPSS軟件進行操作。

2.系統層次聚類

系統聚類的合并算法通過計算兩類數據點間的距離,對最為接近的兩類數據點進行組合,并反復迭代這一過程,直到將所有數據點合成一類,并生成聚類譜系圖。

①計算距離

這里根據問題看是求誰的距離,一般是樣品之間距離,也有可能是求指標之間的距離。數據的一般格式如下圖

樣品與樣品之間的常用距離(樣品i與樣品j)

指標與指標之間的常用“距離”(指標i與指標j)

最開始的時候,將每個數據對象看作一類,計算兩兩之間的最小距離。后面是計算類與類之間的兩兩最小距離。

類與類之間的常用距離

  • 由一個樣品組成的類是最基本的類,如果每一類都由一個樣品組成,那么樣品間的距離就是類間距離
  • 如果某一類包含不止一個樣品,那么就要確定類間距離,類間距離是基于樣品間距離定義的,大致有如下幾種定義方式:

  • 最短距離法(Nearest Neighbor):

  • 組間平均連接法(Between-group Linkage):

  • 組內平均連接法(Within-group Linkage):

  • 重心法(Centroid clustering):

②合成新類

將距離最小的兩個類合并成一個新類。

③迭代完成

重復計算距離、合成新類,直到最后只剩下一類也就是所有類合并成一類。

④聚類譜系圖

下面就是一個聚類譜系圖

要分成幾類只需要畫豎線即可,有幾個交點就有幾個類,如下圖

按照1分類就有兩類,按照2分類就有三類。

⑤補充

那劃成多少類才是最合適的?

肘部法則(Elbow Method):通過圖形大致的估計出最優的聚類數量。

首先介紹

然后得到如下圖

在下降趨勢趨緩的時候選擇,上圖就選擇K = 5。

這里還是推薦使用SPSS軟件進行操作。

3.DBSCAN法

DBSCAN(Density-based spatial clustering of applicationswith noise)是Martin Ester,Hans- PeterKriegel等人于1996年提出的一種基于密度的聚類方法,聚類前不需要預先指定聚類的個數,生成的簇的個數不定(和數據有關)。該算法利用基于密度的聚類的概念,即要求聚類空間中的一定區域內所包含對象(點或其他空間對象)的數目不小于某一給定閾值。該方法能在具有噪聲的空間數據庫中發現任意形狀的簇,可將密度足夠大的相鄰區域連接,能有效處理異常數據。

①確定參數

需要設置的參數

  • 半徑:Eps
  • 點數:MinPts

DBSCAN算法將數據點分為三類

  • 核心點:在半徑Eps內含有不少于MinPts數目的點
  • 邊界點:在半徑Eps內點的數量小于MinPts,但是落在核心點的鄰域內
  • 噪音點:既不是核心點也不是邊界點的點

舉個例子

在這幅圖里,MinPts = 4,點A和其他紅色點是核心點,因為它們的Eps-鄰域(圖中紅色圓圈)里包含最少4個點(包括自己),由于它們之間相互相可達,它們形成了一-個聚類。點B和點C不是核心點,但它們可由A經其他核心點可達,所以也和A屬于同一個聚類。點N是局外點,它既不是核心點,又不由其他點可達。

②調用函數

MATLAB在2019a版本中正式加入了自己的dbscan函數,內置函數的運行效率更高。具體使用方法可以查閱MATLAB官網。

③補充

DBSCAN法優缺點

優點

  • 基于密度定義,能處理任意形狀和大小的簇
  • 可在聚類的同時發現異常點
  • 與K-means比較起來,不需要輸入要劃分的聚類個數

缺點

  • 對輸入參數Eps和Minpts敏感,確定參數困難
  • 由于DBSCAN算法中,變量Eps和Minpts是全局唯一的,當聚類的密度不均勻時,聚類距離相差很大時,聚類質量差
  • 當數據量大時,計算密度單元的計算復雜度大

建議

  • 只有兩個指標,且你做出散點圖后發現數據表現得很“DBSCAN",這時候你再用DBSCAN進行聚類
  • 其他情況下,全部使用系統聚類吧。K-means++也可以用,不過用了的話論文上可寫的東西比較少

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/711400.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/711400.shtml
英文地址,請注明出處:http://en.pswp.cn/news/711400.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

springboot233大學生就業需求分析系統

大學生就業需求分析系統設計與實現 摘 要 信息數據從傳統到當代,是一直在變革當中,突如其來的互聯網讓傳統的信息管理看到了革命性的曙光,因為傳統信息管理從時效性,還是安全性,還是可操作性等各個方面來講&#xff…

C語言-簡單的環形隊列的源碼示例

概述 環形隊列&#xff08;Circular Queue&#xff09;是一種常見的數據結構&#xff0c;特別適用于在單片機等資源受限的環境下實現緩沖區或隊列功能。下面是一個簡單的環形隊列的源碼示例&#xff0c;用C語言實現&#xff1a; #include <stdio.h> #include <stdint…

五種查看Spring容器中bean的方法

五種查看Spring容器中bean的方法 在Spring應用程序中&#xff0c;了解和查看容器中的Bean是進行調試和問題排查的關鍵。Spring提供了多種方法來查看容器中注冊的Bean&#xff0c;以便我們深入了解應用程序的內部結構和調試潛在問題。本文將介紹五種常用的查看Spring容器中Bean的…

C++ map用法詳細總結40例

文章目錄 1. 定義與初始化2. 插入元素3. 查找元素4. 刪除元素5. 遍歷6. 訪問成員函數7. 修改元素8. 注意事項9. 使用 equal_range 查找鍵值范圍10. 使用 emplace 添加元素11. 使用 cbegin 和 cend 獲取常量迭代器12. 排序規則自定義13. 使用 multimap 存儲重復鍵14. 判斷 map 是…

Python音樂信息管理庫之beets使用詳解

概要 在數字化時代,音樂管理變得越來越重要,特別是對于音樂愛好者和專業音樂人士而言。Python作為一種功能強大的編程語言,擁有著豐富的音樂處理庫,其中Beet就是一款備受推崇的音樂信息管理工具。本文將深入探討Beet庫的功能特性、使用方法以及應用場景,并提供豐富的示例…

市場需求預測模型

市場需求預測模型是一種用于預測某個市場或產品的需求量的數學模型。它基于歷史數據、市場趨勢以及其他相關因素&#xff0c;通過統計和分析的方法來預測未來的市場需求情況。 市場需求預測模型可以幫助企業制定合理的生產計劃、庫存管理和市場營銷策略。通過準確地預測市場需…

python實現數字規整(轉中文)

1.思路根據正則匹配數字類型比如手機號、年月日等進行相對的數字規整 話不多說直接上代碼&#xff0c;有新的類型可以按照當前方案進行新增 import redef match_year_digit(match):m str(match.group())relation {1: 一, 2: 二, 3: 三, 4: 四, 5: 五, 6: 六, 7: 七, 8: 八, …

WPF真入門教程31--WPF版房屋租售系統

1、教程回顧 到現在為止&#xff0c;“蒸”入門系列教程已完成了30刺由淺入深地講解&#xff0c;當然不可能講到了WPF的所有技能點&#xff0c;但讀者看到了wpf的內部各種功能及之間的聯系&#xff0c;在此基礎上&#xff0c;再提供一個完整有效的綜合項目&#xff0c;本項目采…

tcp的三次握手和四次揮手?

一&#xff1a;引出 客戶端與服務器之間數據的發送和返回的過程當中需要創建一個叫TCP connection的東西&#xff1b;由于TCP不存在連接的概念&#xff0c;只存在請求和響應&#xff0c;請求和響應都是數據包&#xff0c;它們之間都是經過由TCP創建的一個從客戶端發起&#xff…

身份驗證錯誤。要求的函數不受支持。遠程計算機:[IP地址]。這可能是由于CredSSP加密數據庫修正

出現“身份驗證錯誤。要求的函數不受支持。遠程計算機&#xff1a;[IP地址]。這可能是由于CredSSP加密數據庫修正”的問題&#xff0c;通常是因為Windows更新后&#xff0c;遠程桌面連接&#xff08;RDP&#xff09;的安全性增強&#xff0c;特別是與CredSSP&#xff08;Creden…

[RoarCTF 2019]Easy Calc

這題考查的是: 字符串解析特性目錄讀取文件內容讀取 字符串解析特性詳解&#xff1a;PHP字符串解析特性 &#xff08;$GET/$POST參數繞過&#xff09;&#xff08;含例題 buuctf easycalc&#xff09;_參數解析 繞過-CSDN博客 ascii碼查詢表&#xff1a;ASCII 表 | 菜鳥工具 …

AI智能雷達名片小程序平臺版源碼系統 帶完整的安裝代碼包以及安裝部署教程

在當今數字化快速發展的時代&#xff0c;人工智能&#xff08;AI&#xff09;已滲透到各個領域&#xff0c;尤其是在商務溝通領域&#xff0c;傳統的名片已經不能滿足現代商業的需求。小編給大家分享一款名為“AI智能雷達名片小程序平臺版”的源碼系統&#xff0c;該系統不僅提…

【Linux】將程序的輸出顯示到屏幕,同時寫入到log文件

1. 將程序的輸出顯示到屏幕&#xff0c;同時寫入到log文件 nohup python -u main.py 2>&1 | tee -a log.txt &nohup 放在命令的開頭&#xff0c;表示不掛起&#xff08;no hang up&#xff09;&#xff0c;也即&#xff0c;關閉終端或者退出某個賬號&#xff0c;進…

知乎引流秘籍:玩轉知乎,掘金百萬流量!

知乎&#xff0c;擁有3億注冊用戶、日新增用戶8萬的超級內容平臺&#xff0c;已然成為流量洼地。如何玩轉知乎&#xff0c;掘金百萬流量&#xff1f;這份1500字的實操指南&#xff0c;為你揭秘&#xff01; 一、知乎的優勢&#xff1a;流量大、長尾效應強 1. 流量大&#xff…

QA核心競爭力

核心競爭力的三個階段 我們知道&#xff0c;不同的工作和任務所需要的核心能力不同&#xff0c;因而核心競爭力也就不相同。QA 的入門門檻比較低&#xff0c;這也是 QA 這個群體產生恐慌和焦慮的主要原因。這個群體所涉及的技術面和技能棧非常廣&#xff0c;所以整個職業生涯的…

46-全排列(回溯算法)

題目 給定一個不含重復數字的數組 nums &#xff0c;返回其 所有可能的全排列 。你可以 按任意順序 返回答案。 示例 1&#xff1a; 輸入&#xff1a;nums [1,2,3] 輸出&#xff1a;[[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1]] 示例 2&#xff1a; 輸入&#xff1a;nu…

商業銀行移動支付發展探析

一、支付交換標準的迭代      銀行卡支付交換標準基于ISO 8583-1987《產生報文的金融交易卡交換報文規范》為發展基礎&#xff0c; 經過30年的產品及應用變革&#xff0c; 支撐交換標準整體框架的數據格式日益顯現其弊端。新型與傳統業務交織&#xff0c; 衍生出多個技術標…

提升智能客服機器人的語義理解能力:理解用戶的語義和意圖

智能客服機器人的發展已經成為現代服務業的一大亮點。它們不僅能夠提供724小時不間斷的服務&#xff0c;而且能夠處理大量的用戶請求&#xff0c;大大提高了服務效率。然而&#xff0c;盡管智能客服機器人的技術已經取得了顯著的進步&#xff0c;但其語義理解能力仍有待提高。為…

List去除重復數據的五種方式

1、使用 LinkedHashSet 刪除 arraylist 中的重復數據 LinkedHashSet 是在一個 ArrayList 刪除重復數據的最佳方法。LinkedHashSet 在內部完成兩件事&#xff1a; 刪除重復數據 保持添加到其中的數據的順序 Java 示例使用 LinkedHashSet 刪除 arraylist 中的重復項。在給定的示例…

【Linux雜貨鋪】調試工具gdb的使用

目錄 &#x1f308;前言&#x1f308; &#x1f4c1;背景介紹 &#x1f4c1; 使用 list [行號] / [函數名] run/r break/b [行號] / [函數名] info break disable break enable break delete break [斷點編號] next/n step/s continue/c finish print/p [變量…