聚類系列(一)——什么是聚類?

目前在做聚類方面的科研工作, 看了很多相關的論文, 也做了一些工作, 于是想出個聚類系列記錄一下, 主要包括聚類的概念和相關定義、現有常用聚類算法、聚類相似性度量指標、聚類評價指標、 聚類的應用場景以及共享一些聚類的開源代碼

下面正式進入該系列的第一個部分,什么是聚類?

文章目錄

  • 前言
  • 什么是聚類
    • 示例問題1:
    • 示例問題2:
  • 聚類的研究內容和問題


前言

目前, 機器學習/深度學習研究的熱火朝天,歸根到底可以將其分為兩大類: 有監督學習和無監督學習(當然也有半監督學習,弱監督學習等等)。

有監督學習和無監督學習的區別就是是否樣本可以去訓練和學習。當有足夠的訓練樣本,有大量強大模型可以用于服務于不同的任務,比如用于手寫數字識別的CNN及其變體、用于空氣質量預測的LSTM及其變體。

但如果沒有樣本標簽呢?對于分類任務來說, 如何對樣本進行分類? 如何將樣本劃分為不同相似的子集?這就是聚類問題!

什么是聚類

聚類就是研究如何根據樣本相似性和優化準則,將樣本劃分為不同的子集/類/簇等,使得簇內的樣本的相似性最大,簇間的樣本相似性最小。

這里的樣本可以是不同領域的不同類型的數據,可以是真實物理世界中的點、線、面數據,也可以是進行抽象、虛擬的點、線面數據。舉例來說: 包含經緯度的PM2.5站點,居民移動的軌跡點,車輛軌跡線數據,建筑物面數據,以及用戶、西瓜等抽象點數據

聚類在多個領域都有著廣泛應用,比如數據挖掘(聚類是數據挖掘的經典研究之一)、人類行為模式探測、圖像處理與分析、生物科學等。

同樣以經典數據集為例:鳶尾花(iris)分類問題

示例問題1:

iris數據集包含了不同類型的花的樣本數據,但是不知道具體每個樣本花所屬的類型,每個樣本數據有花萼長度、花萼寬度、花瓣長度和花瓣寬度等四個特征。現在需要根據樣本特征將iris數據劃分為不同的相似樣本簇。

思路: 在利用聚類問題解決此問題的方法為: 根據花的特征計算不同花之間的相似性,然后利用聚類算法根據相似性計算結果將不同的樣本點劃分為不同的組(亦可成為簇, 子集等), 位于相同簇內的樣本即被認為是具有相似屬性的花。

示例問題2:

空間上存在不同的空間點數據, 如圖1所示, 在位置點數據其他屬性, 只知道其空間坐標的前提夏, 如果將圖上的點劃分為不同的組?

思路: 該問題是典型的空間聚類問題, 根據點數據的空間坐標計算不同點之間的距離作為度量點數據之間相似性的標準,然后根據相似性度量結果對不同的空間點數據劃分為不同的簇, 其中簇內的樣本點之間的距離最小(相似性最小), 簇間的樣本距離最大(相似性最大)
在這里插入圖片描述

聚類的研究內容和問題

通過上述介紹可知, 在聚類研究中, 不管研究的樣本數據的類型是空間數據還是非空間(屬性)數據, 聚類的核心內容是相同的, 包括兩個部分:

  • 度量樣本數據之間的相似性(距離)。
  • 基于相似性度量結果, 采用某種準則將樣本劃分為不同的簇。

而根據聚類的核心研究內容, 又具體需要研究以下內容:

  • 如何度量樣本之間的相似性? 如何度量不同類型的樣本之間的相似性?
  • 如何確定樣本簇的個數?
  • 如何區別簇內數據和噪聲數據?
  • 如何識別不同密度的簇?
  • 如何識別不同任意形狀的簇?
  • 如何確定識別的簇結果的質量? 即如何度量聚類結果的有效性?
  • 如何識別具有弱連接的簇(頸問題和鏈問題)?
  • 如何減少參數設置對聚類結果的影響?
  • 如何減少人為的干預?

后續會針對上述問題, 以及目前典型的聚類算法進行詳細介紹, 并給出部分實現代碼

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/161142.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/161142.shtml
英文地址,請注明出處:http://en.pswp.cn/news/161142.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

webpack打包三方庫直接在html里面使用

場景:我是小程序中使用wxmp-rsa庫進行加密,然后在html里面解密 我就想把wxmp-rsa庫打包到一個js里面,然后在html里面直接引入使用。 webpack配置 const path require("path"); const MiniCssExtractPlugin require("mini-…

【MybatisPlus】簡介與使用

MyBatisPlus 1.簡介 MyBatisPlus(簡稱MP)是一個MyBatis的增強工具,在MyBatis的基礎上只做增強不做改變,為簡化開發、提高效率而生 官網:https://baomidou.com/ MyBatis-Plus特性: 無侵入:只…

C_1練習題

一、單項選擇題(本大題共20小題,每小題2分,共40分。在每小題給出的四個備選項中,選出一個正確的答案,并將所選項前的字母填寫在答題紙的相應位置上。) 若 x 為int 型變量,則執行以下語句后,x的值為() x5; xx*x; A. 25 B.-20 C. 20 D.-25 若x、i、j、k都…

C#學習相關系列之Linq用法---group和join相關用法(三)

一、Group用法 在C#的LINQ中&#xff0c;Grou將集合中的元素按照指定的鍵進行分組。Group方法返回一個IEnumerable<IGrouping<TKey, TElement>>類型的集合&#xff0c;其中TKey表示分組的鍵類型&#xff0c;TElement表示集合中元素的類型。每個IGrouping<TKey, …

php如何實現文件上傳

php實現文件上傳需要通過全局變量&#xff08;數組&#xff09;&#xff1a;$_FILES 結合 move_uploaded_file 函數來實現。 move_uploaded_file函數&#xff08;只對POST方式生效&#xff09;&#xff1a; 其中move_uploaded_file函數語法&#xff1a;move_uploaded_file(需要…

Vue生成二維碼并進行二維碼圖片下載

1、安包 npm install vue-qr --save2、引入 // vue2.0 import VueQr from vue-qr // vue3.0 import VueQr from vue-qr/src/packages/vue-qr.vue new Vue({components: {VueQr} })<!-- 設備二維碼 對話框 270px--><el-dialog title"點位二維碼" :visible.…

超級簽名封號掉簽該怎么辦

如果超級簽名封號掉簽了&#xff0c;可以考慮以下幾種解決方法&#xff1a; 聯系簽名服務商&#xff1a;首先&#xff0c;可以聯系簽名服務商&#xff0c;了解封號的原因和解決方案。app封裝打包可能會提供技術支持或幫助恢復簽名。 檢查簽名配置&#xff1a;確認簽名配置是否…

練習題——【學習補檔】庫函數的模擬實現

各種庫函數的模擬實現 一、模擬實現strlen1.地址-地址型2.遞歸型3.計數器型 二、模擬實現strcpy三、模擬實現strcmp四、模擬實現strcat五、模擬實現strstr 一、模擬實現strlen 模擬實現strlen有三種方法 1.地址-地址型 2.遞歸型 3.計數器型1.地址-地址型 // //1.地址-地址型 …

云服務器-從零搭建前后端服務

使用須知 選擇0M帶寬不能訪問公網&#xff08;不分配公網IP&#xff09;&#xff0c;如需分配公網IP請增加帶寬值。云服務器ECS默認不開啟虛擬內存如您需要使用請登錄云服務器內部操作。Linux開啟swap&#xff08;虛擬內存&#xff09;、Windows虛擬內存的設置若您購買了數據盤…

含分布式電源的配電網可靠性評估matlab程序

微?關注“電氣仔推送”獲得資料&#xff08;專享優惠&#xff09; 參考文獻&#xff1a; 基于仿射最小路法的含分布式電源配電網可靠性分析——熊小萍 主要內容&#xff1a; 通過概率模型和時序模型分別進行建模&#xff0c;實現基于概率模型最小路法的含分布式電源配電網…

web需求記錄

需求1&#xff1a;根據后端傳過來的設備名:DESKTOP-4DQRGQB&#xff0c;以及mac:e0:be:03:74:40:0b&#xff1b;iQOO-8&#xff0c;mac:b0:33:66:38:c3:25&#xff0c;用web option 是動態增加的&#xff08;也就是那個選擇框里面的東西是根據后端傳過來的值動態增加的&#xf…

upload-labs關卡12(基于白名單的%00截斷繞過)通關思路

文章目錄 前言一、靶場需要了解的前置知識1、%00截斷2、0x00截斷3、00截斷的使用條件1、php版本小于5.3.292、magic_quotes_gpc Off 二、靶場第十二關通關思路1、看源代碼2、bp抓包%00截斷3、驗證文件是否上傳成功 總結 前言 此文章只用于學習和反思鞏固文件上傳漏洞知識&…

LL(1)語法分析程序設計與實現

制作一個簡單的C語言詞法分析程序_用c語言編寫詞法分析程序-CSDN博客文章瀏覽閱讀322次。C語言的程序中&#xff0c;有很單詞多符號和保留字。一些單詞符號還有對應的左線性文法。所以我們需要先做出一個單詞字符表&#xff0c;給出對應的識別碼&#xff0c;然后跟據對應的表格…

國民新旅游時代,OTA們如何制勝新周期?

文 | 螳螂觀察&#xff08;TanglangFin&#xff09; 作者 | 圖霖 消費全面復蘇的大背景下&#xff0c;旅游業正迎來預期中的拐點。 一個顯著表現是&#xff0c;旅游消費正在從可選消費轉化成必選消費。 國內消費者旅游需求的不降反增&#xff0c;就是最好的印證。 同程研究…

DoFaker: 一個簡單易用的換臉工具

DoFaker: 一個簡單易用的換臉工具 基于insightface開發&#xff0c;可以輕松替換視頻或圖片中的人臉。支持windows和linux系統&#xff0c;CPU和GPU推理。onnxruntime推理&#xff0c;無需pytorch。 更新 2023/9/16 更新動作遷移算法2023/9/14 更新臉部增強算法(GFPGAN)和超分…

TypeScript枚舉

1、數字枚舉 enum Direction {Up,Down,Left,Right, } var Direction; (function (Direction) {Direction[Direction["Up"] 0] "Up";Direction[Direction["Down"] 1] "Down";Direction[Direction["Left"] 2] "L…

[點云分割] 基于顏色的區域增長分割

效果&#xff1a; 代碼&#xff1a; #include <iostream> #include <thread> #include <vector>#include <pcl/point_types.h> #include <pcl/io/pcd_io.h> #include <pcl/search/search.h> #include <pcl/search/kdtree.h> #inclu…

AR道具特效制作工具

AR&#xff08;增強現實&#xff09;技術已經逐漸滲透到各個行業&#xff0c;為企業帶來了全新的營銷方式和用戶體驗。在這個背景下&#xff0c;美攝科技憑借其強大的技術實力和創新精神&#xff0c;推出了一款專為企業打造的美攝AR特效制作工具&#xff0c;旨在幫助企業輕松實…

MIKE水動力筆記19_統計平均潮差

本文目錄 前言Step 1 ArcGIS中創建漁網點Step 2 將dfsu數據提取到漁網點Step 3 Python統計平均潮差 前言 日平均潮差&#xff08;average daily tidal range&#xff09;&#xff1a;日高潮潮高合計之和除以實有高潮個數為日平均高潮潮高&#xff0c;日低潮潮高合計之和除以實…

Quartz .Net 的簡單使用

參考了&#xff1a;c# .net framework 4.5.2 , Quartz.NET 3.0.7 - runliuv - 博客園 (cnblogs.com) https://www.cnblogs.com/personblog/p/11277527.html&#xff0c; Quartz.NET 作業調度&#xff08;一&#xff09;&#xff1a;Test - 簡書 自己要輪詢的任務&#xff1a…