sheng的學習筆記-AI-聚類(Clustering)

?ai目錄??sheng的學習筆記-AI目錄-CSDN博客

基礎知識

什么是聚類

在“無監督學習”(unsupervised learning)中,訓練樣本的標記信息是未知的,目標是通過對無標記訓練樣本的學習來揭示數據的內在性質及規律,為進一步的數據分析提供基礎。此類學習任務中研究最多、應用最廣的是“聚類”(clustering)。

對聚類算法而言,樣本簇亦稱“類”。

聚類試圖將數據集中的樣本劃分為若干個通常是不相交的子集,每個子集稱為一個“簇”(cluster)。通過這樣的劃分,每個簇可能對應于一些潛在的概念(類別),如“淺色瓜”“深色瓜”,“有籽瓜”“無籽瓜”,甚至“本地瓜”“外地瓜”等;需說明的是,這些概念對聚類算法而言事先是未知的,聚類過程僅能自動形成簇結構,簇所對應的概念語義需由使用者來把握和命名。

聚類任務中也可使用有標記訓練樣本,但樣本的類標記與聚類產生的簇有所不同

聚類的應用場景

在一些商業應用中需對新用戶的類型進行判別,但定義“用戶類型”對商家來說卻可能不太容易,此時往往可先對用戶數據進行聚類,根據聚類結果將每個簇定義為一個類,然后再基于這些類訓練分類模型,用于判別新用戶的類型

性能度量

  1. 聚類的性能度量也稱作聚類的有效性指標validity index?。

  2. 直觀上看,希望同一簇的樣本盡可能彼此相似,不同簇的樣本之間盡可能不同。即:簇內相似度intra-cluster similarity高,且簇間相似度inter-cluster similarity低。

  3. 聚類的性能度量分兩類:

    • 聚類結果與某個參考模型reference model進行比較,稱作外部指標external index?。
    • 直接考察聚類結果而不利用任何參考模型,稱作內部指標internal index?。

外部指標

Jaccard系數
?FM指數

Rand指數?

ARI指數?

?內部指標

DB指數?

Dunn指數

距離度量?

常用距離計算

數值和非數值屬性混合

當樣本的屬性為數值屬性與非數值屬性混合時,可以將閔可夫斯基距離與?VDM?距離混合使用。?

加權距離

當樣本空間中不同屬性的重要性不同時,可以采用加權距離?

直遞性

直遞性常被直接稱為“三角不等式”

這里的距離度量滿足三角不等式:

需注意的是,通常我們是基于某種形式的距離來定義“相似度度量”(similarity measure),距離越大,相似度越小。然而,用于相似度度量的距離未必一定要滿足距離度量的所有基本性質,尤其是直遞性。

例如在某些任務中我們可能希望有這樣的相似度度量:“人”“馬”分別與“人馬”相似,但“人”與“馬”很不相似;要達到這個目的,可以令“人”“馬”與“人馬”之間的距離都比較小,但“人”與“馬”之間的距離很大,此時該距離不再滿足直遞性;這樣的距離稱為“非度量距離”(non-metric distance)。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/37325.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/37325.shtml
英文地址,請注明出處:http://en.pswp.cn/web/37325.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Android跨進程通信,binder傳輸數據過大導致客戶端APP,Crash,異常捕獲,監聽異常的數值臨界值,提前Hook攔截。

文章目錄 Android跨進程通信,binder傳輸數據過大導致Crash,異常捕獲,監聽異常的數值臨界值,提前Hook攔截。1.binder在做跨進程傳輸時,最大可以攜帶多少數據1.1有時候這個1m的崩潰系統捕獲不到異常, 2.監測異…

志愿填報指南:為什么我強烈建議你報考計算機專業

首先恭喜2024屆高考的同學們,你們已經通過了高考的考驗,即將進入人生的新階段——大學。 現在正是高考完填報志愿的時刻,Left聽到身邊朋友提到報考志愿的諸多問題: 志愿填報怎么填?我要報考什么專業?這個…

[Cloud Networking] OSPF

OSPF 開放式最短路徑優先(Open Shortest Path First)是一種動態路由協議,它屬于鏈路狀態路由協議,具有路由變化收斂速度快、無路由環路、支持變長子網掩碼和匯總、層次區域劃分等優點。 1 OSPF Area 為了適應大型網絡&#xff0…

可編程定時計數器8253/8254 - 8253入門

時鐘-給設備打拍子 概述 在計算機系統中,為了使所有設備之間的通信井然有序,各通信設備間必須有統一的節奏,不能各干各的,這個節奏就被稱為定時或時鐘 時鐘并不是計算機處理速度的衡量,而是一種使設備間相互配合而避…

【2024-06-21】網易互娛秋招實習筆試三道編程題解

恭喜發現寶藏!搜索公眾號【TechGuide】回復公司名,解鎖更多新鮮好文和互聯網大廠的筆經面經。 作者@TechGuide【全網同名】 訂閱專欄: 【專享版】2024最新大廠筆試真題解析,錯過必后悔的寶藏資源! 第一題:陰陽師斗技 題目描述 小蓋正在參加陰陽師的斗技。已知斗技的規…

Linux 磁盤掛載與分區

Linux 磁盤掛載與分區 vda1: 其中vd表示虛擬磁盤,a表示第一塊磁盤,b表示第二塊磁盤,1表示第一塊磁盤的第一分區(顯然兩塊磁盤都只有一個分區)圖中可以看到,vda1磁盤只有一個分區,且全部掛載到根…

vue3使用vant4的列表vant-list點擊進入詳情自動滾動到對應位置,踩坑日記(一天半的踩坑經歷)

1.路由添加keepAlive <!-- Vue3緩存組件&#xff0c;寫法和Vue2不一樣--><router-view v-slot"{ Component }"><keep-alive><component :is"Component" v-if"$route.meta.keepAlive"/></keep-alive><component…

如何在MySQL中按字符串中的數字排序

在管理數據庫時&#xff0c;我們經常遇到需要按嵌入在字符串中的數字進行排序的情況。這在實際應用中尤為常見&#xff0c;比如文件名、代碼版本號等字段中通常包含數字&#xff0c;而這些數字往往是排序的關鍵。本文將詳細介紹如何在MySQL中利用正則表達式提取字符串中的數字并…

LiteDB - 一個單數據文件 .NET NoSQL 文檔存儲

LiteDB 一個小巧、快速、輕量級的 NoSQL 嵌入式數據庫。 Serverless NoSQL 文檔存儲類似于 MongoDB 的簡單 API100% C# 代碼,支持 .NET 3.5 / .NET 4.0 / NETStandard 1.3 / NETStandard 2.0,單 DLL (小于 300 kb)支持線程和進程安全支持文檔/操作級別的 ACID支持寫失敗后的數…

Google 發布最新開放大語言模型 Gemma 2,現已登陸 Hugging Face Hub

Google 發布了最新的開放大語言模型 Gemma 2&#xff0c;我們非常高興與 Google 合作&#xff0c;確保其在 Hugging Face 生態系統中的最佳集成。你可以在 Hub 上找到 4 個開源模型 (2 個基礎模型和 2 個微調模型) 。發布的功能和集成包括&#xff1a; Hub 上的模型https://hf.…

Java家教系統小程序APP公眾號h5源碼

讓學習更高效&#xff0c;更便捷 &#x1f31f; 引言&#xff1a;家教新選擇&#xff0c;小程序來助力 在快節奏的現代生活中&#xff0c;家長們越來越注重孩子的教育問題。然而&#xff0c;如何為孩子找到一位合適的家教老師&#xff0c;成為了許多家長頭疼的問題。現在&…

交叉編譯中的 --build、 --host和 --target

在交叉編譯中比較常見的一些參數就是build、host和target了,正確的理解這三者的含義對于交叉編譯是非常重要的,下面就此進行解釋   --build=編譯該軟件所使用的平臺   --host=該軟件將運行在哪個平臺   --target=該軟件所處理的目標平臺 我們經常會看到如下代碼:   …

谷歌個人號,20人連續封測14天所需設備該怎么解決?

現在&#xff0c;在Google Play上架應用&#xff0c;對于大部分開發者來說&#xff0c;真的是不小的挑戰&#xff0c;因為目前谷歌上架政策越來越嚴格了。特別是從2023年11月13日起&#xff0c;新政策要求個人開發者賬號的應用必須經過20個獨立用戶連續14天的封閉測試&#xff…

【C語言】--分支和循環(1)

&#x1f37f;個人主頁: 起名字真南 &#x1f9c7;個人專欄:【數據結構初階】 【C語言】 目錄 前言1 if 語句1.1 if1.2 else1.3 嵌套if1.4 懸空else 前言 C語言是結構化的程序設計語言&#xff0c;這里的結構指的是順序結構、選擇結構、循環結構。 我們可以用if、switch實現分支…

vue2實例實現一個初步的vuex

vue2實例實現一個初步的vuex 實現源碼&#xff1a;vue2-review 1.App.vue 2.store目錄下的index.js 3.效果 微信公眾號&#xff1a;刺頭拾年

MATLAB的.m文件與Python的.py文件:比較與互參

simulink MATLAB的.m文件與Python的.py文件&#xff1a;比較與互參相似之處**1. 基本結構****2. 執行邏輯****3. 可讀性和維護性** 差異性**1. 語法特性****2. 性能和應用****3. 開發環境** 互相學習的可能性結論 MATLAB的.m文件與Python的.py文件&#xff1a;比較與互參 在編…

擴展閱讀:什么是中斷

如果用一句話概括操作系統的原理,那就是:整個操作系統就是一個中斷驅動的死循環,用最簡單的代碼解釋如下: while(true){doNothing(); } 其他所有事情都是由操作系統提前注冊的中斷機制和其對應的中斷處理函數完成的。我們點擊一下鼠標,敲擊一下鍵盤,執行一個程序,…

重生之我要學后端100--計算機網絡部分概念(持續更新)

TCP/IP、DNS、負載均衡器等等 前言一、TCP/IP&#xff08;傳輸控制協議/互聯網協議&#xff09;二、DNS&#xff08;域名系統&#xff09;三、負載均衡器其他網絡概念 前言 了解網絡基礎知識對于后端開發者至關重要&#xff0c;因為這些知識有助于理解應用程序是如何在更廣闊的…

中英雙語介紹美國的州:麻省,馬塞諸塞州(Massachusetts)

中文版 馬薩諸塞州&#xff08;Massachusetts&#xff09;位于美國東北部的新英格蘭地區&#xff0c;是美國歷史最悠久、文化最豐富的州之一。以下是對馬薩諸塞州各方面的詳細介紹&#xff1a; 人口 截至2020年&#xff0c;美國人口普查數據顯示&#xff0c;馬薩諸塞州的人口…

C++ 之運算符

作用&#xff1a;用于執行代碼的運算 主要的運算符類型&#xff1a; 運算符類型作用算術運算符用于處理四則運算賦值運算符用于將表達式的值賦給變量比較運算符用于表達式的比較&#xff0c;并返回一個真值或假植邏輯運算符用于根據表達式的值返回真值或假植 1 算術運算符 …