sheng的學習筆記-AI-聚類(Clustering)

?ai目錄??sheng的學習筆記-AI目錄-CSDN博客

基礎知識

什么是聚類

在“無監督學習”(unsupervised learning)中，訓練樣本的標記信息是未知的，目標是通過對無標記訓練樣本的學習來揭示數據的內在性質及規律，為進一步的數據分析提供基礎。此類學習任務中研究最多、應用最廣的是“聚類”(clustering)。

對聚類算法而言，樣本簇亦稱“類”。

聚類試圖將數據集中的樣本劃分為若干個通常是不相交的子集，每個子集稱為一個“簇”(cluster)。通過這樣的劃分，每個簇可能對應于一些潛在的概念（類別），如“淺色瓜”“深色瓜”，“有籽瓜”“無籽瓜”，甚至“本地瓜”“外地瓜”等；需說明的是，這些概念對聚類算法而言事先是未知的，聚類過程僅能自動形成簇結構，簇所對應的概念語義需由使用者來把握和命名。

聚類任務中也可使用有標記訓練樣本，但樣本的類標記與聚類產生的簇有所不同

聚類的應用場景

在一些商業應用中需對新用戶的類型進行判別，但定義“用戶類型”對商家來說卻可能不太容易，此時往往可先對用戶數據進行聚類，根據聚類結果將每個簇定義為一個類，然后再基于這些類訓練分類模型，用于判別新用戶的類型

性能度量

聚類的性能度量也稱作聚類的有效性指標validity index?。
直觀上看，希望同一簇的樣本盡可能彼此相似，不同簇的樣本之間盡可能不同。即：簇內相似度intra-cluster similarity高，且簇間相似度inter-cluster similarity低。
聚類的性能度量分兩類：
- 聚類結果與某個參考模型reference model進行比較，稱作外部指標external index?。
- 直接考察聚類結果而不利用任何參考模型，稱作內部指標internal index?。

外部指標

Jaccard系數

?FM指數

Rand指數?

ARI指數?

?內部指標

DB指數?

Dunn指數

距離度量?

常用距離計算

數值和非數值屬性混合

當樣本的屬性為數值屬性與非數值屬性混合時，可以將閔可夫斯基距離與?VDM?距離混合使用。?

加權距離

當樣本空間中不同屬性的重要性不同時，可以采用加權距離?

直遞性

直遞性常被直接稱為“三角不等式”

這里的距離度量滿足三角不等式：

需注意的是，通常我們是基于某種形式的距離來定義“相似度度量”(similarity measure)，距離越大，相似度越小。然而，用于相似度度量的距離未必一定要滿足距離度量的所有基本性質，尤其是直遞性。

例如在某些任務中我們可能希望有這樣的相似度度量：“人”“馬”分別與“人馬”相似，但“人”與“馬”很不相似；要達到這個目的，可以令“人”“馬”與“人馬”之間的距離都比較小，但“人”與“馬”之間的距離很大，此時該距離不再滿足直遞性；這樣的距離稱為“非度量距離”(non-metric distance)。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/37325.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/37325.shtml
英文地址，請注明出處：http://en.pswp.cn/web/37325.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！