?ai目錄??sheng的學習筆記-AI目錄-CSDN博客
基礎知識
什么是聚類
在“無監督學習”(unsupervised learning)中,訓練樣本的標記信息是未知的,目標是通過對無標記訓練樣本的學習來揭示數據的內在性質及規律,為進一步的數據分析提供基礎。此類學習任務中研究最多、應用最廣的是“聚類”(clustering)。
對聚類算法而言,樣本簇亦稱“類”。
聚類試圖將數據集中的樣本劃分為若干個通常是不相交的子集,每個子集稱為一個“簇”(cluster)。通過這樣的劃分,每個簇可能對應于一些潛在的概念(類別),如“淺色瓜”“深色瓜”,“有籽瓜”“無籽瓜”,甚至“本地瓜”“外地瓜”等;需說明的是,這些概念對聚類算法而言事先是未知的,聚類過程僅能自動形成簇結構,簇所對應的概念語義需由使用者來把握和命名。
聚類任務中也可使用有標記訓練樣本,但樣本的類標記與聚類產生的簇有所不同
聚類的應用場景
在一些商業應用中需對新用戶的類型進行判別,但定義“用戶類型”對商家來說卻可能不太容易,此時往往可先對用戶數據進行聚類,根據聚類結果將每個簇定義為一個類,然后再基于這些類訓練分類模型,用于判別新用戶的類型
性能度量
-
聚類的性能度量也稱作聚類的有效性指標
validity index
?。 -
直觀上看,希望同一簇的樣本盡可能彼此相似,不同簇的樣本之間盡可能不同。即:簇內相似度
intra-cluster similarity
高,且簇間相似度inter-cluster similarity
低。 -
聚類的性能度量分兩類:
- 聚類結果與某個參考模型
reference model
進行比較,稱作外部指標external index
?。 - 直接考察聚類結果而不利用任何參考模型,稱作內部指標
internal index
?。
- 聚類結果與某個參考模型
外部指標
Jaccard系數
?FM指數
Rand指數?
ARI指數?
?內部指標
DB指數?
Dunn指數
距離度量?
常用距離計算
數值和非數值屬性混合
當樣本的屬性為數值屬性與非數值屬性混合時,可以將閔可夫斯基距離與?VDM
?距離混合使用。?
加權距離
當樣本空間中不同屬性的重要性不同時,可以采用加權距離?
直遞性
直遞性常被直接稱為“三角不等式”
這里的距離度量滿足三角不等式:
需注意的是,通常我們是基于某種形式的距離來定義“相似度度量”(similarity measure),距離越大,相似度越小。然而,用于相似度度量的距離未必一定要滿足距離度量的所有基本性質,尤其是直遞性。
例如在某些任務中我們可能希望有這樣的相似度度量:“人”“馬”分別與“人馬”相似,但“人”與“馬”很不相似;要達到這個目的,可以令“人”“馬”與“人馬”之間的距離都比較小,但“人”與“馬”之間的距離很大,此時該距離不再滿足直遞性;這樣的距離稱為“非度量距離”(non-metric distance)。