一、性能度量
- 外部指標:聚類結果與某個“參考模型”進行比較;
?系數:?
,其中的
表示樣本是否屬于某類簇;
?指數:
,其中
表示樣本在兩個聚類結果中都是同一類簇,
表示在其中一個聚類結果中同一類簇,在另一結果反之,
也是;
?指數;
- 內部指標:直接考察聚類結果;
?指數、
?指數;
二、距離計算
- 非負性、同一性、對稱性、直遞性(就是類似三角形兩邊之和大于第三邊的理解,按三個頂點距離來理解)。
- 閔可夫斯基距離(用于有序屬性)、歐氏距離、曼哈頓距離(和數學里面的公式一致)。
三、原型聚類
均值算法:將數據劃分為
個互不重疊的簇,使得同一簇內的數據點盡可能相似,不同簇的數據點盡可能不同,其目標是要最小化簇內平方和:
????????其中 是預設的簇(類別)的數量,
就是第
個簇,
就是第
個簇的質心,
是數據點。
- 學習向量量化:目標是找到一組原型向量(每個原型對應一個類別),使得每個原型盡可能靠近其所屬類別的樣本,以及不同類別的原型盡可能遠離彼此;最終分類時,新樣本被分配給最近原型對應的類別。
- 高斯混合聚類:它假設所有數據點是由多個高斯分布(正態分布)混合生成的。與
等硬聚類算法不同,
允許一個數據點以一定概率屬于多個簇,因此更適合處理重疊簇或非球形簇的復雜數據分布。
四、密度聚類
- 基于數據點空間分布的聚類方法,其核心思想是將高密度區域的數據點劃分為同一簇,并識別低密度區域作為簇間的分隔。與K均值等基于距離的算法不同,密度聚類無需預先指定簇數量,且能發現任意形狀的簇,同時有效處理噪聲和離群點。
五、層次聚類
- 通過逐層分解或合并數據來構建聚類結構的算法,不需要預先指定簇的數量(
值),最終結果可以用樹狀圖直觀展示;
- 凝聚式(自底向上):
- 初始時,每個數據點視為一個獨立的簇;
- 逐步合并距離最近的簇,直到所有點聚為一類;
- 分裂式(自頂向下):
- 初始時,所有數據點屬于一個簇;
- 遞歸地分裂簇,直到每個點單獨成簇(計算復雜度高,較少使用);