文章目錄
- 1、知道幾個關于"差"的概念
- 2、理解相似度度量的各種方法和相互關系
- 2.1、歐氏距離
- 2.2、jaccard相似系數
- 2.3、余弦相似度
- 2.4、Pearson相似系數
- 2.5、相對熵
- 3、掌握掌握K-Means算法
- 3.1、知道聚類的思想
- 3.2、K-Means算法原理
- 3.3、知道K-Mediods聚類
- 3.4、如何選取K-means的初始值
- 3.5、K-means的目標函數
- 4、知道聚類的衡量效果的指標
- 5、了解層次聚類的思路和方法
- 6、理解密度聚類
- 7、掌握譜聚類的算法
- 7.1、了解譜(方陣的全體特征值稱為方陣的譜)以及譜半徑(最大的特征值稱為譜半徑)
- 7.2、幾個概念
- di代表行列式的第i行的累加值。 鄰接矩陣W(又稱為相似矩陣)又為對稱矩陣(Wij與Wji的值相等即i、j的距離相等),主對角線的值取0  7.2、了解譜分析的整體的過程
- 7.3、其他譜聚類算法
- 8、知道拉布拉斯矩陣
- 9、知道標簽傳遞算法
1、知道幾個關于"差"的概念
均值、方差、標準差、協方差:
協方差就是這樣一種用來度量兩個隨機變量關系的統計量,我們可以仿照方差的定義:
2、理解相似度度量的各種方法和相互關系
2.1、歐氏距離
歐氏距離:p=2(又稱為第二范式)。曼哈頓距離:p=1(又稱為第一范式,p為多少也就為第幾范式)。
2.2、jaccard相似系數
用于比較有限樣本集之間的相似性與差異性。Jaccard系數值越大,樣本相似度越高。
2.3、余弦相似度
2.4、Pearson相似系數
兩個變量之間的協方差和標準差的商。
- 當兩個變量的線性關系增強時,相關系數趨于1或-1;
- 當一個變量增大,另一個變量也增大時,表明它們之間是正相關的,相關系數大于0;
- 如果一個變量增大,另一個變量卻減小,表明它們之間是負相關的,相關系數小于0;
- 如果相關系數等于0,表明它們之間不存在線性相關關系。
2.5、相對熵
又稱為KL散度(Kullback–Leibler divergence,簡稱KLD)[1],信息散度(information divergence),信息增益(information gain)。
余弦相似度與Pearson相似系數之間的關系
3、掌握掌握K-Means算法
3.1、知道聚類的思想
先做一個初始的劃分之后通過迭代來改變樣本和簇之間的隸屬關系。
3.2、K-Means算法原理
1、選取初始的K個類別中心數據(可以自定義也可以隨機選取K個樣本)
2、對于每個樣本將其標記為距離類別中心最近的類別(對樣本進行聚類處理)。
3、將每個類別中心更新為隸屬于該類別的所有樣本的均值。
4、重復2、3直到類別中心的變化小于某閾值(迭代次數/簇中心變化率/最小平方誤差MSE)
3.3、知道K-Mediods聚類
類別中心的更新依據從數據的均值改為中位數。
3.4、如何選取K-means的初始值
首先,知道K-means是初值敏感的(K的輸入很關鍵),也就是每個類別中初始值的選擇是很關鍵的。那么如何有效的選取K-Means的初始值?
得到第一個初始值后求其他點到該初始值的距離時將距離初始值較遠的點作為簇點的概率大些,這樣就可以得到較好的初始簇點。
3.5、K-means的目標函數
目標函數:求每個簇的樣本點到每個簇中心的距離的加和;求導后就相當于將周圍點的平均值付給μ作為新的簇中心。
4、知道聚類的衡量效果的指標
均一性和完整性就類似于之前半監督中的準確率和召回率
V-measure:均一性和完整性的加權平均
了解這個輪廓系數(衡量分類好壞的指標):
先了解上面的簇內不相似系數ai(越小越好):簇內的樣本點i到簇內其他樣本點平均距離。
簇間不相似系數bi(越大越好):樣本i到某簇的所有樣本的平均距離。
輪廓系數含義見下圖
5、了解層次聚類的思路和方法
知道這兩個算法AGNES和DIANA
6、理解密度聚類
了解DBSCAN算法:
算法原理:
1、如果點p的鄰域包含多于m個對象,則創建一個p作為核心對象的新簇。
2、尋找并合并核心對象周圍直接密度可達的對象
3、沒有新點可以更新簇時,算法結束。
7、掌握譜聚類的算法
7.1、了解譜(方陣的全體特征值稱為方陣的譜)以及譜半徑(最大的特征值稱為譜半徑)
7.2、幾個概念
di代表行列式的第i行的累加值。
鄰接矩陣W(又稱為相似矩陣)又為對稱矩陣(Wij與Wji的值相等即i、j的距離相等),主對角線的值取0

7.2、了解譜分析的整體的過程
任意兩個點之間的相似度可以用徑向量機函數來求(也就是兩點之間的距離)
過程:
1、由度矩陣D和鄰接矩陣W得到對應的L(拉普拉斯矩陣)的特征值行列式。
2、特征值值行列式中的每個λ代表的一個列向量
3、分成K個類別也就是取前K個特征值,如下圖所示。
4、特征值行列式的行向量的第i行也就代表第i個樣本的特征表示
5、有了m個樣本的特征表示就可以利用K-Means來進行聚類處理。
7.3、其他譜聚類算法
不同的譜聚類算法只是對應的拉普拉斯矩陣改變了,其他的步驟都沒變。
8、知道拉布拉斯矩陣