什么是聚類? Clustering
可以簡單地說,對有標注的數據分類,就是邏輯回歸(屬于有監督分類),對無標注的數據分類,就是聚類(屬于無監督分類)
聚類是一種無監督學習技術,其目標是根據樣本之間的相似性將未標記的數據分組。
比如,在一個假設的患者研究中,研究人員正在評估一項新的治療方案。在試驗期間,患者每周會報告自身癥狀的頻率以及嚴重程度。研究人員可以使用聚類分析將對治療反應相似的患者歸為同一類。圖1展示了一個將模擬數據分成三個簇(cluster)的可能結果。
圖1左側為癥狀嚴重程度與出現頻率的散點圖,從中可以看出似乎存在三個明顯的聚集區域;右側是同一圖,但每個聚類已用不同顏色區分。
圖1:將未標記樣本劃分為三個聚類(模擬數據)
從圖1左側的原始數據來看,即使沒有明確定義數據點之間的“相似性”,我們也大致能猜出存在三個簇。在真實世界的應用中,我們則必須顯式定義相似性度量——即比較樣本時所使用的距離或相似標準,通常依賴于數據集中的特征。當樣本只包含一兩個特征時,這種相似性較容易可視化和理解。但隨著特征維度增加,特征的組合與比較將變得不直觀,處理復雜度也隨之增加。不同的相似性度量可能適用于不同的聚類場景,本課程稍后將專門介紹如何選擇合適的度量方法,包括手動設定相似性度量與基于嵌入表示的度量方法。
在聚類完成后,每個組會被賦予一個獨立的標簽,稱為聚類ID(cluster ID)。聚類的強大之處在于,它能將一個包含大量復雜特征的大型數據集,簡化為一個聚類ID的形式,便于后續分析與處理。
聚類的進階用途
-
數據插補(Imputation)
當某些樣本缺失部分特征時,可以利用與之同簇中其他樣本的數據進行填補。舉例來說,冷門視頻可以與熱門視頻聚在同一簇,通過熱門視頻的特征信息改善冷門視頻的推薦效果。 -
數據壓縮
正如前述,聚類ID可以替代同一簇內樣本的多維特征,從而降低存儲、計算與模型訓練所需的資源消耗。在處理超大規模數據集時,這種方式可大大提升效率。
以一個 YouTube 視頻為例,其特征數據可能包括:
觀看者的位置、時間與人口統計信息
評論的時間戳、內容與用戶ID
視頻標簽等
將這些視頻聚類后,用一個聚類ID替代原始特征集,就實現了數據壓縮。
- 隱私保護
聚類還可一定程度上用于保護隱私。假設你要基于 YouTube 用戶的觀看記錄訓練模型,你可以用聚類ID代替用戶ID,這樣就不會將具體的觀看記錄直接關聯到某位用戶身上。不過,為確保隱私保護有效,單個聚類中需包含足夠多的用戶。