“子空間聚類(Subspace Clustering)”是一種面向高維數據分析的聚類方法,它通過在數據的低維子空間中尋找簇結構,解決傳統聚類在高維空間中“維度詛咒”帶來的問題。
子空間聚類簡介
在高維數據分析任務中,如基因表達、圖像識別、文檔聚類和傳感器數據挖掘等,數據往往分布在多個不同低維子空間中,傳統的聚類算法(如 K-means、譜聚類)假設所有樣本共享同一個空間,這在實際中會導致聚類性能下降。子空間聚類正是為了解決這一問題而提出,它旨在同時識別數據中的多個簇及其對應的子空間,使得每個簇不僅包含相似的樣本,還具有特定的屬性維度或特征組合。
子空間聚類的核心思想
子空間聚類認為,數據在高維空間中往往只在部分維度上表現出聚類結構,也就是說,不同簇可能“活躍”在不同的子空間中。例如,在基因表達矩陣中,不同細胞類型可能只在某些基因上表達出差異性,而在其他基因上無明顯模式。子空間聚類的目標是同時學習:
樣本分組:哪些數據點屬于同一個簇;
子空間結構:每個簇所處的低維特征子空間(即相關維度)。
子空間聚類的典型方法
代數方法(Algebraic methods)
X=XZ+E
如 SSC(Sparse Subspace Clustering) 和 LRR(Low-Rank Representation),它們基于一個假設:樣本可以表示為其所在子空間內其它樣本的線性組合。
例如:其中 Z?是稀疏或低秩系數矩陣,E 是噪聲。
譜方法(Spectral-based methods)
利用上述表示系數矩陣 ZZ 構建相似圖,對其進行譜聚類。比如 SSC + Spectral Clustering。幾何方法(Geometric methods)
假設每個簇在某一線性子空間中,利用投影、平面擬合等方式識別這些子空間。例如 GPCA(Generalized Principal Component Analysis)。深度學習方法(Deep Subspace Clustering)
如 DSC、DSC-Net、SubCo、以及你提到的 DCCMAF 也可看作具有子空間聚類特性的模型(通過多層特征提取 + 融合 + 自監督方式學習復雜的子空間結構)。
子空間聚類的適用場景
單細胞RNA測序數據分析(scRNA-seq):不同細胞類群在特定基因組合上聚類;
圖像聚類:不同姿態、人臉或背景構成不同的子空間;
文本聚類:語義主題可投影到不同詞向量子空間中;
高維傳感器數據:多個時間序列段可能在不同變量組合上形成子簇。
子空間聚類與傳統聚類對比
特性 | 傳統聚類方法 | 子空間聚類方法 |
---|---|---|
維度處理方式 | 所有維度等價 | 尋找有用子空間 |
簇的形狀 | 球狀或任意形狀 | 通常是線性子空間 |
對高維數據的適應性 | 差 | 強,尤其適合高維稀疏數據 |
輸出結果 | 聚類標簽 | 聚類標簽 + 子空間結構 |
?