TFS-2022《A Novel Data-Driven Approach to Autonomous Fuzzy Clustering》

核心思想

這篇論文的核心思想是提出一種全新的、數據驅動的自主模糊聚類（Autonomous Fuzzy Clustering, AFC）算法。其核心創新在于，它巧妙地結合了模糊聚類的靈活性和基于中位數（medoids）聚類的可解釋性，并通過一個自適應的高斯核來控制模糊程度，從而實現了兩大目標：

自主確定聚類數量（C）：無需用戶預先指定聚類數，算法能根據數據的內在結構（局部模式）自動推斷出最優的聚類數量。
獲得高質量的初始劃分：避免了傳統模糊C均值（FCM）等算法因隨機初始化而陷入局部次優解的問題，提供了一個穩健且高質量的初始聚類中心集。

該算法通過一個巧妙的“微聚類”（microcluster）機制，將所有數據點視為一個微聚類，利用高斯核計算它們之間的相互隸屬度，然后通過計算每個數據點的“累積隸屬度”（cumulative membership）并尋找其局部最大值，來一次性地、自主地選出初始的聚類中位數。

目標函數

AFC算法的目標函數是整個優化過程的基石，它定義了算法需要最小化的準則。

其目標函數如下：

$\sum_{k=1}^{K} \sum_{i=1}^{C} \bar{\mu}_{i,k} \|x_k - p_i\|^2$

其中：

$J (U, P)$ 是需要最小化的目標函數值。
$[\bar{\mu}_{i,k}]_{i=1:C, k=1:K}$ 是模糊隸屬度矩陣。 $μˉi,k\bar{\mu}_{i,k}$ 表示數據樣本 $x_k$ 屬于由中位數 $p_i$ 代表的第 $i$ 個聚類的歸一化隸屬度。
$P = [p_i]_{i=1:C}$ 是中位數矩陣。 $p_i$ 是第 $i$ 個聚類的中位數，它必須是數據集中的一個實際存在的樣本點。
$K$ 是數據集中的總樣本數。
$C$ 是聚類的數量（在算法開始時是未知的）。
$x_k - p_i\|^2$ 是數據樣本 $x_k$ 與聚類中位數 $p_i$ 之間的歐幾里得距離的平方。

這個目標函數可以理解為加權的平方誤差和。算法的目標是找到一組中位數 $P$ 和對應的隸屬度 $U$ ，使得所有樣本到其所屬聚類中心的加權距離平方和最小。

目標函數的優化過程

AFC算法對目標函數的優化過程分為兩個主要階段：

第一階段：自主初始化 (核心創新)

這一階段不直接優化上述目標函數，而是為第二階段提供一個極佳的起點。其核心思想是：

計算自適應核寬 $σG\sigma_G$ ：根據所有數據點間的相互距離和用戶設定的“粒度級別” $G$ ，通過公式(5)計算出一個全局的高斯核寬度 $σG\sigma_G$ 。這個 $σG\sigma_G$ 控制了“影響范圍”，是算法數據驅動特性的體現。
構建微聚類隸屬度矩陣 $U_{micro}$ ：將每個數據點 $x_k$ 都視為一個微聚類的中位數，利用高斯函數計算它對所有其他數據點 $x_j$ 的隸屬度：
$μ(xk,xj,σG)=e?∥xk?xj∥2/σG2\mu(x_k, x_j, \sigma_G) = e^{-\|x_k - x_j\|^2 / \sigma_G^2}$
然后進行歸一化，得到微聚類隸屬度矩陣 $U_{micro}$ 。
計算累積隸屬度 $λ(xk)\lambda(x_k)$ ：對于每個數據點 $x_k$ ，計算它作為微聚類中位數時，對所有 $K$ 個樣本（包括自己）的隸屬度之和：
$λ(xk)=∑j=1Kμˉk,j′\lambda(x_k) = \sum_{j=1}^{K} \bar{\mu}'_{k,j}$
這個 $λ(xk)\lambda(x_k)$ 可以看作是該點作為“局部模式代表”的綜合吸引力或代表性強度。
自主選擇初始中位數 $P^0$ ：找出所有滿足 條件1 的數據點：
$如果?λ(xk)>max?∥xk?xj∥≤σG;k≠j(λ(xj)),?則?xk∈{p}C0\text{如果 } \lambda(x_k) > \max_{\|x_k - x_j\| \leq \sigma_G; k \neq j} (\lambda(x_j)) \text{, 則 } x_k \in \{p\}_C^0$
這意味著， $x_k$ 的累積隸屬度在其以 $σG\sigma_G$ 為半徑的鄰域內是最大的。這些點就是局部模式的峰值，被選為初始聚類中位數 $P^0$ 。此時，聚類數 $C$ 也就被自主確定了。

第二階段：迭代優化

在獲得高質量的初始中位數 $P^0$ 后，算法進入標準的交替優化過程，以最小化目標函數 $J (U, P)$ 。

更新中位數 $P^t$ (固定 $U^{t-1}$ )：對于每個聚類 $i$ ，在所有數據樣本中尋找一個新的中位數 $p_i^t$ ，使得該聚類內所有樣本的加權距離平方和最小：
$pit=arg?min?z∈{x}(∑k=1Kμˉi,kt?1∥xk?z∥2)p_i^t = \arg \min_{z \in \{x\}} \left( \sum_{k=1}^{K} \bar{\mu}^{t-1}_{i,k} \|x_k - z\|^2 \right)$
由于中位數必須是實際數據點，因此這是一個在有限集合 ${x\}$ 上的搜索問題。
更新隸屬度 $U^t$ (固定 $P^t$ )：根據新的中位數位置 $P^t$ ，重新計算所有樣本的歸一化隸屬度：
$μˉi,kt=μ(pit,xk,σG)∑j=1Cμ(pjt,xk,σG)\bar{\mu}^t_{i,k} = \frac{\mu(p_i^t, x_k, \sigma_G)}{\sum_{j=1}^{C} \mu(p_j^t, x_k, \sigma_G)}$
這里使用的仍然是第一階段計算出的、固定的 $σG\sigma_G$ 。
收斂判斷：重復步驟1和2，計算新的目標函數值 $J(U^t, P^t)$ 。當目標函數值的變化小于預設閾值，或達到最大迭代次數時，停止迭代。

主要貢獻點

數據驅動的自主聚類：這是最核心的貢獻。算法通過“累積隸屬度”和局部最大值搜索，完全自主地確定了聚類數量 $C$ ，無需任何復雜的迭代搜索或外部參數調整，解決了FCM等算法的一大痛點。
穩健的高質量初始化：提出的初始化方法基于數據的全局結構，避免了隨機初始化的不穩定性，為后續優化提供了極佳的起點，提高了算法的魯棒性和收斂速度。
可解釋的聚類中心：采用中位數（實際數據點）而非均值（虛擬點）作為聚類中心，使得聚類結果更具可解釋性，尤其適用于需要理解“典型樣本”是什么的應用場景。
數據驅動的模糊度控制：用一個從數據中自適應計算的高斯核寬度 $σG\sigma_G$ 來控制模糊度，取代了傳統FCM中需要手動設定的模糊加權指數 $m$ ，使算法更加自主。
高效的流式數據擴展：提出了一種“逐塊”（chunk-by-chunk）的流式數據聚類機制。它能高效地處理數據流，通過融合新舊聚類中心并移除冗余，實現了對概念漂移和概念突變的自適應。
計算效率：對于靜態數據，其時間復雜度為 $O(K^2 + HCK)$ ，其中 $K^2$ 項來自初始化， $H C K$ 項來自迭代優化，整體效率較高。

實驗結果

論文在16個基準數據集（包括合成數據、真實世界數據和圖像數據）上進行了大量實驗，結果證明了AFC算法的有效性。

靜態數據聚類：在6個合成數據集和8個真實世界數據集上，AFC算法（ $G = 4$ ）在總體排名（Table V）上優于12種最先進的對比算法（如FCM, K-means, DBSCAN, AP等）。它在Calinski Harabasz指數（CHI）、Davies-Bouldin指數（DBI）和輪廓系數（SC）等質量指標上表現最佳，表明其聚類結果緊湊且分離度好。
流式數據聚類：在8個真實世界數據集上，AFC算法與5種在線聚類算法（如EC, OKM）相比，同樣取得了優異的性能（Table VI），在CHI和SC等指標上排名第一或前三，證明了其在處理數據流時的有效性。
大規模高維數據：在MNIST和FMNIST兩個大規模高維數據集上，AFC算法的計算效率遠高于對比算法（ADP），同時聚類質量（CHI）也顯著更好。
參數 $G$ 的影響：實驗表明，粒度級別 $G$ 控制著聚類的精細程度。較小的 $G$ （如1,2）導致粗粒度、少聚類；較大的 $G$ （如5,6）導致細粒度、多聚類。推薦值 $G = 4$ 或 $5$ 能在多數情況下取得良好平衡。

算法實現過程詳解

以下是AFC算法（靜態數據）的詳細實現步驟，對應論文中的 Algorithm 1：

輸入：靜態數據集 ${x\} = \{x_1, x_2, ..., x_K\}$ 和粒度級別 $G$ 。
計算自適應核寬 $σG\sigma_G$ ：
- 根據公式(5)，利用所有數據點對之間的距離和用戶設定的 $G$ ，計算出 $σG2\sigma_G^2$ 。這個值在整個算法過程中保持不變。
構建微聚類隸屬度矩陣 $U_{micro}$ ：
- 對于每個數據點 $x_k$ （作為微聚類中位數），計算它對所有 $K$ 個數據點 $x_j$ 的高斯隸屬度 $μ(xk,xj,σG)\mu(x_k, x_j, \sigma_G)$ 。
- 對每個 $x_j$ ，將其對所有微聚類的隸屬度進行歸一化，得到 $μˉk,j′\bar{\mu}'_{k,j}$ 。最終形成一個 $\times K$ 的矩陣 $U_{micro}$ 。
計算累積隸屬度 $λ(xk)\lambda(x_k)$ ：
- 對 $U_{micro}$ 的每一行（對應一個微聚類中位數 $x_k$ ）求和，得到該點的累積隸屬度 $λ(xk)\lambda(x_k)$ 。
自主選擇初始中位數 $P^0$ ：
- 遍歷所有數據點 $x_k$ ，檢查其是否滿足條件1：即在以 $σG\sigma_G$ 為半徑的鄰域內，其 $λ(xk)\lambda(x_k)$ 是否是最大的。
- 將所有滿足條件的 $x_k$ 收集起來，構成初始聚類中位數集合 $P0={p10,p20,...,pC0}P^0 = \{p^0_1, p^0_2, ..., p^0_C\}$ 。此時，聚類數 $C$ 被確定。
初始化隸屬度矩陣 $U^0$ ：
- 使用初始中位數 $P^0$ 和固定的 $σG\sigma_G$ ，根據公式(3)計算所有樣本的歸一化隸屬度，得到 $U^0$ 。
迭代優化：
- 初始化： $t = 1$ ，計算初始目標函數值 $J(U^0, P^0)$ 。
- 循環：
  - 步驟1 (更新 $P^t$ )：對每個聚類 $i$ ，根據公式(9)，在原始數據集 ${x\}$ 中搜索一個新的中位數 $p_i^t$ ，使得該聚類的加權距離平方和最小。
  - 步驟1 (更新 $U^t$ )：根據新的中位數 $P^t$ ，根據公式(10)重新計算所有樣本的歸一化隸屬度 $U^t$ 。
  - 步驟2 (收斂判斷)：計算新的目標函數值 $J(U^t, P^t)$ 。如果 $J$ 的變化足夠小（收斂），則跳出循環；否則，令 $t = t + 1$ ，返回步驟1。
輸出：最終的聚類中位數矩陣 $P$ 和隸屬度矩陣 $U$ 。

綜上所述，這篇論文提出了一種思想新穎、實現巧妙的自主模糊聚類算法。它通過“累積隸屬度”這一核心概念，成功地將模糊聚類的優勢與自主性、可解釋性相結合，為解決聚類分析中的核心難題提供了新的思路。

問題分析

公式 (5) 是論文中用于計算自適應核寬度 $σG2\sigma_G^2$ 的核心公式，它是 AFC 算法中的一個關鍵步驟。該公式通過數據點之間的相互距離和用戶設定的“粒度級別” $G$ 來計算高斯核的寬度，從而控制隸屬度函數的模糊程度。以下是對其數學原理的詳細分析：

公式回顧

公式 (5) 表達如下：

$\sigma_g^2 = \frac{1}{\sum_{i=1}^{K-1} \sum_{j=i+1}^{K} w_{g,i,j}} \sum_{i=1}^{K-1} \sum_{j=i+1}^{K} w_{g,i,j} \|x_i - x_j\|^2$

其中：

$\dots, G$ ：表示粒度級別的索引， $G$ 是用戶選擇的非負整數。
$w_{g,i,j}$ 是一個權重函數，定義為：
$w_{g,i,j} = \begin{cases} 1, & \text{如果 } \|x_i - x_j\| \leq \sigma_{g-1}, \\ 0, & \text{否則}. \end{cases}$
$σ02=2K(K?1)∑i=1K?1∑j=i+1K∥xi?xj∥2\sigma_0^2 = \frac{2}{K(K-1)} \sum_{i=1}^{K-1} \sum_{j=i+1}^{K} \|x_i - x_j\|^2$ ：這是初始核寬度的計算公式。

數學原理分析

1. $σ02\sigma_0^2$ 的計算

$σ02\sigma_0^2$ 是所有數據點對之間歐幾里得距離平方的平均值，乘以一個常數因子 $2K(K?1)\frac{2}{K(K-1)}$ 。
它的作用是提供一個全局尺度，衡量數據集的整體分布范圍。具體來說：
$\sigma_0^2 = \frac{2}{K(K-1)} \sum_{i=1}^{K-1} \sum_{j=i+1}^{K} \|x_i - x_j\|^2$
這里的分母 $K (K ? 1)$ 是所有可能的數據點對的數量（無序對），因此 $σ02\sigma_0^2$ 可以看作是對數據點間平均距離平方的一種歸一化估計。
$σ02\sigma_0^2$ 是整個算法的起點，后續的 $σg2\sigma_g^2$ 都是基于它遞歸計算的。

2. 遞歸計算 $σg2\sigma_g^2$

對于 $g > 0$ ， $σg2\sigma_g^2$ 的計算依賴于前一步的 $σg?12\sigma_{g-1}^2$ 。具體來說，公式 (5) 中的 $w_{g,i,j}$ 使用了 $σg?1\sigma_{g-1}$ 作為閾值，來決定是否將數據點對 $x_i, x_j)$ 的距離平方納入加權平均的計算。
$w_{g,i,j}$ 的作用是：
- 如果兩個數據點 $x_i$ 和 $x_j$ 的距離小于或等于 $σg?1\sigma_{g-1}$ ，則認為它們在當前粒度級別 $g$ 下是“鄰近”的，權重為 1。
- 否則，權重為 0，表示這兩個點在當前粒度級別下不相關。
因此， $σg2\sigma_g^2$ 的計算可以理解為：
$\sigma_g^2 = \frac{\text{鄰近點對的距離平方之和}}{\text{鄰近點對的數量}}$
其中，“鄰近點對”是指滿足 $∥xi?xj∥≤σg?1\|x_i - x_j\| \leq \sigma_{g-1}$ 的點對。

3. 自適應性與粒度控制

通過遞歸地計算 $σg2\sigma_g^2$ ，算法能夠根據數據的局部結構動態調整核寬度。具體來說：
- 當 $g = 1$ 時， $σ12\sigma_1^2$ 基于 $σ02\sigma_0^2$ 計算，此時的鄰近關系較為寬松，因為 $σ02\sigma_0^2$ 是全局尺度。
- 隨著 $g$ 的增加， $σg?1\sigma_{g-1}$ 逐漸減小，鄰近點對的定義變得越來越嚴格，這使得 $σg2\sigma_g^2$ 能夠捕捉到更精細的局部模式。
用戶可以通過選擇不同的 $G$ 來控制聚類結果的精細程度：
- 較小的 $G$ 導致較大的 $σg2\sigma_g^2$ ，聚類結果較粗略。
- 較大的 $G$ 導致較小的 $σg2\sigma_g^2$ ，聚類結果更精細。

4. 高斯核寬度的意義

在 AFC 算法中，高斯核寬度 $σG2\sigma_G^2$ 最終用于計算隸屬度函數：
$\mu(p_i, x_k, \sigma_G) = e^{-\frac{\|p_i - x_k\|^2}{\sigma_G^2}}$
其中， $p_i$ 是聚類中心（中位數）， $x_k$ 是數據點。
$σG2\sigma_G^2$ 控制了隸屬度函數的“影響范圍”。較大的 $σG2\sigma_G^2$ 表示每個聚類中心的影響范圍較大，數據點更容易被分配到多個聚類；較小的 $σG2\sigma_G^2$ 則表示影響范圍較小，聚類結果更加明確。
通過從數據中自適應地計算 $σG2\sigma_G^2$ ，AFC 算法避免了手動調參的困難，同時能夠更好地適應數據的內在結構。