一、模糊聚類分析的核心思想
在實際工程技術和經濟管理問題中,我們常常需要對對象進行分類。例如,根據生物特征對物種分類、根據氣候特征對城市分類、根據用戶行為對客戶群體分類等。傳統的聚類分析基于清晰的分類邊界,但現實中許多分類問題具有模糊性——類與類之間的界限并不分明。例如,"青年"與"中年"的年齡界限、空氣質量等級的劃分等。
模糊聚類分析正是為了解決這類模糊分類問題而提出的方法。它通過建立模糊關系矩陣,結合模糊數學理論,將對象的相似性轉化為數值化的隸屬度,從而實現對模糊類別的動態劃分。
二、模糊等價矩陣:分類的數學基礎
2.1 模糊等價矩陣的定義
設 R = ( r i j ) n × n R = (r_{ij})_{n \times n} R=(rij?)n×n? 是一個 n n n 階模糊矩陣,若滿足以下三個條件:
- 自反性: r i i = 1 r_{ii} = 1 rii?=1(對角線元素全為1);
- 對稱性: r i j = r j i r_{ij} = r_{ji} rij?=rji?(矩陣對稱);
- 傳遞性: R ° R ? R R \circ R \subseteq R R°R?R(即 R 2 ≤ R R^2 \leq R R2≤R);
則稱 R R R 為模糊等價矩陣。
傳遞性的直觀解釋
傳遞性保證了若 x i x_i xi? 與 x j x_j xj? 相似, x j x_j xj? 與 x k x_k xk? 相似,則 x i x_i xi? 與 x k x_k xk? 必須具有一定程度的相似性。數學上通過模糊矩陣的合成運算來驗證:
R 2 = R ° R , 其中 c i j = max ? 1 ≤ k ≤ n { r i k ∧ r k j } R^2 = R \circ R, \quad \text{其中} \quad c_{ij} = \max_{1 \leq k \leq n} \{ r_{ik} \land r_{kj} \} R2=R°R,其中cij?=1≤k≤nmax?{rik?∧rkj?}
若 R 2 ≤ R R^2 \leq R R2≤R(即所有元素滿足 c i j ≤ r i j c_{ij} \leq r_{ij} cij?≤rij?),則 R R R 滿足傳遞性。
2.2 模糊等價矩陣的性質
定理:若 R R R 是模糊等價矩陣,則對任意 λ ∈ [ 0 , 1 ] \lambda \in [0,1] λ∈[0,1],其 λ \lambda λ-截矩陣 R λ R_\lambda Rλ? 是經典等價矩陣(布爾矩陣)。
λ \lambda λ-截矩陣的定義
對模糊矩陣 R R R,給定閾值 λ \lambda λ,構造布爾矩陣 R λ R_\lambda Rλ?:
a i j ( λ ) = { 1 , r i j ≥ λ 0 , r i j < λ a_{ij}^{(\lambda)} = \begin{cases} 1, & r_{ij} \geq \lambda \\ 0, & r_{ij} < \lambda \end{cases} aij(λ)?={1,0,?rij?≥λrij?<λ?
動態分類特性
當 λ \lambda λ 從 1 逐漸降低到 0 時, R λ R_\lambda Rλ? 的分類結果從最細(每個對象單獨一類)逐步合并為最粗(所有對象歸為一類)。這種動態變化過程可以通過聚類圖直觀展示。
2.3 示例:模糊等價矩陣的聚類過程
例1:設論域 X = { x 1 , x 2 , x 3 , x 4 , x 5 } X = \{x_1, x_2, x_3, x_4, x_5\} X={x1?,x2?,x3?,x4?,x5?},模糊等價矩陣為:
R = ( 1 0.4 0.8 0.5 0.5 0.4 1 0.4 0.4 0.4 0.8 0.4 1 0.5 0.5 0.5 0.4 0.5 1 0.6 0.5 0.4 0.5 0.6 1 ) R = \begin{pmatrix} 1 & 0.4 & 0.8 & 0.5 & 0.5 \\ 0.4 & 1 & 0.4 & 0.4 & 0.4 \\ 0.8 & 0.4 & 1 & 0.5 & 0.5 \\ 0.5 & 0.4 & 0.5 & 1 & 0.6 \\ 0.5 & 0.4 & 0.5 & 0.6 & 1 \end{pmatrix} R= ?10.40.80.50.5?0.410.40.40.4?0.80.410.50.5?0.50.40.510.6?0.50.40.50.61? ?
不同 λ \lambda λ 值的分類結果:
- λ = 1 \lambda = 1 λ=1: { x 1 } , { x 2 } , { x 3 } , { x 4 } , { x 5 } \{x_1\}, \{x_2\}, \{x_3\}, \{x_4\}, \{x_5\} {x1?},{x2?},{x3?},{x4?},{x5?}
- λ = 0.8 \lambda = 0.8 λ=0.8: { x 1 , x 3 } , { x 2 } , { x 4 } , { x 5 } \{x_1, x_3\}, \{x_2\}, \{x_4\}, \{x_5\} {x1?,x3?},{x2?},{x4?},{x5?}
- λ = 0.6 \lambda = 0.6 λ=0.6: { x 1 , x 3 } , { x 2 } , { x 4 , x 5 } \{x_1, x_3\}, \{x_2\}, \{x_4, x_5\} {x1?,x3?},{x2?},{x4?,x5?}
- λ = 0.5 \lambda = 0.5 λ=0.5: { x 1 , x 3 , x 4 , x 5 } , { x 2 } \{x_1, x_3, x_4, x_5\}, \{x_2\} {x1?,x3?,x4?,x5?},{x2?}
- λ = 0.4 \lambda = 0.4 λ=0.4: { x 1 , x 2 , x 3 , x 4 , x 5 } \{x_1, x_2, x_3, x_4, x_5\} {x1?,x2?,x3?,x4?,x5?}
通過調整 λ \lambda λ,我們可以觀察到類別的動態合并過程。
三、模糊相似矩陣:從相似性到等價性
3.1 模糊相似矩陣的定義
在實際問題中,直接構造模糊等價矩陣較為困難。更常見的是先構造模糊相似矩陣,再通過計算其傳遞閉包得到模糊等價矩陣。
設 R = ( r i j ) n × n R = (r_{ij})_{n \times n} R=(rij?)n×n? 是模糊矩陣,若滿足:
- 自反性: r i i = 1 r_{ii} = 1 rii?=1;
- 對稱性: r i j = r j i r_{ij} = r_{ji} rij?=rji?;
則稱 R R R 為模糊相似矩陣。
3.2 傳遞閉包的計算方法
定理:對任意模糊相似矩陣 R R R,存在最小自然數 k k k,使得 R k R^k Rk 是模糊等價矩陣,稱為 R R R 的傳遞閉包,記為 t ( R ) t(R) t(R)。
平方法計算傳遞閉包
通過迭代計算 R 2 , R 4 , R 8 , … R^2, R^4, R^8, \dots R2,R4,R8,… 直到 R 2 k = R 2 k + 1 R^{2^k} = R^{2^{k+1}} R2k=R2k+1,此時 t ( R ) = R 2 k t(R) = R^{2^k} t(R)=R2k。
步驟:
- 計算 R 2 = R ° R R^2 = R \circ R R2=R°R;
- 若 R 2 ≠ R R^2 \neq R R2=R,計算 R 4 = R 2 ° R 2 R^4 = R^2 \circ R^2 R4=R2°R2;
- 重復直到 R 2 k = R 2 k + 1 R^{2^k} = R^{2^{k+1}} R2k=R2k+1。
3.3 示例:傳遞閉包的計算
例2:設模糊相似矩陣為:
R = ( 1 0.1 0.2 0.1 1 0.3 0.2 0.3 1 ) R = \begin{pmatrix} 1 & 0.1 & 0.2 \\ 0.1 & 1 & 0.3 \\ 0.2 & 0.3 & 1 \end{pmatrix} R= ?10.10.2?0.110.3?0.20.31? ?
計算過程:
- 計算 R 2 R^2 R2:
R 2 = R ° R = ( 1 0.2 0.2 0.2 1 0.3 0.2 0.3 1 ) R^2 = R \circ R = \begin{pmatrix} 1 & 0.2 & 0.2 \\ 0.2 & 1 & 0.3 \\ 0.2 & 0.3 & 1 \end{pmatrix} R2=R°R= ?10.20.2?0.210.3?0.20.31? ? - 計算 R 4 = R 2 ° R 2 R^4 = R^2 \circ R^2 R4=R2°R2,發現 R 4 = R 2 R^4 = R^2 R4=R2,因此 t ( R ) = R 2 t(R) = R^2 t(R)=R2。
驗證 t ( R ) t(R) t(R) 滿足傳遞性:
t ( R ) ° t ( R ) = t ( R ) t(R) \circ t(R) = t(R) t(R)°t(R)=t(R)
四、模糊聚類分析的一般步驟
4.1 數據標準化
原始數據可能存在量綱差異,需進行標準化處理。常用方法:
- 平移-標準差變換:
x i j ′ = x i j ? x ˉ j s j , x ˉ j = 1 n ∑ i = 1 n x i j , s j = 1 n ? 1 ∑ i = 1 n ( x i j ? x ˉ j ) 2 x_{ij}' = \frac{x_{ij} - \bar{x}_j}{s_j}, \quad \bar{x}_j = \frac{1}{n}\sum_{i=1}^n x_{ij}, \quad s_j = \sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_{ij}-\bar{x}_j)^2} xij′?=sj?xij??xˉj??,xˉj?=n1?i=1∑n?xij?,sj?=n?11?i=1∑n?(xij??xˉj?)2? - 平移-極差變換:
x i j ′ = x i j ? min ? x j max ? x j ? min ? x j x_{ij}' = \frac{x_{ij} - \min x_j}{\max x_j - \min x_j} xij′?=maxxj??minxj?xij??minxj??
4.2 構建模糊相似矩陣
常用相似系數計算方法:
- 數量積法:
r i j = { 1 , i = j 1 M ∑ k = 1 m x i k ? x j k , i ≠ j r_{ij} = \begin{cases} 1, & i = j \\ \frac{1}{M} \sum_{k=1}^m x_{ik} \cdot x_{jk}, & i \neq j \end{cases} rij?={1,M1?∑k=1m?xik??xjk?,?i=ji=j? - 夾角余弦法:
r i j = ∣ ∑ k = 1 m x i k x j k ∣ ∑ k = 1 m x i k 2 ∑ k = 1 m x j k 2 r_{ij} = \frac{\left| \sum_{k=1}^m x_{ik}x_{jk} \right|}{\sqrt{\sum_{k=1}^m x_{ik}^2} \sqrt{\sum_{k=1}^m x_{jk}^2}} rij?=∑k=1m?xik2??∑k=1m?xjk2??∣∑k=1m?xik?xjk?∣? - 歐氏距離法:
r i j = 1 ? ∑ k = 1 m ( x i k ? x j k ) 2 max ? 距離 r_{ij} = 1 - \frac{\sqrt{\sum_{k=1}^m (x_{ik} - x_{jk})^2}}{\max \text{距離}} rij?=1?max距離∑k=1m?(xik??xjk?)2??
4.3 動態聚類過程
- 計算傳遞閉包 t ( R ) t(R) t(R);
- 從高到低選取 λ \lambda λ 值,生成 λ \lambda λ-截矩陣;
- 根據 R λ R_\lambda Rλ? 的分類結果繪制動態聚類圖。
五、總結
模糊聚類分析通過模糊等價矩陣和動態閾值 λ \lambda λ,實現了對模糊性數據的靈活分類。其核心步驟包括:
- 數據標準化;
- 構建模糊相似矩陣;
- 計算傳遞閉包;
- 動態聚類分析。
該方法在圖像識別、市場細分、環境監測等領域有廣泛應用。理解模糊等價矩陣的性質和傳遞閉包的計算方法,是掌握模糊聚類分析的關鍵。