KMeans 算法深度解析：從原理到實戰

一、算法概述：無監督學習的聚類利器?

在機器學習的無監督學習領域，聚類算法是探索數據內在結構的重要工具。KMeans 算法作為劃分式聚類的代表，因其簡單高效的特性，成為數據科學家工具箱中的必備技能。該算法通過將 n 個數據點劃分為 k 個簇，使得每個數據點屬于離其最近的均值（簇中心）所在的簇，最終實現 "物以類聚" 的效果。?

核心目標函數?

KMeans 的核心是最小化簇內平方和（Within-Cluster Sum of Squares, WCSS），數學表達式為：?

J(c,μ)=i=1∑k?x∈Ci?∑?∥x?μi?∥2

其中：?

?k是預設的簇數量?

?Ci?是第 i 個簇的樣本集合?

?μi?是第 i 個簇的質心（均值向量）?

?c(x)表示樣本 x 所屬的簇索引?

這個目標函數本質上是尋找 k 個質心，使得所有樣本到其所屬質心的歐氏距離平方和最小。?

二、算法原理：三步迭代優化過程?

1. 初始化聚類中心（關鍵第一步）?

傳統隨機初始化?

最直接的方法是從數據集中隨機選取 k 個樣本作為初始質心。但這種方法存在明顯缺陷：?

可能陷入局部最優（如圖 1 所示，不同初始化導致不同聚類結果）?

極端情況下可能產生空簇（當 k > 樣本量時）?

KMeans++ 優化初始化（工業級方案）?

步驟如下：?

隨機選擇第一個質心?μ1?對于每個樣本 x，計算其到最近已選質心的距離?D(x)2?以?D(x)2作為權重，隨機選擇下一個質心，重復直到選滿 k 個?

優點：保證初始質心盡可能分散，提升算法收斂質量，減少局部最優影響。?

2. 分配樣本到最近質心（硬聚類過程）?

對于每個樣本點?xj?，計算其與所有質心?μi?的歐氏距離：??

cj?=argi=1..kmin?∥xj??μi?∥2

將樣本分配到距離最小的簇，形成當前劃分?{C1?,C2?,...,Ck?}。?

3. 重新計算簇質心（更新迭代中心）?

對每個簇?Ci?，計算所有樣本的均值作為新質心：?

?μi(t+1)?=∣Ci?∣1?x∈Ci?∑?x?

重復步驟 2-3，直到質心不再變化或達到最大迭代次數。?

收斂條件?算法終止的兩種情況：?

質心位置穩定：?μi(t+1)?=μi(t)?對所有 i 成立
?目標函數收斂：?∣J(t+1)?J(t)∣<?（預設極小值）?

三、算法特性：優勢與局限性分析?

顯著優勢?

計算效率高：時間復雜度為?
O(nkt)，適用于中等規模數據集（n≤10^5）?

實現簡單：核心步驟僅包含距離計算和均值求解，易于工程實現?

幾何意義明確：基于歐氏距離的劃分方式符合直觀幾何理解?

主要局限性?

K 值需預先指定：實際應用中缺乏客觀的 K 值確定方法（需結合業務經驗或肘部法則）?

對初始質心敏感：不同初始化可能導致差異較大的聚類結果（需 KMeans++ 等技術優化）?

對非凸數據不友好：適用于球形簇，對環形、月牙形等非凸分布效果不佳（如圖 2 所示）?

對噪聲敏感：離群點會顯著影響簇質心計算（可結合離群點檢測預處理）?

四、工程實現：從手動編碼到 Scikit-learn 實戰?

手動實現簡化版（Python）?

TypeScript

取消自動換行復制

import numpy as np?

class SimpleKMeans:?

def __init__(self, n_clusters=2, max_iter=100, random_state=42):?

self.k = n_clusters?

self.max_iter = max_iter?

self.centers = None?

def fit(self, X):?

# 初始化質心（隨機選擇k個樣本）?

np.random.seed(self.random_state)?

idx = np.random.choice(len(X), self.k, replace=False)?

self.centers = X[idx]?

for _ in range(self.max_iter):?

# 分配樣本?

distances = np.linalg.norm(X[:, None] - self.centers, axis=2)?

labels = np.argmin(distances, axis=1)?

# 更新質心?

new_centers = np.array([X[labels==i].mean(axis=0) for i in range(self.k)])?

# 檢查收斂?

if np.allclose(self.centers, new_centers):?

break?

self.centers = new_centers?

return self?

def predict(self, X):?

distances = np.linalg.norm(X[:, None] - self.centers, axis=2)?

return np.argmin(distances, axis=1)?

Scikit-learn 專業實現?

TypeScript

取消自動換行復制

from sklearn.datasets import make_blobs?

from sklearn.cluster import KMeans?

import matplotlib.pyplot as plt?

# 生成模擬數據?

X, y_true = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)?

# 模型訓練?

kmeans = KMeans(n_clusters=4, init='k-means++', n_init=10, max_iter=300, random_state=0)?

y_pred = kmeans.fit_predict(X)?

# 結果可視化?

plt.scatter(X[:, 0], X[:, 1], c=y_pred, cmap='viridis', edgecolors='k')?

plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=300, c='red', marker='x', label='Centers')?

plt.legend()?

plt.title("KMeans Clustering Result")?

plt.show()?

關鍵參數解析?

參數名?	含義?	推薦值?
init?	初始化方法?	'k-means++'（默認）?
n_init?	重復初始化次數?	10（默認，自動選擇最優結果）?
max_iter?	單次運行最大迭代數?	300（默認）?
tol?	收斂閾值?	1e-4（默認）?
n_clusters?	簇數量?	需業務 / 技術手段確定?