高斯混合模型GMMK均值（十三-1）——K均值是高斯混合模型的特例

EM算法與K均值算法的關系

K均值可以看成是高斯混合模型的特例。

對K均值算法與EM算法進行比較后，可以發現它們之間有很大的相似性。K均值算法將數據點硬（hard）分配到聚類中，每個數據點唯一地與一個聚類相關聯，而EM算法基于后驗概率進行軟（soft）分配。事實上，可以從EM算法推導出K均值算法。

考慮一個高斯混合模型，其中混合分量的協方差矩陣由 ${\sigma^2} I$ 給出，其中 ${\sigma^2}$ 是所有分量共享的方差參數， $I$ 是單位矩陣，因此

$N(\bm{x}|{\bm \mu}_k, {\bm \varSigma}_k) = \frac{1}{(2\pi{\sigma^2})^{d/2}} \exp\left\{-\frac{1}{2{\sigma^2}}\|\bm{x}-{\bm \mu}_k\|^2\right\} \tag{31}$

考慮將要應用于這種形式的包含K個分量的高斯混合模型的EM算法，其中將 ${\sigma^2}$ 當作固定常數而不是重新估計的參數處理。根據式（12），特定數據點 $\bm{x}_i$ 的后驗概率或責任由下式給出：

$\gamma_{ik} = \frac{\pi_k \exp\left\{-\|\bm{x}_i-{\bm \mu}_k\|^2 / 2{\sigma^2}\right\}}{\sum_j \pi_j \exp\left\{-\|\bm{x}_i-{\bm \mu}_j\|^2 / 2{\sigma^2}\right\}} \tag{32}$

考慮極限 ${\sigma^2} \to 0$ ，式（32）右側的分母中包含了以j索引的多個趨于零的項。假設使得 $\|\bm{x}_i-{\bm \mu}_j\|^2$ 最小的特定項（例如 $j = l$ 的項）將會最慢地趨于零并支配該平方和。因此，數據點 $\bm{x}_i$ 的責任 $\gamma_{ik}$ 除了第 $l$ 項外都會趨于零，第l項的責任 $\gamma_{ik}$ 將趨于1。注意，這獨立于 $\pi_k$ 的值，只要沒有任何 $\pi_k$ 為零即可。因此，在這個極限下，獲得了數據點到聚類的硬分配，就像在K均值算法中一樣，所以 $\gamma_{ik} \to r_{ik}$ ，其中 $r_{ik}$ 由式（2）定義。每個數據點因此被分配到與其最近的均值所代表的聚類。

然后EM算法中 ${\bm \mu}_k$ 的重估方程由式（16）給出，并簡化為K均值算法的結果[式（4）]。注意，混合系數的重估方程[式（21）]僅是將 $\pi_k$ 的值重置為分配給聚類k的數據點的比例，這些參數在算法中已不再起作用。

最后，在極限 ${\sigma^2} \to 0$ 下，用來給出完整數據對數似然函數期望的式（30），就可以變為

${E}_Z[\ln p(X,Z|{\bm \mu},\Sigma,\pi)] \to -\frac{1}{2}\sum_{n=1}^N\sum_{k=1}^K r_{ik}\|\bm{x}_i-{\bm \mu}_k\|^2 + \text{const} \tag{33}$

因此，看到在這個極限下，完整數據對數似然函數的最大化期望等價于最小化K均值算法的誤差度量J，J由式（34）給出。注意，K均值算法不估計聚類的協方差，只估計聚類的均值。

$\frac{1}{n} \sum_{i=1}^n \sum_{k=1}^K r_i(k) \|{\bm x}_i - \boldsymbol{{\bm \mu}}_k\|^2\tag{34}$

在這里插入圖片描述

算法 K-Means

初始化 $K$ ， $\tau > 0$ 和 $\{\boldsymbol{{\bm {\bm \mu}}}_k^{(0)}\}_{k=1}^K$
repeat
E 步：更新簇分配
$r_i^{(t+1)}(k) = \begin{cases} 1, & \text{若 } k = \arg \min_{j=1,\cdots,K} \|{\bm x}_i - \boldsymbol{{\bm {\bm \mu}}}_j^{(t)}\|^2 \\ 0, & \text{否則} \end{cases}, \quad i=1,\cdots,n$
M 步：更新簇中心
$\boldsymbol{{\bm {\bm \mu}}}_k^{(t+1)} = \frac{\sum\limits_{i=1}^n r_i^{(t+1)}(k) {\bm x}_i}{\sum\limits_{i=1}^n r_i^{(t+1)}(k)}, \quad \text{對于 } k=1,\cdots,K\tag{4}$
計算得分：
$J^{(t+1)} = \frac{1}{n} \sum\limits_{i=1}^n \sum\limits_{k=1}^K r_i^{(t+1)}(k) \|{\bm x}_i - \boldsymbol{{\bm {\bm \mu}}}_k^{(t+1)}\|^2$
until $|J^{(t+1)} - J^{(t)}| < \tau$

算法使用EM和高斯混合模型聚類

初始化 $K$ ， $\tau > 0$ ， $\{\pi_k^{(0)}, {\bm {\bm \mu}}_k^{(0)}, {\bm \varSigma}_k^{(0)}\}_{k=1}^K$
repeat
E步：更新簇成員
$\gamma_k^{(t)}({\bm x}_i) = \frac{\pi_k^{(t)} {N}({\bm x}_i \mid {\bm {\bm \mu}}_k^{(t)}, {\bm \varSigma}_k^{(t)})}{\sum\limits_{k=1}^K \pi_k^{(t)} {N}({\bm x}_i \mid {\bm {\bm \mu}}_k^{(t)}, {\bm \varSigma}_k^{(t)})}$
M步：重新估計模型參數
${\bm {\bm \mu}}_k^{(t+1)} = \frac{\sum\limits_{i=1}^n \gamma_k^{(t)}({\bm x}_i) {\bm x}_i}{\sum\limits_{i=1}^n \gamma_k^{(t)}({\bm x}_i)}\tag{16}$ ${\bm \varSigma}_k^{(t+1)} = \frac{\sum\limits_{i=1}^n \gamma_k^{(t)}({\bm x}_i) ({\bm x}_i - \hat{{\bm {\bm \mu}}}_k^{(t+1)}) ({\bm x}_i - \hat{{\bm {\bm \mu}}}_k^{(t+1)})^ {\top} }{\sum\limits_{i=1}^n \gamma_k^{(t)}({\bm x}_i)}$ $\pi_k^{(t+1)} = \frac{1}{n} \sum\limits_{i=1}^n \gamma_k^{(t)}({\bm x}_i)\tag{21}$
計算對數似然：
$L(\{\pi_k^{(t+1)}, {\bm {\bm \mu}}_k^{(t+1)}, {\bm \varSigma}_k^{(t+1)}\}_{k=1}^K) = \sum\limits_{i=1}^n \ln \left( \sum\limits_{k=1}^K \pi_k^{(t+1)} {N}({\bm x}_i \mid {\bm {\bm \mu}}_k^{(t+1)}, {\bm \varSigma}_k^{(t+1)}) \right)$
until $|L(\{\pi_k^{(t+1)}, {\bm {\bm \mu}}_k^{(t+1)}, {\bm \varSigma}_k^{(t+1)}\}_{k=1}^K) - L(\{\pi_k^{(t)}, {\bm {\bm \mu}}_k^{(t)}, {\bm \varSigma}_k^{(t)}\}_{k=1}^K)| < \tau$

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/86663.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/86663.shtml
英文地址，請注明出處：http://en.pswp.cn/web/86663.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！