【機器學習chp14 — 2】生成式模型—變分自編碼器VAE（超詳細分析，易于理解，推導嚴謹，一文就夠了）

二、變分自編碼器 VAE

1、自編碼器?AE

（1）自編碼器的基本結構與目標

1.1 編碼器-解碼器結構

1.2 目標函數：重構誤差最小化

（2）自編碼器與 PCA 的對比

2.1 PCA 與線性降維

2.2 非線性映射的優勢

（3）自編碼器在降維與表示學習中的意義

2、變分自編碼器 VAE

（1）生成式模型與變分自編碼器概述

（2）模型結構

2.1 編碼器（Inference Network）

2.2 解碼器（Generative Network）

（3）VAE 的解碼器的核心思想

3.1 回憶高斯混合模型

3.2 高斯混合模型的擴展-VAE解碼器

（4）參數的訓練

4.1?最大化似然函數

4.2 變分推斷

4.3 下界的推導

4.4 優化目標

4.5 KL散度的最小化

（5）VAE 相對于 AE 的優勢

5.1 對噪聲的建模

（6）重參數化技巧

（7）編碼器部分的目標：近似后驗

（8）VAE 總結

8.1?VAE整體流程概覽

8.2?編碼器部分的詳細步驟

8.3?解碼器部分的詳細步驟

8.4?訓練與推斷階段的對比

（9）VAE的局限性

9.1 生成圖像“模糊”或“平均化”問題

9.2 可能出現“記住”訓練樣本的傾向

9.3 后驗分布表達能力不足

9.4 高維數據與高保真生成的挑戰

9.5 與 GAN 等其他生成模型的對比

9.6 訓練目標平衡與超參數敏感性

9.7?總結

二、變分自編碼器 VAE

1、自編碼器?AE

核心思想：可以看成PCA的神經元網絡化。

（1）自編碼器的基本結構與目標

1.1 編碼器-解碼器結構

????????????????????????

圖中，可以看到自編碼器的典型結構：

輸入層：原始輸入 $\mathbf{x}$ （例如一張圖像或一段向量）。
編碼器（Encoder）：一系列神經網絡層，將高維的 $\mathbf{x}$ ?壓縮到低維的隱藏表示 $\mathbf{z}$ （也稱潛在表示，latent representation）。
解碼器（Decoder）：與編碼器結構相對稱或相似的網絡，將低維的 $\mathbf{z}$ ?還原回與輸入同維度的 $\mathbf{x}'$ （即重構的結果）。
輸出層：得到的重構 $\mathbf{x}'$ 。

整個過程可用下式概括：

????????????????????????????????????????????????????????????????????? ? ? ? ? ? ?? $\mathbf{z} = f_{\text{enc}}(\mathbf{x}), \quad \mathbf{x}' = f_{\text{dec}}(\mathbf{z})$

1.2 目標函數：重構誤差最小化

自編碼器的目標函數：

??????????????????????????????????????????????????????????????????????????????????? $J(g, f) = \sum_i \|\mathbf{x}_i - \mathbf{x}_i'\|^2 + \lambda R(f)$

其中：

$\mathbf{x}_i - \mathbf{x}_i'\|^2$ 表示第 $i$ ?個樣本的重構誤差（常見的是均方誤差）。
$\lambda R(f)$ 是正則化項，用于約束網絡的復雜度（例如權值衰減、稀疏性正則等）。

自編碼器通過最小化重構誤差來學習到一個對輸入數據具有“良好”表示的隱藏向量 $\mathbf{z}$ ?，使得在壓縮后仍能較好地重構出原輸入。

（2）自編碼器與 PCA 的對比

2.1 PCA 與線性降維

對比了 PCA（主成分分析） 與自編碼器在降維上的效果：

?????

PCA：將原始數據通過線性映射（即正交變換）投影到方差最大的幾個主成分上，實現降維。
自編碼器：使用非線性神經網絡進行編碼和解碼，能學習到更靈活、更豐富的表示。

????????從圖中可以看到，在手寫數字（如 0,1,2,3,4,9）上進行降維后，自編碼器可以重構出更逼近原圖的數字；而 PCA 由于其本質是線性映射，重構往往缺乏非線性特征的捕捉能力，因此在復雜數據上可能效果有限。

2.2 非線性映射的優勢

????????自編碼器通過多層感知機或卷積網絡等方式實現編碼-解碼，可以學習到數據的非線性結構。對 MNIST 這種手寫數字數據來說，每個數字都有不同的筆跡、線條弧度和書寫風格，使用非線性模型更能捕捉到這種多樣性，因此重構更好，潛在空間的分布也更有區分度。

（3）自編碼器在降維與表示學習中的意義

通用性
圖片中的示例主要是手寫數字，但自編碼器對其他高維數據（如圖像、文本、推薦系統的用戶-物品矩陣等）也適用。只要能定義合適的網絡結構和損失函數，就可以把任何高維輸入映射到較低維度的潛在空間進行分析和重構。
非線性表示學習
自編碼器的編碼器部分可以視為一個特征提取器，它能夠在隱藏層中學習到對數據分布更有表達力的特征。這些特征在后續分類、聚類或檢索等任務中往往表現優于簡單的線性降維方法。
可視化
當將自編碼器的中間層（特別是瓶頸層）的維度設為 2D 或 3D 時，就可以直接用來可視化數據在低維空間的分布，便于理解數據內部的結構和模式。
與正則化的結合
在第一張圖的公式中可以看到正則化項 $\lambda R(f)$ ?。常見的擴展包括：
- 稀疏自編碼器（Sparse AE）：鼓勵隱藏單元大部分為零激活；
- 去噪自編碼器（Denoising AE）：對輸入添加噪聲再重構；
- 變分自編碼器（VAE）：在潛在空間上引入概率分布假設；
  這些方法都能讓模型學到更具泛化能力或更具解釋性的表示。

2、變分自編碼器 VAE

（1）生成式模型與變分自編碼器概述

????????生成式模型的目標是學習數據的分布，從而能夠生成與真實數據相似的新樣本。變分自編碼器（Variational Autoencoder, VAE）是其中一種重要的生成模型，它將傳統自編碼器的框架與概率模型和變分推斷方法相結合，不僅能夠重構輸入數據，還能從隱變量空間中生成新的數據。與對抗生成網絡（GAN）相比，VAE具有明確的概率解釋和連續平滑的潛在空間，使其在一些需要不確定性估計或潛在特征表達的任務中表現突出。

（2）模型結構

???????????????????????

2.1 編碼器（Inference Network）

結構分析：在VAE中，編碼器的輸出是一個分布? $q(z|x)$ ， $c_1,c_2,c_3\cdot \cdot \cdot$ ?為在一個分布 $q(z|x)=N(\mu (x),\sigma (x))$ ?中采樣得到的值。相比于AE，VAE編碼器不再是一個神經元網絡直接從輸入映射到 z ，而是產生一個分布（即一個 $\mu$ ，一個 $\sigma$ ，而且這個 $\sigma$ 還有一定的隨機性），再從這個分布中采樣得到 z 。
功能：將輸入數據 $x$ ?映射到潛在空間，并構造近似后驗分布 $q(z|x)$ ?。
輸出：通常輸出隱變量分布的參數（例如均值 $\mu(x)$ 和方差 $\sigma^2(x)$ ?），假設 $q(z|x)$ 為高斯分布。
意義：通過對輸入數據進行編碼，提取數據中的潛在特征，同時為后續的重構提供必要的隱變量信息。
編碼器示意圖如下：

??????????????????????????????????????????????????????????????????????

2.2 解碼器（Generative Network）

功能：根據從隱變量分布中采樣得到的 $z$ ?重構輸入數據，建模條件分布 $p(x|z)$ ?。
生成：利用解碼器網絡，可以從連續的潛在空間中采樣，生成新的數據樣本。
意義：實現數據的重構和生成，是VAE作為生成式模型的核心部分。

（3）VAE 的解碼器的核心思想

3.1 回憶高斯混合模型

?????????????????????????????????????????????????????

圖片中顯示了一個數據分布 $p(x)$ ，由多個高斯分布（曲線）混合而成。
數學表達式： $p(x) = \sum_z p(x|z)p(z)$ ?, 其中 $z$ ?通常是一個離散的混合分量（整數索引）， $p(z)$ 為混合系數（滿足多項分布），而 $p(x|z)$ 為第 $z$ ?個高斯分布 $\mathcal{N}(\mu_z, \sigma _z)$ ?。
直觀來說，這個模型假設數據 $x$ ?可能來自若干個不同的“子分布”（每個子分布是一個高斯），并用這些高斯分布的線性加權求和來近似整體分布。
局限性：當數據分布過于復雜時，僅依靠少量高斯分量可能難以逼近；若增加分量數，模型復雜度也隨之增加。

3.2 高斯混合模型的擴展-VAE解碼器

??????????????????????????????????????

圖片中顯示了一個數據分布 $p(x)$ ，由無數個高斯分布（曲線）混合而成。計算 $p(x)$ 的過程就是解碼的過程
數學表達式： $p(x) = \int p(x|z)p(z)dz$ ?, 其中隱變量 $z$ ?并非離散，而是可以在連續空間中取值。， $p(z)$ 為混合系數（先驗一般取標準正態分布? $z \sim \mathcal{N}(0,I)$ ?，即初始值），而 $p(x|z)$ 為第 $z$ ?個高斯分布 $\mathcal{N}(\mu_z,\sigma _z)$ ?（參數通過神經網絡學）。
隨著 $z$ ?在連續空間中移動，解碼器會生成一系列可能的 $x$ ，從而可以近似很多形狀復雜的分布。
$p(z)$ ?即是編碼器中的? $q(z|x)$ ?的先驗，它是聯系編碼器與解碼器的橋梁。
解碼器示意圖如下：

??????????????????????????????????????????????????????????????????????????????????????????? ? ?

VAE整體結構圖：

采樣 $\rightarrow$

其中? $\mu (z)$ ?和? $\sigma (z)$ ?是輸出分布（最大后驗分布）的參數。 $\mu (z)$ ?可視為重構的? $\hat{x}$ ?（最大似然值）。

（4）參數的訓練

4.1?最大化似然函數

VAE的目標是最大化觀測數據 $x$ ?的似然 $p(x)$ ?，即：

???????????????????????????????????????????????????????????????????????????????????????????????????????????? $p(x) = \int p(x|z) p(z) dz$

其中， $p(x|z)$ 是解碼器生成 $x$ 的條件概率， $p(z)$ 是隱變量 $z$ ?的先驗分布（通常是標準正態分布 $\mathcal{N}(0, I)$ ?）。然后，VAE的目標就是通過最大化 $p(x)$ 來學習一個好的生成模型。為了實現這一目標，我們通常優化其對數似然：

????????????????????????????????????????????????????????????????????????????????????????????????????????????????? $l = \sum_x \ln(p(x))$

4.2 變分推斷

直接最大化 $p(x)$ 是不可行的，因為計算 $\int p(x|z) p(z) dz$ 非常復雜。為了簡化這個過程，VAE引入了變分推斷。首先，我們引入一個變分分布 $q(z|x)$ ?，它近似于后驗分布 $p(z|x)$ ?。因此，我們將對數似然的目標函數重寫為：

???????????????????????????????????????????????????????????????????????????????????? ?? $\ln p(x) = \int q(z|x) \ln p(x) dz$

這種重寫是通過變分下界（Variational Lower Bound）實現的，它允許我們在無法直接計算后驗分布的情況下，進行優化。

4.3 下界的推導

$\ln(p(x)) = \int q(z|x) \ln(p(x|z)) dz$

???????????????????????? $= \int q(z|x) \left( \ln \frac{p(x,z)}{p(z|x)} \right) dz= \int q(z|x) \left( \ln \frac{p(x,z)}{q(z|x)}\frac{q(z|x)}{p(z|x)} \right) dz$

???????????????????????? $= \int q(z|x) \left( \ln \frac{p(x,z)}{q(z|x)} \right) dz + \int q(z|x) \left( \ln \frac{q(z|x)}{p(z|x)} \right) dz$

???????????????????????? $= \int q(z|x) \left( \ln \frac{p(x,z)}{q(z|x)} \right) dz +\text{KL}(q(z|x)||p(z|x))$

而? $q(z|x)$ ?本來就是? $p(z|x)$ ?的近似，所以? $\text{KL}(q(z|x)||p(z|x)) \geq 0$ ?且很接近于 0 .

所以得到? $\ln(p(x))$ ?的下界? $\int q(z|x) \left( \ln \frac{p(x,z)}{q(z|x)} \right) dz$ ?，記為? $\mathcal{L}_b$

4.4 優化目標

?????????????????????????????????????????????? $\ln (p(x)) \approx \mathcal{L}_b$

???????????????????????????????????????????????? ? ? ? ? $= \int q(z|x) \ln \frac{p(x, z)}{q(z|x)} dz$

???????????????? ????????????????????????????????? ? ? ? $= \int q(z|x) \left( \ln p(x|z) + \ln p(z) - \ln q(z|x) \right) dz$

? ? ?其可以拆成兩部分：

重構項：
$\int q(z|x) \ln p(x|z) dz$
這是VAE模型中解碼器的主要任務，它負責通過隱變量 $z$ ?重構數據 $x$ ?。
KL散度項：
$- \int q(z|x) \ln \frac{q(z|x)}{p(z)} dz$
這是VAE中的正則化項，確保編碼器的近似后驗 $q(z|x)$ 不偏離先驗分布 $p(z)$ 過多。

為了優化VAE，我們最大化這個下界：

????????????????????????????????????????????????????? $\mathcal{L}_b = \mathbb{E}_{q(z|x)} [ \ln p(x|z) ] - D_{KL}(q(z|x) || p(z))$

?????其中：

第一個項 $\mathbb{E}_{q(z|x)} [ \ln p(x|z) ]$ 是重構誤差，衡量通過解碼器從隱變量 $z$ ?重構原始數據 $x$ ?的好壞。
第二個項 $D_{KL}(q(z|x) || p(z))$ 是KL散度，確保編碼器輸出的分布 $q(z|x)$ 與先驗分布 $p(z)$ 之間的差異盡可能小。
我們希望第一項盡可能大，第二項前是減號，所以應盡可能小，第二項盡可能小就想要? $q(z|x)$ ?盡可能接近標準正態分布，就意味著 z 沒有任何辨識度，這樣的話第一項就小了。而如果第一項大的話，預測就準確，此時? $q(z|x)$ ?就不會太隨機，第二項就不可能小了，所以這兩部分的loss其實是相互拮抗的，要整體來看。

4.5 KL散度的最小化

????????KL散度是VAE優化的關鍵部分。它衡量了編碼器輸出的近似后驗 $q(z|x)$ ?與標準正態分布 $p(z) = \mathcal{N}(0, I)$ 之間的差異。為了最小化KL散度，編碼器通過神經網絡（如圖中的NN'）輸出隱變量 $z$ 的均值 $\mu'(x)$ 和標準差 $\sigma'(x)$ ，并學習一個合適的分布。

公式為：

?????????????????????????????????????? $KL(q(z|x) || p(z)) = \frac{1}{2} \sum_{j=1}^{M} \left( \mu_j'^2 + \sigma_j'^2 - \log \sigma_j'^2 - 1 \right)$

這是一個標準的KL散度的閉式解，它會對每個維度的隱變量進行計算。