WGAN(Wassertein GAN)

WGAN

$\begin{aligned} & \mathbb{E}_{x \sim P_g}[\log (1-D(x))] \\ & \mathbb{E}_{x \sim P_g}[-\log D(x)] \end{aligned}$
原始 GAN 中判別器; 在 WGAN 兩篇論文中稱為 “the - log D alternative” 或 “the - log D trick”。WGAN 前作分別分析了這兩種形式的原始 GAN 各自的問題所在 .

第一種原始 GAN 形式的問題

原始 GAN 中判別器要最小化如下損失函數，盡可能把真實樣本分為正例，生成樣本分為負例：
$-\mathbb{E}_{x \sim P_r}[\log D(x)]-\mathbb{E}_{x \sim P_g}[\log (1-D(x))]$
一句話概括：判別器越好，生成器梯度消失越嚴重。

在生成器 G 固定參數時最優的判別器 D 應該是什么，對于一個具體樣本 $x$ 它對公式 1 損失函數的貢獻是
$P_r(x) \log D(x)-P_g(x) \log [1-D(x)]$

$-\frac{P_r(x)}{D(x)}+\frac{P_g(x)}{1-D(x)}=0$

$D^*(x)=\frac{P_r(x)}{P_r(x)+P_g(x)}$

如果 $P_r(x)=0$ 且 $P_g(x)\neq0$ 最優判別器就應該非常自信地給出概率 0；如果 $P_r(x)=P_g(x)$

說明該樣本是真是假的可能性剛好一半一半，此時最優判別器也應該給出概率 0.5。

GAN 訓練有一個 trick，就是別把判別器訓練得太好，否則在實驗中生成器會完全學不動（loss 降不下去），為了探究背后的原因，我們就可以看看在極端情況 —— 判別器最優時，生成器的損失函數變成什么。給公式 2 加上一個不依賴于生成器的項，使之變成

$D^*(x)$ 帶入公式1 得到
$\mathbb{E}_{x \sim P_r} \log \frac{P_r(x)}{\frac{1}{2}\left[P_r(x)+P_g(x)\right]}+\mathbb{E}_{x \sim P_g} \log \frac{P_g(x)}{\frac{1}{2}\left[P_r(x)+P_g(x)\right]}-2 \log 2$

$\begin{aligned} & K L\left(P_1 \| P_2\right)=\mathbb{E}_{x \sim P_1} \log \frac{P_1}{P_2} \\ & J S\left(P_1 \| P_2\right)=\frac{1}{2} K L\left(P_1 \| \frac{P_1+P_2}{2}\right)+\frac{1}{2} K L\left(P_2 \| \frac{P_1+P_2}{2}\right) \end{aligned}$

$S\left(P_r \| P_g\right)-2 \log 2$

key point

在最優判別器下，我們可以把原始GAN定義的生成器loss等價變換為最小化真實分布 $P_r$ 與生成分布 $P_g$ 之間的JS散度。我們越訓練判別器，它就越接近最優。 最小化生成器的 loss 也就會越近似于最小化$ P_r$ 和 $P_g$ 之間的JS 散度。

問題就出在這個 JS 散度上。我們會希望如果兩個分布之間越接近它們的 JS 散度越小，我們通過優化 JS 散度就能將 $P_g$ "拉向" $P_r$ ?, ，最終以假亂真。這個希望在兩個分布有所重疊的時候是成立的，但是如果兩個分布完全沒有重疊的部分，或者它們重疊的部分可忽略（下面解釋什么叫可忽略），它們的 JS 散度是多少呢？答案是log?2，因為對于任意一個 x 只有四種可能：
$\begin{aligned} & P_1(x)=0 \text { 且 } P_2(x)=0 \\ & P_1(x) \neq 0 \text { 且 } P_2(x) \neq 0 \\ & P_1(x)=0 \text { 且 } P_2(x) \neq 0 \\ & P_1(x) \neq 0 \text { 且 } P_2(x)=0 \end{aligned}$

第一種對計算 JS 散度無貢獻
第二種情況由于重疊部分可忽略所以貢獻也為 0
第三種情況對公式 7 右邊第一個項的貢獻 $\log \frac{P_2}{\frac{1}{2}\left(P_2+0\right)}=\log 2$
第四種情況 $S\left(P_1 \| P_2\right)=\log 2$

即無論 $P_r$ 跟 $P_g$ 是遠在天邊，還是近在眼前，只要它們倆沒有一點重疊或者重疊部分可忽略，JS 散度就固定是常數log?2， 而這對于梯度下降方法意味著 —— 梯度為 0.此時對于最優判別器來說，生成器肯定是得不到一丁點梯度信息的；即使對于接近最優的判別器來說，生成器也有很大機會面臨梯度消失的問題。

Manifold A topological space that locally resembles Euclidean space near each point when this Euclidean space is of dimension $n$ ,the manifold is referred as manifold.

支撐集（support）其實就是函數的非零部分子集，比如 ReLU 函數的支撐集就是(0,+∞)，一個概率分布的支撐集就是所有概率密度非零部分的集合。
流形（manifold）是高維空間中曲線、曲面概念的拓廣，我們可以在低維上直觀理解這個概念，比如我們說三維空間中的一個曲面是一個二維流形，因為它的本質維度（intrinsic dimension）只有 2，一個點在這個二維流形上移動只有兩個方向的自由度。同理，三維空間或者二維空間中的一條曲線都是一個一維流形。

$P r$ 已發現它們集中在較低維流形中。這實際上是流形學習的基本假設。想想現實世界的圖像，一旦主題或所包含的對象固定，圖像就有很多限制可以遵循，例如狗應該有兩只耳朵和一條尾巴，摩天大樓應該有筆直而高大的身體，等等。這些限制使圖像無法具有高維自由形式。

$P_g$ 也存在于低維流形中。每當生成器被要求提供更大的圖像（例如 64x64），給定小尺寸（例如 100），噪聲變量輸入 $z$ 這4096個像素的顏色分布是由100維的小隨機數向量定義的，很難填滿整個高維空間。

$P_r$ 和 $P_g$ 不重疊或重疊部分可忽略的可能性有多大？不嚴謹的答案是：非常大。

both $P_r$ and $p_g$ 處于低維流形中，他們幾乎不會相交。（wgan 前面一篇理論證明）

GAN 中的生成器一般是從某個低維（比如 100 維）的隨機分布中采樣出一個編碼向量 $z$ ，再經過一個神經網絡生成出一個高維樣本（比如 64x64 的圖片就有 4096 維）。當生成器的參數固定時，生成樣本的概率分布雖然是定義在 4096 維的空間上，但它本身所有可能產生的變化已經被那個 100 維的隨機分布限定了，其本質維度就是 100，再考慮到神經網絡帶來的映射降維，最終可能比 100 還小，所以生成樣本分布的支撐集就在 4096 維空間中構成一個最多 100 維的低維流形，“撐不滿” 整個高維空間。

在這里插入圖片描述

我們就得到了 WGAN 前作中關于生成器梯度消失的第一個論證：在（近似）最優判別器下，最小化生成器的 loss 等價于最小化 $P_r$ 與 $P_g$ 之間的JS散度，而由于 $P_r$ 與 $P_g$ 幾乎不可能有不可忽略的重疊，所以無論它們相距多遠 JS 散度都是常數log?2，最終導致生成器的梯度（近似）為 0，梯度消失。

原始 GAN 不穩定的原因就徹底清楚了：判別器訓練得太好，生成器梯度消失，生成器 loss 降不下去；判別器訓練得不好，生成器梯度不準，四處亂跑。只有判別器訓練得不好不壞才行，但是這個火候又很難把握，甚至在同一輪訓練的前后不同階段這個火候都可能不一樣，所以 GAN 才那么難訓練。

在這里插入圖片描述

第二種原始 GAN 形式的問題 “the - log D trick”

一句話概括：最小化第二種生成器 loss 函數，會等價于最小化一個不合理的距離衡量，導致兩個問題，一是梯度不穩定，二是 **Mode collapse 即多樣性不足。**WGAN 前作又是從兩個角度進行了論證

上文推導已經得到在最優判別器 $D^*$ 下
$\mathbb{E}_{x \sim P_r}\left[\log D^*(x)\right]+\mathbb{E}_{x \sim P_g}\left[\log \left(1-D^*(x)\right)\right]=2 J S\left(P_r \| P_g\right)-2 \log 2$

$\begin{aligned} K L\left(P_g \| P_r\right) & =\mathbb{E}_{x \sim P_g}\left[\log \frac{P_g(x)}{P_r(x)}\right] \\ & =\mathbb{E}_{x \sim P_g}\left[\log \frac{P_g(x) /\left(P_r(x)+P_g(x)\right)}{P_r(x) /\left(P_r(x)+P_g(x)\right)}\right] \\ & =\mathbb{E}_{x \sim P_g}\left[\log \frac{1-D^*(x)}{D^*(x)}\right] \\ & =\mathbb{E}_{x \sim P_g} \log \left[1-D^*(x)\right]-\mathbb{E}_{x \sim P_g} \log D^*(x) \end{aligned}$

$\begin{aligned} \mathbb{E}_{x \sim P_g}\left[-\log D^*(x)\right] & =K L\left(P_g \| P_r\right)-\mathbb{E}_{x \sim P_g} \log \left[1-D^*(x)\right] \\ & =K L\left(P_g \| P_r\right)-2 J S\left(P_r \| P_g\right)+2 \log 2+\mathbb{E}_{x \sim P_r}\left[\log D^*(x)\right] \end{aligned}$

注意上式最后兩項不依賴于生成器 $G$ ，最終得到最小化公式 3 等價于最小化 $L\left(P_g \| P_r\right)-2 J S\left(P_r \| P_g\right)$

這個等價最小化目標存在兩個嚴重的問題。第一是它同時要最小化生成分布與真實分布的 KL 散度，卻又要最大化兩者的 JS 散度，一個要拉近，一個卻要推遠！這在直觀上非常荒謬，在數值上則會導致梯度不穩定，這是后面那個 JS 散度項的毛病。

第二，即便是前面那個正常的 KL 散度項也有毛病。因為 KL 散度不是一個對稱的衡量 $L\left(P_g \| P_r\right)$ 與 $L\left(P_r \| P_g\right)$ 是有差別的。

Wasserstein 距離的優越性質

$W\left(P_r, P_g\right)=\inf _{\gamma \sim \Pi\left(P_r, P_g\right)} \mathbb{E}_{(x, y) \sim \gamma}[\|x-y\|]$

在這里插入圖片描述

可以看出 Wasserstein 距離處處連續，而且幾乎處處可導，數學性質非常好，能夠在兩個分布沒有重疊部分的時候，依舊給出合理的距離度量。對于離散概率分布，Wasserstein 距離也被描述性地稱為推土機距離 (EMD)。如果我們將分布想象為一定量地球的不同堆，那么 EMD 就是將一個堆轉換為另一堆所需的最小總工作量。

解釋如下: $\Pi\left(P_r, P_g\right)$ 是 $P_r$ 和 $P_g$ 組合起來的所有可能的聯合分布的集合，反過來說， $\Pi\left(P_r, P_g\right)$ 中每一個分布的邊緣分布都是 $P_r$ 和 $P_g$ 。對于每一個可能的聯合分布 $\gamma$ 而言，可以從中采樣 $\sim \gamma$ 得到一個真實樣本 $x$ 和一個生成樣本 $y$ ，并算出這對樣本的距離 $\|x-y\|$ ，所以可以計算該聯合分布 $\gamma$ 下樣本對距離的期望值 $\mathbb{E}_{(x, y) \sim \gamma}[\|x-y\|]$ 。在所有可能的聯合分布中夠對這個期望值取到的下界inf $\operatorname{in}_{\gamma \sim\left(P_r, P_g\right)} \mathbb{E}_{(x, y) \sim \gamma}[\|x-y\|]$ ，就定義為 Wasserstein 距離。

直觀上可以把 $\mathbb{E}_{(x, y) \sim \gamma}[\|x-y\|]$ 理解為在 $\gamma$ 這個 “路徑規劃" 下把 $P_r$ 這堆 “沙土" 挪到 $P_g$ “位置” 所需的 “消耗”, 而 $W\left(P_r, P_g\right)$ 就是 “最優路徑規劃" 下的 “最小消耗”，所以才叫 Earth-Mover (推土機 ) 距離。

Wasserstein 距離相比 KL 散度、JS 散度的優越性在于，即便兩個分布沒有重疊，Wasserstein 距離仍然能夠反映它們的遠近。WGAN 本作通過簡單的例子展示了這一點。考慮如下二維空間中的兩個分布 $P_1$ 和 $P_2 ， P_1$ 在線段 $\mathrm{AB}$ 上均勻分布， $P_2$ 在線段 $\mathrm{CD}$ 上均勻分布，通過控制參數 $\theta$ 可以控制著兩個分布的距離遠近。

在這里插入圖片描述

$\begin{aligned} & K L\left(P_1 \| P_2\right)=K L\left(P_1|| P_2\right)=\left\{\begin{array}{ll} +\infty & \text { if } \theta \neq 0 \\ 0 & \text { if } \theta=0 \end{array}\right. \text { (突變) } \\ & J S\left(P_1 \| P_2\right)=\left\{\begin{array}{ll} \log 2 & \text { if } \theta \neq 0 \\ 0 & \text { if } \theta-0 \end{array}\right. \text { (突變 ) } \\ & W\left(P_0, P_1\right)=|\theta| \text { (平滑 ) } \end{aligned}$

第四部分：從 Wasserstein 距離到 WGAN

$\operatorname{EMD}\left(P_r, P_\theta\right)=\inf _{\gamma \in \Pi} \sum_{x, y}\|x-y\| \gamma(x, y)=\inf _{\gamma \in \Pi} \mathbb{E}_{(x, y) \sim \gamma}\|x-y\|$

It is intractable to exhaust all the possible joint distributions in $\Pi\left(p_r, p_g\right)$ to compute $\inf _{\gamma \sim \Pi\left(p_r, p_g\right)}$ Thus the authors proposed a smart transformation of the formula based on the KantorovichRubinstein duality to: 作者提出了基于 Kantorovich-Rubinstein 對偶性的公式的巧妙轉換：
$W\left(p_r, p_g\right)=\frac{1}{K} \sup _{\|f\| L \leq K} \mathbb{E}_{x \sim p_r}[f(x)]-\mathbb{E}_{x \sim p_g}[f(x)]$
首先需要介紹一個概念——Lipschitz 連續。它其實就是在一個連續函數 $f$ 上面額外施加了一個限制，要求存在一個常數 $\geq 0$ 使得定義域內的任意兩個元素 $x_1$ 和 $x_2$ 都滿足
$\left|f\left(x_1\right)-f\left(x_2\right)\right| \leq K\left|x_1-x_2\right|$
此時稱函數 $f$ 的 Lipschitz 常數為 $K$ 。

上述公式的意思就是在要求函數 $f$ 的 Lipschitz 常數 $\mid f \|_L$ 不超過 $K$ 的條件下，對所有可能滿足件的 $f$ 取到趻數 $w$ 來定義一系列可能的函數 $f_w$ ，此時求解公式 可以近似變成求解如下形式
$\cdot W\left(P_r, P_g\right) \approx \max _{w:\left|f_w\right|_L \leq K} \mathbb{E}_{x \sim P_r}\left[f_w(x)\right]-\mathbb{E}_{x \sim P_g}\left[f_w(x)\right]$

$W\left(p_r, p_\theta\right)=\inf _{\gamma \in \pi} \iint\|x-y\| \gamma(x, y) \mathrm{d} x \mathrm{~d} y=\inf _{\gamma \in \pi} \mathbb{E}_{x, y \sim \gamma}[\|x-y\|] .$

$\begin{aligned} W\left(p_r, p_\theta\right) & =\inf _{\gamma \in \pi} \mathbb{E}_{x, y \sim \gamma}[\|x-y\|] \\ & =\inf _\gamma \mathbb{E}_{x, y \sim \gamma}[\|x-y\|+\underbrace{\left.\sup _f \mathbb{E}_{s \sim p_r}[f(s)]-\mathbb{E}_{t \sim p_\theta}[f(t)]-(f(x)-f(y))\right]} \\ & =\left\{\begin{array}{c} 0, \text { if } \gamma \in \pi \\ +\infty \text { else } \end{array}\right. \\ & =\inf _\gamma \sup _f \mathbb{E}_{x, y \sim \gamma}\left[\|x-y\|+\mathbb{E}_{s \sim p_r}[f(s)]-\mathbb{E}_{t \sim p_\theta}[f(t)]-(f(x)-f(y))\right] \end{aligned}$

$\begin{array}{r} \sup _f \inf _\gamma \mathbb{E}_{x, y \sim \gamma}\left[\|x-y\|+\mathbb{E}_{s \sim p_r}[f(s)]-\mathbb{E}_{t \sim p_\theta}[f(t)]-(f(x)-f(y))\right] \\ =\sup _f \mathbb{E}_{s \sim p_r}[f(s)]-\mathbb{E}_{t \sim p_\theta}[f(t)]+\underbrace{\inf _\gamma \mathbb{E}_{x, y \sim \gamma}[\|x-y\|-(f(x)-f(y))]}_\gamma \\ =\left\{\begin{array}{cc} 0, & \text { if }\|f\|_L \leq 1 \\ -\infty & \text { else } \end{array}\right. \end{array}$

$\begin{aligned} W\left(p_r, p_\theta\right) & =\sup _f \mathbb{E}_{s \sim p_r}[f(s)]-\mathbb{E}_{t \sim p_\theta}[f(t)]+\inf _\gamma \mathbb{E}_{x, y \sim \gamma}[\|x-y\|-(f(x)-f(y))] \\ & =\sup _{\|f\|_{L \leq 1}} \mathbb{E}_{s \sim p_r}[f(s)]-\mathbb{E}_{t \sim p_\theta}[f(t)] \end{aligned}$