GANs-模式坍塌-訓練不穩定

1.訓練不穩定問題相關文章
- 1.1 DCGAN
- 1.2Big-GAN
- 1.3WGAN 、WGAN-GP、SN-WGAN
- 1.4其他工作
2.模式坍塌問題相關文章
- 2.1 MAD-GAN
- 2.2 Unrolled GAN
- 2.3 DRAGAN
- 2.4 D2GAN
- 2.5 InfoGAN
- 2.6 Deligan
- 2.7 EBGAN
- 2.8 Maximum Entropy Generators for Energy-Based Models

1.訓練不穩定問題相關文章

綜述-分析-歸納

1.1 DCGAN

2016-ICLR
abstract，related work --沒說穩定性的問題
DCGAN的出發點：CNN結構+GANs模型學習，質量優良的圖像表征。其后將生成器或者和判別器作為監督學習的特征提取器
3. aproach and model architecture
也有很多人嘗試將CNN與GAN模型結合，但是沒有成功。

作者認為在GANs模型提出后關于GAN模型學習過程的理解和可視化的工作缺乏，并且GANs模型中生成器和判別器的大多使用多層感知機的全連接結構。（不穩定性基本上沒有分析），他們將卷積神經網絡引入到GANs模型中，利用大量的實驗尋找合適的的結構致力于解決GANs模型訓練不穩定問題。

DC-GAN利用卷積提取圖像的層次視覺特征，其有利于提升判別網絡能力。DC-GAN通過調整卷積神經網絡的結構以提高樣本的質量和收斂速度，這些調整包括：取消所有Pooling 層；在生成網絡和判別網絡中均使用Batch-Normalization[13]操作；去掉全連接層，使網絡變為全卷積網絡；生成網絡中使用ReLU[14]作為激活函數，最后一層使用Tanh[15]作為激活函數，判別網絡使用LeakyReLU[16]作為激活函數等。圖2-4為DC-GAN生成網絡的結構圖。圖2-5為DC-GAN使用大規模場景數據集LSUN[17] 房間子集訓練的模型生成的房間場景圖像。

1.2Big-GAN

文章出發點：高清，真實圖像生成。
通過實驗探索了：不同的訓練批次大小(BatchSize) 、每層卷積通道(Channel)數、Shared、Hierarchical Latent Space對GANs 模型性能的影響。文章表明：對于BatchSize，簡單的增大BatchSize 可以使模型性能獲得較好的提升，但會使訓練穩定性下降；對于Channel數，一定范圍內增加卷積通道數，對提升模型性能有益處；但是超過一定的范圍之后，性能不升反降。

然后：分析訓練崩潰現象發生時網絡權重參數有啥表現
判別網絡權重矩陣的前三個奇異值毛刺多，在發生崩潰時有一個突躍向上。生成網絡權重矩陣奇異值曲線平滑，但是崩潰時有一個突躍向上。

反制措施：
針對G：限制奇異值大小
針對D：D網絡的梯度懲罰

1.3WGAN 、WGAN-GP、SN-WGAN

（推薦）令人拍案叫絕Wasserstein GAN—https://zhuanlan.zhihu.com/p/25071913

TOWARDS PRINCIPLED METHODS FOR TRAINING
GENERATIVE ADVERSARIAL NETWORKS
WGAN前作：分析了GANs模型目標函數的缺陷：會導致訓不動和訓練不穩定。

WGAN：正式提出WGAN，但是Lipschitz約束采用截斷判別器參數的方式實現，不夠優雅。

WGAN-GP：Lipschitz約束使用判別器梯度懲罰的方式實現。
SN-WGAN：Lipschitz約束使用判別器參數每一層W頻譜范數限制為1的方式實現。

1.4其他工作

f-gan將所有GAN模型統一到f-divergence 下，是一個比較優雅的工作。不過沒有致力于解決訓練不穩定問題吧。
Improved techniques for training gans：包含了很多促進GAN穩定訓練的啟發式技巧。

2.模式坍塌問題相關文章

從納什均衡點來說模式坍塌問題：說有兩種方案來解決模式坍塌：

https://zhuanlan.zhihu.com/p/86683281：修改網絡結構MAD-GAN。

https://zhuanlan.zhihu.com/p/84072188：提高網絡能力Unrolled GAN。

有個現象：當判別器在訓練樣本附近更新參數時，其梯度值非常大

http://blog.itpub.net/69946223/viewspace-2658454/：在訓練樣本附近增加梯度懲罰DRAGAN（與上面兩篇文章是同一個作者）

2.1 MAD-GAN

MAD-GAN-2017：單個生成器會產生模式坍塌現象，多個生成器結合起來可以保證樣本的多樣性，但是簡單添加多個彼此鼓勵的生成器并沒有很大的意義，這些可能最終都會歸并到相同狀態。希望讓多個生成器彼此聯系，不同的生成器盡量產生不相似的樣本。MAD-GAN中包括K個初始值不同的生成器和一個判別器，判別器通過交叉熵損失使得每個生成器只生成某一類模式的樣本。生成器使用的一個自定的相似性項懲罰生成器，以達到各個生成器產生不同的樣本的目的。治標不治本，沒有提高單個生成器的能力。

疑惑：多個生成器最后如何確定輸出？隨機？還是要利用判別器？

（提供bib文件。）也希望大家貢獻一些。

多生成器的結構也有很多種，文章中使用多生成器來提高生成數據的多樣性。

relate work ：InfoGAN [5]， ModeGAN[4],UnrolledGAN[17],Coupled GAN,

2.2 Unrolled GAN

https://arxiv.org/abs/1611.02163

Unrolled GAN-2017：由于生成器缺乏先見之明，生成器每次更新參數時只是考慮當前的判別器下能夠獲得的最優解，并不能判斷當前的最優解從長運啊來看是否時最優解。目標是：提高生成器的先見之明。具體做法當前的生成器在更新時不僅能夠考慮當前生成器的狀態，還會考慮K次更新后判別器的狀態。

（還能夠穩定訓練過程。）一個缺點是提高了計算的復雜度。

（按照unroll 的說法，質量越好，其實越容易發生模式坍塌現象）

（公式中兩項的差別就是：第K次更新這個事實。）

2.3 DRAGAN

DRAGAN：(實驗)發現一個有趣的現象，判別器具在訓練樣本附近更新參數時，梯度值非常大，考慮在訓練樣本附近增加一個梯度懲罰。具體就是通過訓練樣本擾動然后，計算梯度，再懲罰。注意與WGAN-GP的區別，WGAN-GP在具體實現時是在真假樣本之間增加懲罰。

與博文中分析的結論殊途同歸的感覺：
https://zhuanlan.zhihu.com/p/56545779
基于能量視角，我們可以得到“對真樣本進行以 0 為中心的梯度懲罰”比較好，因為這意味著（整體上）要把真樣本放在極小值點處。

2.4 D2GAN

D2GAN–2017： 再添加一個判別器，虧你們想的出來。

https://blog.csdn.net/weixin_33958585/article/details/90329616-說的不夠直接。

生成模型最大似然方法對應于求解模型分布與數據分布之間的KL散度。
GANs對應的是求解數據分布與模型分布之間的KL散度。

正反向KL散度

$D_{KL}(p_{model}||p_{data})$ :會憑空產生一些潛在的不希望的樣本。

$D_{KL}(p_{data}||p_{model})$ :Pmodel集中在Pdata的單一模式，而忽略了其他模式，產生模式坍塌現象。

擁有兩個判別器，判別器和原始GANs模型中的判別器功能類似，用于鑒別一個樣本是真樣本的概率，而判別器2用于鑒別樣本是來自生成分布而不是真實分布，通過結合KL和反KL散度生成一個統一的目標函數，從而利用了兩種散度的互補統計特性，緩解了模式坍塌問題。

2.5 InfoGAN

https://zhuanlan.zhihu.com/p/55945164
https://blog.csdn.net/u011699990/article/details/71599067

InfoGAN：通過引入c來約束輸出，使得C的維度于輸出的語義特征相對應。為了使的x與c之間關聯密切，所以我們需要最大化互信息的值。據此對原始GAN模型的值函數做了一點修改，相當于加了一個互信息的正則化項。核心是如何實現互信息的計算（通過一個輔助分布）
簡單理解，生成的數據能夠依據條件改變的話，那么條件多了，生成的數據自然也就多了

2.6 Deligan

認為一般的GAN模型都需要大量的訓練數據，才能夠使生成器捕獲完整的數據模態。對于樣本數量有限的復雜數據集，DeliGAN借助變分推斷中的思想，將輸入隱空間重參數成混合高斯，這些混合高斯分布是樣本高概率出現的隱空間，混合高斯分布的參數隨GANs的參數一同訓練。通過實驗證明了在受限數據集上生成器生成豐富多樣的數據，緩解模式坍塌問題。

主要針對點：受限數據集