GANs-模式坍塌-訓練不穩定
- 1.訓練不穩定問題相關文章
- 1.1 DCGAN
- 1.2Big-GAN
- 1.3WGAN 、WGAN-GP、SN-WGAN
- 1.4其他工作
- 2.模式坍塌問題相關文章
- 2.1 MAD-GAN
- 2.2 Unrolled GAN
- 2.3 DRAGAN
- 2.4 D2GAN
- 2.5 InfoGAN
- 2.6 Deligan
- 2.7 EBGAN
- 2.8 Maximum Entropy Generators for Energy-Based Models
1.訓練不穩定問題相關文章
綜述-分析-歸納
1.1 DCGAN
2016-ICLR
abstract,related work --沒說穩定性的問題
DCGAN的出發點:CNN結構+GANs模型學習,質量優良的圖像表征。其后將生成器或者和判別器作為監督學習的特征提取器
3. aproach and model architecture
也有很多人嘗試將CNN與GAN模型結合,但是沒有成功。
作者認為在GANs模型提出后關于GAN模型學習過程的理解和可視化的工作缺乏,并且GANs模型中生成器和判別器的大多使用多層感知機的全連接結構。(不穩定性基本上沒有分析),他們將卷積神經網絡引入到GANs模型中,利用大量的實驗尋找合適的的結構致力于解決GANs模型訓練不穩定問題。
DC-GAN利用卷積提取圖像的層次視覺特征,其有利于提升判別網絡能力。DC-GAN通過調整卷積神經網絡的結構以提高樣本的質量和收斂速度,這些調整包括:取消所有Pooling 層;在生成網絡和判別網絡中均使用Batch-Normalization[13]操作;去掉全連接層,使網絡變為全卷積網絡;生成網絡中使用ReLU[14]作為激活函數,最后一層使用Tanh[15]作為激活函數,判別網絡使用LeakyReLU[16]作為激活函數等。圖2-4為DC-GAN生成網絡的結構圖。圖2-5為DC-GAN使用大規模場景數據集LSUN[17] 房間子集訓練的模型生成的房間場景圖像。
1.2Big-GAN
文章出發點:高清,真實圖像生成。
通過實驗探索了:不同的訓練批次大小(BatchSize) 、每層卷積通道(Channel)數、Shared、Hierarchical Latent Space對GANs 模型性能的影響。文章表明:對于BatchSize,簡單的增大BatchSize 可以使模型性能獲得較好的提升,但會使訓練穩定性下降;對于Channel數,一定范圍內增加卷積通道數,對提升模型性能有益處;但是超過一定的范圍之后,性能不升反降。
然后:分析訓練崩潰現象發生時網絡權重參數有啥表現
判別網絡權重矩陣的前三個奇異值毛刺多,在發生崩潰時有一個突躍向上。生成網絡權重矩陣奇異值曲線平滑,但是崩潰時有一個突躍向上。
反制措施:
針對G:限制奇異值大小
針對D:D網絡的梯度懲罰
1.3WGAN 、WGAN-GP、SN-WGAN
(推薦)令人拍案叫絕Wasserstein GAN—https://zhuanlan.zhihu.com/p/25071913
TOWARDS PRINCIPLED METHODS FOR TRAINING
GENERATIVE ADVERSARIAL NETWORKS
WGAN前作:分析了GANs模型目標函數的缺陷:會導致訓不動和訓練不穩定。
WGAN:正式提出WGAN,但是Lipschitz約束采用截斷判別器參數的方式實現,不夠優雅。
WGAN-GP:Lipschitz約束使用判別器梯度懲罰的方式實現。
SN-WGAN:Lipschitz約束使用判別器參數每一層W頻譜范數限制為1的方式實現。
1.4其他工作
f-gan將所有GAN模型統一到f-divergence 下,是一個比較優雅的工作。不過沒有致力于解決訓練不穩定問題吧。
Improved techniques for training gans:包含了很多促進GAN穩定訓練的啟發式技巧。
2.模式坍塌問題相關文章
從納什均衡點來說模式坍塌問題:說有兩種方案來解決模式坍塌:
https://zhuanlan.zhihu.com/p/86683281:修改網絡結構MAD-GAN。
https://zhuanlan.zhihu.com/p/84072188:提高網絡能力Unrolled GAN。
有個現象:當判別器在訓練樣本附近更新參數時,其梯度值非常大
http://blog.itpub.net/69946223/viewspace-2658454/:在訓練樣本附近增加梯度懲罰DRAGAN(與上面兩篇文章是同一個作者)
2.1 MAD-GAN
MAD-GAN-2017:單個生成器會產生模式坍塌現象,多個生成器結合起來可以保證樣本的多樣性,但是簡單添加多個彼此鼓勵的生成器并沒有很大的意義,這些可能最終都會歸并到相同狀態。希望讓多個生成器彼此聯系,不同的生成器盡量產生不相似的樣本。MAD-GAN中包括K個初始值不同的生成器和一個判別器,判別器通過交叉熵損失使得每個生成器只生成某一類模式的樣本。生成器使用的一個自定的相似性項懲罰生成器,以達到各個生成器產生不同的樣本的目的。治標不治本,沒有提高單個生成器的能力。
疑惑:多個生成器最后如何確定輸出?隨機?還是要利用判別器?
(提供bib文件。)也希望大家貢獻一些。
多生成器的結構也有很多種,文章中使用多生成器來提高生成數據的多樣性。
relate work :InfoGAN [5], ModeGAN[4],UnrolledGAN[17],Coupled GAN,
2.2 Unrolled GAN
https://arxiv.org/abs/1611.02163
Unrolled GAN-2017:由于生成器缺乏先見之明,生成器每次更新參數時只是考慮當前的判別器下能夠獲得的最優解,并不能判斷當前的最優解從長運啊來看是否時最優解。目標是:提高生成器的先見之明。具體做法當前的生成器在更新時不僅能夠考慮當前生成器的狀態,還會考慮K次更新后判別器的狀態。
(還能夠穩定訓練過程。)一個缺點是提高了計算的復雜度。
(按照unroll 的說法,質量越好,其實越容易發生模式坍塌現象)
(公式中兩項的差別就是:第K次更新這個事實。)
2.3 DRAGAN
DRAGAN:(實驗)發現一個有趣的現象,判別器具在訓練樣本附近更新參數時,梯度值非常大,考慮在訓練樣本附近增加一個梯度懲罰。具體就是通過訓練樣本擾動然后,計算梯度,再懲罰。注意與WGAN-GP的區別,WGAN-GP在具體實現時是在真假樣本之間增加懲罰。
與博文中分析的結論殊途同歸的感覺:
https://zhuanlan.zhihu.com/p/56545779
基于能量視角,我們可以得到“對真樣本進行以 0 為中心的梯度懲罰”比較好,因為這意味著(整體上)要把真樣本放在極小值點處。
2.4 D2GAN
D2GAN–2017: 再添加一個判別器,虧你們想的出來。
https://blog.csdn.net/weixin_33958585/article/details/90329616-說的不夠直接。
生成模型最大似然方法對應于求解 模型分布 與 數據分布 之間的KL散度。
GANs對應的是求 解數據分布 與 模型分布 之間的KL散度。
正反向KL散度
DKL(pmodel∣∣pdata)D_{KL}(p_{model}||p_{data})DKL?(pmodel?∣∣pdata?):會憑空產生一些潛在的不希望的樣本。
DKL(pdata∣∣pmodel)D_{KL}(p_{data}||p_{model})DKL?(pdata?∣∣pmodel?):Pmodel集中在Pdata的單一模式,而忽略了其他模式,產生模式坍塌現象。
擁有兩個判別器,判別器和原始GANs模型中的判別器功能類似,用于鑒別一個樣本是真樣本的概率,而判別器2用于鑒別樣本是來自生成分布而不是真實分布,通過結合KL和反KL散度生成一個統一的目標函數,從而利用了兩種散度的互補統計特性,緩解了模式坍塌問題。
2.5 InfoGAN
https://zhuanlan.zhihu.com/p/55945164
https://blog.csdn.net/u011699990/article/details/71599067
InfoGAN:通過引入c來約束輸出,使得C的維度于輸出的語義特征相對應。為了使的x與c之間關聯密切,所以我們需要最大化互信息的值。據此對原始GAN模型的值函數做了一點修改,相當于加了一個互信息的正則化項。核心是如何實現互信息的計算(通過一個輔助分布)
簡單理解,生成的數據能夠依據條件改變的話,那么條件多了,生成的數據自然也就多了
2.6 Deligan
認為一般的GAN模型都需要大量的訓練數據,才能夠使生成器捕獲完整的數據模態。對于樣本數量有限的復雜數據集,DeliGAN借助變分推斷中的思想, 將輸入隱空間重參數成混合高斯,這些混合高斯分布是樣本高概率出現的隱空間,混合高斯分布的參數隨GANs的參數一同訓練。通過實驗證明了在受限數據集上生成器生成豐富多樣的數據,緩解模式坍塌問題。
主要針對點:受限數據集
2.7 EBGAN
http://www.mamicode.com/info-detail-2221093.html
EBGAN:將D視作一個能量函數,能量越小,輸入越真。AE中的重構誤差作為能量函數。
和解決多樣性沒有直接關系,最主要的還是訓練的穩定性
We show that this form of EBGAN exhibits more stable behavior than regular GANs during training.
2.8 Maximum Entropy Generators for Energy-Based Models
Rithesh Kumar–在基于能量的生成式模型中,最大化生成數據的熵,能夠提高數據的多樣性。從能量的角度來詮釋了GAN模型。通過非參數互信息最大化技術間接實現最大化生成數據的熵。(比較抽象難理解)
蘇劍林的博客:https://zhuanlan.zhihu.com/p/56545779
表示GAN不需要帶動量的優化方法:要的是最近的最小值,而不是更小的最小值。帶動量可能會損失多樣性。