cgan,stackgan,lapgan,cyclegan,pix2pixgan

1.Conditional GAN
- 1.1簡介
- 1.2網絡結構與訓練
- 1.3特點與用途
2.Stack GAN
- 2.1簡介
- 2.2網絡結構與訓練
- 2.3特點與用途
3.Lap GAN
- 3.1簡介
- 3.2網絡結構與訓練
- 3.3特點與用途
4.Pix2pix GAN
- 4.1 簡介
- 4.2 網絡結構和訓練
- 4.3 特點和用途
5.Patch GAN
6.Cycle GAN
- 6.1簡介
- 6.2網絡結構與訓練
- 6.3特點與用途
7.思考與待定

題記–如何生成高質量圖像，gan相關模型調研

1.基于散度距離的改進方案：f GAN, LSGAN, WGAN, WGAN-GP, SNGAN

2.基于網絡結構的改進方案：DCGAN， ImprovedDCGAN, SAGAN, BigGAN

3.由應用引發的改進方案：Conditional GAN, TripleGAN, StackGAN, LapGAN,PGGAN, SRGAN, CycleGAN,StarGAN

4.GAN在特征提取上的應用：InfoGAN，VAEGAN，BigGAN

1.Conditional GAN

Generative Adversarial Text to Image Synthesis [ICML 2016,http://arxiv.org/abs/1605.05396]

1.1簡介

論文：

條件GAN–生成的數據不僅要求逼真，還要求滿足一定的條件約束

文字約束–一只在奔跑的小狗；

圖像約束–生成圖像的框架輪廓約束，生成器就好像在輪廓的基礎上填充了顏色，繪制細節；

1.2網絡結構與訓練

生成網絡增加了條件輸入；
判別網絡用于判別生成的圖像與條件是否匹配，因此其需要三種類型的匹配對（生成圖像，匹配條件）（真實圖像，匹配條件）（真實圖像，不匹配條件）；
在這里插入圖片描述

訓練流程

1.3特點與用途

1.能生成符合條件的圖像，但是現有數據集合成pair出現的很少；TripleGAN是基于 CGAN 的改進，主要用于解決配對數據少的問題，會訓練一個圖像標注模型。

2.不能生成大分辨率的高清圖，圖像細節缺失；StackGAN 也是基于 CGAN 的改進，它主要想C-GAN無法生成高清圖的問題。

3.有一個觀點：CGAN可以避免所有的隨機噪聲很產生相同的樣本（模式坍塌問題），不同的條件，可以產生不同的圖。

**思考：**條件要是文字形式的，會涉及到NLP，文字的表示方式；條件如果是圖像，就是img2img的問題，類似于上色，填充簡單細節。

參考博文：https://blog.csdn.net/taoyafan/article/details/81229466

2.Stack GAN

2.1簡介

StackGAN 希望輸入一個描述語 c，能夠產生一張 256256 的清晰大圖。通過兩個階段堆疊來實現這個過程。
第一個階段輸入（c,z）產生一個 6464 的小圖x，
第二個節點輸入（c,x）產生一個256*256的大圖X

2.2網絡結構與訓練

在這里插入圖片描述
由結構圖可見，對于獲得的 text_embedding，stackGAN 沒有直接將 embedding 作為
condition，而是用 embedding 接了一個 FC 層得到了一個正態分布的均值和方差，然后從
這個正態分布中采樣出來要用的 condition。這樣做實際是做了一個降維處理，避免原始embeding高維稀疏，導致模型過擬合。（為了避免過擬合在生成器的loss上增加了一個正太分布的正則項）

兩個階段的損失函數為：
在這里插入圖片描述

2.3特點與用途

1.Conditioning Augmentation（CA）條件增強技術

2.StackGAN 不能處理比較復雜的文本，李飛飛小組提出方法能處理更長更復雜的文本，并且有不錯的生成效果，論文地址：https://arxiv.org/abs/1804.01622。

思考：
1.要有同一張圖像的6464，256256大小的真圖。
2.感覺就像是兩個Conditional GAN 簡單的堆疊在一起，多增加了一個CA技術；
3.不要condition,直接級連的效果是不是等價于生成網絡層數加深？設計合適的級連結構，應該能夠生成合適大小的圖像才對呀？嘗試級連生成大分辨率的工作，在相關工作中應愛會介紹

參考博文：https://blog.csdn.net/a312863063/article/details/83574422

3.Lap GAN

3.1簡介

生成高分辨率圖像GAN模型的典型代表，利用拉普拉斯金字塔，由低分辨率生成高分辨圖像。金字塔的每一層都是一個C-GAN，其中下一級圖像的上采樣圖作為G的條件，生成本級真實圖像與上采樣圖像的殘差。

3.2網絡結構與訓練

采樣流程圖，自右向左分析
在這里插入圖片描述
訓練流程，自右向左分析

3.3特點與用途

1.能生成較高分辨率的圖像，但是更高分辨率的圖像可能使用PGGAN，或者超分辨率GAN效果會更好一些。

2.實際都是C-GAN 的堆疊，只是G的條件是上采樣的圖，生成真圖和上采樣的殘差。

參考博文：https://zhuanlan.zhihu.com/p/94153155

4.Pix2pix GAN

4.1 簡介

從風格遷移說起：在深度學習興起后，16年有篇cvpr文章使用深度卷積網絡做風格遷移。隨著GAN網絡研究熱潮，人們開始研究使用gan 網絡做風格遷移。以下五個是比較典型風格遷移的工作。
pix2pix GAN (1611)，CycleGAN (1703)，DiscoGAN (1703)，PAN（ Perceptual Adversarial Networks）感知GAN (1706)，StarGAN (1711)

pix2pix GAN 和 cycle GAN是同以作者，兩篇遞進式的工作。

pix2pix GAN工作出自Image-to-Image Translation with Conditional Adversarial Networks，實質還是用CGAN來做圖像轉換工作。