本系列博文為深度學習/計算機視覺論文筆記，轉載請注明出處

標題：StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks

鏈接：[1612.03242] StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks (arxiv.org)

摘要

從文本描述合成高質量圖像是計算機視覺中的一個具有挑戰性的問題，具有許多實際應用。現有的文本到圖像方法生成的樣本大致能夠反映出給定描述的意思，但它們缺乏必要的細節和生動的物體部分。在本文中，我們提出了堆疊生成對抗網絡（StackGAN）來生成基于文本描述的 256×256 照片逼真圖像。我們通過一個素描精化過程將這個難題分解為更易管理的子問題。第一階段生成對抗網絡（Stage-I GAN）根據給定的文本描述勾勒出物體的原始形狀和顏色，生成第一階段的低分辨率圖像。第二階段生成對抗網絡（Stage-II GAN）以第一階段的結果和文本描述作為輸入，生成帶有照片逼真細節的高分辨率圖像。它能夠通過精化過程矯正第一階段結果中的缺陷，并添加引人注目的細節。為了提高合成圖像的多樣性并穩定條件生成對抗網絡的訓練，我們引入了一種新穎的條件增強技術，鼓勵在潛在條件空間中的平滑性。在基準數據集上進行的大量實驗和與最先進方法的比較表明，所提出的方法在基于文本描述生成照片逼真圖像方面取得了顯著的改進。

1. 引言

從文本生成逼真的圖像是一個重要的問題，具有廣泛的應用，包括照片編輯、計算機輔助設計等。近年來，生成對抗網絡（GAN）[8, 5, 23] 在合成真實世界圖像方面取得了有希望的結果。在給定文本描述的條件下，條件生成對抗網絡（conditional GANs）[26, 24] 能夠生成與文本意義高度相關的圖像。

然而，通過文本描述訓練GAN生成高分辨率逼真圖像是非常困難的。僅僅在最先進的GAN模型中添加更多的上采樣層用于生成高分辨率（例如 256×256）圖像通常會導致訓練不穩定并產生荒謬的輸出（見圖1?）。GAN生成高分辨率圖像的主要困難在于自然圖像分布的支持和隱含模型分布的支持在高維像素空間中可能不重疊[31, 1]。隨著圖像分辨率的增加，這個問題變得更加嚴重。Reed等人僅在給定文本描述的情況下成功生成了可信的 64×64 圖像[26]，但這些圖像通常缺乏細節和生動的物體部分，例如鳥類的嘴和眼睛。此外，他們無法在不提供額外物體注釋的情況下合成更高分辨率（例如 128×128）的圖像[24]。

圖1。比較所提出的 StackGAN 與普通的單階段 GAN 生成 256×256 圖像的效果。（a）在給定文本描述的情況下，StackGAN 的第一階段勾畫出對象的粗略形狀和基本顏色，生成低分辨率圖像。（b）StackGAN 的第二階段以第一階段的結果和文本描述作為輸入，生成帶有逼真細節的高分辨率圖像。（c）普通的 256×256 GAN 的結果，它僅僅在現有的 GAN-INT-CLS [26] 的基礎上添加了更多的上采樣層。它無法生成任何具有 256×256 分辨率的可信圖像。

類比于人類畫家的繪畫方式，我們使用堆疊生成對抗網絡（StackGAN）將文本到逼真圖像合成問題分解為兩個更易處理的子問題。首先，低分辨率圖像由第一階段生成對抗網絡（Stage-I GAN）生成（見圖1(a)）。在第一階段生成對抗網絡的基礎上，我們堆疊第二階段生成對抗網絡（Stage-II GAN），以生成基于第一階段結果和文本描述的逼真高分辨率（例如 256×256）圖像（見圖1(b)）。通過再次基于第一階段結果和文本描述進行條件化，第二階段生成對抗網絡學會捕捉第一階段生成對抗網絡遺漏的文本信息，并為物體繪制更多細節。從大致對齊的低分辨率圖像生成的模型分布支持更可能與圖像分布的支持交叉。這就是為什么第二階段生成對抗網絡能夠生成更好的高分辨率圖像的根本原因。

此外，在文本到圖像生成任務中，有限數量的訓練文本-圖像對往往導致文本條件空間中的稀疏性，這種稀疏性使得訓練GAN變得困難。因此，我們提出了一種新穎的條件增強技術，以鼓勵潛在條件空間的平滑性。它允許在條件空間中進行小的隨機擾動，并增加合成圖像的多樣性。

所提出方法的貢獻有三個方面：

我們提出了一種新穎的堆疊生成對抗網絡，用于從文本描述合成逼真的圖像。它將生成高分辨率圖像的困難問題分解為更易管理的子問題，并顯著改進了現有技術水平。StackGAN首次能夠從文本描述中生成具有逼真細節的 256×256 分辨率圖像。
提出了一種新的條件增強技術，用于穩定條件生成對抗網絡的訓練，同時也提高了生成樣本的多樣性。
大量的定性和定量實驗證明了整體模型設計的有效性，以及各個組件的效果，這為設計未來的條件生成對抗網絡模型提供了有用的信息。我們的代碼可在 https://github.com/hanzhanggit/StackGAN 上獲取。

2. 相關工作

生成圖像模型是計算機視覺中的一個基本問題。隨著深度學習技術的出現，這方向取得了顯著的進展。變分自編碼器（VAE）[13, 28] 使用概率圖模型來制定問題，其目標是最大化數據似然的下界。自回歸模型（例如，PixelRNN）[33] 利用神經網絡來建模像素空間的條件分布，也生成了吸引人的合成圖像。最近，生成對抗網絡（GAN）[8] 在生成更銳利的圖像方面表現出有希望的性能。但是，訓練不穩定性使得GAN模型難以生成高分辨率（例如 256×256）圖像。已經提出了幾種技術[23, 29, 18, 1, 3] 來穩定訓練過程并生成引人注目的結果。基于能量的GAN[38] 也被提出用于更穩定的訓練行為。

在這些生成模型的基礎上，還研究了條件圖像生成。大多數方法使用簡單的條件變量，如屬性或類標簽[37, 34, 4, 22]。還有以圖像為條件生成圖像的工作，包括照片編輯[2, 39]、域轉移[32, 12] 和超分辨率[31, 15]。然而，超分辨率方法[31, 15] 只能對低分辨率圖像添加有限的細節，無法像我們提出的StackGAN那樣糾正大的缺陷。近期，已經開發了幾種從非結構化文本生成圖像的方法。Mansimov等人[17] 構建了一個AlignDRAW模型，通過學習估計文本和生成畫布之間的對齊。Reed等人[27] 使用條件PixelCNN根據文本描述和物體位置約束生成圖像。Nguyen等人[20] 使用近似的Langevin采樣方法生成基于文本的圖像。然而，他們的采樣方法需要一個低效的迭代優化過程。通過條件GAN，Reed等人[26] 成功地基于文本描述為鳥類和花朵生成了可信的 64×64 圖像。他們的后續工作[24] 能夠通過利用物體部位位置的額外注釋生成 128×128 圖像。

除了使用單個GAN生成圖像外，還有一些工作[36, 5, 10] 使用一系列GAN來生成圖像。Wang等人[36] 使用提出的 $S^2-GAN$ ，將室內場景生成過程分解為結構生成和樣式生成。相反，我們的StackGAN的第二階段旨在基于文本描述完善物體細節并矯正第一階段結果的缺陷。Denton等人[5] 在拉普拉斯金字塔框架內構建了一系列GAN。在金字塔的每個層級中，基于前一階段的圖像條件生成了一個剩余圖像，然后將其添加回輸入圖像，生成下一階段的輸入。與我們的工作同時進行，Huang等人[10] 也展示了通過堆疊多個GAN來重構預訓練鑒別模型的多級表示，從而生成更好的圖像。然而，他們只成功地生成了 32×32 圖像，而我們的方法利用了更簡單的架構，生成了具有逼真細節的 256×256 圖像，像素數量增加了64倍。

3. 堆疊生成對抗網絡

為了生成具有逼真細節的高分辨率圖像，我們提出了一個簡單但有效的堆疊生成對抗網絡（Stacked GANs）。它將文本到圖像生成過程分解為兩個階段（見圖2）。

圖2。所提出的 StackGAN 的架構。第一階段生成器通過從給定的文本勾畫出對象的粗略形狀和基本顏色，并從隨機噪聲向量中繪制背景來生成低分辨率圖像。在第一階段的結果的條件下，第二階段生成器修復缺陷并將引人注目的細節添加到第一階段的結果中，從而生成更加逼真的高分辨率圖像。

第一階段生成對抗網絡（Stage-I GAN）：它根據給定的文本描述勾勒出物體的原始形狀和基本顏色，并從隨機噪聲向量中生成背景布局，生成低分辨率圖像。
第二階段生成對抗網絡（Stage-II GAN）：它糾正了第一階段低分辨率圖像中的缺陷，并通過再次讀取文本描述來完善物體的細節，生成高分辨率照片逼真的圖像。

3.1. 預備知識

生成對抗網絡（GAN）[8] 由兩個模型組成，它們交替訓練以相互競爭。生成器 G 優化以重現真實數據分布 pdata，通過生成對判別器 D 難以與真實圖像區分的圖像。與此同時，判別器 D 優化以區分真實圖像和生成器 G 生成的合成圖像。整體而言，訓練過程類似于一個兩人零和博弈，其目標函數如下：

$\min_G \max_D V(D, G) = \mathbb{E}_{x \sim p_{\text{data}}}[\log D(x)] + \mathbb{E}_{z \sim p_z}[\log(1 - D(G(z)))] \tag{1}$

其中 $x$ 是來自真實數據分布 $p_{data}$ 的真實圖像， $z$ 是從分布 $p_z$ （例如均勻分布或高斯分布）中采樣的噪聲向量。

條件生成對抗網絡（Conditional GAN）[7, 19] 是GAN的一個擴展，其中生成器和判別器都接收額外的條件變量 $c$ ，得到 $G (z, c)$ 和 $D (x, c)$ 。這種表述允許生成器 G 基于變量 $c$ 生成圖像。

3.2. 條件增強

如圖2所示，首先通過編碼器對文本描述 $t$ 進行編碼，得到文本嵌入 $\phi_t$ 。在以前的工作中[26, 24]，文本嵌入被非線性地轉化為生成器的輸入條件潛變量。然而，文本嵌入的潛在空間通常是高維的（> 100維）。在有限數量的數據情況下，它通常會導致潛在數據流形中的不連續性，這對于學習生成器是不可取的。為了緩解這個問題，我們引入了一種“條件增強”技術來生成額外的條件變量 $\hat{c}$ 。與[26, 24]中固定的條件文本變量 $c$ 不同，我們從獨立的高斯分布 $N(\mu(\phi_t), \Sigma(\phi_t))$ 隨機采樣潛在變量 $\hat{c}$ ，其中均值 $\mu(\phi_t)$ 和對角協方差矩陣 $\Sigma(\phi_t)$ 是文本嵌入 $\phi_t$ 的函數。所提出的條件增強在少量圖像-文本對的情況下產生更多的訓練對，從而鼓勵對條件流形上的小擾動具有穩健性。為了進一步強制在條件流形上實現平滑性并避免過擬合[6, 14]，我們在訓練過程中為生成器的目標函數添加了以下正則化項：

$D_{KL}(N(\mu(\phi_t), \Sigma(\phi_t)) || N(0, I)) \tag{2}$

其中 $D_{KL}$ 是標準高斯分布和條件高斯分布之間的Kullback-Leibler散度（KL散度）。條件增強引入的隨機性有助于模型文本到圖像的翻譯，因為同一句子通常對應于具有不同姿勢和外觀的物體。

3.3. 第一階段生成對抗網絡（Stage-I GAN）

與直接在文本描述的條件下生成高分辨率圖像不同，我們將任務簡化為首先使用我們的第一階段生成對抗網絡生成低分辨率圖像，該階段僅關注為物體繪制粗糙的形狀和正確的顏色。

設文本描述 $t$ 的文本嵌入為 $\phi_t$ ，在本文中由預訓練的編碼器[25]生成。用于文本嵌入的高斯條件變量 $\hat{c_0}$ 從 $N(\mu_0(\phi_t), \Sigma_0(\phi_t))$ 中采樣，以捕捉 $\phi_t$ 的含義及其變化。在給定 $\hat{c_0}$ 和隨機變量 $z$ 的條件下，通過交替地最大化 Eq. (3) 中的 $L D 0$ 和最小化 Eq. (4) 中的 $L G 0$ ，第一階段生成對抗網絡訓練判別器 $D 0$ 和生成器 $G 0$ ：

$L_{D_0} = \mathbb{E}_{(I_0,t) \sim p_{\text{data}}}[ \log D_0(I_0, \phi_t)] + \mathbb{E}_{(z,t) \sim p_z, p_{\text{data}}}[ \log(1 - D_0(G_0(z, \hat{c_0}), \phi_t))] \tag{3}$

$L_{G_0} = \mathbb{E}_{(z,t) \sim p_z, p_{\text{data}}}[ \log(1 - D_0(G_0(z, \hat{c_0}), \phi_t))] + \lambda D_{KL}(N(\mu_0(\phi_t), \Sigma_0(\phi_t))|| N(0, I)) \tag{4}$

其中真實圖像 $I 0$ 和文本描述 $t$ 來自真實數據分布 $p_{\text{data}}$ 。 $z$ 是從給定分布 $p_z$ （在本文中為高斯分布）中隨機采樣的噪聲向量。 $\lambda$ 是在 Eq. (4) 中平衡兩項的正則化參數。我們在所有實驗中都將 $\lambda$ 設置為 1。利用 [13] 中引入的重新參數化技巧， $\mu_0(\phi_t)$ 和 $\Sigma_0(\phi_t)$ 與網絡的其余部分一起聯合學習。

模型架構：對于生成器 $G 0$ ，為了獲得文本條件變量 $\hat{c_0}$ ，首先將文本嵌入 $\phi_t$ 輸入到一個全連接層中，以生成 Gaussian 分布 $N(\mu_0, \Sigma_0)$ 的 $\mu_0$ 和 $\Sigma_0$ （ $\Sigma_0$ 是 $\Sigma_0$ 對角線上的值）。然后，從高斯分布中采樣得到 $\hat{c_0}$ 。我們的 Ng 維條件向量 $\hat{c_0}$ 通過 $\hat{c_0} = \mu_0 + \Sigma_0 \odot \varepsilon$ 計算得出（其中 $\odot$ 是逐元素乘法， $\varepsilon \sim N(0, I)$ ）。然后，通過一系列上采樣塊生成一個 $W_0 × H_0$ 圖像，其中 $\hat{c_0}$ 與一個 $N_z$ 維噪聲向量連接在一起。

對于判別器 $D_0$ ，首先使用全連接層將文本嵌入 $\phi_t$ 壓縮為 Nd 維，然后進行空間復制，形成一個 $M_d × M_d × N_d$ 張量。與此同時，圖像通過一系列下采樣塊直到具有 $M_d × M_d$ 的空間尺寸。然后，圖像濾波器映射沿著通道維度與文本張量連接。所得到的張量進一步輸入到一個 $1 \times 1$ 卷積層中，以共同學習圖像和文本之間的特征。最后，使用一個節點的全連接層產生決策分數。

3.4. 第二階段生成對抗網絡（Stage-II GAN）

由第一階段生成對抗網絡生成的低分辨率圖像通常缺乏生動的物體部分，并可能包含形狀扭曲。一些文本中的細節在第一階段可能也被忽略了，而這些細節對于生成逼真的圖像至關重要。我們的第二階段生成對抗網絡基于第一階段的結果生成高分辨率圖像。它在低分辨率圖像的基礎上以及再次使用文本嵌入來糾正第一階段結果的缺陷。第二階段生成對抗網絡完善先前被忽略的文本信息，以生成更多逼真的細節。

在低分辨率結果 $\hat{c_0})$ 和高斯潛變量 $\hat{c}$ 的條件下，通過交替地最大化 Eq. (5) 中的 $L D$ 和最小化 Eq. (6) 中的 $L G$ ，第二階段生成對抗網絡訓練判別器 $D$ 和生成器 $G$ ：

$L_D = \mathbb{E}_{(I,t) \sim p_{\text{data}}}[ \log D(I, \phi_t)] + \mathbb{E}_{(s_0,t) \sim p_{G_0}, p_{\text{data}}}[ \log(1 - D(G(s_0, c?), \phi_t))] \tag{5}$

$L_G = \mathbb{E}_{(s_0,t) \sim p_{G0}, p_{\text{data}}}[ \log(1 - D(G(s_0, c?), \phi_t))] + \lambda D_{KL}(N(\mu(\phi_t), \Sigma(\phi_t))|| N(0, I)) \tag{6}$

與原始的 GAN 公式不同，假設隨機噪聲 $z$ 在這個階段沒有被使用，因為隨機性已經由 $s 0$ 保留。在此階段使用的高斯條件變量 $\hat{c}$ 與第一階段的 $\hat{c_0}$ 共享相同的預訓練文本編碼器，生成相同的文本嵌入 $\phi_t$ 。然而，第一階段和第二階段的條件增強使用不同的全連接層來生成不同的均值和標準差。通過這種方式，第二階段生成對抗網絡學習捕捉在文本嵌入中被第一階段忽略的有用信息。

模型架構：我們將第二階段生成器設計為一個帶有殘差塊[9]的編碼器-解碼器網絡。與前一階段類似，文本嵌入 $\phi_t$ 用于生成 $N_g$ 維文本條件向量 $\hat{c}$ ，將其進行空間復制，形成一個 $M_g×M_g×N_g$ 張量。與此同時，由第一階段生成對抗網絡生成的 $s_0$ 通過多個下采樣塊（即編碼器）傳遞，直到具有 $M_g × M_g$ 的空間尺寸。圖像特征與文本特征沿通道維度進行拼接。編碼的圖像特征與文本特征結合在一起，傳遞到多個殘差塊，這些塊旨在學習跨圖像和文本特征的多模態表示。最后，使用一系列上采樣層（即解碼器）來生成一個 $W \times H$ 的高分辨率圖像。這樣的生成器能夠在修正輸入圖像的缺陷的同時添加更多的細節，以生成逼真的高分辨率圖像。

對于判別器，其結構與第一階段判別器類似，只是在此階段由于圖像尺寸更大，額外的下采樣塊。為了明確地強制GAN學習圖像和條件文本之間更好的對齊，而不是使用傳統的判別器，我們對兩個階段都采用了 Reed 等人提出的匹配感知判別器[26]。在訓練過程中，判別器將真實圖像及其對應的文本描述作為正樣本對，而負樣本對則包括兩組。第一組是帶有不匹配文本嵌入的真實圖像，而第二組則是帶有對應文本嵌入的合成圖像。

3.5. 實現細節

上采樣塊由最近鄰上采樣和一個 $3 \times 3$ 步長 1 的卷積組成。在每個卷積之后都應用批歸一化 [11] 和 ReLU 激活函數，最后一個卷積之后沒有應用。殘差塊由 $3 \times 3$ 步長 1 的卷積、批歸一化和 ReLU 組成。在 $128 \times 128$ 的 StackGAN 模型中使用兩個殘差塊，而在 $256 \times 256$ 的模型中使用四個殘差塊。下采樣塊由 $4 \times 4$ 步長 2 的卷積、批歸一化和 LeakyReLU 組成，只有第一個下采樣塊沒有批歸一化。

默認情況下， $N_g = 128$ ， $N_z = 100$ ， $M_g = 16$ ， $M_d = 4$ ， $N_d = 128$ ， $W_0 = H_0 = 64$ ， $W = H = 256$ 。對于訓練，首先通過固定第二階段生成對抗網絡，迭代地訓練第一階段生成對抗網絡的 $D_0$ 和 $G_0$ ，共進行 600 個 epochs。然后通過固定第一階段生成對抗網絡，迭代地訓練第二階段生成對抗網絡的 $D$ 和 $G$ ，共進行另外 600 個 epochs。所有網絡都使用批量大小為 64 的 ADAM 求解器進行訓練，初始學習率為 0.0002。學習率每經過 100 個 epochs 衰減到其前一個值的一半。

4. 實驗

為了驗證我們的方法，我們進行了廣泛的定量和定性評估。我們將我們的方法與兩種最先進的文本到圖像合成方法 GAN-INT-CLS [26] 和 GAWWN [24] 進行比較。我們使用這兩種比較方法的作者發布的代碼生成了它們的結果。此外，我們設計了一些基線模型，以調查我們提出的 StackGAN 的整體設計和重要組件。首先，我們直接訓練 Stage-I GAN 生成 64×64 和 256×256 的圖像，以調查所提出的堆疊結構和條件增強是否有益。然后，我們修改了我們的 StackGAN 以生成 128×128 和 256×256 的圖像，以調查通過我們的方法生成更大圖像是否會導致更高的圖像質量。我們還調查了在 StackGAN 的兩個階段都輸入文本是否有用。

4.1. 數據集和評估指標

CUB [35] 包含 200 種鳥類，共 11,788 張圖像。由于該數據集中 80% 的鳥類的對象-圖像大小比小于 0.5 [35]，作為預處理步驟，我們裁剪了所有圖像，以確保鳥類的邊界框具有大于 0.75 的對象-圖像大小比。Oxford-102 [21] 包含 8,189 張來自 102 種不同類別的花朵圖像。為了展示我們方法的泛化能力，我們還使用了更具挑戰性的 MS COCO 數據集 [16] 進行評估。與 CUB 和 Oxford-102 不同，MS COCO 數據集包含具有多個對象和各種背景的圖像。它有一個包含 80,000 張圖像的訓練集和包含 40,000 張圖像的驗證集。COCO 數據集中的每個圖像都有 5 個描述，而 CUB 和 Oxford-102 數據集中的每個圖像都有 10 個描述。根據 [26] 中的實驗設置，我們直接使用了 COCO 數據集的訓練集和驗證集，同時將 CUB 和 Oxford-102 數據集拆分成類不相交的訓練和測試集。

評估指標。評估生成模型（例如 GAN）的性能是困難的。我們選擇了最近提出的數值評估方法 “Inception Score” [29] 進行定量評估。
$\exp\left(\mathbb{E}_x D_{\text{KL}}\left(p(y|x) || p(y)\right)\right)$

其中， $x$ 表示一個生成的樣本， $y$ 是 Inception 模型 [30] 預測的標簽。這個指標背后的思想是，良好的模型應該生成多樣但有意義的圖像。因此，邊際分布 $p (y)$ 與條件分布 $p (y ∣ x)$ 之間的 KL 散度應該很大。在我們的實驗中，我們直接使用預訓練的 Inception 模型來評估 COCO 數據集。對于細粒度數據集 CUB 和 Oxford-102，我們為每個數據集微調了一個 Inception 模型。正如 [29] 中所建議的，我們對每個模型評估這個指標，使用大量樣本（例如，隨機選擇的 30,000 個樣本）。

盡管 Inception Score 已經顯示與人類對樣本視覺質量的感知有很好的相關性 [29]，但它無法反映生成的圖像是否在給定的文本描述條件下良好。因此，我們還進行了人類評估。我們從 CUB 和 Oxford-102 的每個類別的測試集中隨機選擇了 50 個文本描述。對于 COCO 數據集，我們從其驗證集中隨機選擇了 4,000 個文本描述。對于每個句子，我們由 10 名用戶（不包括任何作者）來排名不同方法的結果。計算人類用戶的平均排名來評估所有比較方法。

4.2. 定量和定性結果

我們將我們的 StackGAN 與 CUB、Oxford-102 和 COCO 數據集上的最先進文本到圖像方法 [24, 26] 進行了比較。我們提供的 StackGAN 和比較方法的 Inception Score 和人類平均排名在表1 中報告。在圖3 和圖4 中比較了一些代表性的示例。

表1。我們的 StackGAN、GAWWN [24] 和 GAN-INT-CLS [26] 在 CUB、Oxford-102 和 MS-COCO 數據集上的 Inception 分數和平均人類排名。

圖3。使用 CUB 測試集中的文本描述為條件，我們的 StackGAN、GAWWN [24] 和 GAN-INT-CLS [26] 生成的示例結果。

圖4。使用 Oxford-102 測試集（最左邊的四列）和 COCO 驗證集（最右邊的四列）的文本描述作為條件，我們的 StackGAN 和 GAN-INT-CLS [26] 生成的示例結果。

我們的 StackGAN 在所有三個數據集上都獲得了最佳的 Inception Score 和平均人類排名。與 GAN-INT-CLS [26] 相比，在 CUB 數據集上，StackGAN 的 Inception Score 提高了 28.47%（從 2.88 提高到 3.70），在 Oxford-102 上提高了 20.30%（從 2.66 提高到 3.20）。我們的 StackGAN 的更好的平均人類排名也表明，我們提出的方法能夠生成更真實的、基于文本描述的樣本。

正如圖3 所示，GAN-INT-CLS [26] 生成的 64×64 樣本只能反映鳥類的一般形狀和顏色。它們的結果在大多數情況下缺乏生動的部分（例如嘴巴和腿部）和令人信服的細節，使它們既不足夠逼真也沒有足夠高的分辨率。通過在位置約束上使用額外的條件變量，GAWWN [24] 在 CUB 數據集上獲得了更好的 Inception Score，但

仍略低于我們的方法。它生成的高分辨率圖像比 GAN-INT-CLS 更具細節，如圖3 所示。然而，正如其作者所提到的，當只基于文本描述條件時，GAWWN 無法生成任何合理的圖像 [24]。相比之下，我們的 StackGAN 可以僅從文本描述生成 256×256 的照片逼真圖像。

圖5 展示了我們的 StackGAN 生成的 Stage-I 和 Stage-II 圖像的一些示例。正如圖5 的第一行所示，在大多數情況下，Stage-I GAN 能夠在給定文本描述的情況下繪制對象的大致形狀和顏色。然而，Stage-I 圖像通常是模糊的，有各種缺陷和缺失的細節，特別是前景對象。如第二行所示，Stage-II GAN 生成 4 倍分辨率的圖像，其中包含更有說服力的細節，更好地反映了相應的文本描述。對于 Stage-I GAN 已經生成合理形狀和顏色的情況，Stage-II GAN 完成了細節。例如，在圖5 的第一列中，對于一個令人滿意的 Stage-I 結果，Stage-II GAN 專注于繪制短嘴和文本中描述的白色顏色，以及尾巴和腿部的細節。在所有其他示例中，Stage-II 圖像都添加了不同程度的細節。在許多其他情況下，Stage-II GAN 能夠通過再次處理文本描述來糾正 Stage-I 結果的缺陷。例如，在第 5 列的 Stage-I 圖像中，其冠是藍色的，而不是文本中描述的紅棕色冠。這個缺陷被 Stage-II GAN 糾正了。在一些極端情況下（例如圖5 的第 7 列），即使 Stage-I GAN 無法繪制出合理的形狀，Stage-II GAN 也能夠生成合理的對象。我們還觀察到 StackGAN 有能力從 Stage-I 圖像中轉移背景，并在 Stage-II 中將其微調以獲得更高分辨率和更真實的圖像。

圖5。使用 CUB 測試集中的未見文本生成的樣本，每列列出了文本描述，以及由 StackGAN 的 Stage-I 和 Stage-II 生成的圖像。

重要的是，StackGAN 并不是通過簡單地記住訓練樣本來實現好的結果，而是通過捕捉復雜的底層語言-圖像關系。我們從我們生成的圖像和所有訓練圖像中提取視覺特征，然后使用我們的 StackGAN 的 Stage-II 判別器 D。對于每個生成的圖像，可以檢索出與訓練集中的最近鄰。通過檢查檢索出的圖像（見圖6），我們可以得出結論，生成的圖像具有一些與訓練樣本類似的特征，但實質上是不同的。

圖6。對于生成的圖像（第一列），通過利用 Stage-II 判別器 D 提取視覺特征來檢索其最近的訓練圖像（第2-6列）。使用特征之間的 L2 距離進行最近鄰檢索。

4.3. 組件分析

在這個小節中，我們使用我們的基線模型在 CUB 數據集上分析了 StackGAN 的不同組件。這些基線模型的 Inception Score 在表2 中報告。

表2。使用不同的基線模型生成的30,000個樣本計算的我們的 StackGAN 的 Inception 分數。

**StackGAN 的設計。**如表2 的前四行所示，如果直接使用 Stage-I GAN 生成圖像，Inception Score 明顯下降。這種性能下降可以通過圖7 中的結果很好地說明。正如圖7 的第一行所示，如果不使用條件增強（CA），Stage-I GAN 無法生成任何合理的 256×256 樣本。盡管帶有 CA 的 Stage-I GAN 能夠生成更多樣的 256×256 樣本，但這些樣本不如由 StackGAN 生成的樣本逼真。這證明了所提出的堆疊結構的必要性。此外，通過將輸出分辨率從 256×256 減小到 128×128，Inception Score 從 3.70 下降到 3.35。請注意，在計算 Inception Score 之前，所有圖像都縮放到 299 × 299。因此，如果我們的 StackGAN 只是增加圖像尺寸而沒有添加更多信息，不同分辨率的樣本的 Inception Score 將保持相同。因此，128×128 StackGAN 的 Inception Score 下降表明，我們的 256×256 StackGAN 確實在更大的圖像中添加了更多細節。對于 256×256 StackGAN，如果僅在 Stage-I 階段輸入文本（標記為 “no Text twice”），則 Inception Score 從 3.70 下降到 3.45。這表明在 Stage-II 階段再次處理文本描述有助于改進 Stage-I 結果。從 128×128 StackGAN 模型的結果中也可以得出相同的結論。

**條件增強。**我們還調查了所提出的條件增強（CA）的有效性。通過從 StackGAN 256×256 中刪除它（在表2 中標記為 “no CA”），Inception Score 從 3.70 下降到 3.31。圖7 也顯示了具有 CA 的 256×256 Stage-I GAN（和 StackGAN）可以根據相同的文本描述生成具有不同姿勢和視角的鳥類圖像。相比之下，沒有使用 CA，在沒有穩定訓練動態的情況下，256×256 Stage-I GAN 生成的樣本會坍縮成無意義的圖像。因此，所提出的條件增強有助于穩定條件 GAN 訓練，并提高了生成樣本的多樣性，因為它能夠鼓勵對潛在流形上的小擾動具有魯棒性。

圖7。條件增強（CA）有助于穩定條件 GAN 的訓練，并提高了生成樣本的多樣性。（第一行）沒有使用 CA，Stage-I GAN 無法生成可信的 256×256 樣本。盡管每列使用不同的噪聲向量 z，但生成的樣本對于每個輸入的文本描述來說都是相同的。（第2-3行）使用了 CA 但固定噪聲向量 z，方法仍然能夠生成具有不同姿勢和視角的鳥類圖像。

**句子嵌入插值。**為了進一步證明我們的 StackGAN 學習了一個平滑的潛在數據流形，我們使用它從線性插值的句子嵌入中生成圖像，如圖8 所示。我們固定噪聲向量 z，因此生成的圖像僅根據給定的文本描述推斷。第一行的圖像是由我們自己構造的簡單句子生成的。這些句子僅包含簡單的顏色描述。結果顯示，從插入的嵌入中生成的圖像可以準確地反映顏色變化并生成合理的鳥類形狀。第二行展示了從更復雜的句子生成的樣本，這些句子包含有關鳥類外觀的更多細節。生成的圖像將主要顏色從紅色變為藍色，并將翅膀顏色從黑色變為褐色。

圖8。從左到右：通過插值兩個句子嵌入而生成的圖像。可以觀察到從第一個句子的含義到第二個句子的含義的逐漸變化。每行的噪聲向量 z 被固定為零。

5 結論

本文提出了具有條件增強的堆疊生成對抗網絡（StackGAN），用于合成逼真的圖像。所提出的方法將文本到圖像的合成分解為一種新穎的草圖細化過程。第一階段 GAN 根據給定的文本描述從基本顏色和形狀約束中勾勒出對象的草圖。第二階段 GAN 修正了第一階段結果中的缺陷，并添加了更多細節，生成了更高分辨率、更具圖像質量的圖像。廣泛的定量和定性結果表明了我們提出的方法的有效性。與現有的文本到圖像生成模型相比，我們的方法生成更高分辨率（例如 256×256）的圖像，具有更多逼真的細節和多樣性。

References

Arjovsky, M., & Bottou, L. (2017). Towards principled methods for training generative adversarial networks. In ICLR.
Brock, A., Lim, T., Ritchie, J. M., & Weston, N. (2017). Neural photo editing with introspective adversarial networks. In ICLR.
Che, T., Li, Y., Jacob, A. P., Bengio, Y., & Li, W. (2017). Mode regularized generative adversarial networks. In ICLR.
Chen, X., Duan, Y., Houthooft, R., Schulman, J., Sutskever, I., & Abbeel, P. (2016). Infogan: Interpretable representation learning by information maximizing generative adversarial nets. In NIPS.
Denton, E. L., Chintala, S., Szlam, A., & Fergus, R. (2015). Deep generative image models using a Laplacian pyramid of adversarial networks. In NIPS.
Doersch, C. (2016). Tutorial on variational autoencoders. arXiv preprint arXiv:1606.05908.
Gauthier, J. (2015). Conditional generative adversarial networks for convolutional face generation. Technical report.
Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., … & Bengio, Y. (2014). Generative adversarial nets. In NIPS.
He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In CVPR.
Huang, X., Li, Y., Poursaeed, O., Hopcroft, J., & Belongie, S. (2017). Stacked generative adversarial networks. In CVPR.
Ioffe, S., & Szegedy, C. (2015). Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML.
Isola, P., Zhu, J. Y., Zhou, T., & Efros, A. A. (2017). Image-to-image translation with conditional adversarial networks. In CVPR.
Kingma, D. P., & Welling, M. (2014). Auto-encoding variational Bayes. In ICLR.
Larsen, A. B. L., S?nderby, S. K., Larochelle, H., & Winther, O. (2016). Autoencoding beyond pixels using a learned similarity metric. In ICML.
Ledig, C., Theis, L., Huszar, F., Caballero, J., Aitken, A., Tejani, A., … & Shi, W. (2017). Photo-realistic single image super-resolution using a generative adversarial network. In CVPR.
Lin, T. Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., … & Zitnick, C. L. (2014). Microsoft coco: Common objects in context. In ECCV.
Mansimov, E., Parisotto, E., Ba, L. J., & Salakhutdinov, R. (2016). Generating images from captions with attention. In ICLR.
Metz, L., Poole, B., Pfau, D., & Sohl-Dickstein, J. (2017). Unrolled generative adversarial networks. In ICLR.
Mirza, M., & Osindero, S. (2014). Conditional generative adversarial nets. arXiv preprint arXiv:1411.1784.
Nguyen, A., Yosinski, J., Bengio, Y., Dosovitskiy, A., & Clune, J. (2017). Plug & play generative networks: Conditional iterative generation of images in latent space. In CVPR.
Nilsback, M. E., & Zisserman, A. (2008). Automated flower classification over a large number of classes. In ICCVGIP.
Odena, A., Olah, C., & Shlens, J. (2017). Conditional image synthesis with auxiliary classifier GANs. In ICML.
Radford, A., Metz, L., & Chintala, S. (2016). Unsupervised representation learning with deep convolutional generative adversarial networks. In ICLR.
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., & Lee, H. (2016). Learning what and where to draw. In NIPS.
Reed, S., Akata, Z., Schiele, B., & Lee, H. (2016). Learning deep representations of fine-grained visual descriptions. In CVPR.
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., & Lee, H. (2016). Generative adversarial text-to-image synthesis. In ICML.
Reed, S., van den Oord, A., Kalchbrenner, N., Bapst, V., Botvinick, M., & de Freitas, N. (2016). Generating interpretable images with controllable structure. Technical report.
Rezende, D. J., Mohamed, S., & Wierstra, D. (2014). Stochastic backpropagation and approximate inference in deep generative models. In ICML.
Salimans, T., Goodfellow, I. J., Zaremba, W., Cheung, V., Radford, A., & Chen, X. (2016). Improved techniques for training GANs. In NIPS.
Szegedy, C., Vanhoucke, V., Ioffe, S., Shlens, J., & Wojna, Z. (2016). Rethinking the inception architecture for computer vision. In CVPR.
S?nderby, C. K., Caballero, J., Theis, L., Shi, W., & Huszar, F. (2017). Amortised map inference for image super-resolution. In ICLR.
Taigman, Y., Polyak, A., & Wolf, L. (2017). Unsupervised cross-domain image generation. In ICLR.
van den Oord, A., Kalchbrenner, N., & Kavukcuoglu, K. (2016). Pixel recurrent neural networks. In ICML.
van den Oord, A., Kalchbrenner, N., Vinyals, O., Espeholt, L., Graves, A., & Kavukcuoglu, K. (2016). Conditional image generation with PixelCNN decoders. In NIPS.
Wah, C., Branson, S., Welinder, P., Perona, P., & Belongie, S. (2011). The Caltech-UCSD Birds-200-2011 Dataset. Technical Report CNS-TR-2011-001.
Wang, X., & Gupta, A. (2016). Generative image modeling using style and structure adversarial networks. In ECCV.
Yan, X., Yang, J., Sohn, K., & Lee, H. (2016). Attribute2image: Conditional image generation from visual attributes. In ECCV.
Zhao, J., Mathieu, M., & LeCun, Y. (2017). Energy-based generative adversarial network. In ICLR.
Yan, X., Yang, J., Sohn, K., & Lee, H. (2016). Attribute2image: Conditional image generation from visual attributes. In ECCV.
Zhao, J., Mathieu, M., & LeCun, Y. (2017). Energy-based generative adversarial network. In ICLR.
Zhu, J., Kr¨ahenb¨uhl, P., Shechtman, E., & Efros, A. A. (2016). Generative visual manipulation on the natural image manifold. In ECCV.