VQGAN (Vector Quantized Generative Adversarial Network) 是一種基于 GAN 的生成模型,可以將圖像或文本轉換為高質量的圖像。
VQ (Vector Quantization)是一種數據壓縮技術,是指將連續數據表示為離散化的向量。輸入的圖像或文本被映射到 VQ 空間中的離散化向量表示,然后,離散化向量然后被送到 GAN 模型中進行圖像生成。(參見上圖的下半部分)在訓練過程中,VQGAN 模型會優化兩個損失函數:一個用于量化誤差(即離散化向量和連續值之間的誤差),另一個用于生成器和判別器之間的對抗損失。
GAN 是由生成器和判別器兩個模型組成的,生成器負責生成圖像,判別器負責判斷生成的圖像是否為真實的圖像。在訓練過程中,生成器和判別器相互博弈,不斷優化各自的參數,以使生成的圖像更接近真實圖像。
原文鏈接:https://blog.csdn.net/qq_42208244/article/details/132889927
VQGAN理論加代碼一對一詳解,小白向解析-CSDN博客