1 基本框架
- ?①:文字變成向量
- ?②:喂入噪聲+文字encoder,產生中間產物
- ?③:decoder 還原圖片
2? text encoder
?這張圖越往右下表示效果越好,可以看到text encoder尺寸越大,對后續生成圖片的增益越多
3 評價圖片生成好壞的標準
3.1 FID
- ?現有一個訓練好的CNN 模型,可以生成真實影像和生成圖像的representation
- 這兩組表征的分布越近,效果越好
- ——>我們sample 一堆圖片,然后生成一組同語義的圖片,計算他們分布的distance
3.2? CLIP
- ?如果圖片和文字是成對的,那么他們的representation越近表示生成的圖片效果越好
4 decoder
?
- 訓練一個auoto encoder
- 訓練完把decoder拿出來用即可
5 噪聲加的位置
- 之前defusion model 中,noise是加在圖片上
- 但現在產生的東西已經不是圖片了
- ——>noise 加在中間產物上
大體上和diffusion model 類似,這里就是最后多接一個decoder,將中間產物變成圖片
?