- CVPR2024 SHI Labs
- https://arxiv.org/pdf/2305.16223
- https://github.com/SHI-Labs/Prompt-Free-Diffusion
- 問題引入
- 在SD模型的基礎之上,去掉text prompt,使用reference image作為生成圖片語義的指導,optional structure image作為生成圖片structure的指導來進行生成;
- 使用SeeCoder來提取參考圖片的embedding作為生成條件,且SeeCoder是可以重復使用的,可以直接集成到另外的T2I模型中;
- methods
- 使用SeeCoder代替CLIP text embedding;
- SeeCoder包含三個部分,Backbone Encoder, Decoder, and Query Transformer,其中Backbone Encoder使用SWIN-L提取多尺度特征,該部分參數是凍結的;之后decoder使用卷積來使得多尺度特征通道數相同,然后進行flatten+concat,得到的結果通過self attn + ffn;之后Query Transformer輸出視覺embedding;