【本文為我在去年完成的綜述,因某些原因未能及時投稿,但本文仍能為想要全面了解文本到圖像的生成和編輯的學習者提供可靠的參考。目前本文已投稿 ACM Computing Surveys。
完整內容可在如下鏈接獲取,或在 Q 群群文件獲取。 中文版為論文初稿,英文版有適量改動。
鏈接: https://pan.baidu.com/s/19FSRXH4TxlqgE3rgjuXDDg?pwd=y3gj 提取碼: y3gj
論文地址:https://arxiv.org/abs/2505.02527
進 Q 學術交流群:922230617 或加 CV_EDPJ 進 W 交流群
】?
Text to Image Generation and Editing: A Survey
目錄
0. 摘要
1. 簡介
1.1 綜述對比(表)
1.2 本文框架 (圖)
1.3 文本到圖像生成 (圖)
1.4 文本到圖像編輯?(圖)
1.5 模型對比?(表)
1.6 性能對比(表)?
0. 摘要
文本到圖像生成(T2I)指的是模型在文本提示的引導下,生成符合文本描述的高質量圖像。在過去的幾年,T2I 引起了人們的廣泛關注,涌現了無數的作品。在本綜述中,我們綜合性的回顧了從 2021 到 2024 進行的 141 項研究。
- 首先,我們介紹了 T2I 的四個基礎模型架構(Autoregression,Non-autoregression,GAN 和Diffusion)以及常用的關鍵技術(Autoencoder,Attention 和無分類器引導 )。
- 其次,我們就 T2I 生成和 T2I 編輯兩個方向系統地對比了這些研究的方法,包括它們使用的編碼器以及關鍵技術。
- 此外,我們還并排對比了這些研究的性能,從數據集,評估指標、訓練資源以及推斷速度等方面。
- 除了四個基礎模型,我們還調查了T2I的其他研究,例如基于能量的模型以及近期的 Mamba 和多模態。我們還調查了 T2I 可能的社會影響并給出了相應的解決措施。
- 最后,我們提出了提高T2I模型能力以及未來可能發展方向的獨特見解。
總之,我們的綜述是第一篇系統且全面的T2I的綜合性概述,旨在為未來的研究人員提供了一個有價值的指南,并激勵這一領域的持續進步。?
1. 簡介
隨著生成式模型的發展,文本到圖像生成(T2I)也得到了極大的發展,涌現了無數的工作。我們的綜述為研究人員提供了一個整體的視角,包括對社區已有的重要工作的對比以及一些新興的研究方向,以此來幫助研究人員了解T2I領域的發展。
本綜述所調查的 T2I 論文的選取標準為:
- 我們調查 2021~2024 年的論文;
- 我們調查社區中高度關注的T2I論文及其后續工作,例如:LDM,Imagen,DALL-E,Cogview以及 Pixart 等;
- 我們調查來自會議的頂級論文中的T2I論文;
- 我們調查根據前面的標準選取的文章中引用的(進行了對比或在相關工作中提到)T2I論文;
- 在起草本綜述時,我們關注 arXiv 中最新的令人感興趣的 T2 I論文,其中部分文章在完成本文時已被會議收錄。詳見表 2。
之前的 T2I 綜述,通常只涉及單個基礎模型的調查;如 GAN 或者 Diffusion。雖然也有一些綜述也調查了多個基礎模型,但與我們的綜述相比,不夠全面:
- 它們調查的文獻數量太少,
- 它們未調查近期的一些研究,例如Mamba,
- 它們的對比不夠充分,我們的調查使用的并排對比(見表2和表3)使不同模型的差異一目了然,
- 相比于這些綜述,我們的綜述對社會影響及解決辦法做出了詳盡的調查,
- 立足于已有文獻,我們的綜述指出了更多的未來研究方向。詳細對比見表 1。