AIGC 006-textual-inversion使用文本反轉實現個性化文本到圖像生成!
文章目錄
- 0 論文工作
- 1 論文方法
- 2 效果
0 論文工作
這篇論文 (An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion) 提出了一種新穎的技術,名為 “文本反轉 (Textual Inversion)”,用于個性化文本到圖像生成模型。該技術允許用戶通過學習新的 “偽詞” 來將特定主題或風格 嵌入到預訓練模型中。 這些偽詞對應于模型潛空間中的一個向量,能夠捕捉主題或風格的關鍵特征。用戶只需要提供幾張目標圖像,就能教會模型理解這個新詞,并用它來生成個性化圖像。
文本到圖像的模型提供了前所未有的自由,通過自然語言來指導創造。然而,目前還不清楚如何行使這種自由來產生特定的獨特概念的圖像或者在新的角色和新的場景中創作它們。換句話說,我們如何使用語言引導的模型來把我們的貓變成一幅畫,或者想象一個基于我們的新產品最喜歡的玩具嗎?在這里,論文提出了一個簡單的方法,允許這樣的創作自由。如果只使用3-5張用戶提供的概念的圖像,比如對象或風格,我們就可以學習通過新的“word”來表示它在一個凍結的文本到圖像模型的嵌入空間中。這些“詞”可以被組成成自然語言的句子,以一種直觀的方式指導個性化的創造。
與contronet dreambooth等方法在定制化概念上有一樣的效果,但是這個早期的論文使用了不同的思路。
論文鏈接
github
1 論文方法
文本反轉的核心思想是將一個新的 “偽詞” 與一組特定主題的圖像關聯起來,并通過優化該偽詞對應的詞嵌入向量,使其能夠在文本到圖像生成過程中準確地表達該主題。他會優化詞向量空間直到找到一個準確的詞對應這個圖像。
a. 學習偽詞:
選擇目標圖像: 選擇 3-5 張清晰、高質量的圖像,這些圖像應該代表你想要嵌入到模型中的主題或風格。
創建偽詞: 選擇一個新的、模型從未見過的詞來代表這個主題,論文中使用 “S*” 作為示例,你可以選擇任何你喜歡的詞,例如 “MyStyle” 或 “MyDog”。
初始化詞嵌入: 模型會為這個偽詞隨機初始化一個詞嵌入向量,這個向量代表了模型對這個詞的理解,初始時是隨機的,沒有任何意義。
微調詞嵌入:
凍結模型參數: 為了避免破壞預訓練模型的生成能力,我們會凍結模型中除了偽詞嵌入之外的所有參數。
使用對比損失: 我們會使用一個對比損失函數來優化偽詞的詞嵌入。
正樣本: 將目標圖像與包含偽詞的文本提示 (例如 “一只 S* 狗”) 送入模型,鼓勵模型生成與目標圖像相似的圖像。
負樣本: 將其他隨機圖像與相同的文本提示送入模型,鼓勵模型生成與目標圖像不同的圖像。
迭代優化: 通過不斷迭代優化,偽詞的詞嵌入會逐漸學習到目標主題的特征,使得模型能夠理解這個偽詞并生成對應的圖像。
b. 圖像生成:
使用偽詞生成: 在文本提示中使用學習到的偽詞,例如 “一只 S* 狗”,來引導模型生成包含目標主題的圖像。
風格控制: 你可以通過調整偽詞在文本提示中的權重或將其與其他詞組合來控制生成圖像的風格。例如,“一只可愛的 S* 狗” 或 “一只 S* 風格的貓”。
2. 優勢:
高效性: 只需少量圖像即可將新概念嵌入到模型中,不需要從頭訓練模型。
易用性: 用戶只需提供目標圖像和一個偽詞,學習過程自動完成。
靈活性: 學習到的偽詞可以在不同的文本提示中重復使用,生成各種組合和變化。
可解釋性: 偽詞對應于模型潛空間中的一個特定向量,可以幫助理解模型如何表示概念。
3. 缺點:
表達能力: 單個偽詞可能難以完全捕捉復雜主題或風格的所有細微差別。
過度擬合: 使用過少的訓練圖像可能會導致過度擬合,限制了偽詞的泛化能力。
語義一致性: 生成的圖像可能并不總是與偽詞的預期語義完全一致,需要仔細選擇訓練圖像和調整生成參數。
4. 應用:
文本反轉技術在個性化圖像生成方面有廣泛的應用,包括:
個人肖像: 可以學習一個偽詞來代表特定人物,并生成各種姿勢、表情和背景下的肖像。
產品設計: 可以學習一個偽詞來代表特定產品或品牌,并生成各種設計變體。
藝術風格: 可以學習一個偽詞來代表特定藝術家的風格,并將其應用于不同的圖像主題。