系列文章目錄
- 【可控圖像生成系列論文(一)】 簡要介紹了 MimicBrush 的整體流程和方法;
- 【可控圖像生成系列論文(二)】 就MimicBrush 的具體模型結構、訓練數據和紋理遷移進行了更詳細的介紹。
- 【可控圖像生成系列論文(三)】介紹了一篇相對早期(2018年)的可控字體藝術化工作。
- 【可控圖像生成系列論文(四)】介紹了 IP-Adapter 具體是如何訓練的?
文章目錄
- 系列文章目錄
- 一、條件輸入
- 二、控制 vs 適應
一、條件輸入
-
在 ControlNet 中,由于通過殘差連接(紅框的部分)將輸入直接添加到 SD Decoder Block 中,以便在訓練深度神經網絡時防止梯度消失問題。
- 為了進行這種直接相加操作,條件輸入和基礎輸入(輸出)的維度必須相同。
- 如果條件輸入和基礎輸入的像素尺寸不同,則無法進行這種簡單的相加操作。
-
IP-Adapter 通常通過一種適配器模塊來實現,該模塊能夠動態調整生成模型的參數或特征,以適應不同的輸入條件。條件輸入則大小的限制。
-
下圖左邊是 IP-Adapter,條件輸入可以和基礎輸入、最終輸出的大小不一致。
-
下圖右邊是 ControlNet,條件輸入需要和最終輸出的大小保持 pixel-level 的一致。
二、控制 vs 適應
-
ControlNet 專注于在生成過程中提供明確的控制和引導。
- ControlNet 通過殘差連接將條件輸入與基礎輸入相結合,實現精細控制。
-
IP-Adapter 專注于增強生成模型對不同輸入條件的適應性和魯棒性。
- IP-Adapter 則通過插入適配器模塊來動態調整模型參數或特征,實現輸入條件的適應性。