在本文中,我們將總結穩定擴散 1 與穩定擴散 2 辯論中的所有要點。我們將在第一部分中查看這些差異存在的實際原因,但如果您想直接了解實際差異,您可以跳下否定提示部分。讓我們開始吧!
Stable Diffusion 2.1 發布與1.5相比,2.1旨在解決2.0的許多相對缺點。本文的內容與理解 Stable Diffusion 1 與 2 仍然相關,但讀者應確保額外閱讀附加的 Stable Diffusion 2.1 部分以了解全貌。
OpenCLIP
Stable Diffusion 2 所做的最重要的轉變是替換了文本編碼器。Stable Diffusion 1 使用 OpenAI 的 CLIP,這是一個開源模型,可以學習標題描述圖像的程度。雖然模型本身是開源的,但訓練 CLIP 的數據集很重要,它不是公開的。
Stable Diffusion 2 改用 OpenCLIP,這是 CLIP 的開源版本,它是使用已知數據集訓練的——LAION-5B 的一個美學子集,可以過濾掉 NSFW 圖像。Stability AI表示,OpenCLIP“大大提高了生成圖像的質量”,事實上,在指標上優于未發布的CLIP版本。
為什么這很重要
撇開這些模型的相對性能不談,從 CLIP 到 OpenCLIP 的轉變是 Stable Diffusion 1 和 Stable Diffusion 2 之間許多差異的根源。
特別是,許多 Stable Diffusion 2 的用戶聲稱它不能像 Stable Diffusion 1 那樣代表名人或藝術風格,盡管 Stable Diffusion 2 的訓練數據沒有被故意過濾以刪除藝術家。這種差異源于這樣一個事實,即CLIP的訓練數據比LAION數據集有更多的名人和藝術家。由于CLIP的數據集不向公眾開放,因此無法僅使用LAION數據集恢復相同的功能。換言之,Stable Diffusion 1 的許多規范提示方法對于 Stable Diffusion 2 來說幾乎已經過時了。
這意味著什么
這種向完全開源、開放數據模型的改變標志著 Stable Diffusion 故事的重要轉變。對 Stable Diffusion 2 進行微調并構建人們希望看到的功能將落在開源社區的肩上,但這實際上是 Stable Diffusion ab initio 的意圖——一個由社區驅動的、完全開放的項目。雖然一些用戶目前可能對 Stable Diffusion 2 的相對性能感到失望,但 StabilityAI 團隊已經花費了超過 100 萬 A100 小時來構建一個堅實的基礎。
此外,雖然創建者沒有明確提及,但這種從使用 CLIP 的轉變可能會為項目貢獻者提供一些保護,防止潛在的責任問題,考慮到即將到來的知識產權訴訟浪潮,這很重要。
考慮到這個背景,現在是時候討論 Stable Diffusion 1 和 2 之間的實際區別了。
Negative Prompts
我們首先檢查負面提示,與 SD 1 相比,它似乎對 Stable Diffusion(SD) 2 的強勁性能更重要,如下所示:
現在讓我們更詳細地看一下負面提示。
Simple Prompt
首先,我們將提示“無邊池”提供給 Stable Diffusion 1.5 和 Stable Diffusion 2,沒有負面提示。顯示了每個模型的三張圖像,其中每列對應于不同的隨機種子。
prompt: "infinity pool"
size: 512x512
guidance scale: 12
steps: 50
sampler: DDIM
正如我們所看到的,Stable Diffusion 1.5 總體上似乎比 Stable Diffusion 2 表現更好。在SD 2中,最左邊的圖像有一個貼片,與圖像不匹配,而最右邊的圖像幾乎是不連貫的。
現在,我們以相同的方式從相同的起始噪聲生成圖像,這次使用負提示。我們添加了否定提示“丑陋、平鋪、畫得不好的手、畫得不好的腳、畫得不好的臉、出框、突變、突變、額外的四肢、額外的腿、額外的手臂、毀容、變形、斗雞眼、身體出框、模糊、糟糕的藝術、糟糕的解剖學、模糊、文本、水印、顆粒狀”(ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, mutation, mutated, extra limbs, extra legs, extra arms, disfigured, deformed, cross-eye, body out of frame, blurry, bad art, bad anatomy, blurred, text, watermark, grainy),這是 Emad Mostaque 使用的否定提示。
添加否定提示后,SD 1.5 通常表現更好,盡管中間圖像的標題對齊方式可能較差。對于 SD 2,改進更為劇烈,盡管整體性能仍然不如 SD 1.5