Stable Diffusion教程|快速入門SD繪畫原理與安裝

什么是Stable Diffusion，什么是煉丹師？根據市場研究機構預測，到2025年全球AI繪畫市場規模將達到100億美元，其中Stable Diffusion（簡稱SD）作為一種先進的圖像生成技術之一，市場份額也在不斷增長，越來越多的人參與到AI掘金這場運動中來。煉丹師，就是指那些專門研究、開發與應用Stable Diffusion模型的專業人士或愛好者，他們在實踐中不斷優化模型，使其產生更高質量、更具創意的圖像。

_1 SD繪畫原理
_

2 本地部署安裝SD WebUI

3 生成第一張SD繪畫

**一、**SD繪畫原理

基本概念

名詞	解釋說明?
Stable?Diffusion	是一種基于擴散模型的先進的人工智能技術，特別適用于文本到圖像（Text-to-Image）的生成任務。該模型由CompVis、Stability AI、LAION等研究機構和公司合作研發，它利用擴散過程在潛在空間（latent space）中生成圖像，而不是直接在高維像素空間中操作。
SD?WebUI	Stable Diffusion Web UI (SD WebUI)?是一個用于交互式控制和使用 Stable Diffusion 模型的網頁應用程序界面。用戶可以通過這個界面輸入文本提示（prompt）來驅動模型生成相應的圖像，提供了簡單易用的方式來體驗和定制基于 Stable Diffusion 的文本到圖像生成過程。
Python	是一種廣泛使用的高級編程語言，以其語法簡潔清晰和代碼可讀性強而著稱。在AI領域，Python尤為流行，因為它擁有豐富的科學計算、機器學習和數據處理相關的庫，比如NumPy、Pandas和TensorFlow等。在部署和使用像Stable Diffusion這樣的深度學習模型時，Python常被作為開發和運行環境的基礎。
Controlnet插件	是針對 Stable Diffusion 模型開發的一種功能擴展插件，它允許用戶在文本生成圖像的過程中實現更為細致和精確的控制。該插件使得用戶不僅能夠通過文本提示（prompt）指導模型生成圖像，還能添加額外的輸入條件，比如控制圖像的構圖、顏色、紋理、物體位置、人物姿勢、景深、線條草圖、圖像分割等多種圖像特征。通過這種方式，ControlNet 提升了 AI 繪畫系統的可控性和靈活性，使得藝術創作和圖像編輯更加精細化。
Controlnet模型	是配合上述插件工作的一個組成部分，它是經過訓練以實現對大型預訓練擴散模型（如 Stable Diffusion）進行細粒度控制的附加神經網絡模型。ControlNet 模型可以學習如何根據用戶的特定需求去調整原始擴散模型的輸出，即便是在訓練數據有限的情況下，依然能夠確保生成結果的質量和穩定性。例如，ControlNet 可能包括用于識別和利用邊緣映射、分割映射或關鍵點信息的子模塊，從而實現對生成圖像的特定區域進行針對性修改或強化。
VAE	Variational Autoencoder (VAE): 變分自編碼器是一種概率生成模型，它結合了編碼器（將輸入數據編碼為潛在空間中的概率分布）和解碼器（從潛在空間重構數據）的概念。在圖像生成場景中，VAE可以用來學習數據的潛在表示，并基于這些表示生成新的圖像。
CHECKPOINT	SD能夠繪圖的基礎模型，因此被稱為大模型、底模型或者主模型，WebUI上就叫它Stable Diffusion模型。安裝完SD軟件后，必須搭配主模型才能使用。不同的主模型，其畫風和擅長的領域會有側重。checkpoint模型包含生成圖像所需的一切，不需要額外的文件。
hyper-network	超網絡是一種模型微調技術，最初是由NOVA AI 公司開發的。它是一個附屬于Stable Diffusion 穩定擴散模型的小型神經網絡，是一種額外訓練出來的輔助模型，用于修正SD穩定擴散模型的風格。
LORA?	全稱是Low-Rank Adaptation of Large Language Models?低秩的適應大語言模型，可以理解為SD模型的一種插件，和hyper-network，controlNet一樣，都是在不修改SD模型的前提下，利用少量數據訓練出一種畫風/IP/人物，實現定制化需求，所需的訓練資源比訓練SD模要小很多，非常適合社區使用者和個人開發者。LoRA最初應用于NLP領域，用于微調GPT-3等模型（也就是ChatGPT的前生）。由于GPT參數量超過千億，訓練成本太高，因此LoRA采用了一個辦法，僅訓練低秩矩陣（low rank matrics），使用時將LoRA模型的參數注入（inject）SD模型，從而改變SD模型的生成風格，或者為SD模型添加新的人物/IP。
prompt	提示詞/咒語

工作原理

Stable Diffusion就是一個接收文本提示詞，并生成相應圖像的生成模型。

SD來自于擴散模型（Diffusion Model）

擴散模型：（Diffusion Model）的核心原理被生動地比喻為物理學中的擴散過程，通過前向擴散過程逐漸將圖像轉化為噪聲圖像，然后通過反向擴散過程恢復出清晰的圖像。在Stable Diffusion中，模型訓練了一個噪聲預測器（noise predictor），它是一個U-Net結構的神經網絡，可以預測并從圖像中去除噪聲，從而重構原始圖像。

然而，傳統的擴散模型在圖像空間中的運算效率極低，不適合實時應用。為此，Stable Diffusion采用了在潛在空間（latent space）中進行擴散的過程，利用變分自編碼器（VAE）將圖像壓縮到較低維度的空間，極大地提高了計算速度和效率。

Stable Diffusion的具體工作流程包括：

輸入圖像被編碼到潛在空間。
添加噪聲，并通過噪聲預測器估算添加的噪聲量。
反復迭代，通過噪聲預測器預測并減去潛在噪聲。
使用VAE的解碼器將清理過的潛在圖像轉換回像素空間，生成最終圖像。

學習資料

國外一手資料:

stability.ai官網
https://stability.ai/about

github開源項目

https://github.com/CompVis/stable-diffusion/blob/main/README.md

The Illustrated Stable Diffusion @Jay Alammar 講的原理
https://jalammar.github.io/illustrated-stable-diffusion/
這份完整版的SD整合包已經上傳CSDN，朋友們如果需要可以微信掃描下方CSDN官方認證二維碼免費領取【保證100%免費】

在這里插入圖片描述

二、本地部署安裝SD WebUI

硬件條件

說明：本地部署的硬件要求，當然使用云端部署租賃更高端的機器也是沒問題。

	最低推薦配置	推薦配置	備注
顯卡（GPU）	GTX1050Ti	低配推薦：RTX4060Ti-16G高配推薦：RTX4090	為達到良好的體驗，請盡可能使用8GB顯存及以上顯卡。低顯存雖然能跑，但是體驗極差
內存（RAM）	8GB內存	總內存24GB及以上	可以開啟虛擬內存，內存過小會在加載模型的時候出現問題
存儲空間	20GB任意存儲設備	500GB以上固態硬盤	強烈建議單獨使用一個盤符，如果不想啟動的時候等10分鐘的話，那么只推薦使用SSD
CPU	x86架構的Intel或AMD等處理器都可以，若為Mac電腦建議使用搭載M系列芯片的機型。

顯卡VRAM在4GB以下的會很容易遇到顯存不足的問題，即使使用放大插件也就非常慢（以時間換顯存）

2. 顯卡較差/顯存嚴重不足時可以開啟CPU模式，但是速度非常慢。你不希望一個小時一張圖的話那就別想著用CPU跑圖。

軟件需求

Windows：最低要求為Windows 10 64比特，請確保系統已更新至最新版本。

macOS：最低要求為macOS Monterey (12.5)，如果可以的話請使用最新版macOS。建議使用搭載Apple Silicon M芯片 (M1、M2) 的Mac機型。舊款Mac需配備AMD獨立顯卡，只有Intel核顯的不能使用。

下載地址 (不藏著掖著，直接拿走不謝)
這份完整版的SD整合包已經上傳CSDN，朋友們如果需要可以微信掃描下方CSDN官方認證二維碼免費領取【保證100%免費】

在這里插入圖片描述

安裝部署

2025.1月更新了最新的整合包，無需任何操作即可達到最佳速度，解壓打開即用，內置啟動器。

整合包做了哪些事情？打包了 Python、Git、CUDA 等等必須的環境，并且放了運行必須的模型。簡單來說，整合包就是 SD-WebUI內核+啟動器+安裝好的環境+必須的模型。你只需下載它解壓就可以直接啟動運行！

特別鳴謝，安裝包作者@秋葉aaaki

**三、**生成第一張SD繪畫

啟動“A啟動器.exe”

加載更新

點擊“一鍵啟動”

[不要關閉它],它會自動打開，瀏覽器地址"http://127.0.0.1:7860/?__theme=dark"

基本功能介紹

界面及操作說明
stable diffusion模型	下拉，替換大模型/底模
正面提示詞 Tag	（想要的內容，提示詞）如：masterpiece, best quality,
反面提示詞 Tag	（不想要的內容，提示詞）如：lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry
提示詞加權重	(girl) 加權重，這里是1.1倍。（(girl)) 加很多權重，1.1*1.1=1.21倍，以此類推。
提示詞減權重	[girl] 減權重，一般用的少。減權重也一般就用下面的指定倍數。
提示詞指定權重	(girl:1.5) 指定倍數，這里是1.5倍的權重。還可以 (girl:0.9) 達到減權重的效果
采樣迭代步數	不需要太大，一般在50以內。通常28是一個不錯的值。
采樣方法	沒有優劣之分，但是他們速度不同。全看個人喜好。推薦的是圖中圈出來的幾個，速度效果都不錯
提示詞相關性	代表你輸入的 Tag 對畫面的引導程度有多大，可以理解為 “越小AI越自由發揮”，太大會出現銳化、線條變粗的效果。太小AI就自由發揮了，不看 Tag
隨機種子	生成過程中所有隨機性的源頭每個種子都是一幅不一樣的畫。默認的 -1 是代表每次都換一個隨機種子。由隨機種子，生成了隨機的噪聲圖，再交給AI進行畫出來