什么是Stable Diffusion,什么是煉丹師?根據市場研究機構預測,到2025年全球AI繪畫市場規模將達到100億美元,其中Stable Diffusion(簡稱SD)作為一種先進的圖像生成技術之一,市場份額也在不斷增長,越來越多的人參與到AI掘金這場運動中來。煉丹師,就是指那些專門研究、開發與應用Stable Diffusion模型的專業人士或愛好者,他們在實踐中不斷優化模型,使其產生更高質量、更具創意的圖像。
目錄
_1 SD繪畫原理
_
2 本地部署安裝SD WebUI
3 生成第一張SD繪畫
**一、**SD繪畫原理
基本概念
名詞 | 解釋說明? |
Stable?Diffusion | 是一種基于擴散模型的先進的人工智能技術,特別適用于文本到圖像(Text-to-Image)的生成任務。該模型由CompVis、Stability AI、LAION等研究機構和公司合作研發,它利用擴散過程在潛在空間(latent space)中生成圖像,而不是直接在高維像素空間中操作。 |
SD?WebUI | Stable Diffusion Web UI (SD WebUI)?是一個用于交互式控制和使用 Stable Diffusion 模型的網頁應用程序界面。用戶可以通過這個界面輸入文本提示(prompt)來驅動模型生成相應的圖像,提供了簡單易用的方式來體驗和定制基于 Stable Diffusion 的文本到圖像生成過程。 |
Python | 是一種廣泛使用的高級編程語言,以其語法簡潔清晰和代碼可讀性強而著稱。在AI領域,Python尤為流行,因為它擁有豐富的科學計算、機器學習和數據處理相關的庫,比如NumPy、Pandas和TensorFlow等。在部署和使用像Stable Diffusion這樣的深度學習模型時,Python常被作為開發和運行環境的基礎。 |
Controlnet插件 | 是針對 Stable Diffusion 模型開發的一種功能擴展插件,它允許用戶在文本生成圖像的過程中實現更為細致和精確的控制。該插件使得用戶不僅能夠通過文本提示(prompt)指導模型生成圖像,還能添加額外的輸入條件,比如控制圖像的構圖、顏色、紋理、物體位置、人物姿勢、景深、線條草圖、圖像分割等多種圖像特征。通過這種方式,ControlNet 提升了 AI 繪畫系統的可控性和靈活性,使得藝術創作和圖像編輯更加精細化。 |
Controlnet模型 | 是配合上述插件工作的一個組成部分,它是經過訓練以實現對大型預訓練擴散模型(如 Stable Diffusion)進行細粒度控制的附加神經網絡模型。ControlNet 模型可以學習如何根據用戶的特定需求去調整原始擴散模型的輸出,即便是在訓練數據有限的情況下,依然能夠確保生成結果的質量和穩定性。例如,ControlNet 可能包括用于識別和利用邊緣映射、分割映射或關鍵點信息的子模塊,從而實現對生成圖像的特定區域進行針對性修改或強化。 |
VAE | Variational Autoencoder (VAE): 變分自編碼器是一種概率生成模型,它結合了編碼器(將輸入數據編碼為潛在空間中的概率分布)和解碼器(從潛在空間重構數據)的概念。在圖像生成場景中,VAE可以用來學習數據的潛在表示,并基于這些表示生成新的圖像。 |
CHECKPOINT | SD能夠繪圖的基礎模型,因此被稱為大模型、底模型或者主模型,WebUI上就叫它Stable Diffusion模型。安裝完SD軟件后,必須搭配主模型才能使用。不同的主模型,其畫風和擅長的領域會有側重。checkpoint模型包含生成圖像所需的一切,不需要額外的文件。 |
hyper-network | 超網絡是一種模型微調技術,最初是由NOVA AI 公司開發的。它是一個附屬于Stable Diffusion 穩定擴散模型的小型神經網絡,是一種額外訓練出來的輔助模型,用于修正SD穩定擴散模型的風格。 |
LORA? | 全稱是Low-Rank Adaptation of Large Language Models?低秩的適應大語言模型,可以理解為SD模型的一種插件,和hyper-network,controlNet一樣,都是在不修改SD模型的前提下,利用少量數據訓練出一種畫風/IP/人物,實現定制化需求,所需的訓練資源比訓練SD模要小很多,非常適合社區使用者和個人開發者。LoRA最初應用于NLP領域,用于微調GPT-3等模型(也就是ChatGPT的前生)。由于GPT參數量超過千億,訓練成本太高,因此LoRA采用了一個辦法,僅訓練低秩矩陣(low rank matrics),使用時將LoRA模型的參數注入(inject)SD模型,從而改變SD模型的生成風格,或者為SD模型添加新的人物/IP。 |
prompt | 提示詞/咒語 |
工作原理
Stable Diffusion就是一個接收文本提示詞,并生成相應圖像的生成模型。
SD來自于擴散模型(Diffusion Model)
擴散模型:(Diffusion Model)的核心原理被生動地比喻為物理學中的擴散過程,通過前向擴散過程逐漸將圖像轉化為噪聲圖像,然后通過反向擴散過程恢復出清晰的圖像。在Stable Diffusion中,模型訓練了一個噪聲預測器(noise predictor),它是一個U-Net結構的神經網絡,可以預測并從圖像中去除噪聲,從而重構原始圖像。
然而,傳統的擴散模型在圖像空間中的運算效率極低,不適合實時應用。為此,Stable Diffusion采用了在潛在空間(latent space)中進行擴散的過程,利用變分自編碼器(VAE)將圖像壓縮到較低維度的空間,極大地提高了計算速度和效率。
Stable Diffusion的具體工作流程包括:
-
輸入圖像被編碼到潛在空間。
-
添加噪聲,并通過噪聲預測器估算添加的噪聲量。
-
反復迭代,通過噪聲預測器預測并減去潛在噪聲。
-
使用VAE的解碼器將清理過的潛在圖像轉換回像素空間,生成最終圖像。
學習資料
國外一手資料:
stability.ai官網
https://stability.ai/aboutgithub開源項目
https://github.com/CompVis/stable-diffusion/blob/main/README.md
The Illustrated Stable Diffusion @Jay Alammar 講的原理
https://jalammar.github.io/illustrated-stable-diffusion/
這份完整版的SD整合包已經上傳CSDN,朋友們如果需要可以微信掃描下方CSDN官方認證二維碼免費領取【保證100%免費
】
二、本地部署安裝SD WebUI
硬件條件
說明:本地部署的硬件要求,當然使用云端部署租賃更高端的機器也是沒問題。
最低推薦配置 | 推薦配置 | 備注 | |
顯卡(GPU) | GTX1050Ti | 低配推薦:RTX4060Ti-16G高配推薦:RTX4090 | 為達到良好的體驗,請盡可能使用8GB顯存及以上顯卡。低顯存雖然能跑,但是體驗極差 |
內存(RAM) | 8GB內存 | 總內存24GB及以上 | 可以開啟虛擬內存,內存過小會在加載模型的時候出現問題 |
存儲空間 | 20GB任意存儲設備 | 500GB以上固態硬盤 | 強烈建議單獨使用一個盤符,如果不想啟動的時候等10分鐘的話,那么只推薦使用SSD |
CPU | x86架構的Intel或AMD等處理器都可以, 若為Mac電腦建議使用搭載M系列芯片的機型。 |
- 顯卡VRAM在4GB以下的會很容易遇到顯存不足的問題,即使使用放大插件也就非常慢(以時間換顯存)
2. 顯卡較差/顯存嚴重不足時可以開啟CPU模式,但是速度非常慢。你不希望一個小時一張圖的話那就別想著用CPU跑圖。
軟件需求
Windows:最低要求為Windows 10 64比特,請確保系統已更新至最新版本。
macOS:最低要求為macOS Monterey (12.5),如果可以的話請使用最新版macOS。建議使用搭載Apple Silicon M芯片 (M1、M2) 的Mac機型。舊款Mac需配備AMD獨立顯卡,只有Intel核顯的不能使用。
下載地址 (不藏著掖著,直接拿走不謝)
這份完整版的SD整合包已經上傳CSDN,朋友們如果需要可以微信掃描下方CSDN官方認證二維碼免費領取【保證100%免費
】
安裝部署
2025.1月 更新了最新的整合包,無需任何操作即可達到最佳速度,解壓打開即用,內置啟動器。
整合包做了哪些事情?打包了 Python、Git、CUDA 等等必須的環境,并且放了運行必須的模型。簡單來說,整合包就是 SD-WebUI內核+啟動器+安裝好的環境+必須的模型。你只需下載它解壓就可以直接啟動運行!
特別鳴謝,安裝包作者@秋葉aaaki
**三、**生成第一張SD繪畫
啟動“A啟動器.exe”
加載更新
點擊“一鍵啟動”
[不要關閉它],它會自動打開,瀏覽器地址"http://127.0.0.1:7860/?__theme=dark"
基本功能介紹
界面及操作說明 | |
stable diffusion模型 | 下拉,替換大模型/底模 |
正面提示詞 Tag | (想要的內容,提示詞) 如:masterpiece, best quality, |
反面提示詞 Tag | (不想要的內容,提示詞) 如:lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry |
提示詞加權重 | (girl) 加權重,這里是1.1倍。 ((girl)) 加很多權重,1.1*1.1=1.21倍,以此類推。 |
提示詞減權重 | [girl] 減權重,一般用的少。減權重也一般就用下面的指定倍數。 |
提示詞指定權重 | (girl:1.5) 指定倍數,這里是1.5倍的權重。還可以 (girl:0.9) 達到減權重的效果 |
采樣迭代步數 | 不需要太大,一般在50以內。通常28是一個不錯的值。 |
采樣方法 | 沒有優劣之分,但是他們速度不同。全看個人喜好。推薦的是圖中圈出來的幾個,速度效果都不錯 |
提示詞相關性 | 代表你輸入的 Tag 對畫面的引導程度有多大,可以理解為 “越小AI越自由發揮”,太大會出現銳化、線條變粗的效果。太小AI就自由發揮了,不看 Tag |
隨機種子 | 生成過程中所有隨機性的源頭 每個種子都是一幅不一樣的畫。默認的 -1 是代表每次都換一個隨機種子。由隨機種子,生成了隨機的噪聲圖,再交給AI進行畫出來 |
切換webUI黑白皮膚,修改瀏覽器http地址:
白:http://127.0.0.1:7860/?__theme=light
黑:http://127.0.0.1:7860/?__theme=dark
輸入提示詞【1 girl】,點擊生成即可:
(我安裝了皮膚插件,所以和你運行的界面稍微酷炫一點_)
**點點下方【收藏】和【點贊】再走,贈人玫瑰 手留余香!****