Stable diffusion prompts 使用語法、參數講解、插件安裝教程
本文基于 Stable diffusion WebUI 進行講解(安裝在 AutoDL 上,安裝在本地電腦上的也同樣適用本教程)。
初始界面:
文件目錄結構:
上圖紅框中的 4 個文件夾是我們常用到的,embeddings 放置訓練的 embedding 模型,它可以在我們使用基礎模型時,再添加此模型進行疊加效果。
extensions 插件安裝目錄,在 WebUI 插件安裝界面安裝后,可以此文件夾中查看,并上傳相應的插件模型(如 ControlNet 需要專門的模型)
Models 模型文件夾,安裝時會默認下載 v1-5-pruned-emaonly,我們從其它地方下載的模型可以拷貝到此文件夾,在需要使用某個模型時,可以進行切換,如下圖:
outputs 生成的圖系統會輸出到這個文件夾里,可進行查看及保存。
上圖從左到右,依次是:
txt2img: 文字生成圖片
img2img: 圖片生成圖片
Extras: “無損”放大圖片,優化(清晰、擴展)圖像
**PNG info:**從圖片 exif 里獲取圖片的信息,如果是 Stable Diffusion 原始生成的 png 圖片,圖片的 exif 信息里會寫入圖片生成參數
**Checkpoint Merger:**合并不同的模型,生成新的模型
**Train:**訓練 embedding 或者 hypernetwork
**Settings:**設置頁面
**Extensions:**插件的安裝和管理頁面
txt2img
**Sampling method:**采樣方法
● Euler a :富有創造力,不同步數可以生產出不同的圖片。 超過 30~40 步基本就沒什么增益了
● Euler:最常見的基礎算法,最簡單也最快
● DDIM:速度快,一般 20 步差不多
● LMS:eular 的延伸算法,相對更穩定一點,30 步就比較穩定
● PLMS:改進一點的 LMS
● DPM2:DDIM 的一種改進版,速度大約是 DDIM 的兩倍
**Sampling Steps:**采樣迭代步數
先隨機出一個噪聲圖片,然后一步步調整圖片,向提示詞 Prompt 靠攏。其實就是告訴 Stable Diffusion,這樣的步驟應該進行多少次,步驟越多,每一步移動也就越小越精確,同時也成比例地增加生成圖像所需要的時間。大部分采樣器超過 50 步后意義就不大了
**Restore faces:**優化面部,繪制面部圖像特別注意。原理是調用一個神經網絡模型對面部進行修復
**Tiling:**生成一個可以平鋪的圖像
**Highres. fix:**先生成低分辯率的圖,接著添加細節之后再輸出,可以把低分辨率的照片調整到高分辨率
Batch count、 Batch size: 都是生成幾張圖,前者計算時間長,后者需要顯存大
**Denoising strength:**決定算法對圖像內容的保留程度。因為加的噪聲少,原圖片部分多,加的噪聲多,原圖片部分少。在 0 處,什么都不會改變,而在 1 處,你會得到一個不相關的圖像
**CFG Scale:**對描述參數的傾向程度(也就是生成圖像與提示詞的一致程度),越低的值產生越有創意的結果,如果太低,例如 1,那 Promp t就完全沒用了。一般在 5~15 之間為好,7,9,12 是 3 個常見的設置值
**Seed:**種子數,只要種子數、參數、模型都一致,就能重新生成一樣的圖像,-1 的話是生成一個隨機數
Prompt 語法
正向提示詞例子:
(masterpiece:1.331), best quality,illustration,(1girl),(deep pink hair:1.331), (wavy hair:1.21),(disheveled hair:1.331), messy hair, long bangs, hairs between eyes,(white hair:1.331), multicolored hair,(white bloomers:1.46),(open clothes),beautiful detailed eyes,purple|red eyes),expressionless,sitting,dark background, moonlight,flower_petals,city,full_moon,
**分隔:**不同的關鍵詞tag之間,需要使用英文逗號 , 分隔,逗號前后有空格或者換行不影響結果。例如:1girl,loli,long hair,low twintails(1 個女孩,loli,長發,低雙馬尾)
**混合:**WebUI 使用 | 分隔多個關鍵詞,實現混合多個要素,注意混合是同等比例、同時混。例如:1girl,red|blue hair, long hair(1個女孩,紅色與藍色頭發混合,長發)
**增強/減弱:**有兩種寫法。
● 第一種 (提示詞:權重數值):數值從0.1~100,默認狀態是 1,低于 1 就是減弱,大于 1 就是加強。例如:(loli:1.21),(one girl:1.21),(cat ears:1.1),(flower hairpin:0.9)
● 第二種 (((提示詞))),每套一層()括號增強 1.1 倍,每套一層 [] 減弱 1.1 倍。也就是套兩層是1.1*1.1=1.21 倍,套三層是 1.331 倍,套 4 層是 1.4641 倍。例如: ((loli)),((one girl)),(cat ears),[flower hairpin],這與第一種寫法等價,所以還是建議使用第一種方式。
**漸變:**可簡單的理解時為,先按某種關鍵詞生成,然后再此基礎上向某個方向變化。
[關鍵詞1:關鍵詞2:數字],數字大于 1 理解為第 X 步前為關鍵詞 1,第 X 步后變成關鍵詞 2,數字小于 1 理解為總步數的百分之 X 前為關鍵詞 1,之后變成關鍵詞 2。
例如:a girl with very long [white:yellow:16] hair 等價為開始 a girl with very long white hair
,16步之后 a girl with very long yellow hair
例如:a girl with very long [white:yellow:0.5] hair 等價為開始 a girl with very long white hair,50% 步之后 a girl with very long yellow hair
**交替:**輪流使用關鍵詞,例如:[cow|horse] in a field,這就是個牛與馬的混合物;[cow|horse|cat|dog] in a field 就是牛、馬、貓、狗之間混合。
**Negative prompt:**負面提示詞,用文字描述不想在圖像中出現的內容。
一些常見的負面提示詞:
lowres,bad anatomy,bad hands,text,error,missing fingers,extra digit,fewer digits,cropped,worst quality,low quality,normal quality,jpeg artifacts,signature,watermark,username,blurry,missing arms,long neck,Humpbacked,missing limb,too many fingers,mutated,poorly drawn,out of frame,bad hands,owres,unclear eyes,poorly drawn,cloned face,bad face
img2img
與 txt2img 類似,在文字提示詞的基礎上,增加了圖片提示。
Denoising strength:與原圖一致性的程度,一般大于 0.7 出來的都是新效果,小于 0.3 基本就會原圖一致
Extras
主要將圖像進行優化,Resize 設置放大的倍率,GFPGAN visibility 主要對圖像清晰度進行優化,CodeFormer visibility 對于老照片及人臉修復很有效,權重參數為 0 時效果最大,為 1 時效果最小,建議從 0.5 開始嘗試。
Upscaler 放大算法,一般不清楚可不選,或者選 ESRGAN_4x。
Batch from Directory 可以進行批量處理,在 Input directory 中輸入需要批量處理圖片的目錄,在 Output directory 中輸入保存結果目錄。
Scale to 中,可自定義圖片的尺寸。
Extensions
插件界面,installed 表示已經安裝好的插件,Available 表示在線可用的插件,一般都是從這里安裝。
點擊 Load from: 加載出可用的插件,然后按 Ctrl + F,輸入想要安裝插件的名稱,以此進行查找。
輸入 CN,查找漢化插件:
安裝后,重新啟動 UI 界面,插件就可以生效了。
兩個比較重要的插件:Dreambooth,ControlNet。