主頁:ComfyUI | 用AI生成視頻、圖像、音頻
https://github.com/comfyanonymous/ComfyUI
安裝環境
我的環境是mac,芯片為M4pro。首先從github中下載工程,clone失敗就直接下載zip壓縮包。在model文件夾中,可以看到很多大名鼎鼎的模型,如lora,controlnet。
其中一個依賴環境是av,PyAV?是一個強大的庫,用于處理視頻和音頻流(基于 FFmpeg)。PyAV 依賴 FFmpeg,如果系統未安裝 FFmpeg,可能會報錯。Conda 會自動處理 FFmpeg 依賴
conda install -c conda-forge av
OMP: Error #15: Initializing libomp.dylib, but found libomp.dylib already initialized.
OMP: Hint This means that multiple copies of the OpenMP runtime have been linked into the program.
使用命令:find / -name "libomp.dylib" 2>/dev/null
發現虛擬環境下有很多個:
I/lib/libomp.dylib/anaconda3/envs/comfUI/lib/python3.12/site-packages/torch/lib/libomp.dylib/anaconda3/envs/comfUI/lib/python3.12/site-packages/skimage/.dylibs/libomp.dylib
但是更改環境變量也沒解決;
import os
os.environ['DYLD_LIBRARY_PATH'] = f"{os.environ['CONDA_PREFIX']}/lib"
最終是靠conda重新安裝torch解決。
conda uninstall numpy scipy mkl torch # 卸載可能依賴 MKL 的包
conda install numpy scipy mkl torch # 重新安裝(conda 會自動處理依賴)
requirements.txt中的comfyui-frontend-package則需要pip安裝
下載模型
打開網頁就可以看到一個可視化的工作流。工作流有一些模板可以瀏覽。
這幾個模板其實就是一些jpg,只不過在圖片的metadata里面保存了真正決定workflow的JSON。
點擊Lora會加載工作流,剛開始會彈出提示框,缺少模型,不過沒關系,可以點擊下載就好了:
下載需要科學上網。三個模型都以safetensors結尾。下載好的?dreamshaper_8.safetensors??and 放到ComfyUI/models/checkpoints下,
?blindbox_V1Mix?and?MoXinV1放到ComfyUI/models/loras文件夾下。dreamshaper是stable diffusion的checkpoint model,是很大的模型,所以看大小有2.13GB,而Lora只有151.1MB。
可以看到這個工作流同時使用了兩個Lora,模板自帶的notes解釋了為什么需要兩個lora:blindbox_V1Mix?and?MoXinV1,因為這樣可以得到更balance的結果:
?blindbox_V1Mix?and?MoXinV1. | blend | |
![]() | ![]() |
大模型除了dreamshaper,還有Stable diffusion v1.4,Stable diffusion v1.5,Realistic Vision,majicMIX realistic,Deliberate v2,F222等。dreamshaper生成的是近似于AnythingV5(屬于SDXL模型)的漫畫和majicMIX realistic逼真之間的形象:
啟動
模型準備好之后就可以運行了,會比較慢,網頁的標簽頁上會顯示進度。
這是我生成的一幅圖:
對應的提示詞是:
upperbody shot, 1girl,solo,chibi,long hairs, happy, laugh, hugging a teddy bear, looking at viewers, dancing stand, cute, soft color, flowers in background, many flowers, among flowers, best quality, highres, delicate details,
上半身特寫,一位女孩,單人,Q版(或“迷你角色”/“簡筆畫風格可愛小人”,根據“chibi”具體語境調整),長發,面帶笑容,開懷大笑,抱著泰迪熊,注視著觀眾,舞姿站立,可愛,柔和色調,背景有花朵,繁花似錦,置身花叢,最佳畫質,高分辨率,細節精致
對比之下,生成的數目不對,手里的也不是泰迪熊。
除了正向的提示詞,還有負向的:
(worst quality, low quality:1.4), (bad anatomy), text, error, missing fingers, extra digit, fewer digits, cropped, jpeg artifacts, signature, watermark, username, blurry, deformed face
在提示詞之外,還可以控制圖像尺寸,采樣器,步數等參數:
reference:
1.怎么使用Stable diffusion中的models-騰訊云開發者社區-騰訊云
2.