開始 ComfyUI 的 AI 繪圖之旅-Flux.1圖生圖(八)

文章標題

  • 一、Flux Kontext Dev
    • 1.關于 FLUX.1 Kontext Dev
      • 1.1 版本說明
      • 1.2 工作流說明
      • 1.3 模型下載
    • 2.Flux.1 Kontext Dev 工作流
      • 2.1 工作流及輸入圖片下載
      • 2.2 按步驟完成工作流的運行
    • 3.Flux Kontext 提示詞技巧
      • 3.1 基礎修改
      • 3.2 風格轉換
      • 3.3 角色一致性
      • 3.4 文本編輯
    • 4.常見問題解決
      • 4.1 角色變化過大
      • 4.2 構圖位置改變
      • 4.3 風格應用不準確
    • 5.核心原則
    • 6.最佳實踐模板
  • 二、字節跳動 USO
    • 1.字節跳動 USO ComfyUI 原生工作流
      • 1.1 工作流和輸入
      • 1.2 模型鏈接
      • 1.3 工作流說明
      • 1.4 補充說明

一、Flux Kontext Dev

ComfyUI Flux Kontext Dev 原生工作流示例。

1.關于 FLUX.1 Kontext Dev

FLUX.1 Kontext 是 Black Forest Labs 推出的突破性多模態圖像編輯模型,支持文本和圖像同時輸入,能夠智能理解圖像上下文并執行精確編輯。其開發版是一個擁有 120 億參數的開源擴散變壓器模型,具有出色的上下文理解能力和角色一致性保持,即使經過多次迭代編輯,也能確保人物特征、構圖布局等關鍵元素保持穩定。

與 FLUX.1 Kontext 套件具備相同的核心能力:
角色一致性:在多個場景和環境中保留圖像的獨特元素,例如圖片中的參考角色或物體。
局部編輯:對圖像中的特定元素進行有針對性的修改,而不影響其他部分。
風格參考:根據文本提示,在保留參考圖像獨特風格的同時生成新穎場景。
交互速度:圖像生成和編輯的延遲極小。

雖然之前發布的 API 版本提供了最高的保真度和速度,但 FLUX.1 Kontext [Dev] 完全在本地機器上運行,為希望進行實驗的開發者、研究人員和高級用戶提供了無與倫比的靈活性。

1.1 版本說明

  • [FLUX.1 Kontext [pro] - 商業版本,專注快速迭代編輯
  • FLUX.1 Kontext [max] - 實驗版本,更強的提示遵循能力
  • FLUX.1 Kontext [dev] - 開源版本(本教程使用),12B參數,主要用于研究

目前在 ComfyUI 中,你可以使用所有的這些版本,其中 Pro 及 Max 版本 可以通過 API 節點來進行調用,而 Dev 版本開源版本請參考本篇指南中的說明。

1.2 工作流說明

目前在本篇教程中,我們涉及了兩類工作流,本質上他們其實是相同的,

  • 使用了組節點 FLUX.1 Kontext Image Edit 的工作流,使得整個界面和工作流復用起來變得簡單
  • 而另一個工作流沒有使用組節點,是完整的原始工作流。

使用組節點的主要優點是工作流簡潔,你可以復用組節點來實現復雜的工作流,快速復用節點組,另外在新版本的前端中,我們也為 Flux.1 Kontext Dev 增加了一個快速添加組節點的功能:

在這里插入圖片描述

這個功能目前只是一個實驗性的新功能,可能在未來版本中進行調整。 請確保你的 ComfyUI 已經更新。
  • ComfyUI 下載
  • ComfyUI 更新教程

本指南里的工作流可以在 ComfyUI 的工作流模板中找到。如果找不到,可能是 ComfyUI 沒有更新。

如果加載工作流時有節點缺失,可能原因有:

  1. 你用的不是最新開發版(nightly)。
  2. 你用的是穩定版或桌面版(沒有包含最新的更新)。
  3. 啟動時有些節點導入失敗。

1.3 模型下載

為了使本篇指南的工作流能夠順利運行,你先需要下載下面的模型文件,你也可以直接加載對應工作流下直接獲取模型的下載鏈接,對應的工作流已經包含了模型文件的下載信息。

Diffusion Model

  • flux1-dev-kontext_fp8_scaled.safetensors
如果你想要使用原始權重,可以訪問 Black Forest Labs 的相關倉庫獲取原始模型權重進行使用。

VAE

  • ae.safetensors

Text Encoder

  • clip_l.safetensors
  • t5xxl_fp16.safetensors 或 t5xxl_fp8_e4m3fn_scaled.safetensors
    安裝aria2快速下載模型,幾乎能將我家1000M的寬帶跑滿,每秒80~90M,接下來的介紹模型都會給出安裝命令。
apt install aria2
aria2c https://huggingface.co/comfyanonymous/flux_text_encoders/resolve/main/t5xxl_fp8_e4m3fn_scaled.safetensors -o SourceCode/ComfyUI/models/text_encoders/t5xxl_fp8_e4m3fn_scaled.safetensors auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/flux1-kontext-dev_ComfyUI/resolve/main/split_files/diffusion_models/flux1-dev-kontext_fp8_scaled.safetensors -o SourceCode/ComfyUI/models/diffusion_models/flux1-dev-kontext_fp8_scaled.safetensors auto-file-renaming=false --allow-overwrite=false

小技巧:你要是打不開https://huggingface.co,可以將其換成為https://hf-mirror.com/試一試
模型保存位置

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └── flux1-dev-kontext_fp8_scaled.safetensors
│   ├── 📂 vae/
│   │   └── ae.safetensor
│   └── 📂 text_encoders/
│       ├── clip_l.safetensors
│       └── t5xxl_fp16.safetensors 或者 t5xxl_fp8_e4m3fn_scaled.safetensors

2.Flux.1 Kontext Dev 工作流

這個工作流是正常的工作流,不過使用了 Load Image(from output) 節點來加載需要編輯的圖像可以讓你更方便地獲取到編輯后的圖像,從而進行多輪次編輯

2.1 工作流及輸入圖片下載

下載下面的文件,并拖入 ComfyUI 中加載對應工作流
在這里插入圖片描述

輸入圖片

ComfyUI Flux Kontext 原生工作流輸入

2.2 按步驟完成工作流的運行

在這里插入圖片描述

你可參考圖片中的序號來完成圖工作流的運行:

  1. Load Diffusion Model 節點中加載 flux1-dev-kontext_fp8_scaled.safetensors 模型
  2. DualCLIP Load 節點中確保: clip_l.safetensorst5xxl_fp16.safetensorst5xxl_fp8_e4m3fn_scaled.safetensors 已經加載
  3. Load VAE 節點中確保加載 ae.safetensors 模型
  4. Load Image(from output) 節點中加載提供的輸入圖像
  5. CLIP Text Encode 節點中修改提示詞,僅支持英文
  6. 點擊 Queue 按鈕,或者使用快捷鍵 Ctrl(cmd) + Enter(回車) 來運行工作流
    在這里插入圖片描述

3.Flux Kontext 提示詞技巧

3.1 基礎修改

  • 簡單直接:"Change the car color to red"
  • 保持風格:"Change to daytime while maintaining the same style of the painting"

3.2 風格轉換

原則:

  • 明確命名風格:"Transform to Bauhaus art style"
  • 描述特征:"Transform to oil painting with visible brushstrokes, thick paint texture"
  • 保留構圖:"Change to Bauhaus style while maintaining the original composition"

3.3 角色一致性

框架:

  • 具體描述:"The woman with short black hair"而非"she"
  • 保留特征:"while maintaining the same facial features, hairstyle, and expression"
  • 分步修改:先改背景,再改動作

3.4 文本編輯

  • 使用引號:"Replace 'joy' with 'BFL'"
  • 保持格式:"Replace text while maintaining the same font style"

4.常見問題解決

4.1 角色變化過大

? 錯誤:"Transform the person into a Viking"
? 正確:"Change the clothes to be a viking warrior while preserving facial features"

4.2 構圖位置改變

? 錯誤:"Put him on a beach"
? 正確:"Change the background to a beach while keeping the person in the exact same position, scale, and pose"

4.3 風格應用不準確

? 錯誤:"Make it a sketch"
? 正確:"Convert to pencil sketch with natural graphite lines, cross-hatching, and visible paper texture"

5.核心原則

  1. 具體明確 - 使用精確描述,避免模糊詞匯
  2. 分步編輯 - 復雜修改分為多個簡單步驟
  3. 明確保留 - 說明哪些要保持不變
  4. 動詞選擇 - 用"change"、“replace"而非"transform”

6.最佳實踐模板

對象修改:
"Change [object] to [new state], keep [content to preserve] unchanged"

風格轉換:
"Transform to [specific style], while maintaining [composition/character/other] unchanged"

背景替換:
"Change the background to [new background], keep the subject in the exact same position and pose"

文本編輯:
"Replace '[original text]' with '[new text]', maintain the same font style"

記住: 越具體越好,Kontext 擅長理解詳細指令并保持一致性。

二、字節跳動 USO

使用字節跳動 USO 模型實現統一風格和主體驅動生成

USO (Unified Style-Subject Optimized) 是字節跳動 UXO 團隊開發的模型,統一了風格驅動和主體驅動生成任務。
基于 FLUX.1-dev 架構構建,該模型通過解耦學習和風格獎勵學習 (SRL) 實現了風格相似性和主體一致性。

USO 支持三種主要方法:

  • 主體驅動:將主體放置到新場景中,同時保持身份一致性
  • 風格驅動:基于參考圖像將藝術風格應用于新內容
  • 組合模式:同時使用主體和風格參考

相關鏈接

  • 項目主頁
  • GitHub
  • 模型權重

1.字節跳動 USO ComfyUI 原生工作流

請確保你的 ComfyUI 已經更新。
  • ComfyUI 下載
  • ComfyUI 更新教程

本指南里的工作流可以在 ComfyUI 的工作流模板中找到。如果找不到,可能是 ComfyUI 沒有更新。

如果加載工作流時有節點缺失,可能原因有:

  1. 你用的不是最新開發版(nightly)。
  2. 你用的是穩定版或桌面版(沒有包含最新的更新)。
  3. 啟動時有些節點導入失敗。

1.1 工作流和輸入

下載下方圖像并拖拽到 ComfyUI 中以加載對應的工作流。
在這里插入圖片描述

使用下面的圖片作為輸入

輸入圖像

1.2 模型鏈接

checkpoints

  • flux1-dev-fp8.safetensors

loras

  • uso-flux1-dit-lora-v1.safetensors

model_patches

  • uso-flux1-projector-v1.safetensors

clip_visions

  • sigclip_vision_patch14_384.safetensors

安裝aria2快速下載模型,幾乎能將我家1000M的寬帶跑滿,每秒80~90M,接下來的介紹模型都會給出安裝命令。

apt install aria2
aria2c https://huggingface.co/Comfy-Org/USO_1.0_Repackaged/resolve/main/split_files/loras/uso-flux1-dit-lora-v1.safetensors -o SourceCode/ComfyUI/models/loras/uso-flux1-dit-lora-v1.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/USO_1.0_Repackaged/resolve/main/split_files/model_patches/uso-flux1-projector-v1.safetensors -o SourceCode/ComfyUI/models/model_patches/uso-flux1-projector-v1.safetensors --auto-file-renaming=false --allow-overwrite=falsearia2c https://huggingface.co/Comfy-Org/sigclip_vision_384/resolve/main/sigclip_vision_patch14_384.safetensors -o SourceCode/ComfyUI/models/clip_vision/sigclip_vision_patch14_384.safetensors --auto-file-renaming=false --allow-overwrite=false

小技巧:你要是打不開https://huggingface.co,可以將其換成為https://hf-mirror.com/試一試
請下載所有模型并將它們放置在以下目錄中:

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 checkpoints/
│   │   └── flux1-dev-fp8.safetensors
│   ├── 📂 loras/
│   │   └── uso-flux1-dit-lora-v1.safetensors
│   ├── 📂 model_patches/
│   │   └── uso-flux1-projector-v1.safetensors
│   ├── 📂 clip_visions/
│   │   └── sigclip_vision_patch14_384.safetensors

1.3 工作流說明

在這里插入圖片描述

  1. 加載模型:

    • 1.1 確保 Load Checkpoint 節點已加載 flux1-dev-fp8.safetensors
    • 1.2 確保 LoraLoaderModelOnly 節點已加載 dit_lora.safetensors
    • 1.3 確保 ModelPatchLoader 節點已加載 projector.safetensors
    • 1.4 確保 Load CLIP Vision 節點已加載 sigclip_vision_patch14_384.safetensors
  2. 上傳圖像:

    • 2.1 點擊 Upload 上傳我們提供的輸入圖像
    • 2.2 ImageScaleToMaxDimension 節點將會縮放你的輸入圖像用于內容參考,512px 會保留更多的角色特征,但如果你僅使用角色頭部作為輸入,最終輸出圖像往往會有角色占據太多空間的問題(或者結果很糟)。設置為 1024px 會得到更好的結果。
  3. 在示例中,我們只使用 content reference 圖像輸入。如果你想使用 style reference 圖像輸入,可以使用 Ctrl+B 繞過標記的節點組。

  4. 編寫你的提示詞或保持默認設置

  5. 如果需要調整輸出圖像尺寸

  6. EasyCache 節點用于推理加速,但也會犧牲一些質量和細節。如果不需要使用,可以用 Ctrl+B 繞過它。

  7. 點擊 Run 按鈕,或使用快捷鍵 Ctrl(Cmd) + Enter 運行工作流

1.4 補充說明

  1. 僅使用風格參考:

我們在同一個工作流中也提供了僅使用風格參考的版本
在這里插入圖片描述

唯一的區別是我們替換了 content reference 節點,僅使用 Empty Latent Image 節點來創建一個我們需要的圖像大小

  1. 你也可以 繞過(Ctrl+B) 整個 Style Reference 組,將工作流用作文本到圖像的工作流,也就是這個文本存在 4 個變體
  • 僅使用內容(主體)參考
  • 僅使用風格參考
  • 混合內容及風格參考
  • 作為文生圖工作流

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/922015.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/922015.shtml
英文地址,請注明出處:http://en.pswp.cn/news/922015.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java 生成微信小程序二維碼

1. java 二維碼生成工具類import cn.hutool.core.util.StrUtil; import cn.hutool.json.JSONObject; import com.pdatao.api.controller.file.FileController; import com.pdatao.api.error.CommunityException; import org.apache.commons.io.IOUtils; import org.springframe…

智慧健康觸手可及:AI健康小屋——未來健康管理的全能守護者

AI健康小屋,這座融合人工智能、物聯網與醫療科技的“健康堡壘”,正悄然重構健康管理生態。它以科技為引擎,將專業醫療資源下沉至社區、企業、家庭,通過智能檢測、精準分析、個性化干預,實現從疾病治療到主動預防的健康…

[工作表控件19] 驗證規則實戰:如何用正則表達式規范業務輸入?

在企業應用中,數據準確性至關重要。工作表控件通過“驗證規則”能力,支持在文本字段和附件字段中使用正則表達式(RegEx)進行格式校驗。它能幫助開發者輕松實現郵箱、身份證號、車牌號、URL 等格式的高效驗證,大幅提升數據質量與表單使用體驗。 一、官方功能介紹與基礎能力…

uniapp分包實現

關于分包優化的說明 在對應平臺的配置下添加"optimization":{"subPackages":true}開啟分包優化 目前只支持mp-weixin、mp-qq、mp-baidu、mp-toutiao、mp-kuaishou的分包優化 分包優化具體邏輯: 靜態文件:分包下支持 static 等靜態…

ctfshow_web14------(PHP+switch case 穿透+SQL注入+文件讀取)

題目:解釋:$c intval($_GET[c]); //獲取整數值 6sleep($c);//延遲執行當前腳本若干秒。提示一下哈沒有break會接著執行下面的但是像是44444,555555,sleep的時間太久我們用3進入here_1s_your_f1ag.php是一個查詢頁面,sql注入查看源…

linux x86_64中打包qt

下載安裝 地址: Releases linuxdeploy/linuxdeploy mv linuxdeploy-x86_64.AppImage linuxdeployqtchmod 777 linuxdeployqtsudo mv linuxdeployqt /usr/local/bin/linuxdeployqt --version報錯 Applmage默認依賴FUSE,需要掛載自身為虛擬文件系統才能運行, ubuntu…

華為昇騰CANN開發實戰:算子自定義與模型壓縮技術指南

點擊 “AladdinEdu,同學們用得起的【H卡】算力平臺”,注冊即送-H卡級別算力,80G大顯存,按量計費,靈活彈性,頂級配置,學生更享專屬優惠。 摘要 隨著人工智能技術的飛速發展,越來越多…

Vue3源碼reactivity響應式篇之reactive響應式對象的track與trigger

概覽 在BaseReactiveHandler類的get方法中,有如下代碼塊if (!isReadonly2){track(target, "get", key);},這表示通過reactive、shallowReactive創建的響應式對象,非只讀的,當讀取代理對象proxyTarget的某個屬性key時&am…

VRRP 多節點工作原理

VRRP 多節點工作原理 基本概念 VRRP 的設計初衷是給一組節點提供一個 虛擬路由器,對外只表現出一個 VIP。協議規定:同一個 VRRP 實例 下始終只有 一個 Master 持有 VIP,其它全部是 Backup。 Master → 持有 VIP,負責轉發流量到Mas…

Gradio全解11——Streaming:流式傳輸的視頻應用(9)——使用FastRTC+Gemini創建沉浸式音頻+視頻的藝術評論家

Gradio全解11——Streaming:流式傳輸的視頻應用(9)——使用FastRTCGemini創建沉浸式音頻視頻的藝術評論家11.9 使用FastRTCGemini創建實時沉浸式音頻視頻的藝術評論家11.9.1 準備工作及音頻圖像編碼器1. 項目說明及準備工作2. 音頻和圖像編碼…

Django入門筆記

Python知識點:函數、面向對象。前端開發:HTML、CSS、JavaScript、jQuery、BootStrap。MySQL數據庫。Python的Web框架:Flask,自身短小精悍 第三方組件。Django,內部已集成了很多組件 第三方組件。【主要】1.安裝djang…

當Claude Code失靈,Qwen Code能否成為你的救星?

當Claude Code失靈,Qwen Code能否成為你的救星? 一、開頭:點明困境,引出主角 作為一個大模型博主,日常工作中我經常會使用各種 AI 工具來提高效率,Claude Code 就是我之前非常依賴的一款代碼生成助手 。它…

Go語言快速入門教程(JAVA轉go)——1 概述

優勢 第一個理由:對初學者足夠友善,能夠快速上手。 業界都公認:Go 是一種非常簡單的語言。Go 的設計者們在發布 Go 1.0 版本和兼容性規范后,似乎就把主要精力放在精心打磨 Go 的實現、改進語言周邊工具鏈,還有提升 Go …

【Rust多進程】征服CPU的藝術:Rust多進程實戰指南

?? 歡迎大家來到景天科技苑?? 🎈🎈 養成好習慣,先贊后看哦~🎈🎈 🏆 作者簡介:景天科技苑 🏆《頭銜》:大廠架構師,華為云開發者社區專家博主,…

OpenCV 高階實戰:圖像直方圖與掩碼圖像深度解析

目錄 一、圖像直方圖:讀懂圖像的 “像素分布報告” 1. 什么是圖像直方圖? 2. 圖像直方圖的核心作用 (1)分析亮度分布 (2)判斷對比度高低 (3)輔助圖像增強與閾值分割 &#xf…

基于stm32的家庭安全監測系統設計

若該文為原創文章,轉載請注明原文出處。一、引言(一)研究背景及意義背景:隨著智能家居概念的普及,人們對家庭安全、舒適度和節能提出了更高要求。傳統安防系統功能單一、各系統獨立,缺乏聯動和遠程管理能力…

Oracle體系結構-控制文件(Control Files)

一、 原理 (Principle) 核心定位: 控制文件是一個小型的二進制文件,由 Oracle 實例在啟動和操作過程中持續讀寫。它是數據庫物理結構的權威記錄。數據庫無法啟動或正常操作時,如果無法訪問控制文件,實例將無法識別數據文件和重做日…

路由 下一跳 網關 兩個不同網段的ip如何通過路由器互通

路由 (Routing)核心思想:路徑選擇是什么? 路由是指數據包從源主機傳輸到目標主機的整個過程。這個過程就像寄快遞:你需要決定包裹經過哪些中轉站才能最終到達收件人手里。做什么? 網絡中的設備(主要是路由器&#xff0…

HiDDeN論文解讀與代碼實現

論文:HiDDeN: Hiding Data With Deep Networks 作者:Jiren Zhu, Russell Kaplan, Justin Johnson, Li Fei-Fei一、研究背景 在圖像信息隱藏領域,通常有兩類典型的應用場景:隱寫 (Steganography) 目標:實現秘密通信。要…

實驗室服務器配置|實驗室多人共享GPU|通過Docker實現Linux系統多用戶隔離與安全防控

利用實驗室服務器跑實驗的時候,通常就是兩種方案,一個是向日葵遠程桌面進行操作,一個是通過ssh進行連接,用ssh的話,一般服務器都在內網(例如校園網),是無法在公網(不在校…