【AAAI 2025】 Local Conditional Controlling for Text-to-Image Diffusion Models

Local Conditional Controlling for Text-to-Image Diffusion Models(文本到圖像擴散模型的局部條件控制)在這里插入圖片描述

文章目錄

    • 內容摘要
    • 關鍵詞
    • 作者及研究團隊
    • 項目主頁
    • 01 研究領域待解決問題
    • 02 論文解決的核心問題
    • 03 關鍵解決方案
    • 04 主要貢獻
    • 05 相關研究工作
    • 06 解決方案實現細節
    • 07 實驗設計
    • 08 實驗結果與對比
    • 09 消融研究發現
    • 10 后續優化方向

內容摘要

本文針對文本到圖像擴散模型的局部控制問題,提出一種無需訓練的推理階段優化方法。現有全局控制(如ControlNet)無法靈活約束特定區域,直接添加局部條件會導致“局部控制主導”(圖2),忽視非控制區域的文本對齊。作者設計了區域判別損失(RDLoss)(公式5)、聚焦令牌響應(FTR)(公式8)和特征掩碼約束(FMC)(公式9)三大模塊:RDLoss通過最大化局部/非局部注意力差異更新隱變量,FTR抑制弱響應令牌減少重復,FMC通過掩碼控制ControlNet特征泄漏。實驗表明,該方法在COCO和Attend-Condition數據集上實現了局部條件與文本提示的高精度對齊(FID 21.86±0.48,CLIP T2T 0.801±0.006),解決了局部控制中結構失真和概念缺失的核心挑戰(圖1、5)。

關鍵詞

Text-to-Image Diffusion, Local Control, Attention Modulation, Diffusion Model, Controllable Generation

作者及研究團隊

本文由浙江大學CAD&CG國家重點實驗室、Fabu Inc.、騰訊等機構合作完成。

項目主頁

論文未公開代碼,但提及基于Stable Diffusion和ControlNet框架,實驗細節見附錄(Section 4.1-4.3)。

01 研究領域待解決問題

Existing text-to-image diffusion models with global controls (e.g., ControlNet) lack fine-grained localization capability. Directly applying local conditions causes “local control dominance” (Fig. 2), where the model over-focuses on controlled regions and neglects object generation in non-control areas aligned with text prompts. Additionally, global control methods (Section 2) fail to balance structural fidelity and text consistency in localized regions, leading to concept omission or duplication (Table 1, Fig. 5).

當前文本到圖像擴散模型的全局控制(如ControlNet)缺乏局部精細化能力。直接引入局部條件會觸發“局部控制主導”(圖2),模型過度關注控制區域,忽視非控制區域與文本提示的對齊。此外,全局控制方法(第2節)無法平衡局部結構保真度與文本一致性,導致概念缺失或重復(表1,圖5)。例如,在“貓和狗在海邊”的提示中,ControlNet僅生成局部狗的結構,完全忽略貓的存在(圖2左)。
在這里插入圖片描述

02 論文解決的核心問題

The paper addresses local control dominance in text-to-image generation: how to enforce user-defined local conditions (e.g., cat canny) while preserving text-aligned object generation in non-control regions (e.g., dog, seaside). Existing methods either ignore non-control concepts (Fig. 2) or introduce artifacts due to feature inconsistency (Section 3.5).

論文解決文本到圖像生成中的局部控制主導問題:在施加用戶定義的局部條件(如貓的邊緣圖)時,如何保留非控制區域(如狗、海邊)與文本提示的對齊。現有方法要么忽略非控制概念(圖2),要么因特征不一致引入偽影(第3.5節)。例如,圖1中全局控制(帶掩碼)仍無法生成符合“玩具車”提示的非控制區域,而本文方法同時滿足局部結構與全局文本。

在這里插入圖片描述

03 關鍵解決方案

在這里插入圖片描述

Three inference-stage techniques (Fig. 3):

  1. Regional Discriminate Loss (RDLoss) (Eq. 5): Maximizes attention discrepancy between local/non-local regions for C control t C_{\text{control}}^t Ccontrolt? (Eq. 4), guiding latent updates to regenerate ignored objects.
  2. Focused Token Response (FTR) (Eq. 8): Suppresses weak attention scores via token-wise max suppression, reducing object duplication.
  3. Feature Mask Constraint (FMC) (Eq. 9): Applies control mask to ControlNet features, mitigating quality degradation from blank non-control regions.

推理階段三大技術(圖3):

  1. 區域判別損失(RDLoss)(公式5):通過最大化局部/非局部注意力差異(針對控制概念 C control t C_{\text{control}}^t Ccontrolt?,公式4),引導隱變量更新以再生被忽略的對象。例如,對“狗”令牌,強制非控制區域的注意力最大值高于局部(圖2右)。
  2. 聚焦令牌響應(FTR)(公式8):通過令牌維度的最大抑制,削弱弱響應補丁的注意力,減少對象重復。如在“咖啡杯+泰迪熊”場景中,抑制非最大響應的背景令牌(圖4)。
  3. 特征掩碼約束(FMC)(公式9):對ControlNet輸出施加掩碼,避免非控制區域的空白特征干擾。實驗顯示,FMC使LPIPS降低12.67±1.03(表1)。

在這里插入圖片描述
在這里插入圖片描述

在這里插入圖片描述

04 主要貢獻

  • New Task: Defines “local control” as region-specific structural guidance with text prompts (Fig. 1).

  • Training-free Solution: Three modules addressing dominance, duplication, and feature inconsistency without retraining.

  • Empirical Validation: State-of-the-art results on COCO (FID 21.86) and Attend-Condition (CLIP T2T 0.804) datasets, outperforming baselines (Table 1, Fig. 5).

  • 新任務定義:提出“局部控制”范式,允許用戶指定區域的結構引導(圖1),填補了全局控制與局部編輯的空白。

  • 零訓練方案:三大模塊在推理階段解決主導、重復和特征不一致問題,無需額外訓練或數據(第3節)。

  • 實證突破:在COCO(FID 21.86)和Attend-Condition(CLIP T2T 0.804)數據集上超越所有基線(表1,圖5),例如Inpainting基線的IOU僅0.51,而本文達0.57(表2)。

在這里插入圖片描述
在這里插入圖片描述

05 相關研究工作

  • Global Control: ControlNet (Zhang et al. 2023) and T2I-Adapter (Mou et al. 2023) enable global structural guidance but fail in localization (Fig. 5).

  • Compositional Generation: Attend-and-Excite (Chefer et al. 2023) refines attention for multi-concepts, but lacks spatial constraints.

  • Local Editing: Inpainting methods (Lugmayr et al. 2022) post-process global results, leading to inconsistency (Section 4.2).

  • 全局控制:ControlNet和T2I-Adapter實現全局結構引導,但無法局部約束(圖5中ControlNet生成的“飛機”偏離指定區域)。

  • 組合生成:Attend-and-Excite優化多概念注意力,但缺乏空間約束,導致對象重疊(第2節)。

  • 局部編輯:修復方法(如Inpainting)后處理全局結果,導致控制區與非控制區不一致(圖5右,Inpainting的“桌子”結構模糊)。

06 解決方案實現細節

  1. Control Concept Matching (Eq. 4): Select C control t C_{\text{control}}^t Ccontrolt? via attention sum in local regions, stabilized by C o u n t max Count_{\text{max}} Countmax? for early timesteps ( β = 0.8 \beta=0.8 β=0.8,圖8b).
    在這里插入圖片描述

  2. RDLoss Update (Eq. 7): Gradient-based latent adjustment using attention max-distance, with α t \alpha_t αt? scaling (Section 3.3).
    在這里插入圖片描述

  3. FTR Suppression (Eq. 8): Apply γ = 0.1 \gamma=0.1 γ=0.1 to non-max tokens in cross-attention (Fig. 3), reducing patch overlap.
    在這里插入圖片描述

  4. FMC Integration (Eq. 9): Mask ControlNet features at UNet blocks, avoiding blank region interference.
    在這里插入圖片描述

  5. 控制概念匹配(公式4):通過局部區域注意力和選擇 C control t C_{\text{control}}^t Ccontrolt?,早期步數用 C o u n t max Count_{\text{max}} Countmax?穩定(β=0.8最優,圖8b)。例如,“貓+狗”場景中,動態選擇局部區域主導的概念。

  6. RDLoss更新(公式7):基于注意力最大距離的梯度調整隱變量,α_t控制步長(第3.3節)。對非控制令牌(如“海邊”),強制非局部注意力最大值高于局部。

  7. FTR抑制(公式8):對交叉注意力中非最大令牌施加γ=0.1縮放(圖3),減少“咖啡杯”與“泰迪熊”的特征重疊(圖4)。

  8. FMC集成(公式9):在UNet模塊對ControlNet特征加掩碼,避免非控制區空白特征導致的偽影(圖7c vs f)。

07 實驗設計

  • Datasets: COCO-5k (validation) and Attend-Condition (11 object+animal pairs, Section 4.1).

  • Baselines: ControlNet, T2I-Adapter, Noise-Mask (Eq. 10), Feature-Mask, Inpainting.

  • Metrics: FID, CLIP Score (text-image), CLIP T2T (caption-text), IOU (segmentation), LPIPS (local fidelity).

  • Ablation: RDLoss, FTR, FMC on COCO-canny (Table 2).

  • 數據集:COCO-5k(驗證集)和Attend-Condition(11對物體+動物,第4.1節),如圖4的“蛋糕+泰迪熊”場景。

  • 基線:ControlNet(全局控制)、T2I-Adapter(輕量控制)、Noise-Mask(掩碼噪聲混合,公式10)、Feature-Mask(僅FMC)、Inpainting(修復后處理)。

  • 指標:FID(圖像質量)、CLIP分數(文本-圖像對齊)、CLIP T2T(生成描述-原提示對齊)、IOU(分割定位)、LPIPS(局部保真度)。

  • 消融:在COCO-canny數據集測試三大模塊(表2),驗證RDLoss(+0.018 CLIP分數)和FMC(-1.82 FID)的關鍵作用。

08 實驗結果與對比

英文

  • Quantitative (Table 1): Ours achieves lowest FID (21.86) and highest CLIP T2T (0.801) on COCO, outperforming Inpainting (FID 25.72) and ControlNet (CLIP T2T 0.782).
  • Qualitative (Fig. 5-6): Baselines fail in multi-object scenarios (e.g., ControlNet generates only “plane” in “building+plane”), while ours preserves both concepts with structural fidelity.
  • Localization (IOU 0.57): Accurate alignment of local conditions (e.g., cat canny in Fig. 1) without leaking to non-control regions.

中文

  • 量化結果(表1):在COCO上,本文FID最低(21.86),CLIP T2T最高(0.801),優于Inpainting(FID 25.72)和ControlNet(CLIP T2T 0.782)。Attend-Condition數據集的CLIP T2T達0.804,遠超T2I-Adapter的0.700。
  • 定性結果(圖5-6):基線在多物體場景失效(如ControlNet僅生成“飛機”忽略“建筑”),本文保留所有概念并保持結構保真。圖6中,基線的“青蛙”控制區出現偽影,而本文的“獅子”局部邊緣清晰對齊。
  • 定位精度(IOU 0.57):局部條件(如圖1的貓邊緣)準確定位,無泄漏到非控制區。對比Noise-Mask的IOU僅0.37,本文通過FMC顯著提升空間一致性。

在這里插入圖片描述

09 消融研究發現

英文

  • RDLoss (Table 2): Improves CLIP T2T by +0.036 (baseline vs RDLoss+FMC), proving its role in regenerating ignored objects.
  • FMC (Fig. 7c vs f): Reduces FID by 1.82 (23.65→21.83) by mitigating feature inconsistency, but slightly lowers IOU (-0.22) due to mask constraint.
  • FTR (Table 2): Enhances object distinction, reducing duplication in “train+dog” scenes (Fig. 7d vs f).

中文

  • RDLoss(表2):CLIP T2T提升0.036(基線0.750→RDLoss+FMC 0.802),證明其再生被忽略對象的作用。如圖7b(僅RDLoss)的“狗”在非控制區正確生成。
  • FMC(圖7c vs f):通過減少特征不一致使FID降低1.82(23.65→21.83),但因掩碼約束導致IOU輕微下降(-0.22),驗證特征約束的必要性。
  • FTR(表2):增強對象區分,減少“火車+狗”場景的重復(圖7d vs f)。移除FTR后,“海邊”的沙灘紋理出現重復斑塊。

在這里插入圖片描述

在這里插入圖片描述

10 后續優化方向

英文

  1. Multi-condition Support: Extend to multi-modal local controls (e.g., depth + edge).
  2. Real-time Inference: Optimize gradient-based updates (Eq. 7) for faster generation.
  3. Dynamic Masking: Adaptive mask refinement during denoising, improving boundary fidelity (Fig. 1 control region edges).
  4. Cross-dataset Generalization: Validate on complex scenes (e.g., cityscapes) beyond COCO.

中文

  1. 多條件支持:擴展至多模態局部控制(如深度圖+邊緣圖),解決圖4中“蝴蝶”的姿態控制問題。
  2. 實時推理:優化梯度更新(公式7),當前50步推理需20秒,可探索步長α_t的動態調整。
  3. 動態掩碼:在去噪過程中自適應優化掩碼,改善控制區邊界保真度(如圖1貓的邊緣鋸齒問題)。
  4. 跨數據集泛化:在COCO以外的復雜場景(如Cityscapes)驗證,解決“建筑+飛機”的尺度一致性(圖5)。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/80833.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/80833.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/80833.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Kuka AI音樂AI音樂開發「人聲伴奏分離」 —— 「Kuka Api系列|中文咬字清晰|AI音樂API」第6篇

導讀 今天我們來了解一下 Kuka API 的人聲與伴奏分離功能。 所謂“人聲伴奏分離”,顧名思義,就是將一段完整的音頻拆分為兩個獨立的軌道:一個是人聲部分,另一個是伴奏(樂器)部分。 這個功能在音樂創作和…

Idea 設置編碼UTF-8 Idea中 .properties 配置文件中文亂碼

Idea 設置編碼UTF-8 Idea中 .properties 配置文件中文亂碼 一、設置編碼 1、步驟: File -> Setting -> Editor -> File encodings --> 設置編碼二、配置文件中文亂碼 1、步驟: File -> Setting -> Editor -> File encodings ->…

Xilinx FPGA PCIe | XDMA IP 核 / 應用 / 測試 / 實踐

注:本文為 “Xilinx FPGA 中 PCIe 技術與 XDMA IP 核的應用” 相關文章合輯。 圖片清晰度受引文原圖所限。 略作重排,未整理去重。 如有內容異常,請看原文。 FPGA(基于 Xilinx)中 PCIe 介紹以及 IP 核 XDMA 的使用 N…

sqli—labs第六關——雙引號報錯注入

一:判斷輸入類型 首先測試 ?id1,?id1,?id1",頁面回顯均無變化 所以我們采用簡單的布爾測試,分別測試數字型,單引號,雙引號 然后發現,只有在測試到雙引號注入的時候符合關鍵…

【TroubleShoot】禁用Unity Render Graph API 兼容模式

使用Unity 6時新建了項目,有一個警告提示: The project currently uses the compatibility mode where the Render Graph API is disabled. Support for this mode will be removed in future Unity versions. Migrate existing ScriptableRenderPasses…

圖形學、人機交互、VR/AR、可視化等領域文獻速讀【持續更新中...】

(1)筆者在時間有限的情況下,想要多積累一些自身課題之外的新文獻、新知識,所以開了這一篇文章。 (2)想通過將文獻喂給大模型,并向大模型提問的方式來快速理解文獻的重要信息(如基礎i…

Hadoop-HDFS-Packet含義及作用

在 HDFS(Hadoop Distributed File System)中,Packet 是數據讀寫過程中用于數據傳輸的基本單位。它是 HDFS 客戶端與數據節點(DataNode)之間進行數據交互時的核心概念,尤其在寫入和讀取文件時,Pa…

顯示的圖標跟UI界面對應不上。

圖片跟UI界面不符合。 要找到對應dp的值。UI的dp要跟代碼里的xml文件里的dp要對應起來。 藍湖里設置一個寬度給對應上。然后把對應的值填入xml. 一個屏幕上的圖片到底是用topmarin來設置,還是用bottommarin來設置。 因為第一節,5,7 車廂的…

【taro3 + vue3 + webpack4】在微信小程序中的請求封裝及使用

前言 正在寫一個 以taro3 vue3 webpack4為基礎框架的微信小程序,之前一直沒有記咋寫的,現在總結記錄一下。uniapp vite 的后面出。 文章目錄 前言一、創建環境配置文件二、 配置 Taro 環境變量三、 創建請求封裝四、如何上傳到微信小程序體驗版1.第二…

LeetCode:513、找樹左下角的值

//遞歸法 /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* TreeNode right;* TreeNode() {}* TreeNode(int val) { this.val val; }* TreeNode(int val, TreeNode left, TreeNode right) {* t…

采用均線策略來跟蹤和投資基金

策略來源#睿思量化#小程序 截圖來源#睿思量化#小程序 在基金投資中,趨勢跟蹤策略是一種備受關注的交易方法。本文將基于兩張關于廣發電子信息傳媒股票 A(代碼:005310)的圖片資料,詳細闡述這一策略的應用與效果。 從第…

leetcode刷題---二分查找

力扣題目鏈接 二分查找算法使用前提&#xff1a;有序數組&#xff1b;數組內無重復元素 易錯點&#xff1a; 1.while循環的邊界條件&#xff1a;如到底是 while(left < right) 還是 while(left < right) 2.if條件后right&#xff0c;left的取值&#xff1a;到底是 right …

(leetcode) 力扣100 10.和為K的子數組(前綴和+哈希)

題目 給你一個整數數組 nums 和一個整數 k &#xff0c;請你統計并返回 該數組中和為 k 的子數組的個數 。 子數組是數組中元素的連續非空序列。 數據范圍 1 < nums.length < 2 * 104 -1000 < nums[i] < 1000 -107 < k < 107 樣例 示例 1&#xff1a; 輸…

遨游衛星電話與普通手機有什么區別?

在數字化浪潮席卷全球的今天&#xff0c;通信設備的角色早已超越傳統語音工具&#xff0c;成為連接物理世界與數字世界的核心樞紐。然而&#xff0c;當普通手機在都市叢林中游刃有余時&#xff0c;面對偏遠地區、危險作業場景的應急通信需求&#xff0c;其局限性便顯露無遺。遨…

在Linux中如何使用Kill(),向進程發送發送信號

kill()函數 #include <sys/types.h> #include <signal.h> int kill(pid_t pid, int sig); 函數參數和返回值含義如下: pid:參數 pid 為正數的情況下,用于指定接收此信號的進程 pid;除此之外,參數 pid 也可設置為 0 或-1 以及小于-1 等不同值,稍后給說明。 …

Java SpringMVC 和 MyBatis 整合關鍵配置詳解

目錄 一、數據源配置二、MyBatis 工廠配置三、Mapper 掃描配置四、SpringMVC 配置五、整合示例實體類Mapper 接口Mapper XML 文件Service 類控制器JSP 頁面六、總結在 Java Web 開發中,SpringMVC 和 MyBatis 是兩個常用框架。SpringMVC 負責 Web 層的請求處理和視圖渲染,MyBa…

基于javaweb的SpringBoot高校圖書館座位預約系統設計與實現(源碼+文檔+部署講解)

技術范圍&#xff1a;SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬蟲、數據可視化、小程序、安卓app、大數據、物聯網、機器學習等設計與開發。 主要內容&#xff1a;免費功能設計、開題報告、任務書、中期檢查PPT、系統功能實現、代碼編寫、論文編寫和輔導、論文…

零成本打造專屬AI圖像處理平臺:IOPaint本地部署與遠程訪問指南

文章目錄 前言1.什么是IOPaint&#xff1f;2.本地部署IOPaint3.IOPaint簡單實用4.公網遠程訪問本地IOPaint5.內網穿透工具安裝6.配置公網地址7.使用固定公網地址遠程訪問總結 前言 移動攝影的普及使得記錄生活變得輕而易舉&#xff0c;然而獲得一張高質量的照片往往需要付出不…

子串簡寫(JAVA)一維前綴和, 藍橋杯

這個題用前綴和&#xff0c;開兩個數組&#xff0c;一個存前n個字符數據的c1的數字個數&#xff0c;另一個前n個字符c2的數字個數&#xff0c;然后遍歷一次加起來&#xff0c;有一個測試點沒過去&#xff0c;把那個存最后數的換成long&#xff0c;應該是這題數據范圍給的不對&a…

基于javaweb的SpringBoot自習室預約系統設計與實現(源碼+文檔+部署講解)

技術范圍&#xff1a;SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬蟲、數據可視化、小程序、安卓app、大數據、物聯網、機器學習等設計與開發。 主要內容&#xff1a;免費功能設計、開題報告、任務書、中期檢查PPT、系統功能實現、代碼編寫、論文編寫和輔導、論文…