南開提出1Prompt1Story,無需訓練,可通過單個連接提示實現一致的文本到圖像生成。

(1Prompt1Story)是一種無訓練的文本到圖像生成方法,通過整合多個提示為一個長句子,并結合奇異值重加權(SVR)和身份保持交叉注意力(IPCA)技術,解決了生成圖像中身份不一致的問題,同時保持了文本描述的精準對齊。

相關鏈接

  • 論文:https://arxiv.org/abs/2501.13554

  • 代碼:https://github.com/byliutao/1Prompt1Story

  • 主頁:https://byliutao.github.io/1Prompt1Story.github.io/

論文介紹

論文出了一種無需訓練的方法1Prompt1Story,通過單個連接提示實現一致的文本到圖像生成。我們的方法可以應用于所有基于文本嵌入的文本到圖像模型。此外,它還支持多字符生成、ControlNet 引導生成和個性化生成逼真的圖像。

方法

(a):1Prompt1Story 的整體流程。我們將身份提示和框架提示合并為一個提示,然后應用奇異值重加權 (SVR) 和身份保留交叉注意力 (IPCA) 來生成身份一致的圖像。(b):在SVR期間,我們首先增強表達集X_exp的語義信息(紅色箭頭),然后迭代地削弱抑制集X_sup的語義(藍色箭頭)。(c):在IPCA中,我們將 K_tilde 與 K_bar 連接,將 V_tilde 與 V_bar 連接,以提高身份一致性。

(左):1Prompt1Story 可以與 ControlNet 集成,以實現空間控制,從而實現一致的角色生成。(右):此外,我們的方法還可以與其他方法(例如 PhotoMaker)結合使用,以實現真實圖像個性化,同時提高身份一致性。

結果展示

現有方法(上)在 T2I 生成一致性方面面臨挑戰。SDXL 和 Juggernaut-X-v10 等 T2I 模型在生成的圖像之間經常表現出明顯的身份不一致。盡管包括 IP-Adapter 和 ConsiStory 在內的最新方法已經提高了身份一致性,但它們失去了生成的圖像與相應輸入提示之間的一致性。我們方法的其他結果(下)展示了卓越的一致性,同時不損害文本和圖像之間的一致性。

對幀提示順序的魯棒性。使用同一組幀提示但不同的順序,我們的方法 1Prompt1Story 可以一致地生成具有統一標識的圖像。

多主題故事生成。通過在身份提示中定義多個主題,我們的方法生成具有多個角色的圖像,每個圖像都保持良好的身份一致性。

種子變化。通過使用不同的種子,1Prompt1Story 可以生成具有不同背景的圖像,同時保持一致的身份。

與不同的基礎模型相結合。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/72862.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/72862.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/72862.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

BLUEM2引擎源碼2025最新版

BLUE 引擎解析:傳奇私服圈中的熱門引擎 一、BLUE 引擎簡介 BLUE 引擎是傳奇私服圈子中較為知名的一款游戲引擎,它在傳統的傳奇引擎基礎上進行了優化和擴展,使得私服開發者可以更加方便地搭建和管理服務器。相比于早期的 GEE、LEG、Hero 等引…

第53天:Web攻防-SQL注入數據庫類型用戶權限架構分層符號干擾利用過程發現思路

#知識點:(本節課了解即可) 1、Web攻防-SQL注入-產生原理&應用因素 2、Web攻防-SQL注入-各類數據庫類型利用 一、數據庫知識: 1、數據庫名,表名,列名,數據 2、自帶數據庫,數據庫用戶及權限 3…

【玩轉MySQL數據字典】MySQL數據字典與常用操作指令

MySQL數據字典簡介與常用操作指令 一、數據字典簡介 數據字典是MySQL 5.7中用于存儲數據庫對象元數據的系統表。在MySQL的早期版本中,元數據存儲在.frm文件及其他文件里。這種存儲方式存在諸多弊端,例如元數據不一致問題,不同文件間元數據的…

如何有效判斷與排查Java GC問題

目錄 一、GC的重要性與對性能的影響 (一)GC對性能的影響簡要分析 1.GC暫停與應用停頓 2.GC吞吐量與資源利用率 3.GC對內存管理的作用:資源回收 4.GC策略與優化的選擇 (二)GC的雙刃劍 二、GC性能評價標準 &…

el-table(elementui)表格合計行使用以及滾動條默認樣式修改

一、el-table新增合計行以及el-table展示數據出現的問題 1. 使用合計行 el-table的屬性show-summary設為true,即可在表格尾部展示合計行。默認情況下,第一列不展示數據,而顯示合計二字,可以通過sum-text自己配置,其余…

olmOCR:高效精準的 PDF 文本提取工具

在日常的工作和學習中,是否經常被 PDF 文本提取問題困擾?例如: 想從學術論文 PDF 中提取關鍵信息,卻發現傳統 OCR 工具識別不準確或文本格式混亂?需要快速提取商務合同 PDF 中的條款內容,卻因工具不給力而…

云計算:虛擬化、容器化與云存儲技術詳解

在上一篇中,我們深入探討了網絡安全的核心技術,包括加密、認證和防火墻,并通過實際案例和細節幫助讀者全面理解這些技術的應用和重要性。今天,我們將轉向一個近年來迅速發展的領域——云計算。云計算通過提供按需訪問的計算資源,徹底改變了IT基礎設施的構建和管理方式。本…

免費開源抓包工具Wireshark介紹

一、Wireshark 安裝詳解 Wireshark 是一款跨平臺的網絡協議分析器,支持 Windows、macOS 和 Linux 等操作系統。以下分別介紹在不同操作系統上的安裝步驟,并詳細解釋安裝過程中的選項。 1、Windows 平臺安裝 1.下載 Wireshark 安裝包: 訪問 Wireshark…

藍橋杯備賽:炮彈

題目解析 這道題目是一道模擬加調和級數,難的就是調和級數,模擬過程比較簡單。 做法 這道題目的難點在于我們在玩這個跳的過程,可能出現來回跳的情況,那么為了解決這種情況,我們采取的方法是設定其的上限步數。那么…

2025年滲透測試面試題總結-奇安信安全工程師(題目+回答)

網絡安全領域各種資源,學習文檔,以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各種好玩的項目及好用的工具,歡迎關注。 目錄 奇安信安全工程師 1. MVC框架詳細說明 2. SQL注入詳細介紹 3. XSS和CSRF的區別 4. XXE漏洞原理 5. …

【阿里云】控制臺使用指南:從創建ECS到系統診斷測評

前言 隨著云計算技術的快速發展,越來越多的企業和開發者開始使用云服務來部署和管理應用程序。在眾多云服務提供商中,阿里云(Alibaba Cloud)憑借其強大的基礎設施和豐富的服務,成為了眾多用戶的首選。本文旨在介紹如何…

關于OceanBase與CDH適配的經驗分享

CDH是Cloudera早期推出的一個開源平臺版本,它實質上成為了Apache Hadoop生態系統內公認的安裝與管理平臺,專為企業級需求量身打造。CDH為用戶提供了即裝即用的企業級解決方案。通過整合Hadoop與另外十多項關鍵開源項目,Cloudera構建了一個功能…

電機驅動電路:單橋(H橋)與雙橋(雙H橋)詳解

一、電機驅動電路的作用 電機驅動電路通過控制電流方向和大小,實現電機的正反轉、調速及制動。常見的結構包括單橋(H橋)和雙橋(雙H橋),分別適用于不同場景。 二、單橋(H橋)驅動電路 1. 結構示意圖(文字描述) 開關元件:4個功率開關(如MOSFET或IGBT)組成橋臂,分…

[網絡爬蟲] 動態網頁抓取 — Selenium 入門操作

🌟想系統化學習爬蟲技術?看看這個:[數據抓取] Python 網絡爬蟲 - 學習手冊-CSDN博客 0x01:WebDriver 類基礎屬性 & 方法 為模仿用戶真實操作瀏覽器的基本過程,Selenium 的 WebDriver 模塊提供了一個 WebDriver 類…

牛客周賽A:84:JAVA

鏈接:登錄—專業IT筆試面試備考平臺_牛客網 來源:牛客網 題目描述 \hspace{15pt}小紅定義一個數組的陡峭值為:每兩個相鄰的元素,差值的絕對值之和。例如,數組 {2,3,1}\{2,3,1\}{2,3,1} 的陡峭值是 ∣2?3∣∣3?1∣…

Cython編譯去掉符號表

在Cython編譯過程中去掉符號表(symbol table)可以增加生成代碼的安全性,使其更難被逆向工程。然而,需要注意的是,Cython本身并不直接提供一個開關來去除符號表。通常,這是通過編譯器和鏈接器的選項來實現的…

在 IntelliJ IDEA(2024) 中創建 JAR 包步驟

下是在 IntelliJ IDEA 中創建 JAR 包的詳細的步驟: ?1. 選擇File -> Project Structure->Artifacts, (1)點擊?新建,如下圖所示: (2)選擇JAR->Empty (3)輸入jar包名稱,確定輸出路徑 (4&#…

Python零基礎學習第三天:函數與數據結構

一、函數基礎 函數是什么? 想象你每天都要重復做同一件事,比如泡咖啡。函數就像你寫好的泡咖啡步驟說明書,每次需要時直接按步驟執行,不用重新想流程。 # 定義泡咖啡的函數 def make_coffee(sugar1): # 默認加1勺糖 print("…

idea啟動項目報端口被占用

端口確實被占用 winR,輸入cmd,進入終端,查找到對應端口的進程id,殺掉項目 netstat -ano | findstr "8080"taskkill /F /PID 37020 idea設置中,選擇讓maven代替進行項目關閉,此時其實點擊build可…

達夢數據庫在Linux,信創云 安裝,備份,還原

(一)系統環境檢查 1操作系統:確認使用的是國產麒麟操作系統,檢查系統版本是否兼容達夢數據庫 V8。可以通過以下命令查看系統版本: cat /etc/os-release 2硬件資源:確保服務器具備足夠的硬件資源&#xff0…