優于InstantID!中山大學提出ConsistentID:可以僅使用單個圖像根據文本提示生成不同的個性化ID圖像

給定一些輸入ID的圖像,ConsistentID可以僅使用單個圖像根據文本提示生成不同的個性化ID圖像。效果看起來也是非常不錯。

相關鏈接

Code:https://github.com/JackAILab/ConsistentID

Paper:https://ssugarwh.github.io/consistentid.github.io/arXiv.pdf

Demo:https://huggingface.co/spaces/JackAILab/ConsistentID/

論文閱讀

ConsistentID:具有多模式細粒度身份保護的肖像生成

摘要

基于擴散的技術已經取得了重大進展,特別是在個性化和定制的設施生成方面。然而,現有方法在實現高保真和詳細身份(ID)一致性方面面臨挑戰,這主要是由于對面部區域的細粒度控制不足,以及缺乏通過充分考慮錯綜復雜的面部細節和整體面部來保存ID的全面策略。

為了解決這些限制,我們引入了ConsistentID,這是一種創新的方法,專門用于在細粒度多模式面部提示下生成不同身份的人像,僅使用單個參考圖像。ConsistentID由兩個關鍵組件組成:一個多模式面部提示生成器,它將面部特征、相應的面部描述和整體面部上下文結合起來,以提高面部細節的準確性;一個通過面部注意力定位策略優化的ID保留網絡,旨在保留面部區域的ID一致性。這些組件通過引入面部區域的細粒度多模態ID信息,顯著提高了ID保存的準確性。

為了促進ConsistentID的訓練,我們提供了一個細粒度的人像數據集FGID,其中包含超過500,000張面部圖像,提供了比現有公共面部數據集更大的多樣性和全面性。%如里昂臉、CelebA、FFHQ和SFHQ。實驗結果證實,我們的ConsistentID在個性化面部生成方面實現了卓越的精度和多樣性,超過了MyStyle數據集上的現有方法。此外,雖然ConsistentID引入了更多的多模態ID信息,但它在生成過程中保持了較快的推理速度。

方法

該框架包括兩個關鍵模塊:多模式面部身份生成器和有目的地制作的身份保留網絡。

  • 多模態面部提示生成器由兩個基本組件組成:一個細粒度的多模態特征提取器,專注于捕獲詳細的面部信息;一個面部ID特征提取器,專門用于學習面部ID特征。

  • 另一方面,身份保留網絡利用面部文本和視覺提示,通過面部注意力定位策略防止來自不同面部區域的身份信息混合。這種方法確保了面部區域中ID一致性的保持。

實驗

ConsistentID改變角色年齡屬性的應用案例。

我們的模型與其他模型在兩個特殊任務上的定性比較:風格化和動作指導。

與更多基于微調的模型的比較。

重新語境化環境中的可視化。這些例子展示了ConsistentID的高身份保真度和文本編輯能力。

消融實驗

不同合并步驟下的可視化結果。合并步驟指示何時開始向文本提示添加面部圖像特征。

結論

在這項工作中,我們介紹了ConsistentID,這是一種創新的方法,旨在保持身份一致性并捕捉不同的面部細節。我們已經開發兩個新穎的模塊:多模式面部提示生成器和身份保存網絡。前者致力于通過在面部區域級別結合視覺和文本描述來生成多模式面部提醒。后者旨在通過面部注意力定位策略確保每個面部區域的ID一致性,防止ID信息混合不同的面部區域。

通過利用多模式細粒度提示,我們的方法僅使用單個面部圖像就實現了顯著的身份一致性和面部真實感。此外,我們還介紹了FGID數據集,這是一個全面的數據集,包含細粒度的身份信息和詳細的面部描述,對訓練ConsistentID模型至關重要。實驗結果在個性化面部生成方面表現出卓越的準確性和多樣性,超過了MyStyle數據集上的現有方法。

限制

在我們的方法中使用MLLM可能會引入一些限制,這些限制可能會影響模型性能的特定方面。約束條件有限的姿勢和表情可能會限制我們方法的多樣性, 影響其處理面部變化的能力。這些限制強調深入討論和探索的必要性,特別是在解決與GPT-4V的姿態、表達和整合相關的挑戰。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/14413.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/14413.shtml
英文地址,請注明出處:http://en.pswp.cn/web/14413.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

計算機畢業設計 | springboot養老院管理系統 老人社區管理(附源碼)

1,緒論 1.1 背景調研 養老院是集醫療、護理、康復、膳食、社工等服務服務于一體的綜合行養老院,經過我們前期的調查,院方大部分工作采用手工操作方式,會帶來工作效率過低,運營成本過大的問題。 院方可用合理的較少投入取得更好…

Python數據可視化(七)

繪制 3D 圖形 到目前為止,我們一直在討論有關 2D 圖形的繪制方法和繪制技術。3D 圖形也是數據可視化的 一個很重要的應用方面,我們接下來就重點講解有關 3D 圖形的實現方法。繪制 3D 圖形通常需要導 入 mpl_toolkits 包中的 mplot3d 包的相關模塊&#x…

三、Gazebo中實現機器人仿真(小白上手)+ubuntu18.04

接上一篇文章 1、\導航 vim .bashrc \先采用Nanocar嘗試導航 關閉終端:roslaunch robot_navigation gmapping.launch simulation:true rosrun teleop_twist_keyboard teleop_twist_keyboard.py 重啟終端: cd catkin_ws source ./devel/setu…

護網經驗面試題目原版

文章目錄 一、護網項目經驗1.項目經驗**Hvv的分組和流程**有沒有遇到過有意思的邏輯漏洞?有沒有自己開發過武器/工具?有做過代碼審計嗎?有0day嗎有cve/cnvd嗎?有src排名嗎?有沒有寫過技戰法有釣魚經歷嗎?具…

【數據結構】哈夫曼樹和哈夫曼編碼

一、哈夫曼樹 1.1 哈夫曼樹的概念 給定一個序列,將序列中的所有元素作為葉子節點構建一棵二叉樹,并使這棵樹的帶權路徑長度最小,那么我們就得到了一棵哈夫曼樹(又稱最優二叉樹) 接下來是名詞解釋: 權&a…

VC++位移操作>>和<<以及邏輯驅動器插拔產生的掩碼dbv.dbcv_unitmask進行分析的相關代碼

VC位移操作>>和<<以及邏輯驅動器插拔產生的掩碼dbv.dbcv_unitmask進行分析的相關代碼 一、VC位移操作符<<和>>1、右位移操作符 >>&#xff1a;2、左位移操作符 <<&#xff1a; 二、邏輯驅動器插拔產生的掩碼 dbv.dbcv_unitmask 進行分析的…

如何使用Suno:免費的AI歌曲生成器

文章目錄 Suno AI 是什么&#xff1f;Suno AI 如何工作&#xff1f;選擇Suno AI的理由&#xff1a;核心優勢易于操作多樣化創作靈活的定價策略版權保障技術突破 如何使用Suno AI創作歌曲&#xff1f;第1步&#xff1a;注冊Suno AI賬戶第2步&#xff1a;輸入提示詞創建第 3 步&a…

作業-day-240522

思維導圖 使用IO多路復用實現并發 select實現TCP服務器端 #include <myhead.h>#define SER_IP "192.168.125.112" #define SER_PORT 8888int main(int argc, const char *argv[]) {int sfdsocket(AF_INET,SOCK_STREAM,0);if(sfd -1){perror("socket er…

脆皮之“字符函數與字符串函數”寶典

hello&#xff0c;大家好呀&#xff0c;感覺我之前有偷偷摸魚了&#xff0c;今天又開始學習啦。加油&#xff01;&#xff01;&#xff01; 文章目錄 1. 字符分類函數2. 字符轉換函數3. strlen的使用和模擬實現3.1 strlen 的使用3.1 strlen 的模擬1.計算器方法2.指針-指針的方…

Python的shutil模塊探索,文件操作的瑞士軍刀

hello&#xff0c;大家好&#xff0c;我是一點&#xff0c;專注于Python編程&#xff0c;如果你也對感Python感興趣&#xff0c;歡迎關注交流。 希望可以持續更新一些有意思的文章&#xff0c;如果覺得還不錯&#xff0c;歡迎點贊關注&#xff0c;有啥想說的&#xff0c;可以留…

每周刷題第三期

個人主頁&#xff1a;星紜-CSDN博客 系列文章專欄&#xff1a;Python 踏上取經路&#xff0c;比抵達靈山更重要&#xff01;一起努力一起進步&#xff01; 目錄 題目一&#xff1a;環形鏈表 題目二&#xff1a;刪除有序數組中的重復項 題目三&#xff1a;有效的括號 題…

從左上角到右下角的最小距離和

題目描述&#xff1a;給定一個二維數組matrix&#xff0c;一個人必須從左上角出發&#xff0c;最后到達右下角&#xff0c;沿途只可以向下或者向右走&#xff0c;沿途的數字都累加就是距離累加和&#xff0c;返回最小距離累加和。 way&#xff1a;無他&#xff0c;dp[i] [j]表…

《隊列》

描述 學校體操隊到操場集合&#xff0c;排成每行2人&#xff0c;最后多出1人;排成每行3人&#xff0c;也多出1人。分別排成每行4、5、6人&#xff0c;都多出1人。當排成每行7人時&#xff0c;正好不多,求校體操隊至少多少人。 輸入描述 無 輸出描述 滿足要求的人數 樣例輸入…

Python語法學習之 - 生成器表達式(Generator Expression)

第一次見這樣的語法 本人之前一直是Java工程師&#xff0c;最近接觸了一個Python項目&#xff0c;第一次看到如下的代碼&#xff1a; i sum(letter in target_arr for letter in source_arr)這條語句是計算source 與 target 數組中有幾個單詞是相同的。 當我第一眼看到這樣…

shell遍歷路徑所有文件并把列表寫成字符串遍歷

1. ls dir/* | tr ‘\n’ ’ ’ 換行替換成空格 你可以使用 ls 命令和 tr 命令來將文件列表根據空格拼接起來成一個字符串。以下是一個示例&#xff1a; ls dir/* | tr \n 解釋 ls dir/*&#xff1a;列出 dir 目錄下的所有文件。tr \n &#xff1a;將所有的換行符&#xf…

ChatGPT生成常見面試題【面試準備】

ChatGPT生成常見面試題【面試準備】 前言版權ChatGPT生成常見面試題【面試準備】MySQL面試問題與回答1. 數據庫連接與操作2. 索引和查詢優化3. 事務管理4. 索引是什么&#xff1f;為什么使用索引可以提高查詢性能&#xff1f;如何在MySQL中創建索引&#xff1f;5. SQL查詢優化有…

Varjo XR-4功能詳解:由凝視驅動的XR自動對焦相機系統

Varjo是XR市場中擁有領先技術的虛擬現實設備供應商&#xff0c;其將可變焦距攝像機直通系統帶入到虛擬和混合現實場景中。在本篇文章中&#xff0c;Varjo的技術工程師維爾蒂莫寧詳細介紹了這項在Varjo XR-4焦點版中投入應用的技術。 對可變焦距光學系統的需求 目前所有其他XR頭…

WPF之容器標簽之Canvas布局標簽

Canvas: 定義一個區域&#xff0c;可在其中使用相對于 Canvas 區域的坐標以顯式方式來定位子元素。 實例 可以在子標簽使用Canvas屬性設置定位 <Canvas Width"500" Height"300"><StackPanel Width"100" Height"100"Backgro…

網頁抓取之requests庫的使用

Python網絡數據采集利器 - Requests庫的使用指南 簡介 在Python網絡爬蟲領域,優秀的第三方庫Requests可謂是必學的重要工具。它提供了相當人性化的API,讓我們能夠用極其簡潔的代碼發送HTTP/HTTPS請求,并且自動處理cookies、headers、編碼等諸多繁瑣細節,大大減輕了網頁抓取的…

【pdb的使用方法】

提示&#xff1a;文章寫完后&#xff0c;目錄可以自動生成&#xff0c;如何生成可參考右邊的幫助文檔 文章目錄 一、 pdb 是什么&#xff1f;二、基本用法1.啟動 PDB 調試器&#xff1a;2.單步執行代碼&#xff1a;3.查看變量值&#xff1a;4.退出調試器&#xff1a; 三、高級用…