[23] Self-conditioned Image Generation via Generating Representations

[paper | code]

  • 用生成對象本身作為控制信號,實現無條件圖像生成。
  • 訓練階段。Step1:用預訓練模型(例如:Moco v3)提取生成對象的特征編碼;Step2:基于特征編碼,訓練一個擴散模型RDM;Step3:基于特征編碼,和大量圖片,訓練一個圖像生成器(例如:MAGE);
  • 推理階段。從RDM從采樣圖像特征作為控制信號,生成圖片;或者生成參考圖像的特征編碼作為控制信號,生成圖片。
  • 優點:無需人類標注標簽,實現接近使用標簽的生成模型的能力。

目錄

摘要

引言

方法

實驗結果

Class-unconditioned Generation

Classifier-free Guidance

Ablations

Compuational Cost

Qualitative Results


摘要

  • 提出一種無條件圖像生成框架Representation-Conditioned image Generation (RCG);
  • RCG的控制信號來自自監督表征分布,該分布是預訓練編碼器對圖片處理得到;
  • 生成過程中,RCG使用representation diffusion model (RDM) 從該分布中采樣,作為控制條件生成圖像;
  • 在ImageNet 256 x 256分辨率下測試,RCG去得了Frechet Inception Distance (FID) 3.31和Inception Score (IS) 253.4的成績,顯著改善無條件圖像生成方法,縮小了與有條件圖像生成方法的差距。

引言

  • 使用圖片本身特征作為控制信號的優點:1)更直觀:藝術家是先形成抽象概念,再形成作品;2)更多數據:無條件圖像生成使得可用的訓練數據變多;3)無需標注:適合分子設計和藥物探索。
  • 本文首先使用自監督圖片編碼器(例如:Moco v3),計算圖像特征;其次,用Representation Diffusion Model (RDM) 學習圖像特征分布。這樣做的優點在于:1)RDM可以捕捉圖像特征分布的多樣性;2)圖像特征維度較低,降低計算開銷。
  • 生成過程:RDM采樣圖像特征分布作為控制信號,pixel generator生成圖像。

方法

RCG包含3個關鍵部分:1)預訓練自監督圖像編碼器;2)圖像表征生成器;3)圖像生成器。

  • 圖像編碼器:本文使用自監督對比學習方法Moco v3作為圖像編碼器。本文使用映射頭(projection head)后的256維表征,每個表征基于其均值和方差歸一化。
  • 圖像表征生成器:RDM如下圖所示,每個塊包含輸入層(input layer)、時間編碼映射層(timestep embedding projection layer)和輸出層(output layer)。每層包含LayerNorm、SiLU和線性層。圖像表征生成器通過兩個參數控制:塊數量N和中間特征維度C。

如下圖所示,RDM遵循DDIM做訓練和推理。圖片特征z_0,添加噪聲得到z_t=\sqrt{\alpha_t}z_0 + \sqrt{1-\alpha_t}\epsilon;RDM的訓練目標是預測去噪結果z_0

  • 圖像生成器:如下圖所示,可以使用任意圖像生成器,唯一修改是把原有的控制條件,例如文本或分類標簽,替換為self-supervised learning (SSL) 表征。訓練時,輸入masked image,輸出完整圖像;推理時輸入為全部mak掉的圖片,輸出完整圖像。訓練和推理時都用圖像編碼作為控制信號。

Classifier-free Guidance:RCG遵循Muse實現classifier-free guidance。訓練時,MAGE有10%的概率,在不受SSL表征控制下生成。推理時,MAGE預測不受SSL表征控制的輸出l_u和受表征控制的l_c,最終預測為l_g=l_c+\tau(l_c-l_u)

實驗結果

生成了50K圖像做測試

Class-unconditioned Generation

Classifier-free Guidance

Ablations

Compuational Cost

Qualitative Results

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/213920.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/213920.shtml
英文地址,請注明出處:http://en.pswp.cn/news/213920.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

pycharm手動安裝包

1.下載對應的包 TTS PyPI 2.手動解壓,找到文件放到pycharm對應項目的lib文件夾中 以TTS包為例,找到下載并解壓的包中的2個文件,一個名稱一個info結尾 3.放到項目的lib文件夾中 eg:路徑;C:\doc\myProject\speaker\venv…

前端知識(十四)——淺談用戶體驗測試的主要功能

用戶體驗(User Experience,簡稱UX)在現代軟件和產品開發中變得愈發重要。為了確保產品能夠滿足用戶期望,提高用戶滿意度,用戶體驗測試成為不可或缺的環節。本文將詳細探討用戶體驗測試的主要功能,以及它在產品開發過程中的重要性 …

Android View的 getHeight 和 getMeasuredHeight 的區別

前言 先簡單復習一下Android View 的 繪制順序: 1、onMeasure(測量),先根據構造器傳進來的LayoutParams(布局參數),測量view寬高。 2、onLayout(布局),再根…

SQL進階 | 自連接

概述 SQL的自連接是指在一個SQL表中,使用自身表格中的實例進行聯接并查詢的操作。自連接通常使用別名來標識一個表格,在自連接中,表格被視為兩個不同的表格,并分別用不同的別名來標識。然后,在WHERE子句中使用這些別名…

oracle異常:ORA-03297:文件包含在請求的 RESIZE 值以外使用的數據

出現這個問題&#xff0c;主要是在對表空間擴容的時候&#xff0c;擴容的大小<實際數據文件大小 1、擴容的語句 alter database datafile D:\APP\ADMINISTRATOR\ORADATA\ORCL\USER.DBF resize 2G; 2、若何確定擴容大小是否比實際文件大 根據路徑找到文件&#xff0c;查看…

二十、FreeRTOS之Tickless低功耗模式

本節需要掌握以下內容&#xff1a; 1&#xff0c;低功耗模式簡介&#xff08;了解&#xff09; 2&#xff0c; Tickless模式詳解&#xff08;熟悉&#xff09; 3&#xff0c; Tickless模式相關配置項&#xff08;掌握&#xff09; 4&#xff0c;Tickless低功耗模式實驗&…

自定義異步任務管理器和線程

import com.lancoo.common.utils.Threads; import com.lancoo.common.utils.spring.SpringUtils;import java.util.TimerTask; import java.util.concurrent.ScheduledExecutorService; import java.util.concurrent.TimeUnit;/*** 異步任務管理器* * author lancoo*/ public c…

操作系統大會 openEuler Summit 2023即將召開,亮點不容錯過

【12月11日&#xff0c;北京】數字化、智能化浪潮正奔涌而來。操作系統作為數字基礎設施的底座&#xff0c;已經成為推動產業數字化、智能化發展的核心力量&#xff0c;為數智未來提供無限可能。12月15-16日&#xff0c;以“崛起數字時代 引領數智未來”為主題的操作系統大會 &…

〖Python網絡爬蟲實戰?〗- 極驗滑塊介紹(四)

訂閱&#xff1a;新手可以訂閱我的其他專欄。免費階段訂閱量1000 python項目實戰 Python編程基礎教程系列&#xff08;零基礎小白搬磚逆襲) 說明&#xff1a;本專欄持續更新中&#xff0c;訂閱本專欄前必讀關于專欄〖Python網絡爬蟲實戰〗轉為付費專欄的訂閱說明作者&#xff1…

【ArcGIS Pro微課1000例】0049:根據坐標快速定位(創建點位)的常見方法

文章目錄 一、轉到XY1. 閃爍位置2. 平移3. 標記位置二、定位1. 坐標定位2. 添加到圖形3. 添加至要素類三、添加XY坐標四、創建點要素一、轉到XY 舉例:經緯度坐標:113.2583286東, 23.1492340北 。 1. 閃爍位置 輸入坐標,點擊閃爍位置工具,即可在對應的位置出現一個綠色閃爍…

SQL注入漏洞利用

預計更新SQL注入概述 1.1 SQL注入攻擊概述 1.2 SQL注入漏洞分類 1.3 SQL注入攻擊的危害 SQLMap介紹 2.1 SQLMap簡介 2.2 SQLMap安裝與配置 2.3 SQLMap基本用法 SQLMap進階使用 3.1 SQLMap高級用法 3.2 SQLMap配置文件詳解 3.3 SQLMap插件的使用 SQL注入漏洞檢測 4.1 SQL注入…

shiro入門demo

搭建springboot項目&#xff0c;引入以下依賴&#xff1a; <dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><!--單元測試--><depe…

集的增刪操作

集是可以修改的&#xff0c;增加元素可以用add和update函數。刪除可以用pop、discard、remove等函數。 1 增加集里的元素 add函數的參數視為一個整體插入到集里&#xff0c;而update函數傳入的參數是把要傳入的元素拆分&#xff0c;做為個體傳入到集合中。 s set("hell…

.9.png的創建

1、創建.9.png 選中圖片&#xff0c;右擊&#xff0c;選擇Create 9-Patch file&#xff0c;點擊確定會生成一個xxx.9.png的圖片 2、繪制拉伸區域 在圖片的最外邊界繪制拉伸區域&#xff0c;按住鼠標左鍵不放&#xff0c;繪制完成后保存就可以使用了。繪制結果示意如下&…

phpstudy小皮(PHP集成環境)下載及使用

下載 https://www.xp.cn/download.html直接官網下載即可&#xff0c;下載完解壓是個.exe程序&#xff0c;直接點擊安裝就可以&#xff0c;它會自動在D盤目錄為D:\phpstudy_pro 使用 phpMyAdmin是集成的數據庫可視化&#xff0c;這里需要下載一下&#xff0c;在軟件管理-》網站程…

OPPO怎么錄屏?教程來了,讓你成為錄屏達人

“有人知道OPPO怎么錄屏嗎&#xff0c;前陣子剛買的OPPO手機&#xff0c;用起來感覺挺流暢的&#xff0c;功能也很齊全&#xff0c;最近因為工作原因&#xff0c;需要用到錄屏功能&#xff0c;但是我不知道怎么打開&#xff0c;就想問問大伙&#xff0c;OPPO怎么錄屏呀。” 在…

Redis分片集群一步一步全過程搭建

文章目錄 Redis搭建分片集群1. 搭建的分片集群結構2.準備實例和配置&#xff08;1&#xff09;創建目錄&#xff08;2&#xff09;創建配置文件&#xff08;3&#xff09;將這個文件拷貝到每個目錄下&#xff08;4&#xff09;修改每個目錄下的redis.conf&#xff0c;將其中的6…

Yocto 還是 Buildroot,構建自定義嵌入式系統時,您會選擇哪一種?

假設您正在采用集成平板開發新一代大型智能微波爐。這個創意不錯吧&#xff01;現在&#xff0c;您需要構建自定義操作系統&#xff0c;在保證不會燒焦食物&#xff08;更不要燒毀房屋哦&#xff09;的前提下&#xff0c;輔助管理各項事務。除此之外&#xff0c;您還需要創建一…

px? pt? dp? em?rem?vw?vh?ch?ex?這些單位你了解嗎?

目錄 前言 一、常見單位 1、px單位 2、dp單位 3、pt單位 4、百分比% 5、em單位 6、rem單位 7、vw和vh單位 8、ch、ex單位 二、如何換算 1、 pt和px換算 2、px和dp換算 3、em和px換算 4、rem和px換算 三、總結 前言 前端開發在日常設計中除了最常用的 px 以外&…

第二十八章 控制到 XML 模式的映射 - 流類到 XML 類型的映射

文章目錄 第二十八章 控制到 XML 模式的映射 - 流類到 XML 類型的映射將集合屬性映射到 XML 模式 第二十八章 控制到 XML 模式的映射 - 流類到 XML 類型的映射 如果類或屬性基于流&#xff0c;則它將投影為 XML 類型&#xff0c;如下表所示&#xff1a; IRIS 流的 XML 類型 …