DiffiT

本文首發于AIWalker,歡迎關注。

alt

https://arxiv.org/abs/2312.02139
https://github.com/NVlabs/DiffiT

擴散模型以其強大的表達能力和高樣本質量在許多領域得到了新的應用。對于樣本生成,這些模型依賴于通過迭代去噪生成圖像的去噪神經網絡。然而,去噪網絡架構的作用并沒有得到很好的研究,大多數工作都依賴于卷積殘差U-Nets。
本文研究了視覺transformer在基于擴散的生成學習中的有效性。本文提出一種新模型,稱為擴散視覺transformer (DiffiT),由一個具有U形編碼器和解碼器的混合分層架構組成。本文提出一種新的依賴時間的自注意力模塊,允許注意力層以有效的方式自適應其在去噪過程的不同階段的行為
此外,本文還提出了LatentDiffiT,由transformer模型和所提出的自注意力層組成,用于高分辨率圖像生成。結果表明,DiffiT在生成高保真圖像方面驚人地有效,并在各種類條件和無條件合成任務中實現了最先進的(SOTA)基準。在潛空間中,DiffiT在ImageNet256數據集上取得了新的SOTA FID分數1.73

alt

本文方案

alt

上圖為本文所提DiffIT整體架構示意圖,很明顯,核心是所提DiffiT ResBlock,故我們僅對該核心模塊進行簡要介紹。

alt

上圖為DiffiT模塊示意圖,可以描述如下:

關于TMSA,在每一層,我們的transformer塊接收{xs},一組標記在其輸入中空間上排列在2D網格上。它還接收xt,這是表示時間步長的時間標記。通過將位置時間嵌入提供給具有swish激活的小型MLP來獲得時間標記[19]。這次令牌被傳遞到我們的去噪網絡中的所有層。本文提出了時間依賴的多頭自注意力,通過在共享空間中投影特征和時間標記嵌入來捕捉長程空間和時間依賴性。具體來說,共享空間中的時間依賴查詢q、鍵k和值v是 通過空間和時間嵌入的線性投影xs和xt via計算

alt

key、query和value都是時間和空間token的線性函數,它們可以針對不同的時間步長自適應地修改注意力的行為。

alt

圖像空間

DiffIT結構 DiffiT使用對稱的u型編碼器-解碼器架構,其中收縮和擴展路徑在每個分辨率上通過跳躍連接相互連接。編碼器或解碼器路徑的每個分辨率由L連續的DiffiT塊組成,其中包含所提出的時間依賴的自注意力模塊。在每條路徑的開始,對于編碼器和解碼器,使用一個卷積層來匹配特征圖的數量。此外,卷積上采樣或下采樣層還用于每個分辨率之間的過渡。我們推測,這些卷積層的使用嵌入了可以進一步提高性能的歸納圖像偏差。在本節的其余部 分,我們討論了DiffiT Transformer塊和提出的時間依賴自注意力機制。在構建u型去噪架構時,使用所提出的Transformer塊作為殘差單元。

DiffiT ResBlock 通過將所提出的DiffiT Transformer塊 與額外的卷積層相結合,定義最終的殘差單元:

alt

潛空間

潛擴散模型被證明可以有效地生成高質量的大分辨率圖像。在圖4中,我們展示了隱DiffiT模型的架構。我們首先使用預訓練的變分自編碼器網絡對圖像進行編碼,然后將特征圖轉換為不重疊的塊并投影到新的嵌入空間。與DiT模型[52]類似,我們使用視覺transformer,沒有上采樣或下采樣層,作為潛空間中的去噪網絡。此外,還利用三通道無分類器指導來提高生成樣本的質量。架構的最后一層是一個簡單的線性層,用于對輸出進行解碼。

alt

本文實驗

alt

alt DiffiT在CIFAR- 10數據集上取得了最先進的圖像生成FID分數1.95, 超 過 了EDM [34]和LSGM [69]等 最 先 進 的 擴 散 模 型 。 與 最 近 的 兩 個 基 于vit的 擴 散 模 型 相 比 , 所 提出的DiffiT在CIFAR-10數據集上的FID分數明顯優 于U-ViT [7]和GenViT [76]模 型 。 此 外 , 就FID分 數 而言,DiffiT在VP和VE訓練配置方面明顯優于EDM [34]和ddpm++ [66]模型。在圖5中,我們對FFHQ-64數 據集上生成的圖像進行了說明。

alt
alt
  • 在ImageNet-256數據集中, 潛在DiffiT模型在FID分數方面優于MDT-G [21]、DiTXL/2-G [52]和StyleGAN-XL [61]等競爭方法,并設 置了新的SOTA FID分數為1.73。在IS和sFID等其他 指 標 方 面 , 潛DiffiT模 型 表 現 出 了 有 競 爭 力 的 性 能 , 從 而 表 明 了 所 提 出 的 時 間 依 賴 自 注 意 力 的 有 效 性 。
  • 在ImageNet-512數 據 集 中 , 隱DiffiT模 型 在FID和Inception分數(IS)方面明顯優于DiT-XL/2-G。 盡管StyleGAN-XL [61]在FID和IS方面顯示了更好的 性能,但眾所周知,基于gan的模型存在多樣性低 的問題,這些問題無法被FID分數捕獲。這些問題 反映在StyleGAN-XL在準確率和召回率方面的次優 性能上。
  • 此外,在圖6中,我們展示了在ImageNet- 256和ImageNet-512數據集上生成的未策劃圖像的可視 化。潛DiffiT模型能夠在不同的類別中生成各種高質量 的圖像。

本文由 mdnice 多平臺發布

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/212553.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/212553.shtml
英文地址,請注明出處:http://en.pswp.cn/news/212553.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SAP UI5 walkthrough step8 Translatable Texts

在這個章節,我們會將一些文本常量獨立出一個資源文件 這樣的話,可以方便這些文本常量被翻譯成任意的語言 這種國際化的操作,我們一般命名為i18n 新建一個文件i18n.properties webapp/i18n/i18n.properties (New) showHelloButtonTextSay …

vue3項目實現文檔 JSON 格式和 Excel 表格的在線預覽,(智能搜索,未驗證)

若要實現文檔 JSON 格式和 Excel 表格的在線預覽,你可以使用第三方庫來實現。對于文檔 JSON 格式,你可以使用 vue-json-pretty 庫來展示美觀的 JSON 數據;對于 Excel 表格,你可以使用 vue-excel-viewer 庫來完成在線預覽。下面是一…

Java、Spring Boot和事務管理

引言 在現代應用程序開發中,確保數據的一致性和可靠性是至關重要的。Java作為一種強大的編程語言,通過其廣泛的生態系統和強大的庫支持,為開發人員提供了構建高性能應用程序的豐富工具。Spring Boot是一個基于Spring框架的項目,它…

圖像的均方差和信噪比計算

圖像的均方差和信噪比計算 一、均方差1、公式2、代碼 二、信噪比1、公式2、代碼 圖像的均方差和信噪比公式及代碼,代碼基于opencv和C實現。 一、均方差 均方誤差,英文簡稱:MSE,英文全稱:“Mean Square Error”。 衡量…

接口測試-Jmeter使用

一、線程組 1.1 作用 線程組就是控制Jmeter用于執行測試的一組用戶 1.2 位置 右鍵點擊‘測試計劃’-->添加-->線程(用戶)-->線程組 1.3 特點 模擬多人操作線程組可以添加多個,多個線程組可以并行或者串行取樣器(請求)和邏輯控制器必須依賴線程組才能…

「Verilog學習筆記」多bit MUX同步器

專欄前言 本專欄的內容主要是記錄本人學習Verilog過程中的一些知識點,刷題網站用的是牛客網 輸入數據暫存在data_reg中,使能信號data_en用打兩拍的方式跨時鐘域傳輸到時鐘域B,最后data_out根據使能信號更新數據。data_en信號在A時鐘域用一個D…

Redis | Redis入門學習介紹及常見原理剖析

關注wx:CodingTechWork Redis介紹 概述 Redis是NoSQL,是key-value分布式內存數據庫。 緩存 緩存是將數據從慢的介質換到快的介質上,提高讀寫效率和性能,并降低數據庫的讀寫成本。內存的速度一般都遠遠大于硬盤的速度&#xf…

三個臭皮匠(ctr,nerdctl,crictl)頂一個諸葛亮(docker)

文章目錄 containerd簡介 nerdctl簡介安裝精簡 Minimal 安裝完整Full 安裝啟動服務 命令參數容器運行容器列出容器詳情容器日志容器進入容器停止容器刪除鏡像列表鏡像拉取鏡像標簽鏡像導出鏡像導入鏡像刪除鏡像構建配置tab鍵配置加速配置倉庫http方式https方式 ctr簡介命令參數…

12、虛函數的應用、虛析構函數

12、虛函數的應用、虛析構函數 運行時類型信息(RTTI)動態類型轉換(dynamic_cast)typeid操作符 虛 析構函數空虛析構函數 一個類中,除了構造函數和靜態成員函數外,任何函數都可以被聲明為虛函數 運行時類型信息(RTTI) 動態類型轉換(dynamic_cast) 用于…

AMC8美國數學競賽歷年真題集在線練習操作指南和2024年備考建議

今天是2023年12月10日,距離2024年的AMC8美國數學競賽的舉辦還有40天時間。據六分成長了解,有一些孩子報名參加了AMC8的機構培訓班系統學習,也有一些孩子選擇了自己自學備考。 有家長問AMC8的培訓是否一定要參加機構的培訓班學習?…

基于SpringBoot+thymeleaf協同過濾算法山河旅游推薦系統(Java畢業設計)

大家好,我是DeBug,很高興你能來閱讀!作為一名熱愛編程的程序員,我希望通過這些教學筆記與大家分享我的編程經驗和知識。在這里,我將會結合實際項目經驗,分享編程技巧、最佳實踐以及解決問題的方法。無論你是…

windows端口被占用怎么辦 怎么關閉那個占用的端口

目錄 這是出現的情況怎么解決了1.請打開這玩意2.輸入下面---查詢 先關端口的信息根據id獲得服務 上圖的8888 對應的ip 上圖就是134243.殺死進程134244.重啟服務 這是出現的情況 怎么解決了 1.請打開這玩意 2.輸入下面—查詢 先關端口的信息 netstat -ano過濾信息查詢想要的端…

JavaScript將函數作為參數傳入

其他函數中,是一種常見的編程技巧,稱為回調函數。在 JavaScript 中,函數被視為一等公民,也就是說,它們可以像任何其他類型的值一樣被傳遞、分配和操作。 示例: function greet(name) {console.log(Hello …

央企國企相關

文章目錄: 一:央企國企的區別 二:分類 三:相關 1.考什么 2.有什么崗位 3.什么時候考 4.去哪里報名和查看信息 5.喜歡招聘什么專業 6.其他疑問 一:央企國企的區別 央企國企一共有47萬多個(央企131個…

【8.0.34-0 ubuntu 安裝Mysql 后無法鏈接是什么情況】

8.0.34-0 ubuntu 安裝Mysql 后無法鏈接是什么情況 檢查日志解決辦法 檢查日志 如果檢查一下帳號密碼沒問題看一下日志: Plugin mysql_native_password reported: mysql_native_password is deprecated and will be removed in a future release. Please use cachi…

java中的context對象?

java中的context對象? 大家好,我是微賺淘客系統的小編,也是冬天不穿秋褲,天冷也要風度的程序猿!今天,我們將深入研究Java中的神秘利器——Context對象。在Java開發中,Context對象扮演著重要的角…

排序算法之六:快速排序(遞歸)

快速排序的基本思想 快速排序是Hoare于1962年提出的一種二叉樹結構的交換排序方法 其基本思想為: 任取待排序元素序列中的某元素作為基準值,按照該排序碼將待排序集合分割成兩子序列,左子序列中所有元素均小于基準值,右序列中所…

《深入理解計算機系統》學習筆記 - 第四課 - 浮點數

Floating Point 浮點數 文章目錄 Floating Point 浮點數分數二進制示例能代表的數浮點數的表示方式浮點數編碼規格化值規格化值編碼示例 非規格化的值特殊值 示例IEEE 編碼的一些特殊屬性四舍五入,相加,相乘四舍五入四舍五入的模式二進制數的四舍五入 浮…

【Qt5】setWindowFlags的標志有哪些?

2023年12月9日,周六晚上 窗口類型: Widget(0x00000000):普通窗口部件。Window(0x00000001):標準窗口。Dialog(0x00000002 | Window):對話框&#…

UI自動化Selenium 鼠標滑動懸停到指定元素

ActionChains執行原理 他是按照設計好的動作順序鏈式執行; 當調用ActionChains的方法時,不會立即執行,只是將要做的動作安裝順序存放在隊列中;當調用perform()方法時,隊列中的方法會依次執行; from sele…