[DALL·E 2] Hierarchical Text-Conditional Image Generation with CLIP Latents

1、目的

? ? ? ? CLIP + DDPM進行text-to-image生成

2、數據

? ? ? ? (x, y),x為圖像,y為相應的captions;設定z_{i}z_{t}為CLIP的image和text embeddings

3、方法

????????????????????????????????

? ? ? ? 1)CLIP

? ? ? ? ? ? ? ? 學習圖像和文本的embedding;在訓練prior和decoder時固定該部分參數

? ? ? ? 2)prior model?P(z_{i}|y)

? ? ? ? ? ? ? ? 從給定的文本caption(或CLIP text embedding)中生成CLIP image embedding

? ? ? ? ? ? ? ? -> Autoregressive (AR) prior

? ? ? ? ? ? ? ? ? ? ? ? 用PCA對CLIP image embeddings降維(1024 - 319),然后排序和數值化

? ? ? ? ? ? ? ? ? ? ? ? 將text caption和CLIP text embedding編碼為sequence的prefix

? ? ? ? ? ? ? ? -> Diffusion prior

? ? ? ? ? ? ? ? ? ? ? ? decoder-only Transformer

? ? ? ? ? ? ? ? ? ? ? ? casual attention mask with causal attention mask on a sequence (encoded text, CLIP text embedding, embedding for the diffusion timestep, noised CLIP image embedding, final embedding whose output from the Transformer is used to predict the unnoised CLIP image embedding)

? ? ? ? ? ? ? ? ? ? ? ? 同時生成兩個z_{i},選擇與z_{t}的點積更大的那一個

? ? ? ? ? ? ? ? ? ? ? ? 不預測\epsilon,而是直接預測z_{i}

????????????????????????

? ? ? ? 3)CLIP image embedding decoder?P(x|z_{i}, y)

? ? ? ? ? ? ? ? -> 用diffusion models、以CLIP image embeddings作為條件生成圖像(可能會用到text caption)。直接將embedding作為采樣起點效果不佳。

? ? ? ? ? ? ? ? -> 映射和添加CLIP embeddings到existing timestep embedding

? ? ? ? ? ? ? ? -> 將CLIP embedding映射到4個額外的context token中,和GLIDE text encoder的輸出并聯

? ? ? ? ? ? ? ? -> 因為是CLIP image encoder的逆過程,因此本文的方法也被稱為unCLIP

? ? ? ? ? ? ? ? -> 嘗試沿用GLIDE中的text conditioning,但作用不大

? ? ? ? ? ? ? ? -> 訓練細節

? ? ? ? ? ? ? ? ? ? ? ? 10%的概率隨機設置CLIP embedding(或learned embedding)為0,實現classifier-free guidance;50%的概率隨機去除text caption

? ? ? ? ? ? ? ? ? ? ? ? 兩個upsample網絡,64x64 - 256x256 - 1024x1024;第一個上采樣階段采用gaussian blur,第二個上采樣階段采用BSR degradation;訓練時隨機裁剪1/4大小的圖像,推理時則用正常大小;只用spatial convolution,不用attention層;網絡為unconditional ADMNets

? ? ? ? ? ? ? ? -> 備選方案:直接用caption或者text embeddings作為條件,不用prior

4、應用

? ? ? ? 1)non-deterministic,給定一個image embedding,可以生成多個圖像

????????2)通過插值image embedding,可以對生成圖像進行插值

????????????????????????????????????????????????????????????????????

? ? ? ? 3)通過插值text embedding,可以對生成圖像進行插值

????????????????????????????????????????????????????????????????????????????

????????????????????????????????????????????????

? ? ? ? 4)可以有效抵擋CLIP容易受到影響的typographic attack

5、局限性

? ? ? ? 1)對于不同物品和屬性的關聯能力不如GLIDE。因為CLIP embedding本身不關聯物品和屬性,而decoder也會mix up屬性和物品

? ? ? ? 2)無法寫出連貫的文本。因為CLIP本身不編碼拼寫信息,BPE編碼也會模糊單詞的拼寫

? ? ? ? 3)無法生成復雜場景中的細節。因為模型在低分辨率下訓練,然后再上采樣

? ? ? ? 4)生成效果越好,制造欺騙性或有害圖片的能力就更大

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/35440.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/35440.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/35440.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

開放式耳機什么牌子好一點?親檢的幾款開放式藍牙耳機推薦

不入耳的開放式耳機更好一些,不入耳式耳機佩戴更舒適,適合長時間佩戴,不會引起強烈的壓迫感或耳部不適。不入耳式的設計不需要接觸耳朵,比入耳式耳機更加衛生且不挑耳型,因此備受運動愛好者和音樂愛好者的喜愛。這里給…

MySQL中ALTER LOGFILE GROUP 語句詳解

在 MySQL 的 InnoDB 存儲引擎中,ALTER LOGFILE GROUP 語句用于修改重做日志組(redo log group)的配置。重做日志是 InnoDB 用來保證事務持久性的一個關鍵組件,它們用于在系統崩潰后恢復數據。 InnoDB 支持多個重做日志組&#xf…

周轉車配料揀貨方案

根據周轉車安裝的電子標簽,被懸掛的掃碼器掃到墨水屏顯示的二維碼,投屏發送配料揀貨的數據。 方便快捷分揀物料

20240625(周二)歐美股市總結:標普納指止步三日連跌,英偉達反彈6.8%,谷歌微軟新高,油價跌1%

美聯儲理事鮑曼鷹派發聲,若通脹沒有持續改善將支持加息,加拿大5月CPI重新加速,對加拿大央行7月降息構成阻礙。美股走勢分化,道指收跌近300點且六日里首跌,英偉達市值重上3.10萬億美元,芯片股指顯著反彈1.8%…

想要用tween實現相機的移動,three.js渲染的canvas畫布上相機位置一點沒動,如何解決??

🏆本文收錄于「Bug調優」專欄,主要記錄項目實戰過程中的Bug之前因后果及提供真實有效的解決方案,希望能夠助你一臂之力,幫你早日登頂實現財富自由🚀;同時,歡迎大家關注&&收藏&&…

linux 批量mv批量cp | 批量復制粘貼剪切

一、【問題描述】 cp 和 mv這種基本命令,多對一是可以做的 比如 cp /conf/* /despath mv /conf/* /path/bak/ 但是一對多會報錯,加-r參數也會報錯,而且會有問題,不建議這么做,找一臺測試機器你會發現加了-r甚至復制…

每日新聞掌握【2024年6月26日 星期三】

2024年6月26日 星期三 農歷五月廿一 大公司/大事件 OpenAI將終止對中國提供API服務 從6月24日晚間開始,已有多名用戶收到了來自OpenAI的郵件。該郵件表示,“我們的數據顯示您的組織來自OpenAI目前不支持的地區的API流量。”郵件進一步表示,…

高內聚低耦合【代碼:ShoppingCart(一個類中提供多種操作購物車的方法體現高內聚)支付方式接口(信用卡類、微信支付類實現支付接口 體現低耦合)】

高內聚低耦合 ?內聚指的是:?個模塊中各個元素之間的聯系的緊密程度,如果各個元素(語句、程序段)之間的聯系程度越?,則內聚性越?,即 “?內聚”。 低耦合指的是:軟件中各個層、模塊之間的依賴關聯程序越低越好。修…

第1章 物聯網模式簡介---獨特要求和體系結構原則

物聯網用例的獨特要求 物聯網用例往往在功耗、帶寬、分析等方面具有非常獨特的要求。此外,物聯網實施的固有復雜性(一端的現場設備在計算上受到挑戰,另一端的云容量幾乎無限)迫使架構師做出艱難的架構決策和實施選擇。可用實現技…

【自動調參】年化29.3%,最大回撤18.5%?:lightGBM的參數優化

原創文章第570篇,專注“AI量化投資、世界運行的規律、個人成長與財富自由"。 研報復現繼續:【研報復現】年化27.1%,人工智能多因子大類資產配置策略之benchmark 昨天調了一版參數,主要是lambda_l1, lambda_l2,防…

Vmvare12安裝CentOS7.6

Vmvare12安裝 注意事項 安裝完成以后有這兩個虛擬網卡。 CentOS官網鏡像地址 https://www.centos.org/download/mirrors/Vmvare安裝CentOS7.6 創建虛擬機 安裝CentOS7.6 選擇桌面版 磁盤分區 上述是確認使用自動分區。 設置密碼 設置license information 歡迎頁面 CentOS7…

使用Python實現網頁數據獲取與處理:以財經新聞為例

在現代數據驅動的世界中,獲取并處理豐富的網頁數據是非常重要的技能。本文將介紹如何使用Python編寫一個程序,自動獲取財經新聞數據并進行處理。這不僅可以幫助我們快速獲取最新的財經信息,還可以為后續的數據分析和研究提供支持。 環境準備…

寶蘭德受邀出席華為開發者大會2024,攜手共繪基礎軟件新篇章

6月21日-23日,華為開發者大會(HDC 2024)在東莞松山湖舉行,作為全球開發者的年度盛會,本次大會匯聚了眾多業界精英與前沿技術。華為分享了HarmonyOS、盤古大模型、昇騰AI云服務、GaussDB數據庫、自研倉頡編程語言等最新…

微信小程序錄音

微信小程序的錄音功能通過一組API來實現,主要涉及錄音管理器(RecorderManager)的使用。下面是詳細的實現步驟和代碼示例: 初始化錄音管理器 首先需要獲取錄音管理器的實例,可以通過 wx.getRecorderManager() 方法來獲…

【IM即時通信 功能介紹】客戶端用戶在線狀態訂閱

本文檔旨在介紹客戶端用戶在線狀態訂閱功能,該功能允許開發者通過 SDK 接口實時監控和接收指定用戶的在線或離線狀態變更通知。這一功能對于需要實時交流、狀態同步或用戶活動監控的應用場景至關重要。 功能特點 實時狀態通知 跨平臺通知:訂閱成功后&…

使用 MediaPipe 實現實時手部追蹤和手勢識別 | Rerun展示

點擊下方卡片,關注“小白玩轉Python”公眾號 在本文中,我將展示一個使用 MediaPipe Python 和 Rerun SDK 進行手部追蹤和手勢識別的示例。如果您有興趣深入了解并擴展您的知識,我將指導您如何安裝 MediaPipe Python 和 Rerun SDK 來進行手部追…

深入Scala的變量聲明與類型推斷:語法糖下的智能推導

Scala是一種靜態類型語言,以其強大的類型推斷系統而聞名。變量聲明和類型推斷是Scala編程中的基礎概念,它們共同簡化了代碼的編寫并提高了開發效率。本文將深入探討Scala中變量聲明的語法規則和類型推斷的工作原理。 1. Scala靜態類型的優越性 靜態類型…

深入理解Python中的*和**在函數參數與調用中的奧秘

深入理解Python中的*和**在函數參數與調用中的奧秘 在Python編程中,*和**這兩個操作符在函數參數和函數調用中扮演著特殊的角色。它們分別用于處理位置參數(positional arguments)和關鍵字參數(keyword arguments)&am…

Linux部署SVN

一.下載與安裝 (1)yum安裝 yum install subversion (2)源文件編譯安裝 ①下載svn源文件 subversion-xxx.tar.gz(subversion 源文件) subversion-deps-xxx.tar.gz(subversion依賴文件&…

RAG項目工期

工期 第一期,基于term的檢索,大模型生成 第二期,搭建前端界面,落地 上傳pdf,一鍵解析,上傳多個pdf 提問 第三期,使用向量檢索,向量數據庫選型 第四期,優化排序。 te…