【生成式AI】ProlificDreamer論文閱讀

ProlificDreamer 論文閱讀

Project指路:https://ml.cs.tsinghua.edu.cn/prolificdreamer/
論文簡介:截止2023/8/10,text-to-3D的baseline SOTA,提出了VSD優化方法

前置芝士:text-to-3D任務簡介

text-to-3D Problem

text-to-3D 解決的問題就是給定一段話,生成視角一致的3D場景,如果了解過這個領域的可以略過不看

在這里插入圖片描述

研發路線大概是dreamfeild->dreamfusion->polificdreamer

Diffusion Model

text-to-image領域Diffusion Model很厲害,所以基本上就是Extend Diffusion Model to 3D,想看Diffusion Model簡介可以看我之前的博文:

生成模型的Basic Idea就是真實圖片作為隨機分布,每個text是條件。

  • Diffusion Model訓練出了一個條件分布 p ( x ∣ y ) p(\mathbf x|y) p(xy),x是圖片,y是條件(text),其Loss Function可以表達為 L D i f f ( ? ) : = E x 0 ~ q ( x 0 ) , t ~ U ( 0 , 1 ) , ? ~ N ( 0 , 1 ) [ w ( t ) ∥ ? ? ( α t x 0 + σ t ? ) ? ? ∥ 2 2 ] \mathcal L_{Diff}(\phi) := \mathbb E_{x_0\sim q(x_0),t\sim \mathcal U(0,1),\epsilon \sim \mathcal N(0,1)}[w(t)\|\epsilon_\phi(\alpha_tx_0+\sigma_t\epsilon)-\epsilon\|^2_2] LDiff?(?):=Ex0?q(x0?),tU(0,1),?N(0,1)?[w(t)???(αt?x0?+σt??)??22?]

text-to-3D 基本思路

  • θ \theta θ是3D表達的參數, c c c是參數,那么3D渲染的本質是 x = g ( θ , c ) \mathbf{x}=g(\theta, c) x=g(θ,c),如果過程是可微的,稱為DIP(differentiable image parameterization)
  • 對于2D, x 0 ~ q ( x 0 ) x_0\sim q(x_0) x0?q(x0?)代表Sample過程,是真實圖片的分布,而text-to-3D就是把Loss變成 L D i f f ( ? , x = g ( θ , c ) ) \mathcal L_{Diff}(\phi,\mathbf{x}=g(\theta, c)) LDiff?(?,x=g(θ,c)),去優化 θ \theta θ

Prolific Dreamer Basic Idea

符號

  • prolific dreamer這篇文章進一步研究,認為一個合理的3D表達也是一個分布,也就是 θ ~ μ ( θ ∣ y ) \theta\sim \mu(\theta|y) θμ(θy)
  • 渲染出來的圖片: q 0 μ ( x 0 ∣ c , y ) : = ∫ q 0 μ ( x 0 ∣ c , y ) p ( c ) d c q_0^\mu(x_0|c,y):=\int q_0^\mu(x_0|c,y)p(c)dc q0μ?(x0?c,y):=q0μ?(x0?c,y)p(c)dc
  • diffusion model渲染出來的圖片: p 0 ( x 0 ∣ y ) p_0(x_0|y) p0?(x0?y)

優化目標

優化一個參數分布,使得它和Diffusion Model生成的結果接近(pretrained)
min ? μ D K L ( q 0 μ ( x 0 ∣ y ) ∥ p 0 ( x 0 ∣ y ) ) \min_\mu D_{KL}(q_0^\mu(x_0|y)\| p_0(x_0|y)) μmin?DKL?(q0μ?(x0?y)p0?(x0?y))

算法

Loss Function

根據上述優化目標,可以提出如下的Loss

BTW,為什么這個等號成立我是不太理解的(原論文說是KL Divergence的性質),占個坑

我認為這個步驟其實就是cover Diffusion Model的步驟, q t μ ( x t ∣ y ) : = ∫ q 0 μ ( x 0 ∣ c , y ) p t 0 ( x t ∣ x 0 ) d x 0 q_t^\mu(x_t|y):=\int q_0^\mu(x_0|c,y)p_{t0}(x_t|x_0)dx_0 qtμ?(xt?y):=q0μ?(x0?c,y)pt0?(xt?x0?)dx0?,也就是給定camera,把某張圖片渲染出來之后拿去上t步高斯噪聲的分布,讓這個分布和Diffsuion Model 第t步的圖片分布盡可能接近。

這已經是一個非常形式化的優化目標了。接下來考慮優化手段。

Optimization

采用Wasserstein gradient flow of VSD,簡單理解就是,用 { θ } i = 1 n \set\theta_{i=1}^n {θ}i=1n?這n個參數“粒子”去模擬 μ ( θ ∣ y ) \mu(\theta|y) μ(θy),然后優化的時候就是優化每個粒子參數。

基于此,問題轉化解如下的一個ODE:
在這里插入圖片描述
第一項是Diffusion Model生成的帶噪音的真實圖片的score function,所以它由預訓練好的 ? p r e t r a i n ( x t , t , y ) \epsilon_{pretrain}(x_t,t,y) ?pretrain?(xt?,t,y)生成
第二項是渲染出來圖片生成的帶噪聲的圖片的score function,它由根據一個新網絡 ? ? ( x t , t , c , y ) \epsilon_\phi(x_t,t,c,y) ???(xt?,t,c,y)生成,這個網絡采用LoRA 技術,微調 ? p r e t r a i n \epsilon_{pretrain} ?pretrain?再embedding一個c進去。

所以進一步轉化:
在這里插入圖片描述
并得到了如下的算法

在這里插入圖片描述
在這里插入圖片描述
這篇文章的做法到這里介紹完畢。

數學原理

占坑代填,孩子暫時不會泛函推不了

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/36424.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/36424.shtml
英文地址,請注明出處:http://en.pswp.cn/news/36424.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

解決校園網使用vmware橋接模式,虛擬機與物理機互相ping通,但是虛擬機ping不通百度的問題

遇到的問題 使用校園網時,橋接模式下,物理機可以ping通虛擬機,但是虛擬機ping不通主機 解決方法 在物理機中查看網絡相關信息 ipconfig 修改虛擬機網卡信息 vim /etc/sysconfig/network-scripts/ifcfg-ens33 注意 /ifcfg-ens33需要根據…

C++ QT(一)

目錄 初識QtQt 是什么Qt 能做什么Qt/C與QML 如何選擇Qt 版本Windows 下安裝QtLinux 下安裝Qt安裝Qt配置Qt Creator 輸入中文配置Ubuntu 中文環境配置中文輸入法 Qt Creator 簡單使用Qt Creator 界面組成Qt Creator 設置 第一個Qt 程序新建一個項目項目文件介紹項目文件*.pro樣式…

微信記錄---推薦系統---23/8/14 小總結

推薦系統---23/8/14 小總結 1. ACM推薦系統專題研討會2.圖神經網絡推薦系統3.表1 模型效果對標:MovieLens 1M4.爬蟲技術5.TF-IDF算法6.圖 2 海量學術大數據推薦系統技術架構7.圖 4 CADAL 平臺推薦系統框架設計8.企業推薦系統發展概述MLR(Mixed Logistic Regression)DIEN(Deep…

SpringBoot啟動報錯:java: 無法訪問org.springframework.boot.SpringApplication

報錯原因:jdk 1.8版本與SpringBoot 3.1.2版本不匹配 解決方案:將SpringBoot版本降到2系列版本(例如2.5.4)。如下圖: 修改版本后切記刷新Meavn依賴 然后重新啟動即可成功。如下圖:

3.4 網絡安全管理設備

數據參考:CISP官方 目錄 IDS (入侵檢測系統)網絡安全審計漏洞掃描系統VPN(虛擬專網)堡壘主機安全管理平臺 一、IDS (入侵檢測系統) 入侵檢測系統(IDS)是一種網絡安全設備,用于監測和檢測網絡中的入侵行…

樹莓派3B CSI攝像頭配置

1.硬件連接 1、找到 CSI 接口(樹莓派3B的CSI接口在HDMI接口和音頻口中間),需要拉起 CSI 接口擋板,如下: 2、將攝像頭排線插入CSI接口。記住,有藍色膠帶的一面應該面向音頻口或者網卡方向, 確認方向并插緊排線,將擋板…

【Linux】磁盤或內存 占用比較高要怎么排

當 Linux 磁盤空間滿了時 請注意,在進行任何刪除操作之前,請確保你知道哪些文件可以安全刪除,并備份重要文件,以免意外丟失數據。當 Linux 磁盤空間滿了時,可以按照以下步驟進行排查: 檢查磁盤使用情況&…

華為OD面試(部分)

筆試與性格測驗 一面 問題和算法題都挺簡單的 二面 Java內存泄漏 算法題思路不對,沒寫完只說了下思路:Leetcode516. Longest Palindromic Subsequence hr面(資面) 最后告訴我hr面掛了。其實這不是最重要的,因為還…

計算機競賽 python 機器視覺 車牌識別 - opencv 深度學習 機器學習

1 前言 🔥 優質競賽項目系列,今天要分享的是 🚩 基于python 機器視覺 的車牌識別系統 🥇學長這里給一個題目綜合評分(每項滿分5分) 難度系數:3分工作量:3分創新點:3分 🧿 更多資…

【設計模式】建造者模式

建造者模式(Builder Pattern)使用多個簡單的對象一步一步構建成一個復雜的對象。這種類型的設計模式屬于創建型模式,它提供了一種創建對象的最佳方式。 一個 Builder 類會一步一步構造最終的對象。該 Builder 類是獨立于其他對象的。 介紹 …

微信小程序:Mobx的使用指南

簡要 微信小程序中有時需要進行全局狀態管理,這個時候就需要用到Mobx.下面我們來看一下在小程序中是如何使用Mobx的 安裝 pnpm i mobx-miniprogram4.13.2 mobx-miniprogram-bindings1.2.1 或 npm i mobx-miniprogram4.13.2 mobx-miniprogram-bindings1.2.1 或 yarn…

LeetCode 31題:下一個排列

目錄 題目 思路 代碼 題目 整數數組的一個 排列 就是將其所有成員以序列或線性順序排列。 例如,arr [1,2,3] ,以下這些都可以視作 arr 的排列:[1,2,3]、[1,3,2]、[3,1,2]、[2,3,1] 。 整數數組的 下一個排列 是指其整數的下一個字典序…

Flink 火焰圖

方式一 使用 Flink Web UI 的 Flame Graph Flink 自己也支持了 Task 粒度的 Flame Graphs 功能,并且可以細化到 subtask 粒度。 第一步:配置啟用功能 Flink 作業動態參數里增加配置:“rest.flamegraph.enabled”: “true” 并重啟作業。當前…

Blazor 簡單組件(0):簡單介紹

文章目錄 前言說明環境安裝 前言 Blazor 這個技術還是比較新,相關的UI組件還在完善,我這里提供一下我個人的組件開發。 說明 本UI組件是基于BootstrapBlazor(以下簡稱BB)開發。 BootstrapBlazor 文檔 環境安裝 C#小輪子:Visual Studio自…

C語言快速回顧(二)

前言 在Android音視頻開發中,網上知識點過于零碎,自學起來難度非常大,不過音視頻大牛Jhuster提出了《Android 音視頻從入門到提高 - 任務列表》,結合我自己的工作學習經歷,我準備寫一個音視頻系列blog。C/C是音視頻必…

目前有哪些好用的免費開源wms倉儲管理軟件?

什么是開源? 開源指的是軟件的源代碼是公開可見和可自由使用的。開源軟件的授權許可通常允許用戶查看、修改和分發源代碼,以及根據自己的需求進行定制和擴展。 開源工具的核心理念是共享和協作。通過開放源代碼,開源軟件鼓勵用戶之間的合作…

Tubi 前端測試:遷移 Enzyme 到 React Testing Library

前端技術發展迅速,即便不說是日新月異,每年也都推出新框架和新技術。Tubi 的產品前端代碼倉庫始建于 2015 年,至今 8 年有余。可喜的是,多年來緊隨 React 社區的發展,Tubi 絕大多數的基礎框架選型都遵循了社區流行的最…

CentOS-6.3安裝MySQL集群

安裝要求 安裝環境:CentOS-6.3 安裝方式:源碼編譯安裝 軟件名稱:mysql-cluster-gpl-7.2.6-linux2.6-x86_64.tar.gz 下載地址:http://mysql.mirror.kangaroot.net/Downloads/ 軟件安裝位置:/usr/local/mysql 數據存放位…

達夢數據庫(dm8) Centos7 高可用集群

國產數據庫-達夢 一、環境詳情二、Centos7 參數優化(所有節點)三、創建用戶(所有節點)四、開始安裝(所有節點)五、服務注冊啟動 當前安裝:在指定版本環境下 測試,僅供參考 官網描述&…

風丘科技將亮相 EVM ASIA 2023

風丘科技將首次亮相 EVM ASIA 2023 WINDHILL will debut EVM ASIA 2023 ——可持續移動的未來 —The Future of SUSTAINABLE Mobility EVM ASIA 2023是亞太地區電氣化的國際性展會,專注于新能源汽車、充電技術及汽車零件制造等。展會致力于促進包括充電站、交通…