【AI論文】PixNerd:像素神經場擴散

摘要:擴散變換器目前所取得的成功在很大程度上依賴于預訓練變分自編碼器(VAE)所塑造的壓縮潛在空間。然而,這種兩階段訓練模式不可避免地會引入累積誤差和解碼偽影。為解決上述問題,研究人員選擇回歸像素空間,但這需要付出構建復雜級聯流水線和增加令牌復雜度的代價。與他們的努力不同,我們提出利用神經場對分塊解碼進行建模,并給出了一種單尺度、單階段、高效且端到端的解決方案,稱之為像素神經場擴散(PixelNerd)。得益于PixNerd中高效的神經場表示,我們在無需任何復雜級聯流水線或VAE的情況下,直接在256×256分辨率的ImageNet數據集上實現了2.15的FID分數,在512×512分辨率的ImageNet數據集上實現了2.84的FID分數。此外,我們還將PixNerd框架拓展到了文本生成圖像的應用領域。我們的PixNerd-XXL/16在GenEval基準測試中取得了0.73的綜合得分,在DPG基準測試中取得了80.9的綜合得分,表現極具競爭力。Huggingface鏈接:Paper page,論文鏈接:2507.23268

研究背景和目的

研究背景
近年來,擴散模型(Diffusion Models)在圖像生成領域取得了顯著進展,尤其是基于潛在空間的擴散變換器(Diffusion Transformers)展現出了強大的生成能力。這些模型通常依賴于預訓練的變分自編碼器(VAE)來壓縮圖像空間,從而在低維潛在空間上進行學習和生成。VAE通過顯著減少原始像素的空間維度,提供了一個緊湊且幾乎無損的潛在表示,極大地簡化了擴散變換器的學習難度。然而,這種兩階段訓練方法(先訓練VAE,再訓練擴散模型)不可避免地引入了累積誤差和解碼偽影,限制了生成圖像的質量和多樣性。

與此同時,直接在像素空間上進行擴散學習的模型進展較為緩慢。由于像素空間的龐大維度,直接學習擴散過程面臨巨大的計算挑戰,且生成的圖像細節和結構往往不如基于潛在空間的模型。為了解決這些問題,一些研究嘗試了級聯解決方案,通過在不同分辨率尺度上分割擴散過程來降低計算成本,但這些方法通常導致訓練和推理過程的復雜化。

研究目的
針對上述背景,本研究旨在提出一種新穎、優雅且高效的單尺度、單階段端到端解決方案——像素神經場擴散(PixelNerd),以消除對VAE的依賴,并直接在像素空間上實現高質量的圖像生成。具體目標包括:

  1. 消除累積誤差和解碼偽影:通過直接在像素空間上學習擴散過程,避免兩階段訓練帶來的累積誤差和解碼偽影。
  2. 簡化模型架構:提出一種單尺度、單階段的端到端模型,避免復雜的級聯流水線和增加的令牌復雜度。
  3. 實現高質量圖像生成:在ImageNet等大型數據集上實現與基于潛在空間的模型相當甚至更優的生成性能。
  4. 拓展應用場景:將模型框架拓展到文本生成圖像等應用領域,驗證其泛化能力。

研究方法

1. 模型架構設計
PixNerd遵循擴散變換器的設計原則,但用神經場(Neural Field)替換了最終的線性投影層,以建模大塊區域的細節。具體來說,PixNerd使用擴散變換器的最后隱藏狀態來預測神經場的參數(MLP權重),這些參數隨后用于解碼每個像素塊內的像素級擴散速度。

2. 神經場表示
神經場通常采用多層感知機(MLP)將坐標編碼映射到信號(如RGB值)。在PixNerd中,每個像素塊內的局部坐標首先被轉換為坐標編碼,然后與對應的噪聲像素值一起輸入到神經場MLP中,以預測擴散速度。這種方法顯著減輕了在大塊配置下學習細節的挑戰。

3. 擴散過程建模
PixNerd采用與標準擴散模型相似的擴散過程,但通過神經場來預測每個像素塊的擴散速度。在訓練過程中,模型通過最小化預測擴散速度與真實擴散速度之間的差異來優化神經場參數。

4. 優化與訓練策略
為了提高模型的訓練穩定性和生成質量,PixNerd采用了多種優化策略,包括:

  • SwIGLU激活函數:增強模型的非線性表達能力。
  • RMSNorm歸一化:穩定訓練過程,加速收斂。
  • 對數域采樣:提高采樣效率,減少計算成本。
  • 表示對齊:通過與DINOv2等預訓練模型的中間特征進行對齊,增強模型的生成能力。

研究結果

1. 圖像生成質量
在ImageNet 256×256和512×512分辨率上,PixNerd-XL/16分別實現了2.15和2.84的FID分數,與基于潛在空間的模型相當甚至更優。特別是在空間結構方面(sFID),PixNerd-XL/16在ImageNet 256×256上實現了4.55的sFID分數,顯著優于其他像素空間生成模型。

2. 文本生成圖像應用
將PixNerd框架拓展到文本生成圖像領域后,PixNerd-XXL/16在GenEval基準測試中取得了0.73的綜合得分,在DPG基準測試中取得了80.9的綜合得分,表現極具競爭力。這表明PixNerd不僅限于圖像生成任務,還能有效處理更復雜的文本到圖像生成場景。

3. 計算效率與資源消耗
與基于潛在空間的模型相比,PixNerd在訓練和推理過程中消耗更少的內存和計算資源。特別是在推理階段,PixNerd-L/16實現了近8倍于其他像素空間擴散模型的加速效果。

研究局限

盡管PixNerd在圖像生成質量和計算效率方面取得了顯著進展,但仍存在以下局限:

1. 細節表現不足
在某些情況下,PixNerd生成的圖像細節仍不夠清晰,尤其是在處理復雜場景或精細結構時。這可能是由于神經場在建模極端細節方面的能力有限。

2. 多語言支持有限
雖然PixNerd在英語提示下表現良好,但在處理其他語言(如中文、日語)時,生成圖像的質量和多樣性可能受到影響。這主要是由于訓練數據中非英語提示的覆蓋不足。

3. 分辨率適應性
盡管PixNerd通過坐標插值實現了任意分辨率的圖像生成,但在處理極高分辨率(如超過1024×1024)時,生成圖像的質量和細節可能有所下降。這需要進一步優化神經場的表示能力和擴散過程的建模方法。

未來研究方向

針對上述局限,未來研究可以從以下幾個方面展開:

1. 增強細節建模能力
通過改進神經場的架構設計(如增加MLP層數或通道數)或引入更復雜的坐標編碼方式,提升模型在建模極端細節方面的能力。此外,可以考慮結合超分辨率技術來進一步提升生成圖像的細節表現。

2. 拓展多語言支持
通過收集和標注更多非英語提示的圖像數據,增強模型在處理多語言提示時的生成能力和多樣性。同時,可以探索跨語言提示生成技術,實現不同語言提示下的高質量圖像生成。

3. 提升高分辨率生成能力
針對極高分辨率圖像生成的需求,可以研究更高效的神經場表示方法和擴散過程建模技術。例如,可以嘗試將神經場與多尺度建模方法相結合,或者引入分塊生成和融合策略來提升高分辨率圖像的生成質量和效率。

4. 探索更多應用場景
除了文本生成圖像外,還可以探索PixNerd在其他生成任務(如視頻生成、3D物體生成)中的應用潛力。通過調整模型架構和訓練策略,使其能夠適應不同類型的數據和生成需求。

5. 優化訓練和推理過程
進一步優化模型的訓練和推理過程,減少計算成本和內存消耗。例如,可以研究更高效的采樣算法和參數優化策略,或者利用硬件加速技術(如GPU并行計算)來提升模型的訓練和推理速度。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/92163.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/92163.shtml
英文地址,請注明出處:http://en.pswp.cn/web/92163.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java中的LambdaMetafactory:動態生成Lambda的底層黑魔法

引言 在Java 8中,Lambda表達式作為最引人注目的新特性之一被引入。但你是否曾好奇過,這些簡潔的Lambda表達式在底層是如何實現的?這就是LambdaMetafactory發揮作用的地方。作為Java語言中一個不太為人所知但極其重要的類,LambdaMe…

看不見的偽造痕跡:AI時代的鑒偽攻防戰

在生成式人工智能飛速發展的今天,“眼見為實”這句話的有效性正面臨前所未有的挑戰。以往,圖像篡改往往通過傳統的圖像處理工具(如 Photoshop)進行,需要較高的技術門檻和人工成本;而現在,僅需通…

《React+TypeScript實戰:前端狀態管理的安全架構與性能優化深解》

當用戶在界面上進行表單提交、數據篩選等操作時,每一次交互的精準響應,都依賴于底層狀態架構對風險的預判與性能的調控。深入理解如何在功能實現之外,構筑一套兼顧狀態安全與運行高效的體系,是從基礎開發邁向工程化實踐的關鍵一躍。狀態管理機制的設計,需要穿透“數據更新…

【android bluetooth 協議分析 01】【HCI 層介紹 30】【hci_event和le_meta_event如何上報到btu層】

一、引言 在藍牙協議棧中,HCI Event 和 LE Meta Event 是控制器(Controller)向主機(Host)報告事件的兩種形式,它們屬于 HCI(Host Controller Interface)層。這是主機和控制器之間通…

小實驗--震動點燈

1.實驗目的 使用中斷的方法,震動傳感器檢測到震動時,LED1點亮2秒,之后熄滅。 2.硬件清單 震動傳感器STM32開發板ST-Link 3.硬件連接STM32震動傳感器PA4DO3V3VCCGNDGND4.代碼 4.1exti.c #include "exti.h" #include "sys.h&quo…

vcpkg: 一款免費開源的C++包管理器

目錄 1.簡介 2.安裝 3.常用命令 4.與項目集成 5.vcpkg的工作原理 5.1.包索引:ports 系統(定義庫的 “元信息”) 5.2.源碼獲取:從 “地址” 到 “本地緩存” 5.3.編譯構建:按 “triplet” 定制目標 5.4.安裝布…

WinCC通過無線Modbus TCP監控S7-1200/200SMT PLC實例詳解

工業自動化系統中,車間內通常部署多臺PLC設備并需通過中央監控平臺實現集中管控。考慮到工業現場設備間距普遍在數十至數百米范圍,傳統有線以太網雖能保障傳輸速率,但其施工需面臨電纜溝開挖或復雜布線工程,既增加線材采購、人力投…

【AI智能編程】Trae-IDE工具學習

什么是Trae? Trae與 AI 深度集成,提供智能問答、代碼自動補全以及基于 Agent 的 AI 自動編程能力。使用 Trae 開發項目時,你可以與 AI 靈活協作,提升開發效率。提供傳統的 IDE 功能,包括代碼編寫、項目管理、插件管理…

智能駕駛再提速!批量蘇州金龍L4級自動駕駛巴士交付杭州臨平區

近日,由蘇州金龍海格客車研發的“清源”L4級自動駕駛巴士現身杭州市臨平區并投入測試。這是臨平區引進的首批L4級自動駕駛巴士,標志著臨平區智能交通建設邁入新階段。此次投入測試的“清源”小巴采用一級踏步設計,車身延續了海格蔚藍巴士的經…

Spring_事務

在mysql階段的文章中,已經介紹過事務了。本篇文章是對mysql事務的總結和對使用Spring框架來實現事務操作的講解。事務回顧什么是事務事務時一組操作的集合,是一個不可分割的操作。事務會把所有操作作為一個整體,一起向數據庫提交或者撤銷操作…

事務管理介紹

為什么要用事務管理在我們同時操作兩個或更多個數據庫時,可能因為網絡等各方面原因導致中間出現異常。造成像對第一個數據庫的操作成功了,但是對第二個數據庫的操作沒有成功。這樣數據的完整性就被破壞了。事務:是一組操作的集合,…

Android 之 ViewBinding 實現更安全、高效的視圖綁定

??一、配置說明????作用位置??需在模塊級 build.gradle或 build.gradle.kts文件的 android {}塊內添加:android {buildFeatures {viewBinding true // Kotlin DSL 語法} }android {buildFeatures {viewBinding true // Groovy 語法} }??生成規則??為每…

全球首款Java專用AI開發助手實測:一句話生成完整工程代碼——飛算 JavaAI

🌟 嗨,我是Lethehong!🌟🌍 立志在堅不欲說,成功在久不在速🌍🚀 歡迎關注:👍點贊??留言收藏🚀🍀歡迎使用:小智初學計算機…

Shader開發(七)創建第一個Shader項目

在前面的章節中,我們已經了解了Shader的基本概念和渲染管線的工作原理。現在,是時候動手實踐了!本章將帶您一步步創建第一個Shader項目,開啟真正的Shader開發之旅。 為什么選擇openFrameworks? 與其他文章不同&#x…

IAR軟件中測量函數執行時間

通常在調試代碼中需要直到某個函數或者某段代碼的實際執行時間,在IAR中可以直接借助軟件提供的工具來計算代碼執行時間。 第一種方法 進入仿真調試界面,在需要測量的代碼前面打斷點。工具欄中選擇 ST-LINK — Data Log Summary在 Data Log Summary 窗口中…

Java 字節碼文件(.class)的組成詳解

文章目錄基礎信息常量池字段方法屬性字節碼文件內容說明案例文件基本信息類的基本信息常量池字段信息構造方法實例方法主方法源文件信息字節碼文件由五部分組成,分別是基礎信息、常量池、字段、方法、屬性。案例: public class Main implements Interfa…

C++之vector類的代碼及其邏輯詳解 (下)

1. insert()這個就是在指定位置插入一個元素,首先計算要插入的這個位置和開頭之間的距離,接著判斷那個_finish 有沒有碰到_endofstorage 或者_endofstorage 是不是為0,如果滿足條件,那就進行擴容,然后接著重新計算距離…

【自動化測試】Python Selenium 自動化測試元素定位專業教程

1. 引言:元素定位在 Selenium 中的核心地位 元素定位是 Selenium 自動化測試的基礎,所有用戶交互操作(如點擊、輸入、選擇)都依賴于準確識別頁面元素。Selenium WebDriver 提供了多種定位策略,從簡單的 ID 定位到復雜…

通用代碼自用

多文件上傳public int save(Role role, RequestParam("nfile") MultipartFile nfile, HttpServletRequest request) {System.out.println(nfile.getOriginalFilename());String path request.getSession().getServletContext().getRealPath("/upload");Fi…

生成式AI如何顛覆我們的工作和生活

原問題: ?你覺得生成式AI未來會如何改變普通人的工作和生活?? 做過一個對比國外和國內工業化產品制造的簡單調研,類似一款定制化的臺燈或者語音音響,從零到原型實物, 美國至少需要20萬美刀,國內成本大概…