Uniworld-V1、X-Omni論文解讀

一、Uniworld-V1

1、概述

2、架構

3、訓練過程

4、實驗

二、X-Omni

1、概述

2、方法

一、Uniworld-V1

1、概述

? ? ? ? 動機：當前統一模型雖然可以實現圖文理解和文本生成任務，但是難以實現圖像感知（檢測/分割）與圖像操控（編輯/遷移）等復合需求。另外傳統方法依賴VAE提取視覺特征，但同樣缺少高頻信息，限制了語義級任務的表現。

? ? ? ? 另外通過實驗發現GPT-4o-Image可能采用語義編碼器，而非VAE，從而導致在編輯實驗中局部修改后文本位置發生偏移，表明缺少底層信息。另外GPT-4o和Qwen2.5-VL，在去噪實驗中，低噪圖像上可以正確去噪，但是高噪圖像上識別出現錯誤。

2、架構

? ? ? ? UniWorld一改以往的理解統一模型均采用一個MLLM架構，通過特征提取，并完全輸入到這個大MLLM中，UniWorld不去訓練理解部分的網絡，并且用理解的輸出去引導圖像的生成。

Visual Encoder

? ? ? ? 采用SigLIP編碼器（SigLIP2-so400m/14，固定輸出512x512）替換以往的VAE編碼器。

VLM

? ? ? ? 使用預訓練的Qwen2.5-VL-7B，并且不再訓練這一部分，只用作視覺理解。

DiT

? ? ? ? 使用FLUX作為DiT的主干，把VLM的視覺tokens輸出經過一個MLP得到High-level semantics特征，Visual Encoder的輸出經過MLP得到Low-level control的特征，將高維語義特征，低維像素特征并且拼接在一起，作為FLUX的文本輸入，因為FLUX是一個文生圖的模型，通過FLUX可以生成特定任務的圖像（比如分割）。

3、訓練過程

? ? ? ? 三階段策略

? ? ? ? Stage1：對齊VLM輸出與DiT文本分支特征空間，不引入SigLIP分支。凍結VLM框架和DiT，只訓練VLM到DiT的MLP部分。

? ? ? ? Stage2：引入預訓練SigLIP特征，加載Stage1的權重，并解凍DiT圖像分支參數，繼續凍結VLM部分。只訓練兩個MLP，和DiT部分。另外引入自適應編輯區域加權策略，解決小編輯區域學習問題，就是區域內存在缺失的問題。

????????自適應編輯區域加權策略，主要是針對編輯區域占比小的情況，采用均勻損失，導致細節丟失，損失加權函數選用對數函數， $w(x)=log_2(x)+1,where \ x=A_{total}/A_{edit}$ 。對于掩碼生成部分采用像素差分、膨脹、連通域過濾、最大池化下采樣四步來生成掩碼。

????????數據集（2.7M)：

（1）圖像感知任務：COCO2017+Graph200K 處理各種圖像風格（Canny HED 深度圖）

（2）圖像操控任務：ImgEdit高質量樣本+SEED-X 處理自適應掩碼生成

（3）文本生成圖像：BLIP3o+Open-Sora Plan 美學分大于6.0過濾，并用Qwen2-VL標注

4、實驗

????????不同模型之間生成、理解、編輯。

????????后續的對比實驗不在思考，大多數情況最多持平于BAGEL，但是主要原因是數據集的特定性的優勢。

提到了一些實驗中的觀察

????????DINOV2、RADIO v2.5替換SigLIP，但是不容易收斂

????????直接使用VLM視覺特征的視覺tokens作為引導，生成圖和參考圖之間一致性較差。他這里是輸出了所有tokens作為引導。

二、X-Omni

1、概述

????????傳統多模態模型的三大瓶頸問題：生成圖像模糊、失真，無法精確實現細節渲染，自回歸逐步預測導致的累積誤差。

????????另外統一模型轉向利用擴散模型解碼，但是擴散模型與自回歸模型異構，跨模態知識遷移受阻，所以考慮使用強化學習兼容優化。

2、方法

架構

? ? ? ? 整體架構不再采用理解和生成解耦架構，而是只加一個視覺特征編碼器。X-Omni由SigLIP-VQ tokenizer，自回歸模型，擴散解碼器三部分組成。

? ? ? ? 自回歸模型選擇Qwen2-7B，并通過殘差塊實現視覺分詞器與自回歸模型的連接。另外在輸入部分插入4個隨機初始化的Transformer塊，用于僅處理圖像tokens，并且添加<SOM> height width <Image> 標記，用于支持任意分辨率輸入，位置編碼使用1D RoPE。

? ? ? ? 視覺特征編碼器采用SigLIP-VQ，也就是一個凍結的SigLIP2-g ViT編碼器連接一個向量量化器。

? ? ? ? 擴散解碼器將自回歸的Image tokens輸出采用線性層映射到FLUX.1dev特征空間。

強化學習應用

? ? ? ? 同樣應用于處理自回歸和擴散解碼之間的對齊工作，對于多模態獎勵機制可以參見MindOmni的做法，可以理解為只是替換了多模態獎勵的r值，其他不變，但是MindOmni只做了二值獎勵（用于檢查CoT邏輯規范），一致性獎勵（檢查圖文對齊）。X-Omni中處理了四個獎勵：美學質量獎勵，綜合質量獎勵，圖文對齊獎勵，文字渲染獎勵。

? ? ? ? 美學質量獎勵：利用HPSV2模型計算獎勵。224x224分辨率下預測人類偏好，用于評估多元審美標準。

? ? ? ? 綜合質量獎勵：1024x1024分辨率優化，評估銳利度，噪聲水平，動態范圍

? ? ? ? 圖文對齊獎勵：與Uniworld一致，余弦相似度計算

? ? ? ? 文字渲染獎勵：藝術字體識別GOT-OCR2.0，印刷體識別PaddleOCR。

? ? ? ? 另外實現任務自適應機制，當提示中含有文字關鍵詞，強化 $w_4$ ，高細節的風景則強化 $w_2$

訓練細節

? ? ? ? 類似Uniworld-V1的三階段學習。

? ? ? ? Stage1：預訓練，訓練視覺分詞器和嵌入的新圖像token，凍結其他層。數據包括圖像生成數據（COYO-700M，DataComp-1B，LAION-2B，并用Qwen2.5-VL-72B進行標注，美學分過濾，并進行圖像縮放，短邊最大384px，長邊最大1152px，共600B tokens），圖像理解數據（LLaVA-OneVision，BLIP3-KALE、Infinity-MM，同樣的分辨率處理，共100B tokens）

? ? ? ? Stage2：監督微調，解凍所有參數，高質量圖文對（BLIP3o-60K中的30K子集），合成文本生成（GPT-4合成的30K），預訓練數據中選擇美學質量HPSv2>=7.0的1.44B tokens，另外混合圖像理解任務LLaVA-NeXT，Cauldron VQA數據，SFT階段數據共1.5B tokens

? ? ? ? Stage3：強化學習，共180W提示，分為三類，真實用戶需求（比如去廣告，共80K，來自Midjourney），長文本（50K，按文本長度分桶采樣），自然場景強化（50K，景觀和人像提示，平衡美學與復雜度）

? ? ? ? 在圖像生成DPG eval中打敗了GPT-4o，超越一眾生成模型。測試復雜指令下圖像生成的推理能力

? ? ? ? GenEval，測試生成質量上，還是沒有打敗GPT-4o

? ? ? ? 理解任務中，由于獎勵機制引入了OCR獎勵，所以在OCRBench分數上略高。

?參考：[2507.22058] X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

[2506.03147] UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

????????

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/92478.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/92478.shtml
英文地址，請注明出處：http://en.pswp.cn/web/92478.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！