Uniworld-V1、X-Omni論文解讀

目錄

一、Uniworld-V1

1、概述

2、架構

3、訓練過程

4、實驗

二、X-Omni

1、概述

2、方法


一、Uniworld-V1

1、概述

? ? ? ? 動機:當前統一模型雖然可以實現圖文理解和文本生成任務,但是難以實現圖像感知(檢測/分割)與圖像操控(編輯/遷移)等復合需求。另外傳統方法依賴VAE提取視覺特征,但同樣缺少高頻信息,限制了語義級任務的表現。

? ? ? ? 另外通過實驗發現GPT-4o-Image可能采用語義編碼器,而非VAE,從而導致在編輯實驗中局部修改后文本位置發生偏移,表明缺少底層信息。另外GPT-4o和Qwen2.5-VL,在去噪實驗中,低噪圖像上可以正確去噪,但是高噪圖像上識別出現錯誤。

2、架構

? ? ? ? UniWorld一改以往的理解統一模型均采用一個MLLM架構,通過特征提取,并完全輸入到這個大MLLM中,UniWorld不去訓練理解部分的網絡,并且用理解的輸出去引導圖像的生成。

Visual Encoder

? ? ? ? 采用SigLIP編碼器(SigLIP2-so400m/14,固定輸出512x512)替換以往的VAE編碼器。

VLM

? ? ? ? 使用預訓練的Qwen2.5-VL-7B,并且不再訓練這一部分,只用作視覺理解。

DiT

? ? ? ? 使用FLUX作為DiT的主干,把VLM的視覺tokens輸出經過一個MLP得到High-level semantics特征,Visual Encoder的輸出經過MLP得到Low-level control的特征,將高維語義特征,低維像素特征并且拼接在一起,作為FLUX的文本輸入,因為FLUX是一個文生圖的模型,通過FLUX可以生成特定任務的圖像(比如分割)。

3、訓練過程

? ? ? ? 三階段策略

? ? ? ? Stage1:對齊VLM輸出與DiT文本分支特征空間,不引入SigLIP分支。凍結VLM框架和DiT,只訓練VLM到DiT的MLP部分。

? ? ? ? Stage2:引入預訓練SigLIP特征,加載Stage1的權重,并解凍DiT圖像分支參數,繼續凍結VLM部分。只訓練兩個MLP,和DiT部分。另外引入自適應編輯區域加權策略,解決小編輯區域學習問題,就是區域內存在缺失的問題。

????????自適應編輯區域加權策略,主要是針對編輯區域占比小的情況,采用均勻損失,導致細節丟失,損失加權函數選用對數函數,w(x)=log_2(x)+1,where \ x=A_{total}/A_{edit}。對于掩碼生成部分采用像素差分、膨脹、連通域過濾、最大池化下采樣四步來生成掩碼。

????????數據集(2.7M):

(1)圖像感知任務:COCO2017+Graph200K 處理各種圖像風格(Canny HED 深度圖)

(2)圖像操控任務:ImgEdit高質量樣本+SEED-X 處理自適應掩碼生成

(3)文本生成圖像:BLIP3o+Open-Sora Plan 美學分大于6.0過濾,并用Qwen2-VL標注

4、實驗

????????不同模型之間生成、理解、編輯。

????????后續的對比實驗不在思考,大多數情況最多持平于BAGEL,但是主要原因是數據集的特定性的優勢。

提到了一些實驗中的觀察

????????DINOV2、RADIO v2.5替換SigLIP,但是不容易收斂

????????直接使用VLM視覺特征的視覺tokens作為引導,生成圖和參考圖之間一致性較差。他這里是輸出了所有tokens作為引導。

二、X-Omni

1、概述

????????傳統多模態模型的三大瓶頸問題:生成圖像模糊、失真,無法精確實現細節渲染,自回歸逐步預測導致的累積誤差。

????????另外統一模型轉向利用擴散模型解碼,但是擴散模型與自回歸模型異構,跨模態知識遷移受阻,所以考慮使用強化學習兼容優化。

2、方法

架構

? ? ? ? 整體架構不再采用理解和生成解耦架構,而是只加一個視覺特征編碼器。X-Omni由SigLIP-VQ tokenizer,自回歸模型,擴散解碼器三部分組成。

? ? ? ? 自回歸模型選擇Qwen2-7B,并通過殘差塊實現視覺分詞器與自回歸模型的連接。另外在輸入部分插入4個隨機初始化的Transformer塊,用于僅處理圖像tokens,并且添加<SOM> height width <Image> 標記,用于支持任意分辨率輸入,位置編碼使用1D RoPE。

? ? ? ? 視覺特征編碼器采用SigLIP-VQ,也就是一個凍結的SigLIP2-g ViT編碼器連接一個向量量化器。

? ? ? ? 擴散解碼器將自回歸的Image tokens輸出采用線性層映射到FLUX.1dev特征空間。

強化學習應用

? ? ? ? 同樣應用于處理自回歸和擴散解碼之間的對齊工作,對于多模態獎勵機制可以參見MindOmni的做法,可以理解為只是替換了多模態獎勵的r值,其他不變,但是MindOmni只做了二值獎勵(用于檢查CoT邏輯規范),一致性獎勵(檢查圖文對齊)。X-Omni中處理了四個獎勵:美學質量獎勵,綜合質量獎勵,圖文對齊獎勵,文字渲染獎勵。

? ? ? ? 美學質量獎勵:利用HPSV2模型計算獎勵。224x224分辨率下預測人類偏好,用于評估多元審美標準。

? ? ? ? 綜合質量獎勵:1024x1024分辨率優化,評估銳利度,噪聲水平,動態范圍

? ? ? ? 圖文對齊獎勵:與Uniworld一致,余弦相似度計算

? ? ? ? 文字渲染獎勵:藝術字體識別GOT-OCR2.0,印刷體識別PaddleOCR。

? ? ? ? 另外實現任務自適應機制,當提示中含有文字關鍵詞,強化w_4,高細節的風景則強化w_2

訓練細節

? ? ? ? 類似Uniworld-V1的三階段學習。

? ? ? ? Stage1:預訓練,訓練視覺分詞器和嵌入的新圖像token,凍結其他層。數據包括圖像生成數據(COYO-700M,DataComp-1B,LAION-2B,并用Qwen2.5-VL-72B進行標注,美學分過濾,并進行圖像縮放,短邊最大384px,長邊最大1152px,共600B tokens),圖像理解數據(LLaVA-OneVision,BLIP3-KALE、Infinity-MM,同樣的分辨率處理,共100B tokens)

? ? ? ? Stage2:監督微調,解凍所有參數,高質量圖文對(BLIP3o-60K中的30K子集),合成文本生成(GPT-4合成的30K),預訓練數據中選擇美學質量HPSv2>=7.0的1.44B tokens,另外混合圖像理解任務LLaVA-NeXT,Cauldron VQA數據,SFT階段數據共1.5B tokens

? ? ? ? Stage3:強化學習,共180W提示,分為三類,真實用戶需求(比如去廣告,共80K,來自Midjourney),長文本(50K,按文本長度分桶采樣),自然場景強化(50K,景觀和人像提示,平衡美學與復雜度)

? ? ? ? 在圖像生成DPG eval中打敗了GPT-4o,超越一眾生成模型。測試復雜指令下圖像生成的推理能力

? ? ? ? GenEval,測試生成質量上,還是沒有打敗GPT-4o

? ? ? ? 理解任務中,由于獎勵機制引入了OCR獎勵,所以在OCRBench分數上略高。

?參考:[2507.22058] X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

[2506.03147] UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

????????

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/92478.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/92478.shtml
英文地址,請注明出處:http://en.pswp.cn/web/92478.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

安全常見漏洞

一、OWASP Top 101.注入漏洞(1)SQL 注入原理&#xff1a;通過用戶輸入注入惡意SQL代碼示例&#xff1a;sql-- 惡意輸入OR 11 -- 可能被注入的SQL SELECT * FROM users WHERE username OR 11 AND password (2)防護措施&#xff1a;使用參數化查詢使用ORM框架實施最小權限原則…

管網遙測終端機——管網安全與效率的守護者

管網遙測終端機是一款智能化的管網監測與管理設備&#xff0c;它采用先進的物聯網技術和自動化控制技術&#xff0c;能夠全天候不間斷地對管網系統進行實時監測。該設備通過集成高精度傳感器、穩定可靠的通信模塊和強大的數據處理單元&#xff0c;構建了一套完整的管網運行數據…

AIIData商業版v1.4.1版本發布會

&#x1f525;&#x1f525; AllData大數據產品是可定義數據中臺&#xff0c;以數據平臺為底座&#xff0c;以數據中臺為橋梁&#xff0c;以機器學習平臺為中層框架&#xff0c;以大模型應用為上游產品&#xff0c;提供全鏈路數字化解決方案。 ?杭州奧零數據科技官網&#xff…

【Layui】調整 Layui 整體樣式大小的方法

Layui 的默認樣式確實偏大,但你可以通過以下幾種方法來調整整體大小: 使用縮放方法(最簡單) 在 HTML 的 中添加以下 CSS: <style> html {font-size: 14px; /* 調整基礎字體大小 */transform: scale(

MySQL連接數調優實戰:查看與配置

MySQL HikariCP 連接數調優實戰&#xff1a;如何查看用量 & 合理配置 max_connections 在做 Java 后端開發時&#xff0c;我們經常會遇到 MySQL 連接數配置問題&#xff0c;比如&#xff1a; max_connections 配多少合適&#xff1f;HikariCP 的 maximum-pool-size 要不要…

周志華院士西瓜書實戰(一)線性規劃+多項式回歸+邏輯回歸+決策樹

目錄 1. 線性規劃 2. 多項式回歸 3. 邏輯回歸手寫數字 4. Pytorch MNIST 5. 決策樹 1. 線性規劃 先生成 Y1.5X0.2ε 的&#xff08;X,Y&#xff09;訓練數據 兩個長度為30 import numpy as np import matplotlib.pyplot as plt def true_fun(X): # 這是我們設定的真實…

端到端供應鏈優化案例研究:需求預測 + 庫存優化(十二)

本篇文章聚焦于供應鏈中的庫存優化&#xff0c;技術亮點在于通過機器學習改進預測精度&#xff0c;成功將預測誤差降低25%&#xff0c;并在六個月內實現庫存過剩減少40%。該方法適用于需要優化庫存和提升服務水平的商業場景&#xff0c;特別是制藥行業&#xff0c;幫助企業在降…

Harbor 企業級實戰:單機快速上手 × 高可用架構搭建 × HTTPS安全加固

文章目錄一、建立項目二、命令行登錄harbor&#xff08;配置在客戶端即可&#xff09;三、給本地鏡像打標簽并上傳到harbor四、下載harbor的鏡像五、創建自動打標簽上傳鏡像腳本六、修改harbor配置七、實現harbor高可用7.1 安裝第二臺harbor主機7.2 新建目標&#xff0c;輸入第…

進程管理、系統高負載、cpu超過800%等實戰問題處理

進程管理與高負載實戰&#xff1a;CPU 飆到 800% 時的分析與處理 在生產環境中&#xff0c;系統高負載和 CPU 異常占用是運維工程師最常面對的場景之一。 這篇文章將從進程管理基礎講起&#xff0c;到高負載問題定位&#xff0c;再到CPU 占用 800% 的實戰處理&#xff0c;幫助你…

控制建模matlab練習12:線性狀態反饋控制器-①系統建模

此練習&#xff0c;主要是使用狀態空間方程來設計控制器的方法和思路&#xff1a; ①系統建模&#xff1b; ②系統的能控性&#xff1b; ③極點配置&#xff1b; ④最優化控制LQR&#xff1b; ⑤軌跡追蹤&#xff1b; 以下是&#xff0c;第①部分&#xff1a;系統建模&#xff…

bytearray和bytes

bytearray和bytes不一樣的地方在于&#xff0c;bytearray是可變的。 str 人生苦短&#xff0c;我用Python! bytes bytearray(str.encode()) bytes bytearray(b\xe4\xba\xba\xe7\x94\x9f\xe8\x8b\xa6\xe7\x9f\xad\xef\xbc\x8c\xe6\x88\x91\xe7\x94\xa8Python!) str bytes.d…

護網行動之后:容器安全如何升級?微隔離打造內網“微堡壘”

護網行動剛剛落下帷幕&#xff0c;但這場沒有硝煙的攻防演練&#xff0c;留給安全行業的思考卻從未停止。當“橫向移動”成為攻擊方屢試不爽的殺手锏時&#xff0c;一個過去可能被忽視的角落——容器網絡安全&#xff0c;在本屆護網中被推到了前所未有的高度。面對云原生時代容…

一動鼠標就鎖屏,設備活動監控方案的技術實現與應用

摘要&#xff1a;本文探討基于本地化監控機制實現設備操作追蹤的技術方案&#xff0c;重點解析其觸發邏輯與隱私保護機制。方案適用于需要監控設備使用場景的技術人員。一、核心功能實現原理觸發監控機制鍵盤鉤子&#xff1a;通過系統級鍵盤事件監聽&#xff08;AltL組合鍵激活…

從零開始學習:深度學習(基礎入門版)(1天)

&#xff08;一&#xff09; opencv和opencv-contrib的安裝&#xff08;1.1&#xff09;在桌面地底部的搜索欄&#xff0c;搜索命令提示符&#xff0c;點擊并打開命令提示符&#xff08;1.2&#xff09;依次輸入命令并按回車&#xff1a;pip install opencv-python3.4.18.65 -i…

SimpleMindMap:一個強大的Web思維導圖

在信息爆炸的時代&#xff0c;如何高效地組織、記憶和表達復雜信息成為一項關鍵技能。思維導圖作為一種強大的可視化工具&#xff0c;能夠幫助我們理清思路、激發創意并提高學習效率。最近在逛github的時候發現了一個開源的思維導圖工具SimpleMindMap&#xff0c;和家人們分享下…

正確使用 JetBrains

來自窮鬼的 marker &#xff01;關鍵也不是全靠它吃飯&#xff0c;所以……請鄙視我就對了&#xff01;2023.2.6 和 MybatisX 1.7.3 兼容性好像有些問題&#xff0c;會報錯。想一想降級 MybatisX 不如升級一下 Idea。So, do this.官方下載安裝包并裝之。然后解鎖無需下載文件、…

0_外設學習_ESP8266+云流轉(no 0基礎)

1、環境要求 2個ESP8266模塊、2個USB轉ESP8266&#xff0c;通過ESP8266_A-->&#xff08;阿里云&#xff09;云流轉-->ESP8266_B&#xff0c;實現ESP8266_A發布話題&#xff0c;ESP8266_B訂閱該話題。 2、阿里云云流轉配置 1、基礎要求&#xff1a; 添加1個產品&#xf…

AI漫畫翻譯器-上傳圖片自動翻譯,支持多語言

本文轉載自&#xff1a;AI漫畫翻譯器-上傳圖片自動翻譯&#xff0c;支持多語言 - Hello123 ** 一、AI 漫畫翻譯器的核心定位 AI 漫畫翻譯器是專為漫畫愛好者設計的智能翻譯平臺&#xff0c;通過深度學習技術實現漫畫文本的精準識別與本地化轉換。它能在保留原圖排版和藝術風格…

有效介電常數

有效介電常數:如果導體的橫截面被介質完全包裹&#xff0c;位于導體之間的電力線(如帶狀線)就會感受到相同的介電常數。然而&#xff0c;對于微帶線、雙絞線或共面線&#xff0c;導體周圍的介質不是均勻的&#xff0c;所以一些電力線穿過空氣&#xff0c;而另一些則穿過介質。圖…

51c視覺~合集16

自己的原文哦~ https://blog.51cto.com/whaosoft/14117000 #港大成立計算與數據科學學院&#xff0c;計算機統計雙劍合璧 剛剛&#xff0c;港大成立新的計算與數據科學學院&#xff0c;由計算機科學系和統計學系合并。馬毅教授被任命為學院首任院長。 馬毅教授官宣…