(Arxiv-2025)OmniGen2:通向先進多模態生成的探索

OmniGen2:通向先進多模態生成的探索

paper title:OmniGen2: Exploration to Advanced Multimodal Generation

paper是BAAI發布在Arxiv 2025的工作

Code:鏈接

Abstract

在本研究中,我們提出了 OmniGen2,這是一種多功能、開源的生成模型,旨在為多樣化的生成任務提供統一的解決方案,包括文本生成圖像(text-to-image)、圖像編輯和上下文生成(in-context generation)。與 OmniGen 不同,OmniGen2 采用了針對文本與圖像模態的兩條獨立解碼路徑,使用非共享參數和解耦的圖像分詞器。這一設計使得 OmniGen2 能夠在現有多模態理解模型的基礎上構建,而無需重新適配 VAE 輸入,從而保留了原始的文本生成能力。為了支持 OmniGen2 的訓練,我們構建了完整的數據構建流程,涵蓋圖像編輯和上下文生成任務。此外,我們還引入了專門針對圖像生成任務的反思機制(reflection mechanism),并基于 OmniGen2 構建了一個專用的反思數據集。盡管參數規模相對較小,OmniGen2 在多個任務基準上仍取得了有競爭力的表現,包括文本生成圖像和圖像編輯任務。為了進一步評估上下文生成能力(又稱主體驅動任務),我們引入了一個新的基準測試 OmniContext。在一致性評估方面,OmniGen2 在開源模型中實現了當前最優表現。我們將開源我們的模型、訓練代碼、數據集及數據構建流程,以支持該領域的后續研究。

圖1

圖 1:OmniGen2 及其反思模型的多樣能力概覽.

1 Introduction

統一圖像生成近年來受到廣泛關注 [80; 92; 73; 48]。例如,OmniGen [80] 使用簡潔的 Transformer 架構,能夠應對多種圖像生成任務,無需額外插件或預處理器。近期如 Gemini-2.0-flash [22] 和 GPT-4o [53] 等模型的突破進一步展示了該領域的巨大潛力,并標志著多模態智能從專用模型 [3; 33] 向強大的統一系統轉變的新范式。Chameleon [72] 和 Emu3 [76] 在所有模態上采用離散自回歸方法,而 Janus 系列 [78; 11] 引入了分別用于理解與生成任務的雙圖像編碼器。Transfusion 在一個 Transformer 框架中融合了自回歸和擴散過程。然而,這些模型支持的圖像生成任務仍相對有限。

在本文中,我們提出了 OmniGen2,這是一個開源生成模型,在多個生成任務中表現出競爭力。與前作 OmniGen [80] 不同,我們觀察到簡單的參數共享不足以同時處理自回歸文本建模和基于擴散的圖像建模。為解決這一問題,OmniGen2 在架構上為自回歸與擴散任務采用了獨立路徑。

盡管像 GPT-4o [53] 這樣的模型在遵循提示方面表現出色,但在精確圖像編輯和保持上下文生成中主體一致性方面常表現出一致性不足。我們推測,這種一致性缺失是由于這些模型完全依賴于高級語義編碼器,而這些編碼器在捕捉細粒度視覺細節方面能力有限。為彌補這一不足,OmniGen2 在繼承前作使用 VAE 特征處理低層視覺信息策略的基礎上進行增強。最近的一些模型,如 Mogao [40] 和 BAGEL [13],也采用非共享參數用于文本與圖像模態處理,并通過雙視覺分詞器(VAE [31] 和 ViT [15])處理圖像。而 OmniGen2 將 VAE 提取的特征僅輸入至擴散模型中,而非多模態大語言模型(MLLM),從而避免 VAE 編碼影響 MLLM 的原生多模態理解能力,同時減少冗余圖像表示。得益于此設計,OmniGen2 保持了原始 MLLM 的簡潔性和強大的文本生成能力。

除模型架構外,我們還嘗試解決制約本領域發展的數據與評估難題。我們從收集與重構開源數據集入手,但發現多數數據在圖像編輯與上下文生成等任務上的質量存在天然限制,這也是開源模型與商用模型間性能差距顯著的根源之一。為此,我們開發了從視頻中生成圖像編輯與上下文生成數據的完整數據構建流水線,并計劃向社區開源這些數據集。此外,我們通過迭代式生成流程構建了用于圖像生成的反思數據,旨在將 LLM 的推理與反思能力注入多模態生成模型中。

我們對 OmniGen2 進行了廣泛評估,結果表明其在文本生成圖像(T2I)、圖像編輯、上下文生成等多個任務領域均表現出色。值得注意的是,對于上下文生成任務,當前尚缺乏良好的公共排行榜來系統評估和對比不同模型的關鍵能力。現有資源如 DreamBench [64] 難以體現真實場景下的復雜需求。為解決這一評估空白,我們引入了 OmniContext 基準集,涵蓋八大任務類別,專為評估人物、物體與場景一致性而設計。實驗結果表明,OmniGen2 在開源模型中實現了當前最優一致性表現。

我們的主要貢獻總結如下:

  • 開源 OmniGen2,這是一款強大的多模態生成模型,在多個圖像生成任務中展現出卓越表現。在保持強大圖像生成能力的同時,OmniGen2 還保留了強大的文本生成能力。我們進一步探索了將多模態反思機制應用于圖像生成的可能性。

  • 構建新穎的數據生成流水線,推出一系列高質量數據集,尤其面向圖像編輯與上下文學習任務中的數據稀缺問題,這些數據集來源于視頻內容。

  • 引入 OmniContext 基準測試套件,系統評估不同場景下的上下文視覺生成一致性能力,為該領域提供統一評估標準。

此外,需要強調的是,OmniGen2 的文本生成能力主要來源于其解耦架構中的 MLLM 模塊,并非源自對 OmniGen2 基礎模型中 MLLM 的端到端全參數訓練(除了引入的特殊 token)。只有在反思模型中,才會進行端到端的全參數訓練。因此,OmniGen2 應被視為支持圖文雙輸出的多模態生成模型,而非原生的多模態模型。

圖2

圖 2:OmniGen2 的架構。OmniGen2 為自回歸與擴散任務分別采用了獨立的 Transformer 架構。模型使用了兩種不同的圖像編碼器:ViT 編碼圖像后輸入至文本 Transformer,VAE 編碼圖像后輸入至擴散 Transformer。

2 Model

2.1 Design Princeple


在原始 OmniGen [80] 框架中,我們在 Transformer 架構中同時實現了文本的自回歸建模和圖像的基于擴散的方法。該架構使用 phi-3 [1] 進行初始化。在發布 OmniGen 后,我們進行了進一步的實驗。首先,我們用更強大的 Qwen 模型替代了 phi-3。令人驚訝的是,盡管使用了更強的語言模型(LLM),圖像生成質量卻有所下降。其次,我們探索了 MoE(專家混合)策略,以類似于 LMfusion [68] 的方法,將文本和圖像參數分別路由。我們的研究發現,用文本分支的參數初始化圖像分支的參數,其性能甚至不如直接隨機初始化圖像路徑。這表明為文本優化的參數并不適合圖像建模。因此,在 OmniGen2 中,我們將擴散過程完全解耦,并隨機初始化其參數。

近期的方法,如 MetaQuery [55] 和 BLIP-3o [7],使用可學習的查詢 token 來編碼擴散生成所需的條件信息。這些方法將所有條件信息壓縮為固定數量的 token,不可避免地限制了表示能力并導致信息損失。我們還發現,這種基于 token 的壓縮方法在處理長文本渲染時表現不佳。因此,OmniGen2 使用多模態語言模型(MLLM)生成的多模態交錯條件的隱藏狀態,作為擴散解碼器的輸入,而不是依賴固定的一組可學習查詢 token。一個可行的替代方案是結合條件的隱藏狀態與查詢 token,但我們將其作為未來工作的方向。

另一個重要考慮是 VAE 編碼器的集成。雖然現有的 MLLM 主要使用 ViT 進行圖像建模,但 ViT 通常難以捕捉細粒度的視覺細節,導致圖像生成任務中的圖像保真度下降。雖然端到端訓練 ViT 特征可以緩解這一限制,但它在圖像理解與生成任務之間引入了復雜的平衡問題。近期工作如 BAGEL [13] 和 Mogao [40] 通過雙重編碼(在模型中同時引入 VAE 和 ViT 特征)來解決此問題。然而,這種雙重編碼方法需要大量的架構改動,并引入復雜的注意力機制,增加了開發復雜性。此外,適應新架構還需要重新訓練,以恢復其圖像理解能力。考慮到這些挑戰,我們選擇僅將 VAE 作為擴散解碼器的輸入,而不是集成進 MLLM 中。此策略保留了 MLLM 的架構簡潔性,并在無需大量重新訓練的情況下維持其多模態理解能力。

2.2 Multimodal Large Language Model


如圖 2 所示,OmniGen2 利用基礎的 MLLM Transformer 處理文本和圖像輸入。對于文本生成任務,模型采用自回歸語言頭;而圖像生成則通過專用的擴散模塊完成。該 Transformer 主干網絡由 Qwen2.5-VL-3B [3] 初始化。我們引入了一個特殊的標記 “<|img|>”,用于在輸出序列中顯式指示圖像生成。當模型遇到該標記時,將觸發擴散解碼器以合成對應圖像。MLLM 產生的隱藏狀態作為條件輸入提供給擴散解碼器。然而,由于這些隱藏狀態可能缺乏詳細的視覺信息,我們進一步使用從輸入圖像中提取的 VAE 特征來增強解碼器。最終,擴散解碼器利用修正流(Rectified Flow, RF)方法生成圖像。

2.3 Diffusion Transformer


如圖 2 所示,我們采用了一個簡單的擴散 Transformer 架構,直接將來自 MLLM、VAE 和噪聲的特征拼接起來,從而允許在這些模態之間進行聯合注意力操作。借鑒 Lumina-Image 2.0 [57] 的方法,多個輸入條件首先通過一個 Refiner 網絡處理,以確保對齊,然后再傳入 Transformer 層。擴散解碼器包含 32 層,隱藏層維度為 2520,總參數量約為 40 億。由于顯式引入了 VAE 特征,MLLM 中與圖像相關的隱藏狀態的重要性降低。為了減少計算開銷,我們舍棄了 MLLM 中與圖像相關的隱藏狀態,僅保留與文本 token 相關的部分。此外,我們在擴散 Transformer 中采用了三維旋轉位置編碼(3D Rotary Position Embedding),該方法是對 Qwen mRoPE 的一種改進。

多模態旋轉位置編碼(Multimodal Rotary Position Embedding)受最近多模態位置編碼設計的研究成果啟發 [75; 57; 71],我們提出了一種新的 Omni-RoPE,專為滿足復雜多樣的任務需求而設計,尤其是圖像編輯和上下文生成任務。如圖 3 所示,我們的 Omni-RoPE 被分解為三個不同的組成部分:

  1. 序列與模態標識符(idseqid_{seq}idseq?):該組件的主要作用是區分來自不同模態和序列的 token。關鍵在于我們將每張圖像視為一個完整的語義單元,因此屬于同一圖像的所有 token 被分配一個共享且恒定的 ID。相比之下,對于文本 token,該 ID 隨每個后續 token 單調遞增,充當標準的一維位置索引,用于保留詞序。該組件等價于 Qwen2-VL 中的原始 mRoPE。

  2. 二維空間高度坐標(hhh):表示圖像 token 的歸一化垂直位置。

  3. 二維空間寬度坐標(www):表示圖像 token 的歸一化水平位置。對于所有非圖像 token,空間坐標 (h,w)(h, w)(h,w) 被設為零。

我們設計的關鍵在于上述組件如何協同工作。對于每個圖像實體(無論是源圖像還是目標圖像),其空間坐標 (h,w)(h, w)(h,w) 是獨立計算的,起始位置為 (0,0)(0, 0)(0,0)。這保證了在對應位置上的 token 會擁有相同的空間嵌入,從而強烈鼓勵一致性,并在編輯過程中保持未修改區域的保真度。盡管空間坐標是局部定義的,但唯一的序列與模態標識符 idseqid_{seq}idseq? 提供了明確的機制,用以區分不同圖像實體之間的 token。該整體設計可無縫降級為文本輸入的一維位置編碼,使我們的 M-RoPE 成為一個靈活且穩健的框架,有效支持全譜系的多模態操作。

圖3

圖 3:Omni-RoPE 的示意圖。該方法將位置信息分解為三個組成部分:
(1) 序列與模態標識符(idseqid_{seq}idseq?):對同一圖像內的所有 token 保持不變(將其視為一個語義單元),但在不同圖像之間唯一;
(2) 和 (3) 2D 空間坐標(hhh, www):對每個圖像實體從 (0,0)(0, 0)(0,0) 局部計算。
這一雙重機制使得模型可以通過唯一的 idseqid_{seq}idseq? 無歧義地區分不同圖像,同時共享的局部空間坐標增強了圖像編輯等任務的一致性。

2.4 Training Strategy


MLLM 使用 Qwen2.5-VL 進行初始化,在訓練過程中為了保留其多模態理解能力,其大部分參數保持凍結狀態。僅有新引入的特殊 token “<|img|>” 會被更新。擴散模型從零開始訓練,最初在文本生成圖像(T2I)任務上進行預訓練,隨后采用混合任務訓練策略以適應多種目標。在反思訓練階段(如圖 13 所示),模型的所有參數都會解凍,從而使模型能夠生成反思性的文本描述,并迭代地優化圖像輸出。

圖4

圖 4:用于圖像生成的多模態反思機制(Multimodal Reflection)。

3 Dataset Construction

對于多模態理解任務,我們采用了 LLaVA-OneVision [35] 提供的數據集。在文本生成圖像(T2I)任務中,我們的訓練語料庫包含約 1.4 億張開源圖像,這些圖像來源于 Recap-DataComp [37]、SAM-LLaVA [8]、ShareGPT4V [9]、LAION-Aesthetic [65]、ALLaVA-4V [6]、DOCCI [50]、DenseFusion [38]、JourneyDB [69] 和 BLIP3-o [7]。此外,我們還加入了 1000 萬張自有圖像,并使用 Qwen2.5-VL-72B [3] 為這些圖像生成合成標注。對于圖像編輯任務,我們收集了多個公開數據集,包括 SEED-Data-Edit [19]、UltraEdit [91]、OmniEdit [77]、PromptFix [86] 和 ImgEdit [83]。然而,這些開源資源往往存在圖像質量較差、指令準確性有限、任務多樣性不足等問題。為克服這些限制并更好地服務于我們的研究目標,我們精心構建了一個新的綜合訓練數據集。接下來的章節將詳細介紹我們數據構建流程。

3.1 In-Context Data


上下文圖像生成任務(in-context image generation)[79; 82; 34; 71] 旨在從輸入圖像中提取一個視覺概念——例如特定物體、身份或個體——并在新生成的圖像中準確再現該概念。該任務也被稱為主體驅動生成(subject-driven generation)[64],其工作方式類似于大語言模型中的上下文學習:圖像生成模型僅根據提供的上下文在實時環境中生成個性化輸出,無需額外的微調。盡管由于其廣泛的應用范圍,上下文圖像生成已被廣泛研究,但當前社區在該任務上仍嚴重缺乏高質量的專用數據集。

3.1.1 In-Context Generation


上下文生成任務要求對同一對象在不同場景下的多樣化外觀進行建模。為此,我們利用視頻數據,因為視頻幀天然捕捉了相同主體在不同條件下的變化。此類時間上的多樣性使得我們可以構建訓練對,其中主體在語義上保持一致,但在姿態、視角和光照條件上存在差異。如圖 5 所示,我們的數據構建流程從每個視頻中提取關鍵幀并指定一個基準幀開始。我們使用 Qwen2.5-VL-7B-Instruct [3] 在基準幀中識別主要主體,借助該模型的視覺-語言能力聚焦于語義上顯著的實體,同時過濾掉無關的背景物體。接著,我們使用 GroundingDINO [45] 基于視覺語言模型生成的標簽獲得主體的邊界框。隨后,借助 SAM2 [61] 對已識別的主體在后續幀中進行分割和跟蹤,選擇最后一個包含所有主體的有效幀,以最大化外觀變化。為了緩解跟蹤誤差(如引入外觀相似但錯誤的對象),我們引入基于多模態語言模型(VLM)的過濾步驟,確保主體一致性。為進一步提升視覺多樣性,我們采用 FLUX.1-Fill-dev2 在輸入幀中對主體進行 novel 背景重繪(outpaint)。我們應用基于 DINO [5] 的相似性過濾,剔除外觀差異過大的樣本,并使用 Qwen2.5-VL-7B-Instruct 評估生成樣本的語義質量和一致性。此外,Qwen2.5-VL-7B-Instruct 還用于生成簡潔的物體描述和詳細的圖像標題,這些內容將被整合成自然語言指令。最終,每個訓練樣本為一個三元組:指令、經過重繪的圖像作為輸入、原始圖像作為輸出,從而為多主體生成任務提供了語義豐富且視覺多樣的監督數據。

圖5

圖 5:In-Context 生成數據集構建流程。最終輸入圖像用紅色邊框標出,目標圖像用藍色邊框標出。

3.1.2 In-Context Edit


圖6

圖 6:In-Context 編輯數據集構建流程。最終的輸入圖像和目標圖像分別用紅色和藍色邊框標注,與圖 5 保持一致。

我們進一步將 in-context 生成范式擴展到編輯任務,提出了一種新的任務,稱為 in-context 編輯,如圖 6 所示。在該任務中,模型從上下文圖像中提取相關元素,并利用這些元素對目標輸入圖像進行編輯。

in-context 編輯的數據來源與 in-context 生成相同:選取包含相同物體的兩幀圖像,一幀作為上下文圖像(context clip),另一幀作為目標圖像(target clip)。首先,使用 SAM2 [61] 獲取兩幀圖像中物體的掩碼。對于上下文圖像,使用 FLUX.1-Fill-dev 對物體進行 outpainting,生成新的背景,以引導模型聚焦于物體特征。隨后,對目標圖像應用 FLUX.1-Fill-dev 進行 inpainting,移除物體但保留原始背景,從而得到輸入圖像(input clip)。最后,使用 Qwen2.5-VL-72B-Instruct [3] 生成從輸入圖像到目標圖像的變換過程的自然語言描述,并將其與上下文圖像中的物體描述合并,形成完整的自然語言指令。

3.2 Image Editing Data


3.2.1 Inpaint Data


盡管大多數現有的編輯數據集是通過圖像修復技術構建的,但它們存在兩個主要缺陷:

(1) 圖像質量較差:這既源于圖像本身分辨率較低,也由于修復過程中后處理導致的質量下降。

(2) 編輯指令不準確:以往工作預定義編輯指令,并使用圖像修復模型根據這些指令生成圖像,但圖像修復模型的指令遵循能力較弱,導致編輯指令與原始-修復圖像對之間存在不匹配。

在本工作中,我們從文本生成圖像數據中挑選了一小部分高質量圖像作為數據源,應用 FLUX.1-Fill-dev 進行圖像修復。我們將修復后的圖像作為輸入,原始圖像作為目標圖像,以確保目標圖像具備高質量。

此外,我們不向圖像修復模型輸入編輯指令,允許其隨機填充內容。在獲得圖像對之后,我們使用多模態大語言模型(MLLM)根據這些圖像對編寫編輯指令。我們發現,最新的 MLLM(例如 Qwen2.5-VL)在為原始-修復圖像對撰寫編輯指令方面表現出色,從而構建出一個高準確率的編輯數據集。

3.2.2 Video Data


圖7

圖 7:從視頻中創建圖像編輯對。我們首先過濾掉屬于不同場景的幀,以確保上下文一致性,然后移除那些視角變化較大的幀。

傳統的圖像修復方法在構建多樣化數據方面存在固有限制,因此難以勝任諸如動作修改、物體移動或表情變化等任務。為了解決這些局限性,我們額外從視頻源中提取編輯圖像對。

我們在圖 7 中展示了這一流程。圖像編輯任務通常要求對圖像進行局部修改,同時保持周圍上下文的完整性。為了從視頻中構建適用于圖像編輯的圖像對,必須識別僅具有局部變化的幀對。我們首先將視頻劃分為不同的場景,以避免跨越不連續上下文配對幀。通過分析平均 RGB 像素強度來檢測場景邊界,同時利用 HSV 色彩空間中差異的滑動平均值來增強對快速運動的魯棒性。

在每個識別出的場景中,我們提取多個幀對,并使用 DINOv2 [54] 和 CLIP [59] 對其差異進行評估。那些差異過大(表示視角變化)或差異過小的幀對將被過濾掉。

由于視頻中即使在同一場景中也常存在攝像機視角的變化,因此需要進一步篩選。現有方法如視覺-語言模型計算成本高且容易出錯,而基于顏色直方圖或像素級相似度的方法則要么對空間結構不敏感,要么對噪聲過于敏感。為了解決這些問題,我們將每張圖像劃分為多個塊,并比較對應塊的顏色直方圖以評估相似性,從而有效降低噪聲影響。隨后計算相似塊的比例以施加空間約束,該比例可作為視角一致性的可靠指標。該策略能夠高效地過濾出具有視角變化的幀對,同時保持較低的計算開銷。

最后,對于每一對保留下來的、視角一致的圖像,我們使用 Qwen2.5VL-72B-Instruct [3] 生成精確的編輯指令,從而構建出高質量的圖像編輯數據集。

3.3 Interleave Data


3.3.1 Interleaved Frames


我們首先根據檢測到的場景切換對視頻進行分段,并從每個片段中提取關鍵幀。隨后,我們構建兩種類型的視頻幀序列,每種序列最多包含五幀:

1)同場景交錯序列(intra-scene interleaved sequence):由來自同一場景的幀組成;
2)跨場景交錯序列(interscene interleaved sequence):由來自不同場景的幀組成。

在提取幀序列之后,我們使用多模態大語言模型(MLLM)對每對相鄰幀進行描述性標注,說明物體動作與行為的變化、環境與背景的變化以及物體外觀的差異。鑒于標注量巨大,我們采用輕量模型 Qwen2.5-VL-7B-Instruct 執行該任務。

最終,我們從視頻源中獲得了 80 萬條交錯數據樣本,用于預訓練模型處理連續多模態序列的能力。

3.3.2 Reflection Data


受到大語言模型在測試時縮放和自我反思方面的進展啟發 [23; 28; 41],我們進一步探索了將反思能力集成到多模態生成模型中的可能性,并展示了測試時縮放如何提升圖像生成質量。在本節中,我們重點描述用于后續模型微調的反思數據構建方法。

反思數據由交錯的文本和圖像序列組成,序列以用戶指令開頭,接著是多模態模型生成的圖像及其對該圖像的逐步反思。每輪反思關注兩個關鍵方面:
1)分析生成圖像與原始指令之間的偏差或未滿足的要求;
2)提出具體方案來改進上一輪生成圖像中的缺陷。

為了構建自我反思數據,我們從訓練數據中選擇一個小子集(當前實驗僅使用文本生成圖像任務的數據),并使用模型生成圖像。

隨后,我們使用一個多模態大語言模型(MLLM)評估生成圖像是否符合原始指令。如果圖像未能充分遵循指令或存在其他質量問題,模型將識別具體問題并提出修改建議。最初我們嘗試使用 DSG [12] 評估框架來評估指令與圖像的一致性,但該方法經常產生幻覺。之后我們發現強大的多模態模型可以直接勝任此任務,因此我們使用 Doubao-1.5-pro [16] 輸出問題和修改建議。

在獲得第一輪反思后,我們將生成的圖像及其反思內容附加到原始指令后,并使用這些數據對模型進行微調。訓練完成后,我們繼續對第一輪反思數據進行推理,得到第二輪生成圖像及其反思數據。通過這一迭代過程,我們獲得了多輪自我反思數據。

目前尚缺乏關于將反思機制用于提升多模態生成模型中圖像生成任務的研究。我們希望本工作能推動該領域在推理能力方面的發展。在模型通過當前反思數據訓練獲得初步反思能力后,還可以通過在線強化學習算法進一步提升,我們將此留作未來探索方向。

圖8

圖 8:OmniContext 基準的概覽。左側:OmniContext 中包含的圖像類型(Image genres)。右側:OmniContext 中每種圖像類型的示例圖像。

4 OmniContext Benchmark

圖9

圖 9:OmniContext 基準中對輸出圖像進行評估的示例。

OmniGen2 的一個關鍵目標是實現用戶提供的特定上下文圖像的一致性生成。為了嚴格評估這一重要但尚未充分基準化的能力,我們引入了 OmniContext,這是一個新基準,旨在評估模型在不同上下文中保持主體一致性的能力。

現有的 in-context 圖像生成基準未能充分反映真實世界的應用場景。它們未考慮多輸入圖像的情況,且上下文圖像和任務類型數量有限。DreamBench [64] 僅包含 30 個對象和 25 個提示模板,缺乏對人物主體和場景級上下文的覆蓋。此外,現有基準采用 CLIP-I 和 DINO 作為衡量 in-context 生成圖像質量的指標。這些指標依賴輸入與輸出之間的圖像級相似性,不適用于多主體場景,且缺乏可解釋性。

為填補這些空白,我們構建了 OmniContext,使用大規模、人工收集的高質量圖像數據集,包括個人照片、開源圖像、動畫劇照和 AI 生成圖像。

如圖 8 所示,該基準涵蓋三種不同類型的上下文圖像 —— 人物(Character)、物體(Object)和場景(Scene) —— 涵蓋廣泛的實體和環境。通過系統性地組合不同類型的輸入圖像,我們設立了三大任務類別(SINGLE、MULTIPLE 和 SCENE)以及八個細化子任務,每個子任務包含 50 個樣本。SINGLE 類別指以單個上下文圖像(包含人物或物體)為條件的圖像生成任務。MULTIPLE 類別涉及來自多個上下文圖像的主體之間的組合交互。SCENE 類別涉及以參考圖像中提供的環境上下文為條件的圖像生成任務。

圖像-提示對的構建采用多模態大語言模型(MLLM)與人工注釋結合的混合方法。首先,MLLM 對圖像來源進行分類與過濾,以剔除低質量樣本。隨后,人工專家根據以下三項標準對圖像進行篩選:(1)主體明確,(2)具有美學質量,(3)內容多樣性。提示語最初由 GPT-4o 生成,并由注釋人員系統性地篩選和潤色,以確保語義內容和句法結構的全面多樣性。

為有效評估 in-context 圖像生成能力并增強評估結果的可解釋性,我們采用最先進的多模態大語言模型 GPT-4.1 [52] 來評估生成結果,如圖 9 所示。OmniContext 融入了三個指標:Prompt Following(PF)、Subject Consistency(SC)以及一個總體評分(Overall Score),該評分為 PF 和 SC 得分的幾何平均數。我們遵循 VIEScore [32] 的既有方法,使用 GPT-4.1 生成 0–10 的評分,并提供詳細的評分理由以支撐其評估結果。

我們相信 OmniContext 基準將成為可控、基于參考圖像生成任務研究的重要資源,推動未來該領域的發展。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/915772.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/915772.shtml
英文地址,請注明出處:http://en.pswp.cn/news/915772.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

期權到期會對大盤有什么影響?

本文主要介紹期權到期會對大盤有什么影響&#xff1f;期權到期對大盤的影響主要體現在以下幾個方面&#xff0c;但整體影響通常有限且短期&#xff0c;具體效果需結合市場環境、期權規模及行權價位置綜合判斷。期權到期會對大盤有什么影響&#xff1f;1. 市場流動性波動到期日效…

【LeetCode刷題指南】--隨機鏈表的復制

&#x1f525;個人主頁&#xff1a;草莓熊Lotso &#x1f3ac;作者簡介&#xff1a;C研發方向學習者 &#x1f4d6;個人專欄&#xff1a; 《C語言》 《數據結構與算法》《C語言刷題集》《Leetcode刷題指南》 ??人生格言&#xff1a;生活是默默的堅持&#xff0c;毅力是永久的…

系統學習算法:專題十四 鏈表

前提知識&#xff1a;1.畫圖&#xff0c;數據結構相關的題&#xff0c;畫圖必不可少&#xff0c;只要能畫出來&#xff0c;那么后面的代碼就很容易能寫出來&#xff0c;因為將抽象的數據結構轉換為直觀的圖畫2.引入虛擬頭結點&#xff0c;也叫哨兵位&#xff0c;能夠避免考慮很…

零基礎學后端-PHP語言(第一期-PHP環境配置)

從本期開始&#xff0c;我們學習PHP&#xff0c;但是我們要先配置PHP環境 PHP官網鏈接&#xff1a;PHP For Windows: Binaries and sources Releases 我們可以看到有以下資源 可以看到有很多php的版本&#xff0c;有Non Thread Safe和Thread Safe&#xff0c;還有zip&#xf…

C++ primer知識點總結

《C Primer》系統學習指南&#xff1a;從C到C的平滑過渡根據你提供的《C Primer》目錄和你的需求&#xff08;C語言背景轉C&#xff0c;側重網絡編程&#xff09;&#xff0c;我將為你制定一個全面的學習計劃&#xff0c;包含知識點詳解、C/C對比、實戰案例和分階段項目練習。第…

異構融合 4A:重構高性能計算與復雜場景分析的安全與效率邊界

當全球數據量以每兩年翻一番的速度爆炸式增長&#xff0c;高性能計算&#xff08;HPC&#xff09;與復雜場景分析正成為破解氣候預測、基因測序、金融風控等世界級難題的關鍵引擎。但異構計算環境的碎片化、多系統協同的復雜性、數據流動的安全風險&#xff0c;正在形成制約行業…

【華為機試】240. 搜索二維矩陣 II

文章目錄240. 搜索二維矩陣 II描述示例 1示例 2提示解題思路核心分析問題轉化算法實現方法1&#xff1a;右上角開始搜索&#xff08;推薦&#xff09;方法2&#xff1a;逐行二分查找方法3&#xff1a;分治法方法4&#xff1a;左下角開始搜索復雜度分析核心要點數學證明右上角搜…

瘋狂星期四文案網第16天運營日記

網站運營第16天&#xff0c;點擊觀站&#xff1a; 瘋狂星期四 crazy-thursday.com 全網最全的瘋狂星期四文案網站 運營報告 昨日訪問量 昨日30多ip, 今天也差不多&#xff0c;同步上周下降了一些&#xff0c;感覺明天瘋狂星期四要少很多了&#xff0c;記得上周四700多ip&…

Linux系統基礎入門與配置指南

Linux基本概述與配置 一、我們為什么使用Linux&#xff08;Linux的優點&#xff09;開源與自由 免費&#xff1a; 無需支付許可費用&#xff0c;任何人都可以自由下載、安裝和使用。源代碼開放&#xff1a; 任何人都可以查看、修改和分發源代碼。這帶來了極高的透明度、安全性和…

如何刪除VSCode Marketplace中的publisher

網頁上并沒有提供刪除的按鈕&#xff0c;需要通過命令的形式刪除。 vsce delete-publisher [要刪除的名字]# 鍵入token # y 確認這里的token是之前在Azure DevOps中創建的token&#xff0c;忘了的話可以重建一個 刷新網頁看一下 成功刪除了。

Windows安裝git教程(圖文版)

Git 是一個分布式版本控制系統&#xff0c;用于跟蹤文件的變化&#xff0c;特別是在軟件開發中。它使得多個開發者可以在不同的機器上并行工作&#xff0c;然后將他們的改動合并在一起。是在開發過程中&#xff0c;經常會用到的一個工具。本章教程&#xff0c;主要介紹Windows上…

Remote Framebuffer Protocol (RFB) 詳解

RFC 6143 規范文檔&#xff1a;The Remote Framebuffer Protocol 文章目錄1. 引言2. 初始連接流程2.1 TCP連接建立2.2 協議版本協商2.3 安全握手3. 顯示協議機制3.1 核心概念3.2 像素格式4. 輸入協議4.1 鍵盤事件(KeyEvent)4.2 鼠標事件(PointerEvent)5. 協議消息詳解5.1 握手消…

從 DeepSeek-V3 到 Kimi K2:八種現代大語言模型架構設計

編譯&#xff1a;青稞社區Kimi 原文&#xff1a;https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison 首發&#xff1a;https://mp.weixin.qq.com/s/lSM2jk1UxJVz1WllWYQ4aQ 自原始 GPT 架構開發以來已經過去了七年。乍一看&#xff0c;從 2019 年的…

linux驅動開發筆記--GPIO驅動開發

目錄 前言 一、設備樹配置 二、驅動編寫 三、用戶空間測試 總結 前言 開發平臺&#xff1a;全志A133&#xff0c;開發環境&#xff1a;linux4.9andrio10&#xff0c;開發板&#xff1a;HelperBoard A133_V2.5。 一、設備樹配置 打開板級設備樹配置文件&#xff0c;路徑&a…

騰訊iOA:企業軟件合規與安全的免費守護者

人們眼中的天才之所以卓越非凡&#xff0c;并非天資超人一等而是付出了持續不斷的努力。1萬小時的錘煉是任何人從平凡變成超凡的必要條件。———— 馬爾科姆格拉德威爾 目錄 一、為什么要使用騰訊iOA&#xff1f; 二、中小企業軟件合規痛點 三、騰訊iOA解決方案 3.1 核心技…

C#定時任務實戰指南:從基礎Timer到Hangfire高級應用

高效管理后臺作業&#xff0c;讓定時任務成為應用的可靠引擎 在C#應用開發中&#xff0c;定時任務是實現數據同步、報表生成、系統維護等后臺作業的核心技術。本文將深入探討C#生態中主流的定時任務解決方案&#xff0c;從基礎的內置Timer到強大的Quartz.NET和Hangfire框架&…

軟件開發、項目開發基本步驟

? 立項階段&#xff1a;項目定義、需求收集與分析、可行性分析、風險評估與規劃、項目團隊組建、制定項目計劃、獲取批準與支持。? 需求評審與分析&#xff1a;? 項目團隊&#xff08;包括產品經理、開發人員、測試人員等&#xff09;共同參與&#xff0c;明確項目的目標、功…

慢 SQL接口性能優化實戰

在對某電商項目進行接口性能壓測時&#xff0c;發現 /product/search 接口響應緩慢&#xff0c;存在明顯性能瓶頸。通過慢查詢日志排查和 SQL 優化&#xff0c;最終實現了接口響應速度的顯著提升。本文完整還原此次優化過程&#xff0c;特別強調操作步驟和問題分析過程&#xf…

【C#】在WinForms中實現控件跨TabPage共享的優雅方案

文章目錄一、問題背景二、基本實現方案1. 通過修改Parent屬性實現控件移動三、進階優化方案1. 創建控件共享管理類2. 使用用戶控件封裝共享內容四、方案對比與選擇建議五、最佳實踐建議六、完整示例代碼一、問題背景 在Windows窗體應用程序開發中&#xff0c;我們經常遇到需要…

Android Camera openCamera

由頭 今日調休&#xff0c;終于終于閑下來了&#xff0c;可以寫一下博客了&#xff0c;剛好打開自己電腦&#xff0c;就有四年前下的谷歌Android 12源碼&#xff0c;不是很舊&#xff0c;剛好夠用&#xff0c;不用再另外下載新源碼了&#xff0c;不得不感慨這時間過得真快啊~廢…