(Arxiv-2025)OmniGen2：通向先進多模態生成的探索

OmniGen2：通向先進多模態生成的探索

paper title：OmniGen2: Exploration to Advanced Multimodal Generation

paper是BAAI發布在Arxiv 2025的工作

Code:鏈接

Abstract

在本研究中，我們提出了 OmniGen2，這是一種多功能、開源的生成模型，旨在為多樣化的生成任務提供統一的解決方案，包括文本生成圖像（text-to-image）、圖像編輯和上下文生成（in-context generation）。與 OmniGen 不同，OmniGen2 采用了針對文本與圖像模態的兩條獨立解碼路徑，使用非共享參數和解耦的圖像分詞器。這一設計使得 OmniGen2 能夠在現有多模態理解模型的基礎上構建，而無需重新適配 VAE 輸入，從而保留了原始的文本生成能力。為了支持 OmniGen2 的訓練，我們構建了完整的數據構建流程，涵蓋圖像編輯和上下文生成任務。此外，我們還引入了專門針對圖像生成任務的反思機制（reflection mechanism），并基于 OmniGen2 構建了一個專用的反思數據集。盡管參數規模相對較小，OmniGen2 在多個任務基準上仍取得了有競爭力的表現，包括文本生成圖像和圖像編輯任務。為了進一步評估上下文生成能力（又稱主體驅動任務），我們引入了一個新的基準測試 OmniContext。在一致性評估方面，OmniGen2 在開源模型中實現了當前最優表現。我們將開源我們的模型、訓練代碼、數據集及數據構建流程，以支持該領域的后續研究。

圖 1：OmniGen2 及其反思模型的多樣能力概覽.

1 Introduction

統一圖像生成近年來受到廣泛關注 [80; 92; 73; 48]。例如，OmniGen [80] 使用簡潔的 Transformer 架構，能夠應對多種圖像生成任務，無需額外插件或預處理器。近期如 Gemini-2.0-flash [22] 和 GPT-4o [53] 等模型的突破進一步展示了該領域的巨大潛力，并標志著多模態智能從專用模型 [3; 33] 向強大的統一系統轉變的新范式。Chameleon [72] 和 Emu3 [76] 在所有模態上采用離散自回歸方法，而 Janus 系列 [78; 11] 引入了分別用于理解與生成任務的雙圖像編碼器。Transfusion 在一個 Transformer 框架中融合了自回歸和擴散過程。然而，這些模型支持的圖像生成任務仍相對有限。

在本文中，我們提出了 OmniGen2，這是一個開源生成模型，在多個生成任務中表現出競爭力。與前作 OmniGen [80] 不同，我們觀察到簡單的參數共享不足以同時處理自回歸文本建模和基于擴散的圖像建模。為解決這一問題，OmniGen2 在架構上為自回歸與擴散任務采用了獨立路徑。

盡管像 GPT-4o [53] 這樣的模型在遵循提示方面表現出色，但在精確圖像編輯和保持上下文生成中主體一致性方面常表現出一致性不足。我們推測，這種一致性缺失是由于這些模型完全依賴于高級語義編碼器，而這些編碼器在捕捉細粒度視覺細節方面能力有限。為彌補這一不足，OmniGen2 在繼承前作使用 VAE 特征處理低層視覺信息策略的基礎上進行增強。最近的一些模型，如 Mogao [40] 和 BAGEL [13]，也采用非共享參數用于文本與圖像模態處理，并通過雙視覺分詞器（VAE [31] 和 ViT [15]）處理圖像。而 OmniGen2 將 VAE 提取的特征僅輸入至擴散模型中，而非多模態大語言模型（MLLM），從而避免 VAE 編碼影響 MLLM 的原生多模態理解能力，同時減少冗余圖像表示。得益于此設計，OmniGen2 保持了原始 MLLM 的簡潔性和強大的文本生成能力。

除模型架構外，我們還嘗試解決制約本領域發展的數據與評估難題。我們從收集與重構開源數據集入手，但發現多數數據在圖像編輯與上下文生成等任務上的質量存在天然限制，這也是開源模型與商用模型間性能差距顯著的根源之一。為此，我們開發了從視頻中生成圖像編輯與上下文生成數據的完整數據構建流水線，并計劃向社區開源這些數據集。此外，我們通過迭代式生成流程構建了用于圖像生成的反思數據，旨在將 LLM 的推理與反思能力注入多模態生成模型中。

我們對 OmniGen2 進行了廣泛評估，結果表明其在文本生成圖像（T2I）、圖像編輯、上下文生成等多個任務領域均表現出色。值得注意的是，對于上下文生成任務，當前尚缺乏良好的公共排行榜來系統評估和對比不同模型的關鍵能力。現有資源如 DreamBench [64] 難以體現真實場景下的復雜需求。為解決這一評估空白，我們引入了 OmniContext 基準集，涵蓋八大任務類別，專為評估人物、物體與場景一致性而設計。實驗結果表明，OmniGen2 在開源模型中實現了當前最優一致性表現。

我們的主要貢獻總結如下：

開源 OmniGen2，這是一款強大的多模態生成模型，在多個圖像生成任務中展現出卓越表現。在保持強大圖像生成能力的同時，OmniGen2 還保留了強大的文本生成能力。我們進一步探索了將多模態反思機制應用于圖像生成的可能性。
構建新穎的數據生成流水線，推出一系列高質量數據集，尤其面向圖像編輯與上下文學習任務中的數據稀缺問題，這些數據集來源于視頻內容。
引入 OmniContext 基準測試套件，系統評估不同場景下的上下文視覺生成一致性能力，為該領域提供統一評估標準。

此外，需要強調的是，OmniGen2 的文本生成能力主要來源于其解耦架構中的 MLLM 模塊，并非源自對 OmniGen2 基礎模型中 MLLM 的端到端全參數訓練（除了引入的特殊 token）。只有在反思模型中，才會進行端到端的全參數訓練。因此，OmniGen2 應被視為支持圖文雙輸出的多模態生成模型，而非原生的多模態模型。

圖 2：OmniGen2 的架構。OmniGen2 為自回歸與擴散任務分別采用了獨立的 Transformer 架構。模型使用了兩種不同的圖像編碼器：ViT 編碼圖像后輸入至文本 Transformer，VAE 編碼圖像后輸入至擴散 Transformer。

2 Model

2.1 Design Princeple

在原始 OmniGen [80] 框架中，我們在 Transformer 架構中同時實現了文本的自回歸建模和圖像的基于擴散的方法。該架構使用 phi-3 [1] 進行初始化。在發布 OmniGen 后，我們進行了進一步的實驗。首先，我們用更強大的 Qwen 模型替代了 phi-3。令人驚訝的是，盡管使用了更強的語言模型（LLM），圖像生成質量卻有所下降。其次，我們探索了 MoE（專家混合）策略，以類似于 LMfusion [68] 的方法，將文本和圖像參數分別路由。我們的研究發現，用文本分支的參數初始化圖像分支的參數，其性能甚至不如直接隨機初始化圖像路徑。這表明為文本優化的參數并不適合圖像建模。因此，在 OmniGen2 中，我們將擴散過程完全解耦，并隨機初始化其參數。

近期的方法，如 MetaQuery [55] 和 BLIP-3o [7]，使用可學習的查詢 token 來編碼擴散生成所需的條件信息。這些方法將所有條件信息壓縮為固定數量的 token，不可避免地限制了表示能力并導致信息損失。我們還發現，這種基于 token 的壓縮方法在處理長文本渲染時表現不佳。因此，OmniGen2 使用多模態語言模型（MLLM）生成的多模態交錯條件的隱藏狀態，作為擴散解碼器的輸入，而不是依賴固定的一組可學習查詢 token。一個可行的替代方案是結合條件的隱藏狀態與查詢 token，但我們將其作為未來工作的方向。

另一個重要考慮是 VAE 編碼器的集成。雖然現有的 MLLM 主要使用 ViT 進行圖像建模，但 ViT 通常難以捕捉細粒度的視覺細節，導致圖像生成任務中的圖像保真度下降。雖然端到端訓練 ViT 特征可以緩解這一限制，但它在圖像理解與生成任務之間引入了復雜的平衡問題。近期工作如 BAGEL [13] 和 Mogao [40] 通過雙重編碼（在模型中同時引入 VAE 和 ViT 特征）來解決此問題。然而，這種雙重編碼方法需要大量的架構改動，并引入復雜的注意力機制，增加了開發復雜性。此外，適應新架構還需要重新訓練，以恢復其圖像理解能力。考慮到這些挑戰，我們選擇僅將 VAE 作為擴散解碼器的輸入，而不是集成進 MLLM 中。此策略保留了 MLLM 的架構簡潔性，并在無需大量重新訓練的情況下維持其多模態理解能力。

2.2 Multimodal Large Language Model

如圖 2 所示，OmniGen2 利用基礎的 MLLM Transformer 處理文本和圖像輸入。對于文本生成任務，模型采用自回歸語言頭；而圖像生成則通過專用的擴散模塊完成。該 Transformer 主干網絡由 Qwen2.5-VL-3B [3] 初始化。我們引入了一個特殊的標記 “<|img|>”，用于在輸出序列中顯式指示圖像生成。當模型遇到該標記時，將觸發擴散解碼器以合成對應圖像。MLLM 產生的隱藏狀態作為條件輸入提供給擴散解碼器。然而，由于這些隱藏狀態可能缺乏詳細的視覺信息，我們進一步使用從輸入圖像中提取的 VAE 特征來增強解碼器。最終，擴散解碼器利用修正流（Rectified Flow, RF）方法生成圖像。

2.3 Diffusion Transformer

如圖 2 所示，我們采用了一個簡單的擴散 Transformer 架構，直接將來自 MLLM、VAE 和噪聲的特征拼接起來，從而允許在這些模態之間進行聯合注意力操作。借鑒 Lumina-Image 2.0 [57] 的方法，多個輸入條件首先通過一個 Refiner 網絡處理，以確保對齊，然后再傳入 Transformer 層。擴散解碼器包含 32 層，隱藏層維度為 2520，總參數量約為 40 億。由于顯式引入了 VAE 特征，MLLM 中與圖像相關的隱藏狀態的重要性降低。為了減少計算開銷，我們舍棄了 MLLM 中與圖像相關的隱藏狀態，僅保留與文本 token 相關的部分。此外，我們在擴散 Transformer 中采用了三維旋轉位置編碼（3D Rotary Position Embedding），該方法是對 Qwen mRoPE 的一種改進。

多模態旋轉位置編碼（Multimodal Rotary Position Embedding）受最近多模態位置編碼設計的研究成果啟發 [75; 57; 71]，我們提出了一種新的 Omni-RoPE，專為滿足復雜多樣的任務需求而設計，尤其是圖像編輯和上下文生成任務。如圖 3 所示，我們的 Omni-RoPE 被分解為三個不同的組成部分：

序列與模態標識符（ $id_{seq}$ ）：該組件的主要作用是區分來自不同模態和序列的 token。關鍵在于我們將每張圖像視為一個完整的語義單元，因此屬于同一圖像的所有 token 被分配一個共享且恒定的 ID。相比之下，對于文本 token，該 ID 隨每個后續 token 單調遞增，充當標準的一維位置索引，用于保留詞序。該組件等價于 Qwen2-VL 中的原始 mRoPE。
二維空間高度坐標（ $h$ ）：表示圖像 token 的歸一化垂直位置。
二維空間寬度坐標（ $w$ ）：表示圖像 token 的歸一化水平位置。對于所有非圖像 token，空間坐標 $(h, w)$ 被設為零。

我們設計的關鍵在于上述組件如何協同工作。對于每個圖像實體（無論是源圖像還是目標圖像），其空間坐標 $(h, w)$ 是獨立計算的，起始位置為 $(0, 0)$ 。這保證了在對應位置上的 token 會擁有相同的空間嵌入，從而強烈鼓勵一致性，并在編輯過程中保持未修改區域的保真度。盡管空間坐標是局部定義的，但唯一的序列與模態標識符 $id_{seq}$ 提供了明確的機制，用以區分不同圖像實體之間的 token。該整體設計可無縫降級為文本輸入的一維位置編碼，使我們的 M-RoPE 成為一個靈活且穩健的框架，有效支持全譜系的多模態操作。

圖 3：Omni-RoPE 的示意圖。該方法將位置信息分解為三個組成部分：
(1) 序列與模態標識符（ $id_{seq}$ ）：對同一圖像內的所有 token 保持不變（將其視為一個語義單元），但在不同圖像之間唯一；
(2) 和 (3) 2D 空間坐標（ $h$ , $w$ ）：對每個圖像實體從 $(0, 0)$ 局部計算。
這一雙重機制使得模型可以通過唯一的 $id_{seq}$ 無歧義地區分不同圖像，同時共享的局部空間坐標增強了圖像編輯等任務的一致性。

2.4 Training Strategy

MLLM 使用 Qwen2.5-VL 進行初始化，在訓練過程中為了保留其多模態理解能力，其大部分參數保持凍結狀態。僅有新引入的特殊 token “<|img|>” 會被更新。擴散模型從零開始訓練，最初在文本生成圖像（T2I）任務上進行預訓練，隨后采用混合任務訓練策略以適應多種目標。在反思訓練階段（如圖 13 所示），模型的所有參數都會解凍，從而使模型能夠生成反思性的文本描述，并迭代地優化圖像輸出。

圖 4：用于圖像生成的多模態反思機制（Multimodal Reflection）。

3 Dataset Construction

對于多模態理解任務，我們采用了 LLaVA-OneVision [35] 提供的數據集。在文本生成圖像（T2I）任務中，我們的訓練語料庫包含約 1.4 億張開源圖像，這些圖像來源于 Recap-DataComp [37]、SAM-LLaVA [8]、ShareGPT4V [9]、LAION-Aesthetic [65]、ALLaVA-4V [6]、DOCCI [50]、DenseFusion [38]、JourneyDB [69] 和 BLIP3-o [7]。此外，我們還加入了 1000 萬張自有圖像，并使用 Qwen2.5-VL-72B [3] 為這些圖像生成合成標注。對于圖像編輯任務，我們收集了多個公開數據集，包括 SEED-Data-Edit [19]、UltraEdit [91]、OmniEdit [77]、PromptFix [86] 和 ImgEdit [83]。然而，這些開源資源往往存在圖像質量較差、指令準確性有限、任務多樣性不足等問題。為克服這些限制并更好地服務于我們的研究目標，我們精心構建了一個新的綜合訓練數據集。接下來的章節將詳細介紹我們數據構建流程。

3.1 In-Context Data

上下文圖像生成任務（in-context image generation）[79; 82; 34; 71] 旨在從輸入圖像中提取一個視覺概念——例如特定物體、身份或個體——并在新生成的圖像中準確再現該概念。該任務也被稱為主體驅動生成（subject-driven generation）[64]，其工作方式類似于大語言模型中的上下文學習：圖像生成模型僅根據提供的上下文在實時環境中生成個性化輸出，無需額外的微調。盡管由于其廣泛的應用范圍，上下文圖像生成已被廣泛研究，但當前社區在該任務上仍嚴重缺乏高質量的專用數據集。

3.1.1 In-Context Generation

上下文生成任務要求對同一對象在不同場景下的多樣化外觀進行建模。為此，我們利用視頻數據，因為視頻幀天然捕捉了相同主體在不同條件下的變化。此類時間上的多樣性使得我們可以構建訓練對，其中主體在語義上保持一致，但在姿態、視角和光照條件上存在差異。如圖 5 所示，我們的數據構建流程從每個視頻中提取關鍵幀并指定一個基準幀開始。我們使用 Qwen2.5-VL-7B-Instruct [3] 在基準幀中識別主要主體，借助該模型的視覺-語言能力聚焦于語義上顯著的實體，同時過濾掉無關的背景物體。接著，我們使用 GroundingDINO [45] 基于視覺語言模型生成的標簽獲得主體的邊界框。隨后，借助 SAM2 [61] 對已識別的主體在后續幀中進行分割和跟蹤，選擇最后一個包含所有主體的有效幀，以最大化外觀變化。為了緩解跟蹤誤差（如引入外觀相似但錯誤的對象），我們引入基于多模態語言模型（VLM）的過濾步驟，確保主體一致性。為進一步提升視覺多樣性，我們采用 FLUX.1-Fill-dev2 在輸入幀中對主體進行 novel 背景重繪（outpaint）。我們應用基于 DINO [5] 的相似性過濾，剔除外觀差異過大的樣本，并使用 Qwen2.5-VL-7B-Instruct 評估生成樣本的語義質量和一致性。此外，Qwen2.5-VL-7B-Instruct 還用于生成簡潔的物體描述和詳細的圖像標題，這些內容將被整合成自然語言指令。最終，每個訓練樣本為一個三元組：指令、經過重繪的圖像作為輸入、原始圖像作為輸出，從而為多主體生成任務提供了語義豐富且視覺多樣的監督數據。

圖 5：In-Context 生成數據集構建流程。最終輸入圖像用紅色邊框標出，目標圖像用藍色邊框標出。

3.1.2 In-Context Edit

圖 6：In-Context 編輯數據集構建流程。最終的輸入圖像和目標圖像分別用紅色和藍色邊框標注，與圖 5 保持一致。

我們進一步將 in-context 生成范式擴展到編輯任務，提出了一種新的任務，稱為 in-context 編輯，如圖 6 所示。在該任務中，模型從上下文圖像中提取相關元素，并利用這些元素對目標輸入圖像進行編輯。

in-context 編輯的數據來源與 in-context 生成相同：選取包含相同物體的兩幀圖像，一幀作為上下文圖像（context clip），另一幀作為目標圖像（target clip）。首先，使用 SAM2 [61] 獲取兩幀圖像中物體的掩碼。對于上下文圖像，使用 FLUX.1-Fill-dev 對物體進行 outpainting，生成新的背景，以引導模型聚焦于物體特征。隨后，對目標圖像應用 FLUX.1-Fill-dev 進行 inpainting，移除物體但保留原始背景，從而得到輸入圖像（input clip）。最后，使用 Qwen2.5-VL-72B-Instruct [3] 生成從輸入圖像到目標圖像的變換過程的自然語言描述，并將其與上下文圖像中的物體描述合并，形成完整的自然語言指令。

3.2 Image Editing Data

3.2.1 Inpaint Data

盡管大多數現有的編輯數據集是通過圖像修復技術構建的，但它們存在兩個主要缺陷：

(1) 圖像質量較差：這既源于圖像本身分辨率較低，也由于修復過程中后處理導致的質量下降。

(2) 編輯指令不準確：以往工作預定義編輯指令，并使用圖像修復模型根據這些指令生成圖像，但圖像修復模型的指令遵循能力較弱，導致編輯指令與原始-修復圖像對之間存在不匹配。

在本工作中，我們從文本生成圖像數據中挑選了一小部分高質量圖像作為數據源，應用 FLUX.1-Fill-dev 進行圖像修復。我們將修復后的圖像作為輸入，原始圖像作為目標圖像，以確保目標圖像具備高質量。

此外，我們不向圖像修復模型輸入編輯指令，允許其隨機填充內容。在獲得圖像對之后，我們使用多模態大語言模型（MLLM）根據這些圖像對編寫編輯指令。我們發現，最新的 MLLM（例如 Qwen2.5-VL）在為原始-修復圖像對撰寫編輯指令方面表現出色，從而構建出一個高準確率的編輯數據集。

3.2.2 Video Data

圖 7：從視頻中創建圖像編輯對。我們首先過濾掉屬于不同場景的幀，以確保上下文一致性，然后移除那些視角變化較大的幀。

傳統的圖像修復方法在構建多樣化數據方面存在固有限制，因此難以勝任諸如動作修改、物體移動或表情變化等任務。為了解決這些局限性，我們額外從視頻源中提取編輯圖像對。

我們在圖 7 中展示了這一流程。圖像編輯任務通常要求對圖像進行局部修改，同時保持周圍上下文的完整性。為了從視頻中構建適用于圖像編輯的圖像對，必須識別僅具有局部變化的幀對。我們首先將視頻劃分為不同的場景，以避免跨越不連續上下文配對幀。通過分析平均 RGB 像素強度來檢測場景邊界，同時利用 HSV 色彩空間中差異的滑動平均值來增強對快速運動的魯棒性。

在每個識別出的場景中，我們提取多個幀對，并使用 DINOv2 [54] 和 CLIP [59] 對其差異進行評估。那些差異過大（表示視角變化）或差異過小的幀對將被過濾掉。

由于視頻中即使在同一場景中也常存在攝像機視角的變化，因此需要進一步篩選。現有方法如視覺-語言模型計算成本高且容易出錯，而基于顏色直方圖或像素級相似度的方法則要么對空間結構不敏感，要么對噪聲過于敏感。為了解決這些問題，我們將每張圖像劃分為多個塊，并比較對應塊的顏色直方圖以評估相似性，從而有效降低噪聲影響。隨后計算相似塊的比例以施加空間約束，該比例可作為視角一致性的可靠指標。該策略能夠高效地過濾出具有視角變化的幀對，同時保持較低的計算開銷。

最后，對于每一對保留下來的、視角一致的圖像，我們使用 Qwen2.5VL-72B-Instruct [3] 生成精確的編輯指令，從而構建出高質量的圖像編輯數據集。

3.3 Interleave Data

3.3.1 Interleaved Frames

我們首先根據檢測到的場景切換對視頻進行分段，并從每個片段中提取關鍵幀。隨后，我們構建兩種類型的視頻幀序列，每種序列最多包含五幀：

1）同場景交錯序列（intra-scene interleaved sequence）：由來自同一場景的幀組成；
2）跨場景交錯序列（interscene interleaved sequence）：由來自不同場景的幀組成。

在提取幀序列之后，我們使用多模態大語言模型（MLLM）對每對相鄰幀進行描述性標注，說明物體動作與行為的變化、環境與背景的變化以及物體外觀的差異。鑒于標注量巨大，我們采用輕量模型 Qwen2.5-VL-7B-Instruct 執行該任務。

最終，我們從視頻源中獲得了 80 萬條交錯數據樣本，用于預訓練模型處理連續多模態序列的能力。

3.3.2 Reflection Data

受到大語言模型在測試時縮放和自我反思方面的進展啟發 [23; 28; 41]，我們進一步探索了將反思能力集成到多模態生成模型中的可能性，并展示了測試時縮放如何提升圖像生成質量。在本節中，我們重點描述用于后續模型微調的反思數據構建方法。

反思數據由交錯的文本和圖像序列組成，序列以用戶指令開頭，接著是多模態模型生成的圖像及其對該圖像的逐步反思。每輪反思關注兩個關鍵方面：
1）分析生成圖像與原始指令之間的偏差或未滿足的要求；
2）提出具體方案來改進上一輪生成圖像中的缺陷。

為了構建自我反思數據，我們從訓練數據中選擇一個小子集（當前實驗僅使用文本生成圖像任務的數據），并使用模型生成圖像。

隨后，我們使用一個多模態大語言模型（MLLM）評估生成圖像是否符合原始指令。如果圖像未能充分遵循指令或存在其他質量問題，模型將識別具體問題并提出修改建議。最初我們嘗試使用 DSG [12] 評估框架來評估指令與圖像的一致性，但該方法經常產生幻覺。之后我們發現強大的多模態模型可以直接勝任此任務，因此我們使用 Doubao-1.5-pro [16] 輸出問題和修改建議。

在獲得第一輪反思后，我們將生成的圖像及其反思內容附加到原始指令后，并使用這些數據對模型進行微調。訓練完成后，我們繼續對第一輪反思數據進行推理，得到第二輪生成圖像及其反思數據。通過這一迭代過程，我們獲得了多輪自我反思數據。

目前尚缺乏關于將反思機制用于提升多模態生成模型中圖像生成任務的研究。我們希望本工作能推動該領域在推理能力方面的發展。在模型通過當前反思數據訓練獲得初步反思能力后，還可以通過在線強化學習算法進一步提升，我們將此留作未來探索方向。

圖 8：OmniContext 基準的概覽。左側：OmniContext 中包含的圖像類型（Image genres）。右側：OmniContext 中每種圖像類型的示例圖像。

4 OmniContext Benchmark

圖 9：OmniContext 基準中對輸出圖像進行評估的示例。

OmniGen2 的一個關鍵目標是實現用戶提供的特定上下文圖像的一致性生成。為了嚴格評估這一重要但尚未充分基準化的能力，我們引入了 OmniContext，這是一個新基準，旨在評估模型在不同上下文中保持主體一致性的能力。

現有的 in-context 圖像生成基準未能充分反映真實世界的應用場景。它們未考慮多輸入圖像的情況，且上下文圖像和任務類型數量有限。DreamBench [64] 僅包含 30 個對象和 25 個提示模板，缺乏對人物主體和場景級上下文的覆蓋。此外，現有基準采用 CLIP-I 和 DINO 作為衡量 in-context 生成圖像質量的指標。這些指標依賴輸入與輸出之間的圖像級相似性，不適用于多主體場景，且缺乏可解釋性。

為填補這些空白，我們構建了 OmniContext，使用大規模、人工收集的高質量圖像數據集，包括個人照片、開源圖像、動畫劇照和 AI 生成圖像。

如圖 8 所示，該基準涵蓋三種不同類型的上下文圖像 —— 人物（Character）、物體（Object）和場景（Scene） —— 涵蓋廣泛的實體和環境。通過系統性地組合不同類型的輸入圖像，我們設立了三大任務類別（SINGLE、MULTIPLE 和 SCENE）以及八個細化子任務，每個子任務包含 50 個樣本。SINGLE 類別指以單個上下文圖像（包含人物或物體）為條件的圖像生成任務。MULTIPLE 類別涉及來自多個上下文圖像的主體之間的組合交互。SCENE 類別涉及以參考圖像中提供的環境上下文為條件的圖像生成任務。

圖像-提示對的構建采用多模態大語言模型（MLLM）與人工注釋結合的混合方法。首先，MLLM 對圖像來源進行分類與過濾，以剔除低質量樣本。隨后，人工專家根據以下三項標準對圖像進行篩選：（1）主體明確，（2）具有美學質量，（3）內容多樣性。提示語最初由 GPT-4o 生成，并由注釋人員系統性地篩選和潤色，以確保語義內容和句法結構的全面多樣性。

為有效評估 in-context 圖像生成能力并增強評估結果的可解釋性，我們采用最先進的多模態大語言模型 GPT-4.1 [52] 來評估生成結果，如圖 9 所示。OmniContext 融入了三個指標：Prompt Following（PF）、Subject Consistency（SC）以及一個總體評分（Overall Score），該評分為 PF 和 SC 得分的幾何平均數。我們遵循 VIEScore [32] 的既有方法，使用 GPT-4.1 生成 0–10 的評分，并提供詳細的評分理由以支撐其評估結果。

我們相信 OmniContext 基準將成為可控、基于參考圖像生成任務研究的重要資源，推動未來該領域的發展。