論文閱讀筆記——Emerging Properties in Unified Multimodal Pretraining

BAGEL 論文
商業閉源系統與學術/開源模型的差距很大，BAGEL 旨在通過開源統一架構+大規模交錯數據主要解決：

架構割裂：理解/生成分屬兩條網絡，信息被壓縮在少量條件 token 中，長上下文推理受限。
數據貧乏：主要依賴靜態圖文對，缺乏真實世界的時序、物理與因果信號。
能力天花板：在復雜任務（自由圖像操控、未來幀預測、世界導航）上與閉源模型存在數量級差距。

隨著交織多模態預訓練規模擴大，基礎多模態理解與高保真生成能力最先收斂；隨后涌現復雜編輯與自由視覺操控能力；最終長上下文推理開始賦能多模態理解與生成，表明原本獨立的原子技能協同形成了跨模態的組合推理能力。
當前主流架構有三種：

自回歸視覺生成：使用離散視覺 tokenizer（如 VQGAN）將圖像編碼為 tokens，通過自回歸 Transformer 直接預測下一 token（文本 / 視覺統一建模）。代表模型如 Janus、Chameleon 等。優勢是架構簡單，可復用現有 LLM 基建，易于實現端到端訓練。但生成質量受限，視覺生成效果顯著低于擴散模型（如 SDXL），因自回歸的順序生成難以建模復雜像素依賴；并且推理效率低，逐 token 生成導致長序列推理延遲高（如生成 1024x1024 圖像需數千步）。
外接生成模型：使用 LLM 甚至 VLM 作為 backbone，生成語義 condition，通過輕量級 Adapter 連接預訓練擴散模型，其基于語義 condition 生成圖像。代表模型如 DreamLLM、SEED-X、MetaQuery、BLIP3-o等。優勢是可復用預訓練權重，收斂迅速；且受益于擴散模型的高保真圖像合成能力，生成質量高。但存在語義瓶頸，LLM 需將長上下文壓縮為少量 latent tokens（如 64x64 特征圖），導致細節丟失，尤其在長序列推理中表現不佳；且跨模態交互弱，理解與生成模塊通過Adapter間接連接，難以實現深度語義對齊。
統一集成 Transformer：將 LLM 與擴散模型統一在單個 Transformer 架構中，共享自注意力層，支持端到端跨模態推理。代表模型如Transfusion、JanusFlow等。優勢是無交互瓶頸，文本、圖像、視頻 tokens 在同一 Transformer 層中直接交互，避免信息壓縮；且可擴展性強，支持大規模交錯數據訓練，兼容長上下文和復雜任務；最重要的是通過共享參數，理解與生成能力可協同優化，促進復雜推理能力的涌現。但存在的挑戰很明顯，訓練成本高，需同時優化語言建模與擴散生成，計算資源需求顯著高于前兩類方案。

字節這篇工作核心是通過交錯多模態數據（包括圖像、視頻、導航等多種信息），結合更多場景的導航數據，把多模態信息直接作為模型輸入，而不是像以前那樣把視覺等信息僅作為文字條件或輔助提示。模型內部通過分離的FFN和KV機制設計，保證不同模態數據既能保持各自特征，又能互相影響和融合，增強了跨模態的深度理解和推理能力。底層模型基于Qwen2.5做調整和優化，使得這套架構能很好支持論文里提到的圖像理解、視頻處理、導航等復雜任務，實現更強的多模態交互和應用。
這樣，模型不再是單向地用文字去“控制”圖像信息，而是多模態數據間雙向、甚至多向地相互作用。

在這里插入圖片描述

在訓練過程中，構建了三種視覺表征：噪聲化 VAE 表征（用于 Rectified-Flow）、純凈 VAE 表征（作為圖像/文本 token 生成的條件輸入）、ViT 視覺表征（統一不同模態數據輸入規范）——區分擴散與自回歸生成。使用了廣義因果注意力，采用 Pytorch FlexAttention，KV 緩存規則——僅存儲純凈的 VAE 表征和 ViT 視覺表征（噪聲 VAE 是前向擴散階段的噪聲預測，僅用于 MSE）；圖像生成完成后，上下文的含噪 VAE 標記被替換為純凈版。采用 Classifier-Free Guidance，對文本采用 10% 的 dropout，ViT 采用 50% 的 dropout，純凈 VAE 采用 10% 的 dropout。
理解專家（處理Text / ViT tokens）與生成專家（處理 VAE tokens）共享自注意力層，實現語義信息的無損傳遞（如下圖所示，MoT 架構的 MSE 損失收斂更快，CE Loss也穩定更低）。
在這里插入圖片描述
覆蓋文本、圖像、視頻、網頁四大模態，總量達數萬億token。

視頻-文本交錯數據：來自公開視頻庫（如 YouTube 教育視頻、科普短片）+ 開源數據集 Koala36M（含交互場景）、MVImgNet2.0（多視角物體數據）。
網頁-文本交錯數據：來自OmniCorpus 網頁數據集（含教程、百科、設計文檔）+ 結構化編輯數據集（如 OmniEdit、UltraEdit）。
以及推理以增強數據：包括文生圖、自由圖像操控和智能編輯，使用開源VLM/LLM輔助構建推理過程。
訓練時采用四階段漸進訓練：

對齊階段：僅訓練視覺 - 語言連接器，對齊 ViT 與語言模型。
預訓練階段：全模型訓練，以圖像 - 文本對為主（占比 60%），初步掌握基礎生成。
持續訓練階段：提升視頻 / 網頁數據比例（各占 15%），增加分辨率至 1024x1024，強化長上下文推理。
監督微調階段：精選高質量指令數據，優化多輪對話與復雜編輯。

實驗

在這里插入圖片描述

在 MMMU 和 MM-Vet 基準測試中，BAGEL顯著超越開源統一模型Janus-Pro，提升了 14.3 分和 17.1 分。與 Qwen2.5-VL 和 InternVL2.5 等專用理解模型相比，BAGEL 在大多數這些基準測試中表現出更優越的性能，這表明我們的 MoT 設計在保持強大視覺理解能力的同時，有效緩解了任務沖突。
在這里插入圖片描述
采用GenEval評測物體對齊與屬性生成能力，采用WISE評測世界知識推理能力，從上表定量結果可以發現：在GenEval上BAGEL取得88% 總分，超越 SD3-Medium（74%）、Janus-Pro（80%），接近 FLUX.1-dev（82%）。在WISE上，BAGEL取得52% 原始得分，啟用 “CoT” 后提升至 70%，比未使用 CoT 的版本高出 0.18，且顯著超越了所有現有開源模型（之前的最佳成績為 MetaQuery-XL 的 0.55），逼近 GPT-4o（80%）。
在這里插入圖片描述

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/82317.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/82317.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/82317.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！