BAGEL 論文
商業閉源系統與學術/開源模型的差距很大,BAGEL 旨在通過開源統一架構+大規模交錯數據主要解決:
- 架構割裂:理解/生成分屬兩條網絡,信息被壓縮在少量條件 token 中,長上下文推理受限。
- 數據貧乏:主要依賴靜態圖文對,缺乏真實世界的時序、物理與因果信號。
- 能力天花板:在復雜任務(自由圖像操控、未來幀預測、世界導航)上與閉源模型存在數量級差距。
隨著交織多模態預訓練規模擴大,基礎多模態理解與高保真生成能力最先收斂;隨后涌現復雜編輯與自由視覺操控能力;最終長上下文推理開始賦能多模態理解與生成,表明原本獨立的原子技能協同形成了跨模態的組合推理能力。
當前主流架構有三種:
- 自回歸視覺生成:使用離散視覺 tokenizer(如 VQGAN)將圖像編碼為 tokens,通過自回歸 Transformer 直接預測下一 token(文本 / 視覺統一建模)。代表模型如 Janus、Chameleon 等。優勢是架構簡單,可復用現有 LLM 基建,易于實現端到端訓練。但生成質量受限,視覺生成效果顯著低于擴散模型(如 SDXL),因自回歸的順序生成難以建模復雜像素依賴;并且推理效率低,逐 token 生成導致長序列推理延遲高(如生成 1024x1024 圖像需數千步)。
- 外接生成模型:使用 LLM 甚至 VLM 作為 backbone,生成語義 condition,通過輕量級 Adapter 連接預訓練擴散模型,其基于語義 condition 生成圖像。代表模型如 DreamLLM、SEED-X、MetaQuery、BLIP3-o等。優勢是可復用預訓練權重,收斂迅速;且受益于擴散模型的高保真圖像合成能力,生成質量高。但存在語義瓶頸,LLM 需將長上下文壓縮為少量 latent tokens(如 64x64 特征圖),導致細節丟失,尤其在長序列推理中表現不佳;且跨模態交互弱,理解與生成模塊通過Adapter間接連接,難以實現深度語義對齊。
- 統一集成 Transformer:將 LLM 與擴散模型統一在單個 Transformer 架構中,共享自注意力層,支持端到端跨模態推理。代表模型如Transfusion、JanusFlow等。優勢是無交互瓶頸,文本、圖像、視頻 tokens 在同一 Transformer 層中直接交互,避免信息壓縮;且可擴展性強,支持大規模交錯數據訓練,兼容長上下文和復雜任務;最重要的是通過共享參數,理解與生成能力可協同優化,促進復雜推理能力的涌現。但存在的挑戰很明顯,訓練成本高,需同時優化語言建模與擴散生成,計算資源需求顯著高于前兩類方案。
字節這篇工作核心是通過交錯多模態數據(包括圖像、視頻、導航等多種信息),結合更多場景的導航數據,把多模態信息直接作為模型輸入,而不是像以前那樣把視覺等信息僅作為文字條件或輔助提示。模型內部通過分離的FFN和KV機制設計,保證不同模態數據既能保持各自特征,又能互相影響和融合,增強了跨模態的深度理解和推理能力。底層模型基于Qwen2.5做調整和優化,使得這套架構能很好支持論文里提到的圖像理解、視頻處理、導航等復雜任務,實現更強的多模態交互和應用。
這樣,模型不再是單向地用文字去“控制”圖像信息,而是多模態數據間雙向、甚至多向地相互作用。
在訓練過程中,構建了三種視覺表征:噪聲化 VAE 表征(用于 Rectified-Flow)、純凈 VAE 表征(作為圖像/文本 token 生成的條件輸入)、ViT 視覺表征(統一不同模態數據輸入規范)——區分擴散與自回歸生成。使用了廣義因果注意力,采用 Pytorch FlexAttention,KV 緩存規則——僅存儲純凈的 VAE 表征和 ViT 視覺表征(噪聲 VAE 是前向擴散階段的噪聲預測,僅用于 MSE);圖像生成完成后,上下文的含噪 VAE 標記被替換為純凈版。采用 Classifier-Free Guidance,對文本采用 10% 的 dropout,ViT 采用 50% 的 dropout,純凈 VAE 采用 10% 的 dropout。
理解專家(處理Text / ViT tokens)與生成專家(處理 VAE tokens)共享自注意力層,實現語義信息的無損傳遞(如下圖所示,MoT 架構的 MSE 損失收斂更快,CE Loss也穩定更低)。
覆蓋文本、圖像、視頻、網頁四大模態,總量達數萬億token。
- 視頻-文本交錯數據:來自公開視頻庫(如 YouTube 教育視頻、科普短片)+ 開源數據集 Koala36M(含交互場景)、MVImgNet2.0(多視角物體數據)。
- 網頁-文本交錯數據:來自OmniCorpus 網頁數據集(含教程、百科、設計文檔)+ 結構化編輯數據集(如 OmniEdit、UltraEdit)。
- 以及推理以增強數據:包括文生圖、自由圖像操控和智能編輯,使用開源VLM/LLM輔助構建推理過程。
訓練時采用四階段漸進訓練:
- 對齊階段:僅訓練視覺 - 語言連接器,對齊 ViT 與語言模型。
- 預訓練階段:全模型訓練,以圖像 - 文本對為主(占比 60%),初步掌握基礎生成。
- 持續訓練階段:提升視頻 / 網頁數據比例(各占 15%),增加分辨率至 1024x1024,強化長上下文推理。
- 監督微調階段:精選高質量指令數據,優化多輪對話與復雜編輯。
實驗
在 MMMU 和 MM-Vet 基準測試中,BAGEL顯著超越開源統一模型Janus-Pro,提升了 14.3 分和 17.1 分。與 Qwen2.5-VL 和 InternVL2.5 等專用理解模型相比,BAGEL 在大多數這些基準測試中表現出更優越的性能,這表明我們的 MoT 設計在保持強大視覺理解能力的同時,有效緩解了任務沖突。
采用GenEval評測物體對齊與屬性生成能力,采用WISE評測世界知識推理能力,從上表定量結果可以發現:在GenEval上BAGEL取得88% 總分,超越 SD3-Medium(74%)、Janus-Pro(80%),接近 FLUX.1-dev(82%)。在WISE上,BAGEL取得52% 原始得分,啟用 “CoT” 后提升至 70%,比未使用 CoT 的版本高出 0.18,且顯著超越了所有現有開源模型(之前的最佳成績為 MetaQuery-XL 的 0.55),逼近 GPT-4o(80%)。