論文閱讀筆記——Emerging Properties in Unified Multimodal Pretraining

BAGEL 論文
商業閉源系統與學術/開源模型的差距很大,BAGEL 旨在通過開源統一架構+大規模交錯數據主要解決:

  1. 架構割裂:理解/生成分屬兩條網絡,信息被壓縮在少量條件 token 中,長上下文推理受限。
  2. 數據貧乏:主要依賴靜態圖文對,缺乏真實世界的時序、物理與因果信號。
  3. 能力天花板:在復雜任務(自由圖像操控、未來幀預測、世界導航)上與閉源模型存在數量級差距。

隨著交織多模態預訓練規模擴大,基礎多模態理解與高保真生成能力最先收斂;隨后涌現復雜編輯與自由視覺操控能力;最終長上下文推理開始賦能多模態理解與生成,表明原本獨立的原子技能協同形成了跨模態的組合推理能力。
當前主流架構有三種:

  • 自回歸視覺生成:使用離散視覺 tokenizer(如 VQGAN)將圖像編碼為 tokens,通過自回歸 Transformer 直接預測下一 token(文本 / 視覺統一建模)。代表模型如 Janus、Chameleon 等。優勢是架構簡單,可復用現有 LLM 基建,易于實現端到端訓練。但生成質量受限,視覺生成效果顯著低于擴散模型(如 SDXL),因自回歸的順序生成難以建模復雜像素依賴;并且推理效率低,逐 token 生成導致長序列推理延遲高(如生成 1024x1024 圖像需數千步)。
  • 外接生成模型:使用 LLM 甚至 VLM 作為 backbone,生成語義 condition,通過輕量級 Adapter 連接預訓練擴散模型,其基于語義 condition 生成圖像。代表模型如 DreamLLM、SEED-X、MetaQuery、BLIP3-o等。優勢是可復用預訓練權重,收斂迅速;且受益于擴散模型的高保真圖像合成能力,生成質量高。但存在語義瓶頸,LLM 需將長上下文壓縮為少量 latent tokens(如 64x64 特征圖),導致細節丟失,尤其在長序列推理中表現不佳;且跨模態交互弱,理解與生成模塊通過Adapter間接連接,難以實現深度語義對齊。
  • 統一集成 Transformer:將 LLM 與擴散模型統一在單個 Transformer 架構中,共享自注意力層,支持端到端跨模態推理。代表模型如Transfusion、JanusFlow等。優勢是無交互瓶頸,文本、圖像、視頻 tokens 在同一 Transformer 層中直接交互,避免信息壓縮;且可擴展性強,支持大規模交錯數據訓練,兼容長上下文和復雜任務;最重要的是通過共享參數,理解與生成能力可協同優化,促進復雜推理能力的涌現。但存在的挑戰很明顯,訓練成本高,需同時優化語言建模與擴散生成,計算資源需求顯著高于前兩類方案。

字節這篇工作核心是通過交錯多模態數據(包括圖像、視頻、導航等多種信息),結合更多場景的導航數據,把多模態信息直接作為模型輸入,而不是像以前那樣把視覺等信息僅作為文字條件或輔助提示。模型內部通過分離的FFN和KV機制設計,保證不同模態數據既能保持各自特征,又能互相影響和融合,增強了跨模態的深度理解和推理能力。底層模型基于Qwen2.5做調整和優化,使得這套架構能很好支持論文里提到的圖像理解、視頻處理、導航等復雜任務,實現更強的多模態交互和應用。
這樣,模型不再是單向地用文字去“控制”圖像信息,而是多模態數據間雙向、甚至多向地相互作用。

在這里插入圖片描述

在訓練過程中,構建了三種視覺表征:噪聲化 VAE 表征(用于 Rectified-Flow)、純凈 VAE 表征(作為圖像/文本 token 生成的條件輸入)、ViT 視覺表征(統一不同模態數據輸入規范)——區分擴散與自回歸生成。使用了廣義因果注意力,采用 Pytorch FlexAttention,KV 緩存規則——僅存儲純凈的 VAE 表征和 ViT 視覺表征(噪聲 VAE 是前向擴散階段的噪聲預測,僅用于 MSE);圖像生成完成后,上下文的含噪 VAE 標記被替換為純凈版。采用 Classifier-Free Guidance,對文本采用 10% 的 dropout,ViT 采用 50% 的 dropout,純凈 VAE 采用 10% 的 dropout。
理解專家(處理Text / ViT tokens)與生成專家(處理 VAE tokens)共享自注意力層,實現語義信息的無損傳遞(如下圖所示,MoT 架構的 MSE 損失收斂更快,CE Loss也穩定更低)。
在這里插入圖片描述
覆蓋文本、圖像、視頻、網頁四大模態,總量達數萬億token

  • 視頻-文本交錯數據:來自公開視頻庫(如 YouTube 教育視頻、科普短片)+ 開源數據集 Koala36M(含交互場景)、MVImgNet2.0(多視角物體數據)。
  • 網頁-文本交錯數據:來自OmniCorpus 網頁數據集(含教程、百科、設計文檔)+ 結構化編輯數據集(如 OmniEdit、UltraEdit)。
  • 以及推理以增強數據:包括文生圖、自由圖像操控和智能編輯,使用開源VLM/LLM輔助構建推理過程。
    訓練時采用四階段漸進訓練
  1. 對齊階段:僅訓練視覺 - 語言連接器,對齊 ViT 與語言模型。
  2. 預訓練階段:全模型訓練,以圖像 - 文本對為主(占比 60%),初步掌握基礎生成。
  3. 持續訓練階段:提升視頻 / 網頁數據比例(各占 15%),增加分辨率至 1024x1024,強化長上下文推理。
  4. 監督微調階段:精選高質量指令數據,優化多輪對話與復雜編輯。

實驗

在這里插入圖片描述

在 MMMU 和 MM-Vet 基準測試中,BAGEL顯著超越開源統一模型Janus-Pro,提升了 14.3 分和 17.1 分。與 Qwen2.5-VL 和 InternVL2.5 等專用理解模型相比,BAGEL 在大多數這些基準測試中表現出更優越的性能,這表明我們的 MoT 設計在保持強大視覺理解能力的同時,有效緩解了任務沖突。
在這里插入圖片描述
采用GenEval評測物體對齊與屬性生成能力,采用WISE評測世界知識推理能力,從上表定量結果可以發現:在GenEval上BAGEL取得88% 總分,超越 SD3-Medium(74%)、Janus-Pro(80%),接近 FLUX.1-dev(82%)。在WISE上,BAGEL取得52% 原始得分,啟用 “CoT” 后提升至 70%,比未使用 CoT 的版本高出 0.18,且顯著超越了所有現有開源模型(之前的最佳成績為 MetaQuery-XL 的 0.55),逼近 GPT-4o(80%)。
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/82317.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/82317.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/82317.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Go 語言基礎1 Slice,map,string

更多個人筆記見: github個人筆記倉庫 gitee 個人筆記倉庫 個人學習,學習過程中還會不斷補充~ (后續會更新在github上) 文章目錄 stirng 字符串區分 rune,byte,string字符串操作strings 庫相關 f…

C# AI(Trae工具+claude3.5-sonnet) 寫前后端

這是一個AI 寫的前后端分離項目,通過AI編程,開發電商管理系統(登陸、注冊) 使用的AI工具為 Trae工具(字節國際版)claude3.5-sonnet(目前代碼最強模型) 前端為 vue3Bootstrap 后端為 C# net5.0(因為我電腦里面已經安裝了這個新版更好) do…

10G/25G PCS only mode for CoaXPress Over Fiber

背景 在CoaXPress Over Fiber的需求中, 需要利用XGMII的PCS 實現25G 數據速率的穩定傳輸,也就是不需要其MAC層,只保留PMA PCS層,借用其物理端口 線纜,實現其它協議的數據傳輸。 25G PCS 25GMII 的 TX/RX 時鐘頻率在 DDR&#xff…

掌握聚合函數:COUNT,MAX,MIN,SUM,AVG,GROUP BY和HAVING子句的用法,Where和HAVING的區別

對于Java后端開發來說,必須要掌握常用的聚合函數:COUNT,MAX,MIN,SUM,AVG,掌握GROUP BY和HAVING子句的用法,掌握Where和HAVING的區別: ? 一、常用聚合函數(聚…

無人機飛行間隔安全智能評估、安全風險評估

無人機空中安全飛行評估需結合改進碰撞模型、蒙特卡洛仿真、安全間隔反推及動態避障策略,通過多機型分類與實時數據融合,實現從理論建模到實際部署的全流程管控,為城市低空密集飛行提供安全保障。 需求 無人機飛行間隔安全智能評估 無人機…

pdf圖片導出(Visio和Origin)

一、Visio 導入pdf格式圖片 1. 設計->大小,適應繪圖。 2. 文件->導出,導出為pdf格式。 上面兩部即可得到只包含圖的部分的pdf格式。 如果出現的有默認白邊,可以通過以下方式設置: 1. 文件->選項->自定義功能區->…

實現一個帶有授權碼和使用時間限制的Spring Boot項目

生成和驗證授權碼記錄授權時間和過期時間實現授權邏輯 以下是具體的實現方法: 1. 生成和驗證授權碼 可以使用加密技術生成和驗證授權碼。授權碼中可以包含有效期等信息,并使用密鑰進行簽名。 示例代碼: java復制代碼 import javax.crypt…

官方SDK停更后的選擇:開源維護的Bugly Unity SDK

騰訊Bugly,為移動開發者提供專業的異常上報和運營統計,幫助開發者快速發現并解決異常,同時掌握產品運營動態,及時跟進用戶反饋。 但是,免費版的Unity SDK已經很久不更新了,會有一些問題和特性缺失&#xff…

Spring Boot分頁查詢進階:整合Spring Data REST實現高效數據導航

目錄: 引言分頁查詢基礎回顧 2.1 Spring Data JPA分頁接口 2.2 Pageable與Page的使用 2.3 常見分頁參數設計Spring Data REST簡介 3.1 HATEOAS與超媒體驅動API 3.2 Spring Data REST核心功能 3.3 自動暴露Repository接口整合Spring Boot與Spring Data REST 4.1 項目…

[Datagear] [SQL]實現分組統計同時帶匯總行的兩種方式對比分析

在進行數據可視化開發時,我們經常會遇到用戶提出的需求:除了展示按某字段分組統計的數據外,還希望看到一個“整體總計”的數據行。這種匯總行在報表、圖表展示中極為常見,可以幫助用戶快速理解全局數據水平。 實現這一功能的方法主要有兩種:一種是使用 SQL 的 GROUP BY ..…

Docker常用命令介紹

Docker常用命令 1、本地鏡像管理 save 命令 將一個或多個 Docker 鏡像保存到一個 tar 歸檔文件中,以便在其他環境中分發或備份。 # 語法:docker save [OPTIONS] IMAGE [IMAGE...]# 保存單個鏡像到文件 docker save -o myimage.tar myimage:latest# 保…

09 接口自動化-用例管理框架pytest之allure報告定制以及數據驅動

文章目錄 一、企業級的Allure報告的定制左邊的定制:右邊的定制:1.用例的嚴重程度/優先級2.用例描述3.測試用例連接的定制4.測試用例步驟的定制5.附件的定制 二、企業中真實的定制有哪些?三、allure報告如何在本地訪問四、allure中的數據驅動裝…

DDoS防護實戰——從基礎配置到高防IP部署

一、基礎防護:服務器與網絡層加固 Linux內核優化: 調整TCP協議棧參數,緩解SYN Flood攻擊: # 啟用SYN Cookie并減少超時時間 echo 1 > /proc/sys/net/ipv4/tcp_syncookies echo 30 > /proc/sys/net/ipv4/tcp_fin_timeout…

華為云Flexus+DeepSeek征文|Flexus云服務器Dify-LLM資源部署極致體驗Agent

前引:重磅來襲!本次以DeepSeek-V3/R1商用大模型和Dify-LLM應用平臺一鍵部署為核心,專為新手打造“開箱即用”的AI開發體驗。無論你是想快速搭建企業級AI應用,還是探索大模型落地的無限可能,只需跟隨小編實現三步走&…

SQLAlchemy 2.0 查詢使用指南

SQLAlchemy 2.0 查詢使用指南 1. 環境設置 首先,需要安裝 SQLAlchemy 2.0 版本。假設你使用的是 SQLite 數據庫,可以通過以下命令安裝 SQLAlchemy: pip install sqlalchemy接著,我們創建數據庫連接并初始化會話: f…

Windows 使用 WSL 安裝 Ubuntu

一,前言 Windows 上輕松跑 Linux 又不想用笨重的VMware 和VirtualBox ,怎么辦? 開源項目 Windows Subsystem for Linux (WSL)。它解決了許多開發者在 Windows 和 Linux 間切換的痛點,實現在 Windows 上無縫跑 Linux 工具和命令。…

[Excel VBA]如何製作買三送一優惠條件的POS結帳介面?

Excel I VBA I 買三送一優惠條件的POS結帳機 因應商品特賣活動,結帳介面需整合特定優惠條件,如買三送一,買五送二等等優惠條件。本文封面影片以買三送一為範例,並搭配VBA和對應按鈕,而實現銷售訂單紀錄和即時更新庫存等…

3d世界坐標系轉屏幕坐標系

世界坐標 ——> NDC標準設備坐標 ——> 屏幕坐標 標準設備NDC坐標系 屏幕坐標系 .project方法將 將向量(坐標)從世界空間投影到相機的標準化設備坐標 (NDC) 空間。 手動實現HTML元素定位到模型位置,實現模型標簽效果(和css2Render原理同理&#…

Idea出現 100% classes 等

總是誤點出來,每次又忘了怎么消除,在這里記錄一下。 出現這樣: 操作idea界面的:點擊View->Tool Windows ->Coverage,然后關掉

從零開始學習QT——第一步

一、Qt 1.1、Qt是什么 Qt是一個跨平臺的C圖形用戶界面應用程序框架。它為應用程序開發者提供建立圖形界面所需的所有功能。它是完全面向對象的,很容易擴展,并且允許真正的組件編程。 1.2、Qt的發展歷程 1991年 Qt最早由芬蘭奇趣科技開發 1996年 進入商業…