MMaDA:多模態大型擴散語言模型

集眾家之所長,成大一統。普林斯頓大學、北京大學、清華大學、字節跳動的研究者將“文本推理、多模態分析、圖像生成”三大方向融合在一個單一擴散模型里,并用恰當的優化策略來提升模型在各個方向的性能。

?

研究動機

研究人員致力于開發一個能夠處理多種模態任務的綜合性模型,這些任務包括文本推理、多模態理解以及圖像生成等。目前,大多數模型往往專注于單一任務,如文本處理、圖像生成或圖文理解,而能夠在單一框架下同時處理這三種任務并保持高水平推理和生成質量的模型卻相對稀缺。

MMaDA是一種創新的“多模態大模型”框架,該框架以“擴散模型(diffusion model)”為基礎,并探討了在這種擴散模型框架下如何進行后期的強化訓練。這種訓練方法類似于當前大型模型在微調和強化學習(RL)環節中提升性能的策略,旨在實現理解和生成之間的平衡。這種統一的擴散模型方案有望減少對不同模態任務“分別處理”的需求,降低模型的復雜性,并提高模型在訓練和推理階段的靈活性和效率。

研究背景

從文本生成(例如ChatGPT)到復雜推理(例如DeepSeek-R1),大型語言模型(LLMs)通過在多樣化任務中取得最先進的性能,徹底改變了自然語言處理(NLP)。

受其成功的啟發,研究界將 LLMs 擴展到更廣的多模態領域,催生了多模態大型語言模型(MLLMs)或視覺語言模型(VLMs),例如 GPT-4和 Gemini。這些模型旨在為理解和生成異構模態(文本、圖像等)提供統一框架。

早期的多模態方法將語言模型與擴散模型結合起來,分別處理離散(例如,文本)和連續(例如,圖像)模態。隨后的自回歸(AR,autoregressive)方法通過訓練一個單一的Transformer模型來進行下一個標記的預測,簡化了架構,將離散和連續生成統一到一個模型中。

關鍵問題

擴散模型同時處理文本與圖像:MMaDA提出的離散擴散方法需要先將文本和圖像都編碼成“離散token”,然后統一進行遮蓋—預測(Mask & Predict)式訓練。

UniGRPO(統一的擴散模型強化學習算法):通常的強化學習微調算法(如PPO、DPO或RRHF)都是基于自回歸模型的token概率計算。而這里的UniGRPO需要適配擴散模型特性,使得模型能夠在并行生成時也能進行策略梯度的更新。

采樣效率和采樣策略(Semi-AR / Non-AR):MMaDA中文本生成有時可以用半自回歸方式,以平衡質量和速度;圖像生成則可以并行生成,這里面涉及不同采樣(mask和解碼)策略的差異。

研究內容

統一擴散架構

  • 創新點:MMaDA采用統一的擴散架構,具有共享的概率公式和模態無關的設計,無需針對不同模態(如文本和圖像)設計特定的組件。這種架構能夠無縫地整合和處理不同類型的數據。

  • 意義:這種設計簡化了模型架構,提高了模型在不同模態間的通用性和可擴展性,降低了模型復雜度,同時保持了在各種任務上的強大性能。

混合長鏈推理(CoT)微調策略

  • 創新點:MMaDA實施了一種混合長鏈推理(CoT)微調策略,這種策略在不同模態間統一了CoT格式。通過這種方式,模型能夠在文本和視覺領域之間對齊推理過程,從而在最終的強化學習(RL)階段實現冷啟動訓練,增強模型處理復雜任務的能力。

  • 意義:這種策略使得模型在開始訓練時就能夠處理復雜的推理任務,提高了模型在多模態任務中的推理能力和泛化能力,為模型在復雜場景下的應用奠定了基礎。

統一的強化學習算法(UniGRPO)

  • 創新點:MMaDA提出了UniGRPO,這是一種基于策略梯度的強化學習算法,專門針對擴散基礎模型設計。UniGRPO利用多樣化的獎勵建模,統一了推理和生成任務的后訓練過程,確保了性能的持續提升。

  • 意義:UniGRPO算法通過優化模型的推理和生成能力,使得模型在處理復雜的推理和生成任務時能夠更好地保持事實一致性和邏輯連貫性,提升了模型在多模態任務中的整體性能。

狀態最先進的性能

  • 創新點:通過實驗結果,MMaDA在文本推理、多模態理解和文本到圖像生成等關鍵任務上均展現出卓越的性能。它在文本推理方面超越了LLaMA-3-7B和Qwen2-7B等強大的模型,在多模態理解方面超過了Show-o和SEED-X,在文本到圖像生成方面優于SDXL和Janus。

  • 意義:這些成就表明MMaDA在彌合預訓練和后訓練之間的差距方面非常有效,為未來多模態擴散架構的研究和開發提供了一個全面的框架,并且證明了其在多模態領域的有效性和潛力。

靈活的推理時采樣策略

  • 創新點:在文本生成方面,MMaDA采用了半自回歸去噪策略,結合了自回歸解碼和基于擴散的去噪,能夠生成更詳細和復雜的描述。在圖像生成方面,它采用了低置信度掩碼策略和余弦噪聲時間表,能夠生成高質量的圖像。

  • 意義:這些采樣策略提高了模型在不同任務上的生成效率和質量,使得模型在實際應用中能夠更快地生成高質量的結果,提高了模型的實用性和用戶體驗。

跨任務的協同效應

  • 創新點:在聯合訓練過程中,MMaDA展現了文本生成、多模態理解和圖像生成任務之間的協同效應。隨著訓練的進行,所有關鍵性能指標都表現出一致的提升,表明了統一訓練框架的相互促進作用。

  • 意義:這種協同效應不僅提高了模型在各個任務上的性能,還增強了模型在跨模態任務中的綜合能力,使得模型能夠更好地理解和生成復雜的多模態內容。

任務擴展能力

  • 創新點:MMaDA能夠自然地執行圖像修復和外推任務,而無需額外的微調。這種能力源于擴散模型的掩碼標記預測問題的訓練目標,使得模型在多模態理解和文本生成任務中也能夠執行這些任務。

  • 意義:這種擴展能力展示了MMaDA的靈活性和泛化能力,使其能夠適應更多樣化的任務場景,為模型在實際應用中的廣泛部署提供了更多可能性。

核心公式

離散擴散的統一建模

L_{\text{unify}}(\theta) = -\mathbb{E}_{t, x_0, x_t} \left[ \sum_{i=1}^{L} \mathbb{I}[x_t^i = [\text{MASK}]] \log p_{\theta}(x_0^i \mid x_t^i) \right]

Mixed Long-CoT 微調

L_{\text{Mixed-SFT}} = -\mathbb{E}_{t, p_0, r_t} \left[ \sum_{i=1}^{L'} \mathbb{I}[r_t^i = [\text{MASK}]] \log p_{\theta}(r_0^i \mid p_0, r_t) \right]

UniGRPO統一的強化學習?

J_{\text{UniGRPO}}(\theta) = \mathbb{E}_{(q,a) \sim D, \{o_i\}_{i=1}^G \sim \pi_{\text{old}}(\cdot|\theta), \{r_i\}_{i=1}^G} \left[ \frac{1}{G} \sum_{i=1}^{G} \frac{1}{|\mathcal{O}_i|} \sum_{t=1}^{|\mathcal{O}_i|} \min \left( r'_{i,t}(\theta) \hat{A}_{i,t}, \ \text{clip} \left( r'_{i,t}(\theta), 1 - \epsilon, 1 + \epsilon \right) \hat{A}_{i,t} \right) - \beta D_{\text{KL}} \left( \pi_{\theta}^s \| \pi_{\text{ref}}^s \right) \right].

?

[2505.15809] MMaDA: Multimodal Large Diffusion Language Models

Ling Yang,?Ye Tian,?Bowen Li,?Xinchen Zhang,?Ke Shen,?Yunhai Tong,?Mengdi Wang?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/90590.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/90590.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/90590.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

容器技術入門與Docker環境部署

容器技術入門與Docker環境部署Docker概述什么是 DockerDocker 的優勢Docker 的應用場景Docker 核心概念(1)鏡像(2)容器(3)倉庫Docker 安裝1.關閉系統防火墻和內核2.下載Docker的repo文件3.替換倉庫地址4.更新索引文件并安裝Docker5.添加國內鏡像站6.開啟Docker服務7.優化內核參…

【01】MFC入門到精通—— MFC新建基于對話框的項目 介紹(工作界面、資源視圖 、類視圖)

文章目錄1 創建工程2 運行3 工作界面介紹3. 1 類視圖 Class View3.2 如何打開 類視圖3.3 資源視圖1 創建工程 選擇菜單項 文件->新建->項目,彈出 “新項目” 對話框。 選擇 MFC,點擊下一步,然后鍵入工程名稱,本例取名“Add…

2025!在Windows的Python中安裝GDAL包(小白能成!)

最近更新 在2025.06.05日,GDAL發布預告:新版本將適配pipeline和向量讀寫功能。 直到2025.06.25日,最新的版本才算發行出來。 有朋友催我趕緊更新教程,我上次更新是3月份的時候了,恰好是GDAL上一個版本出來的時間。 前…

Python第一次作業

# 1.技術面試題**(1)TCP與UDP的區別是什么?****答:TCP 是 “可靠但較慢” 的協議,適合對數據完整性要求高的場景;UDP 是 “快速但不可靠” 的協議,適合對實時性要求高的場景。兩者互補&#xff…

Linux【大數據運維】下制作Redis綠色免安裝包(一)

linux下安裝Redis比較繁瑣,遇到內網部署環境更是麻煩。根據經驗將Redis打包一個綠色版進行使用。 大體思路,在一臺正常的機器上面制造好安裝包,然后上傳到內網服務器,解壓使用。 下載: wget https://download.redis…

89104 PCIe Switch芯片國產替代 - PCIE5.0國產AI服務器高性能擴展,支持海光/龍芯/飛騰等

以下是針對89104 PCIe Switch芯片國產替代的高性能PCIe 5.0 AI服務器擴展方案的詳細分析:一、核心國產替代芯片:TL63104控制器?技術規格?支持PCIe 5.0全速率(32 GT/s),提供968 Lanes配置,聚合雙向帶寬達1…

Docker跨架構部署實操

需求場景 python項目,開發環境以及可供測試的環境為X86架構下的LINUX服務器,但正式環境需要部署在ARM架構下的麒麟服務器,且正式環境后續可能會長時間處于斷網狀態,需要一份跨架構的部署方案。 解決思路 在 X86 上打包、在 ARM&am…

JavaScript 樹形菜單總結

樹形菜單是前端開發中常見的交互組件,用于展示具有層級關系的數據(如文件目錄、分類列表、組織架構等)。以下從核心概念、實現方式、常見功能及優化方向等方面進行總結。 一、核心概念 層級結構:數據以父子嵌套形式存在,如{ id: 1, children: [{ id: 2 }] }。節點:樹形結…

【python實用小腳本-131】Python 實現 HTML 到 PDF 轉換:解決文檔處理痛點的高效工具

引言 在當今數字化辦公環境中,文檔格式的轉換需求日益頻繁。假設你是一位市場營銷人員,需要將公司網站的產品介紹頁面(HTML 格式)轉換為 PDF 文檔,以便用于線下宣傳。然而,手動復制粘貼內容并調整格式不僅…

【Linux操作系統】簡學深悟啟示錄:Linux基本指令

文章目錄1.什么是操作系統?2.Xshell的使用3.常用指令3.1 ls指令3.2 pwd指令3.3 cd指令3.4 touch指令3.5 mkdir指令3.6 rmdir指令 && rm指令3.7 man指令3.8 cp指令3.9 mv指令3.10 cat指令3.11 echo指令(重定向)3.12 more指令3.13 less…

「py數據分析」04如何將 Python 爬取的數據保存為 CSV 文件

如何將 Python 爬取的數據保存為 CSV 文件 從原始網絡數據到純凈 CSV - 搭建通往分析的橋梁 恭喜你!經過前面的努力,你的 Python 腳本終于成功地從一個網站上爬取了數據,一個充滿信息的寶庫正靜靜地躺在你的變量中。但接下來呢?…

qemu vcpu的創建過程

在 QEMU 中,vCPU 線程的啟動流程涉及多個階段,包括初始化、線程創建和執行邏輯。以下是基于搜索結果的詳細分析: QEMU vCPU 線程的啟動流程 1. 初始化階段 設備實例化:QEMU 使用 QOM(QEMU Object Model)系統…

Spring Security架構與實戰全解析

Spring security1.安全架構1. 認證who are you登陸系統:用戶系統2. 授權權限管理:用戶授權3. 攻擊防護xss (cross-site scripting)csrf (cross-site request forgery)cors (cross-origin resource sharing)sql注入4. 擴展:權限管理模型a. RBA…

LeetCode Hot 100 搜索二維矩陣 II

編寫一個高效的算法來搜索 m x n 矩陣 matrix 中的一個目標值 target 。該矩陣具有以下特性:每行的元素從左到右升序排列。每列的元素從上到下升序排列。示例 1:輸入:matrix [[1,4,7,11,15],[2,5,8,12,19],[3,6,9,16,22],[10,13,14,17,24],[…

Windows Edge 播放 H.265 視頻指南

目錄 📌前言 一 . 什么是 H.265(HEVC)? 二、為什么 Edge 默認不能播放 H.265? 三、Edge 播放 H.265 解決方案 1 . 查看顯卡是否支持硬解AMD GPU Decoder Device InformationNVIDIA GPU Decoder Device Informat…

線性代數--AI數學基礎復習

原文鏈接:Github-Funny_Mr_Zhi GNN_playground 參考:麻省理工公開課 線性代數 MIT Linear Algebra Chapter1 可以帶著問題去讀,線性代數到底是什么,矩陣又是什么。盡管深入學習數學需要一種抽離出現實和直觀理解的高度抽象思維&…

Cursor配置DeepSeek調用MCP服務實現任務自動化

文章目錄1. 任務需求2. 環境準備2.1 Cursor安裝2.2 Node.js安裝2.3 DeepSeek模型Key申請2.4 高德地圖Key申請3. MCP服務配置3.1 Cursor配置Server方式3.1.1全局設置3.1.2 項目級別設置3.2 MCP服務接入3.2.1 高德地圖MCP服務3.2.2 Mysql MCP服務3.2.3 FileSystem MCP服務3.2.4 驗…

java SpringBoot數據庫查詢 時間范圍查詢

exTime的類型為varchar 存儲的數據格式為yyy-MM-ddTHH:mm:ss,查詢時傳進來的時間格式也需要為yyy-MM-ddTHH:mm:ss格式Query(value "SELECT * FROM test_fbep fbep WHERE delFlag 1 " "AND IF(?1 ! AND ?1 IS NOT NULL, fbep.passId ?1, TRUE) " &q…

Linux 操作系統如何實現軟硬件解耦?從容器與硬件接口封裝談起

在計算機系統中,軟硬件解耦是提升系統靈活性、可移植性和可維護性的核心設計思想。Linux 作為開源操作系統的典范,通過數十年的演進形成了一套成熟的解耦機制。本文將從容器技術和硬件接口封裝兩個維度,深入解析 Linux 如何實現軟硬件解耦&am…

7月10號總結 (1)

今天開始寫web項目&#xff0c;畫了一下登錄界面&#xff0c;借鑒了一下網上的資源。 <!DOCTYPE html> <html lang"zh.CN"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initi…