MMaDA：多模態大型擴散語言模型

集眾家之所長，成大一統。普林斯頓大學、北京大學、清華大學、字節跳動的研究者將“文本推理、多模態分析、圖像生成”三大方向融合在一個單一擴散模型里，并用恰當的優化策略來提升模型在各個方向的性能。

研究動機

研究人員致力于開發一個能夠處理多種模態任務的綜合性模型，這些任務包括文本推理、多模態理解以及圖像生成等。目前，大多數模型往往專注于單一任務，如文本處理、圖像生成或圖文理解，而能夠在單一框架下同時處理這三種任務并保持高水平推理和生成質量的模型卻相對稀缺。

MMaDA是一種創新的“多模態大模型”框架，該框架以“擴散模型（diffusion model）”為基礎，并探討了在這種擴散模型框架下如何進行后期的強化訓練。這種訓練方法類似于當前大型模型在微調和強化學習（RL）環節中提升性能的策略，旨在實現理解和生成之間的平衡。這種統一的擴散模型方案有望減少對不同模態任務“分別處理”的需求，降低模型的復雜性，并提高模型在訓練和推理階段的靈活性和效率。

研究背景

從文本生成（例如ChatGPT）到復雜推理（例如DeepSeek-R1），大型語言模型（LLMs）通過在多樣化任務中取得最先進的性能，徹底改變了自然語言處理（NLP）。

受其成功的啟發，研究界將 LLMs 擴展到更廣的多模態領域，催生了多模態大型語言模型（MLLMs）或視覺語言模型（VLMs），例如 GPT-4和 Gemini。這些模型旨在為理解和生成異構模態（文本、圖像等）提供統一框架。

早期的多模態方法將語言模型與擴散模型結合起來，分別處理離散（例如，文本）和連續（例如，圖像）模態。隨后的自回歸（AR，autoregressive）方法通過訓練一個單一的Transformer模型來進行下一個標記的預測，簡化了架構，將離散和連續生成統一到一個模型中。

關鍵問題

擴散模型同時處理文本與圖像：MMaDA提出的離散擴散方法需要先將文本和圖像都編碼成“離散token”，然后統一進行遮蓋—預測（Mask & Predict）式訓練。

UniGRPO（統一的擴散模型強化學習算法）：通常的強化學習微調算法（如PPO、DPO或RRHF）都是基于自回歸模型的token概率計算。而這里的UniGRPO需要適配擴散模型特性，使得模型能夠在并行生成時也能進行策略梯度的更新。

采樣效率和采樣策略（Semi-AR / Non-AR）：MMaDA中文本生成有時可以用半自回歸方式，以平衡質量和速度；圖像生成則可以并行生成，這里面涉及不同采樣（mask和解碼）策略的差異。

研究內容

統一擴散架構

創新點：MMaDA采用統一的擴散架構，具有共享的概率公式和模態無關的設計，無需針對不同模態（如文本和圖像）設計特定的組件。這種架構能夠無縫地整合和處理不同類型的數據。
意義：這種設計簡化了模型架構，提高了模型在不同模態間的通用性和可擴展性，降低了模型復雜度，同時保持了在各種任務上的強大性能。

混合長鏈推理（CoT）微調策略

創新點：MMaDA實施了一種混合長鏈推理（CoT）微調策略，這種策略在不同模態間統一了CoT格式。通過這種方式，模型能夠在文本和視覺領域之間對齊推理過程，從而在最終的強化學習（RL）階段實現冷啟動訓練，增強模型處理復雜任務的能力。
意義：這種策略使得模型在開始訓練時就能夠處理復雜的推理任務，提高了模型在多模態任務中的推理能力和泛化能力，為模型在復雜場景下的應用奠定了基礎。

統一的強化學習算法（UniGRPO）

創新點：MMaDA提出了UniGRPO，這是一種基于策略梯度的強化學習算法，專門針對擴散基礎模型設計。UniGRPO利用多樣化的獎勵建模，統一了推理和生成任務的后訓練過程，確保了性能的持續提升。
意義：UniGRPO算法通過優化模型的推理和生成能力，使得模型在處理復雜的推理和生成任務時能夠更好地保持事實一致性和邏輯連貫性，提升了模型在多模態任務中的整體性能。

狀態最先進的性能

創新點：通過實驗結果，MMaDA在文本推理、多模態理解和文本到圖像生成等關鍵任務上均展現出卓越的性能。它在文本推理方面超越了LLaMA-3-7B和Qwen2-7B等強大的模型，在多模態理解方面超過了Show-o和SEED-X，在文本到圖像生成方面優于SDXL和Janus。
意義：這些成就表明MMaDA在彌合預訓練和后訓練之間的差距方面非常有效，為未來多模態擴散架構的研究和開發提供了一個全面的框架，并且證明了其在多模態領域的有效性和潛力。

靈活的推理時采樣策略

創新點：在文本生成方面，MMaDA采用了半自回歸去噪策略，結合了自回歸解碼和基于擴散的去噪，能夠生成更詳細和復雜的描述。在圖像生成方面，它采用了低置信度掩碼策略和余弦噪聲時間表，能夠生成高質量的圖像。
意義：這些采樣策略提高了模型在不同任務上的生成效率和質量，使得模型在實際應用中能夠更快地生成高質量的結果，提高了模型的實用性和用戶體驗。

跨任務的協同效應

創新點：在聯合訓練過程中，MMaDA展現了文本生成、多模態理解和圖像生成任務之間的協同效應。隨著訓練的進行，所有關鍵性能指標都表現出一致的提升，表明了統一訓練框架的相互促進作用。
意義：這種協同效應不僅提高了模型在各個任務上的性能，還增強了模型在跨模態任務中的綜合能力，使得模型能夠更好地理解和生成復雜的多模態內容。

任務擴展能力

創新點：MMaDA能夠自然地執行圖像修復和外推任務，而無需額外的微調。這種能力源于擴散模型的掩碼標記預測問題的訓練目標，使得模型在多模態理解和文本生成任務中也能夠執行這些任務。
意義：這種擴展能力展示了MMaDA的靈活性和泛化能力，使其能夠適應更多樣化的任務場景，為模型在實際應用中的廣泛部署提供了更多可能性。

核心公式

離散擴散的統一建模

$L_{\text{unify}}(\theta) = -\mathbb{E}_{t, x_0, x_t} \left[ \sum_{i=1}^{L} \mathbb{I}[x_t^i = [\text{MASK}]] \log p_{\theta}(x_0^i \mid x_t^i) \right]$

Mixed Long-CoT 微調

$L_{\text{Mixed-SFT}} = -\mathbb{E}_{t, p_0, r_t} \left[ \sum_{i=1}^{L'} \mathbb{I}[r_t^i = [\text{MASK}]] \log p_{\theta}(r_0^i \mid p_0, r_t) \right]$

UniGRPO統一的強化學習?

$J_{\text{UniGRPO}}(\theta) = \mathbb{E}_{(q,a) \sim D, \{o_i\}_{i=1}^G \sim \pi_{\text{old}}(\cdot|\theta), \{r_i\}_{i=1}^G} \left[ \frac{1}{G} \sum_{i=1}^{G} \frac{1}{|\mathcal{O}_i|} \sum_{t=1}^{|\mathcal{O}_i|} \min \left( r'_{i,t}(\theta) \hat{A}_{i,t}, \ \text{clip} \left( r'_{i,t}(\theta), 1 - \epsilon, 1 + \epsilon \right) \hat{A}_{i,t} \right) - \beta D_{\text{KL}} \left( \pi_{\theta}^s \| \pi_{\text{ref}}^s \right) \right].$

[2505.15809] MMaDA: Multimodal Large Diffusion Language Models

Ling Yang,?Ye Tian,?Bowen Li,?Xinchen Zhang,?Ke Shen,?Yunhai Tong,?Mengdi Wang?

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/90590.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/90590.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/90590.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！