多模態大型語言模型最新綜述

多模態大型語言模型（Multimodal Large Language Models，MLLMs）已迅速發展，超越了文本生成的范疇，如今能夠覆蓋圖像、音樂、視頻、人類動作以及三維物體等多種輸出模態。它們通過在統一架構下將語言與其他感知模態整合，實現了跨模態的生成能力。

本文綜述將六大主要生成模態進行分類，并探討了若干核心技術——包括自監督學習（Self-Supervised Learning, SSL）、專家混合機制（Mixture of Experts, MoE）、基于人類反饋的強化學習（Reinforcement Learning from Human Feedback, RLHF）以及思維鏈提示（Chain-of-Thought, CoT）——如何賦能跨模態能力。我們分析了關鍵模型、架構趨勢及其涌現的跨模態協同效應，并重點指出了可遷移的技術路徑與尚未解決的挑戰。諸如 Transformer 和擴散模型等架構創新為這種融合奠定了基礎，使得跨模態遷移與模塊化專精成為可能。

本文還總結了跨模態協同的最新發展趨勢，并指出了評估方式、模塊化設計及結構化推理等方面的開放性難題。該綜述旨在提供一個關于 MLLM 發展的統一視角，并指明實現更通用、可適應、可解釋的多模態系統的關鍵路徑。

1 引言

自 2022 年底首次亮相以來，基于文本的大型語言模型（Large Language Models，LLMs）已成為人工智能領域的基礎支柱。這些模型不僅重塑了人工智能的格局，也深刻融入了我們的日常生活。它們的演進推動了自然語言處理、人機交互以及多模態應用等方面的創新，為各個領域的無縫集成鋪平了道路。隨著發展，LLMs 已從最初的簡單文本生成模型，演進為支持上下文學習（in-context learning）【16, 109, 149, 51】、指令跟隨（instruction following）【110, 147, 146】以及多步推理（multi-step reasoning）【33】的復雜系統，正在重塑我們與計算機交互、完成任務和創造數字內容的方式。

然而，智能并不局限于語言本身。人類通過豐富的模態——文本、視覺、音頻、動作等——來感知和理解世界。硬件的進步使得機器具備了處理、解釋和生成這些多樣化數據流的能力。這一技術趨勢正推動研究社區邁向更加整體化的多模態方法，促使人工智能與人類復雜的感知方式更緊密對齊。因此，先進模型不僅擅長理解和生成文本，還能將文本與視覺結合【123】，或與音頻整合【40】。這種演進也體現在輸出形式上，它們正日益呈現出多模態和通用化的特征，突破了傳統單一模態的響應模式。如今的模型常常以混合類型的數據作為輸入【109, 147】，這一多模態集成正在推動人工智能系統逐步理解現實世界的復雜性【1】，不斷逼近人類通用理解的能力。

雖然文本依然是這些模型處理的核心要素，但其生成能力已擴展至多個輸出模態。為更好地理解這種多樣性，本文提出了一個全新的分類方式，將多模態大型語言模型（Multimodal Large Language Models，MLLMs）的主要生成輸出劃分為六大關鍵類別：

文本生成文本（Text-to-Text, T2T）：為所有語言類任務及自然語言處理的基礎，支撐著信息檢索、摘要生成、翻譯與對話系統。
文本生成圖像（Text-to-Image, T2I）：用于視覺內容的生成與分析，是各類視覺生成任務的核心。
文本生成音樂（Text-to-Music, T2M）：音樂是一種復雜的聽覺媒介，包含多種樂器與情感表達，其建模難度高于一般音頻。
文本生成視頻（Text-to-Video, T2V）：結合時間與視覺信息以生成動態場景，涉及現實物理規律，類似一個世界模型。
文本生成人類動作（Text-to-Human-Motion, T2HM）：廣泛應用于動畫、機器人與虛擬人等場景，是實現直觀人機交互的重要方式。
文本生成三維物體（Text-to-3D-Objects, T2-3D）：對虛擬現實、游戲與設計等應用至關重要，有助于在沉浸式環境中實現想象與交互。

這六大類別代表了當前生成模型所涉及的主要模態，每種模態對應一種獨特的數據輸出形式與應用場景。本文將音樂單獨歸為 Text-to-Music（T2M），而非更廣義的 Text-to-Audio，這是因為語音與文本關系密切，本質上是一種可直接相互轉換的形式；而音樂則擁有與語言截然不同的結構、節奏、和聲與創作元素，建模復雜性更高，因此值得單獨對待。通過明確劃分這些能力，我們希望強調生成模型所能覆蓋的廣泛輸出范式，每種模式既有獨特的應用場景，也伴隨著專屬的技術挑戰。

支撐這些多模態生成能力的，是一系列基礎性的架構創新，主要包括 Transformer【152】及其核心的注意力機制【5】，以及在眾多視覺生成任務中表現突出的擴散模型（diffusion models）【106】。隨著模態復雜度的不斷提升，人工智能系統所需應對的問題日益復雜，模型結構與訓練方法也在不斷演進。這種演進往往是解鎖模型涌現能力的關鍵【165】。其中有四項技術在提升模型推理能力方面起到了決定性作用：三項主要用于訓練階段，分別是自監督學習（Self-Supervised Learning，SSL）【121】、專家混合機制（Mixture of Experts，MoE）【62】以及基于人類反饋的強化學習（Reinforcement Learning from Human Feedback，RLHF）【26】；第四項是用于推理階段的思維鏈提示（Chain-of-Thought，CoT）【164】。

自監督學習（SSL）：在訓練階段使模型從海量未標注數據中學習，通過預測輸入中被遮蔽的信息，建立起對語言、模式與世界知識的基礎理解，為復雜推理提供必需支持。
專家混合機制（MoE）：通過選擇性激活不同“專家”子網絡，以較低的計算開銷顯著提升模型容量，能更高效地學習多樣知識與復雜模式，是增強高級推理能力的關鍵手段。
基于人類反饋的強化學習（RLHF）：一種訓練階段的微調方法，使模型更符合人類偏好與行為預期。通過人類排名數據訓練，RLHF 能提升模型輸出的一致性、可靠性與指令理解能力。
思維鏈提示（CoT）：在推理階段引導模型生成一系列中間步驟，以增強多步推理能力。這種顯式的思維過程有助于更準確且透明地處理復雜問題。

已有的綜述文獻也為理解 MLLMs 的發展提供了重要參考。[8] 提出了多模態學習的核心框架，并總結了代表性挑戰，包括表示學習、模態翻譯、模態對齊、模態融合與協同學習，奠定了 MLLM 研究的基礎。[17] 評述了以視覺為中心的 MLLMs，涵蓋其架構、模態對齊策略以及視覺定位、圖像生成等應用。[183] 關注多模態模型中的人類偏好對齊機制，[30] 則深入探討了模型的可解釋性與可理解性，是可信 AI 的關鍵因素。[182] 詳盡梳理了 MLLMs 在粒度、多模態與多語言覆蓋及應用場景上的演進，并進一步推進了如多模態上下文學習、思維鏈推理、LLM 輔助視覺理解等新方法。[95] 系統地回顧了 MLLMs 在多種模態下的應用與安全性問題，[158] 則深入探討了多模態思維鏈推理（Multimodal Chain-of-Thought, MCoT）在不同任務中的潛力。

為全面理解這一不斷演化的研究圖景，本文結構如下：第 2 節介紹背景知識與基本概念，并定義本文的綜述范圍與方法論；第 3 節對前述六大生成模態（T2T, T2I, T2M, T2V, T2HM, T2-3D）的歷史發展進行梳理；第 4 節討論四項核心技術（SSL, MoE, RLHF, CoT）的發展過程與關鍵作用；第 5 節綜合分析跨模態的趨勢、面臨的挑戰以及架構層面的共性，探索模態與技術之間的協同效應；第 6 節展望未來研究方向，如擴展 SSL 至新模態、模塊化專家機制、以及非文本模態的思維鏈推理等；第 7 節總結全文核心觀點，并探討通向統一多模態系統的發展路徑。

隨著 MLLM 的不斷發展，幾個有前途的研究方向正在出現，這些方向推動了跨不同模式的生成建模的前沿。雖然現有系統已經展示了令人印象深刻的功能，但先進技術（如自我監督學習、專家模塊化、推理時推理）之間的相互作用仍處于早期階段。在當前的異花授粉工作和解決已確定的局限性的基礎上，未來的研究必須旨在通過更緊密地整合架構、學習策略和特定于模式的約束來開發更強大、多功能和可控的 MLLM。視頻、Motion 和 3D 數據上的 SSL。用于視頻、動作和 3D 數據的 SSL 仍然是碎片化的，缺乏文本建模中的連貫性，其中下一個標記預測已成為標準。雖然目前的許多視頻模型都是在文本、圖像和視頻數據的組合上進行預訓練的，但它們往往無法捕捉時空域的更深層次的物理和因果結構。

未來的工作應該超越表面層面的框架預測，轉向對潛在動力學進行建模，例如速度偏移、變形和物體相互作用，使模型不僅能夠了解接下來會發生什么，而且能夠了解它發生的原因。集成 3D 人體運動和對象數據集可以培養對物理交互和具體行為有更豐富理解的模型。像 LanguageBind [200] 這樣的方法開始在規模上橋接模態，但該領域現在必須轉向將這種對齊建立在物理定律和結構約束的基礎上。最終，這些領域的 SSL 必須從淺層模式識別演變為動態因果理解的更深層次體現。

總結

這項綜述制了 MLLM 不斷發展的格局，研究了transformer、擴散模型、SSL、MoE、RLHF 和 CoT 等基礎技術如何擴展到不同的輸出模式。雖然每種模式都帶來了不同的挑戰，但它們越來越多地共享底層架構和學習策略，這表明正在向通用生成系統趨同。

一個關鍵的見解是方法論跨領域的高度可轉移性。一種模式的進步，例如擴散模型在圖像生成方面的成功，已經促進了其他模式的突破，包括視頻合成和 3D 建模。同樣，最初為文本任務設計的 MoE 和 CoT 等技術已被證明在視覺、運動和音頻方面有效。這種多式聯運協同作用不僅加快了進展，而且還指出了統一生成模型的可行性，這些模型能夠處理具有共享推理和表示空間的復雜多模態任務。

展望未來，概述了未來的方向，例如視頻和運動的統一時空表示、從視頻到 3D 的深度感知傳輸，以及利用 Cosmos 等世界模型，這表明正在向更加集成、物理基礎和上下文感知的系統轉變。這些趨勢強化了這樣一種觀點，即模式之間的界限越來越難以劃定。

綜上所述，MLLM 的演變不是并行軌道的集合，而是一個緊密連接的生態系統。跨模式的架構、技術和數據制度的交叉授粉不僅是可行的，而且是必不可少的。下一波生成式 AI 可能會由這些模型不僅是多模態的，而且從根本上是多模態的，旨在以統一和自適應的方式跨域推理、感知和創建。

論文原文：https://arxiv.org/abs/2506.10016

工信部AIGC技能證書：https://www.yuque.com/lhyyh/ai/ins6gx3o7hck7shb

免費的 AI 大模型知識庫：https://www.yuque.com/lhyyh/ai