多模態大型語言模型最新綜述

多模態大型語言模型(Multimodal Large Language Models,MLLMs)已迅速發展,超越了文本生成的范疇,如今能夠覆蓋圖像、音樂、視頻、人類動作以及三維物體等多種輸出模態。它們通過在統一架構下將語言與其他感知模態整合,實現了跨模態的生成能力。

本文綜述將六大主要生成模態進行分類,并探討了若干核心技術——包括自監督學習(Self-Supervised Learning, SSL)、專家混合機制(Mixture of Experts, MoE)、基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)以及思維鏈提示(Chain-of-Thought, CoT)——如何賦能跨模態能力。我們分析了關鍵模型、架構趨勢及其涌現的跨模態協同效應,并重點指出了可遷移的技術路徑與尚未解決的挑戰。諸如 Transformer 和擴散模型等架構創新為這種融合奠定了基礎,使得跨模態遷移與模塊化專精成為可能。

本文還總結了跨模態協同的最新發展趨勢,并指出了評估方式、模塊化設計及結構化推理等方面的開放性難題。該綜述旨在提供一個關于 MLLM 發展的統一視角,并指明實現更通用、可適應、可解釋的多模態系統的關鍵路徑。

1 引言

自 2022 年底首次亮相以來,基于文本的大型語言模型(Large Language Models,LLMs)已成為人工智能領域的基礎支柱。這些模型不僅重塑了人工智能的格局,也深刻融入了我們的日常生活。它們的演進推動了自然語言處理、人機交互以及多模態應用等方面的創新,為各個領域的無縫集成鋪平了道路。隨著發展,LLMs 已從最初的簡單文本生成模型,演進為支持上下文學習(in-context learning)【16, 109, 149, 51】、指令跟隨(instruction following)【110, 147, 146】以及多步推理(multi-step reasoning)【33】的復雜系統,正在重塑我們與計算機交互、完成任務和創造數字內容的方式。

然而,智能并不局限于語言本身。人類通過豐富的模態——文本、視覺、音頻、動作等——來感知和理解世界。硬件的進步使得機器具備了處理、解釋和生成這些多樣化數據流的能力。這一技術趨勢正推動研究社區邁向更加整體化的多模態方法,促使人工智能與人類復雜的感知方式更緊密對齊。因此,先進模型不僅擅長理解和生成文本,還能將文本與視覺結合【123】,或與音頻整合【40】。這種演進也體現在輸出形式上,它們正日益呈現出多模態和通用化的特征,突破了傳統單一模態的響應模式。如今的模型常常以混合類型的數據作為輸入【109, 147】,這一多模態集成正在推動人工智能系統逐步理解現實世界的復雜性【1】,不斷逼近人類通用理解的能力。

雖然文本依然是這些模型處理的核心要素,但其生成能力已擴展至多個輸出模態。為更好地理解這種多樣性,本文提出了一個全新的分類方式,將多模態大型語言模型(Multimodal Large Language Models,MLLMs)的主要生成輸出劃分為六大關鍵類別:

  • 文本生成文本(Text-to-Text, T2T):為所有語言類任務及自然語言處理的基礎,支撐著信息檢索、摘要生成、翻譯與對話系統。

  • 文本生成圖像(Text-to-Image, T2I):用于視覺內容的生成與分析,是各類視覺生成任務的核心。

  • 文本生成音樂(Text-to-Music, T2M):音樂是一種復雜的聽覺媒介,包含多種樂器與情感表達,其建模難度高于一般音頻。

  • 文本生成視頻(Text-to-Video, T2V):結合時間與視覺信息以生成動態場景,涉及現實物理規律,類似一個世界模型。

  • 文本生成人類動作(Text-to-Human-Motion, T2HM):廣泛應用于動畫、機器人與虛擬人等場景,是實現直觀人機交互的重要方式。

  • 文本生成三維物體(Text-to-3D-Objects, T2-3D):對虛擬現實、游戲與設計等應用至關重要,有助于在沉浸式環境中實現想象與交互。

這六大類別代表了當前生成模型所涉及的主要模態,每種模態對應一種獨特的數據輸出形式與應用場景。本文將音樂單獨歸為 Text-to-Music(T2M),而非更廣義的 Text-to-Audio,這是因為語音與文本關系密切,本質上是一種可直接相互轉換的形式;而音樂則擁有與語言截然不同的結構、節奏、和聲與創作元素,建模復雜性更高,因此值得單獨對待。通過明確劃分這些能力,我們希望強調生成模型所能覆蓋的廣泛輸出范式,每種模式既有獨特的應用場景,也伴隨著專屬的技術挑戰。

支撐這些多模態生成能力的,是一系列基礎性的架構創新,主要包括 Transformer【152】及其核心的注意力機制【5】,以及在眾多視覺生成任務中表現突出的擴散模型(diffusion models)【106】。隨著模態復雜度的不斷提升,人工智能系統所需應對的問題日益復雜,模型結構與訓練方法也在不斷演進。這種演進往往是解鎖模型涌現能力的關鍵【165】。其中有四項技術在提升模型推理能力方面起到了決定性作用:三項主要用于訓練階段,分別是自監督學習(Self-Supervised Learning,SSL)【121】、專家混合機制(Mixture of Experts,MoE)【62】以及基于人類反饋的強化學習(Reinforcement Learning from Human Feedback,RLHF)【26】;第四項是用于推理階段的思維鏈提示(Chain-of-Thought,CoT)【164】。

  • 自監督學習(SSL):在訓練階段使模型從海量未標注數據中學習,通過預測輸入中被遮蔽的信息,建立起對語言、模式與世界知識的基礎理解,為復雜推理提供必需支持。

  • 專家混合機制(MoE):通過選擇性激活不同“專家”子網絡,以較低的計算開銷顯著提升模型容量,能更高效地學習多樣知識與復雜模式,是增強高級推理能力的關鍵手段。

  • 基于人類反饋的強化學習(RLHF):一種訓練階段的微調方法,使模型更符合人類偏好與行為預期。通過人類排名數據訓練,RLHF 能提升模型輸出的一致性、可靠性與指令理解能力。

  • 思維鏈提示(CoT):在推理階段引導模型生成一系列中間步驟,以增強多步推理能力。這種顯式的思維過程有助于更準確且透明地處理復雜問題。

已有的綜述文獻也為理解 MLLMs 的發展提供了重要參考。[8] 提出了多模態學習的核心框架,并總結了代表性挑戰,包括表示學習、模態翻譯、模態對齊、模態融合與協同學習,奠定了 MLLM 研究的基礎。[17] 評述了以視覺為中心的 MLLMs,涵蓋其架構、模態對齊策略以及視覺定位、圖像生成等應用。[183] 關注多模態模型中的人類偏好對齊機制,[30] 則深入探討了模型的可解釋性與可理解性,是可信 AI 的關鍵因素。[182] 詳盡梳理了 MLLMs 在粒度、多模態與多語言覆蓋及應用場景上的演進,并進一步推進了如多模態上下文學習、思維鏈推理、LLM 輔助視覺理解等新方法。[95] 系統地回顧了 MLLMs 在多種模態下的應用與安全性問題,[158] 則深入探討了多模態思維鏈推理(Multimodal Chain-of-Thought, MCoT)在不同任務中的潛力。

為全面理解這一不斷演化的研究圖景,本文結構如下:第 2 節介紹背景知識與基本概念,并定義本文的綜述范圍與方法論;第 3 節對前述六大生成模態(T2T, T2I, T2M, T2V, T2HM, T2-3D)的歷史發展進行梳理;第 4 節討論四項核心技術(SSL, MoE, RLHF, CoT)的發展過程與關鍵作用;第 5 節綜合分析跨模態的趨勢、面臨的挑戰以及架構層面的共性,探索模態與技術之間的協同效應;第 6 節展望未來研究方向,如擴展 SSL 至新模態、模塊化專家機制、以及非文本模態的思維鏈推理等;第 7 節總結全文核心觀點,并探討通向統一多模態系統的發展路徑。

隨著 MLLM 的不斷發展,幾個有前途的研究方向正在出現,這些方向推動了跨不同模式的生成建模的前沿。雖然現有系統已經展示了令人印象深刻的功能,但先進技術(如自我監督學習、專家模塊化、推理時推理)之間的相互作用仍處于早期階段。在當前的異花授粉工作和解決已確定的局限性的基礎上,未來的研究必須旨在通過更緊密地整合架構、學習策略和特定于模式的約束來開發更強大、多功能和可控的 MLLM。視頻、Motion 和 3D 數據上的 SSL。用于視頻、動作和 3D 數據的 SSL 仍然是碎片化的,缺乏文本建模中的連貫性,其中下一個標記預測已成為標準。雖然目前的許多視頻模型都是在文本、圖像和視頻數據的組合上進行預訓練的,但它們往往無法捕捉時空域的更深層次的物理和因果結構。

未來的工作應該超越表面層面的框架預測,轉向對潛在動力學進行建模,例如速度偏移、變形和物體相互作用,使模型不僅能夠了解接下來會發生什么,而且能夠了解它發生的原因。集成 3D 人體運動和對象數據集可以培養對物理交互和具體行為有更豐富理解的模型。像 LanguageBind [200] 這樣的方法開始在規模上橋接模態,但該領域現在必須轉向將這種對齊建立在物理定律和結構約束的基礎上。最終,這些領域的 SSL 必須從淺層模式識別演變為動態因果理解的更深層次體現。

總結

這項綜述制了 MLLM 不斷發展的格局,研究了transformer、擴散模型、SSL、MoE、RLHF 和 CoT 等基礎技術如何擴展到不同的輸出模式。雖然每種模式都帶來了不同的挑戰,但它們越來越多地共享底層架構和學習策略,這表明正在向通用生成系統趨同。

一個關鍵的見解是方法論跨領域的高度可轉移性。一種模式的進步,例如擴散模型在圖像生成方面的成功,已經促進了其他模式的突破,包括視頻合成和 3D 建模。同樣,最初為文本任務設計的 MoE 和 CoT 等技術已被證明在視覺、運動和音頻方面有效。這種多式聯運協同作用不僅加快了進展,而且還指出了統一生成模型的可行性,這些模型能夠處理具有共享推理和表示空間的復雜多模態任務。

展望未來,概述了未來的方向,例如視頻和運動的統一時空表示、從視頻到 3D 的深度感知傳輸,以及利用 Cosmos 等世界模型,這表明正在向更加集成、物理基礎和上下文感知的系統轉變。這些趨勢強化了這樣一種觀點,即模式之間的界限越來越難以劃定。

綜上所述,MLLM 的演變不是并行軌道的集合,而是一個緊密連接的生態系統。跨模式的架構、技術和數據制度的交叉授粉不僅是可行的,而且是必不可少的。下一波生成式 AI 可能會由這些模型不僅是多模態的,而且從根本上是多模態的,旨在以統一和自適應的方式跨域推理、感知和創建。

論文原文:https://arxiv.org/abs/2506.10016

工信部AIGC技能證書:https://www.yuque.com/lhyyh/ai/ins6gx3o7hck7shb

免費的 AI 大模型知識庫:https://www.yuque.com/lhyyh/ai

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/86463.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/86463.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/86463.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

使用ASIO的協程實現高并發服務器

使用ASIO的協程實現高并發服務器 在 C 網絡編程領域,Asio 庫提供了兩種主要的異步編程范式:傳統的回調模式和基于協程的現代模式,傳統的回調模式大家都很清楚,這里不多做介紹,本文主要介紹基于協程的模式,…

OpenCV——輪廓檢測

輪廓檢測 一、輪廓檢測二、輪廓的層級三、輪廓的特征3.1、輪廓面積3.2、輪廓周長3.3、邊界矩形3.4、最小外接圓3.5、近似輪廓3.6、凸包 一、輪廓檢測 輪廓可以簡單的描述為具有相同顏色或灰度的連續點連在一起的一條曲線,輪廓通暢會顯示出圖像中物體的形狀。關于輪…

高等概率論題解-心得筆記【15】

文章目錄 拓撲參考文獻 拓撲 參考文獻 《測度論基礎與高等概率論》

Windows 10關閉自動更新功能

Windows 10關閉自動更新功能,大家是不是經常用下面的幾個步驟: 1、禁用Windows Update服務; 2、在組策略里關閉Win10自動更新相關服務; 3、禁用任務計劃里邊的Win10自動更新; 4、在注冊表中關閉Win10自動更新&…

[Meetily后端框架] 配置指南 | 后端API網關 | API文檔體系

鏈接: https://github.com/Zackriya-Solutions/meeting-minutes docs:會議紀要管理系統 本項目是一個專門用于**處理會議記錄**的后端系統。 系統接收會議文本內容,利用先進的AI模型自動識別關鍵信息,包括行動項、決策內容以及截止期限。 處…

Flink2.0 配置 historyserver

Flink2.0 配置 historyserver 主要是去修改config.yaml配置文件 主要修改的點有兩個 網上很多文檔都是寫的只配置一個 都是坑啊 historyserver :歷史服務器 運行 Flink job 的集群一旦停止(例如yarn模式,程序一旦停止,集群也就關閉了),只能去…

LLM的訓練過程

一般而言,訓練一個完整的 LLM 需要經過圖1中的三個階段——Pretrain、SFT 和 RLHF。 1.預訓練 Pretrain,即預訓練,是訓練 LLM 最核心也是工程量最大的第一步。LLM 的預訓練和傳統預訓練模型非常類似,同樣是使用海量無監督文本對隨…

用 AI + Canvas 生成圖形、動畫與圖表

摘要 隨著人工智能(AI)技術與 Web 可視化的結合,前端開發者可以通過自然語言生成復雜的圖表、動畫和交互式畫布,極大地提升了開發效率和用戶體驗。本文作為《AI 前端:構建智能化 Web 應用的未來》專欄的第七篇&#…

SQL Server for Linux 如何實現高可用架構

關鍵詞:SQL Server for Linux、高可用、讀寫分離、動態擴容、Always On、可用性組 📋 文章目錄 前言:Linux上的SQL Server不再是夢高可用架構設計 Always On 可用性組故障轉移集群實例 讀寫分離架構 可用性組讀寫分離應用層讀寫分離 動態擴…

【51單片機流水燈控制4種造型,按下1,2,3,4時,數碼管對應顯示鍵號,同時流水燈對應四種造型】2022-6-1

緣由流水燈控制4種造型,按下1,2,3,4時,數碼管對應顯示鍵號,同時流水燈對應四種造型-編程語言-CSDN問答 #include "REG52.h" unsigned char code smgduan[]{0x3f,0x06,0x5b,0x4f,0x66,0x6d,0x7d,0x07,0x7f,0x6f,0x77,0x7c,0x39,0x5…

設計模式 - 工廠方法

工廠方法是一種設計模式,對工廠制造方法進行接口規范化,允許子類工廠決定具體知道哪類產品的實例,最終降低系統耦合,使系統的可維護性、可擴展性等得到提升。 一、工廠的多元化與專業化 要實例化對象,就得用到關鍵詞“…

數據應該如何組織,才能讓Excel“讀懂”?

前言:如果你希望Excel能“讀懂”你的數據,就得學會讓排序、篩選、數據透視表、函數等這些功能為我們服務。 假設你在和一個非常聰明但有點“死板”的機器人(Excel)對話,你必須用它能理解的語言來組織信息。 “一維表”…

js防止重復提交的3種解決方案

防止 javascript 重復點擊和提交的關鍵方法有三種:1. 禁用按鈕法,點擊后立即禁用按鈕并更改文本提示,請求完成后恢復;2. 節流函數(throttle),限制函數在設定時間間隔內僅執行一次,適…

【信創-k8s】銀河麒麟V10國防版+鯤鵬/飛騰(arm64架構)在線/離線部署k8s1.30+kubesphere

銀河麒麟作為國家核高基專項的重要成果,國防版憑借其卓越的安全性和可靠性,已成為軍工領域的首選操作系統。之前我們在適配麒麟V4國防版的過程中已發現諸多安全性要求,而麒麟V10國防版在安全防護等級上又達到了更高的級別。 本文將主要演示離…

解鎖單周期MIPS硬布線:Logisim實戰全攻略

目錄 一、引言二、MIPS 架構與單周期設計原理2.1 MIPS 架構概述2.2 單周期設計原理剖析 三、Logisim 工具基礎3.1 Logisim 簡介3.2 基本操作與組件認識 四、單周期 MIPS 硬布線設計步驟4.1 了解 MIPS 指令集4.2 搭建數據通路4.3 設計硬布線控制器4.4 在 Logisim 中創建電路 五、…

7.4.2B+樹

B樹: (1)每個分支節點最多有m個子樹(孩子節點)。 階:即看當前的B樹是幾階B樹,就看每個分支節點最多有幾個子樹,還是看最下一層有幾個分叉就是幾階??? 葉子節點:最下邊的一層叫葉子…

MFC獲取本機所有IP、局域網所有IP、本機和局域網可連接IP

獲取本機所有IP地址 // 獲取本機所有IP地址 int CMachine::GetLocalIPs(std::vector<CString>& vIPValue) {//返回IP數量&#xff0c; -1表示獲取失敗vIPValue.clear();int IpNum 0;//1.初始化wsa WSADATA wsaData;int ret WSAStartup(MAKEWORD(2, 2), &wsaD…

【C語言】貪吃蛇小游戲

1. 所需知識 C語言函數、枚舉、結構體、動態內存管理、預處理指令、鏈表、Win32 API... 2. Win32 API介紹 2.1 Win32 API windows這個多作業系統除了協調應用程序的執行、分配內存、管理資源之外&#xff0c;它同時也是一個很大的服務中心&#xff0c;調用這個服務中心的各種…

PostgreSQL 容器化分布式技術方案

&#x1f4cb; 目錄 引言&#xff1a;為什么選擇容器化PostgreSQLPostgreSQL容器化基礎分布式架構設計高可用實現方案讀寫分離架構動態擴縮容策略生產環境實踐總結與展望 引言&#xff1a;為什么選擇容器化PostgreSQL 在數字化轉型的浪潮中&#xff0c;數據庫作為企業的"…

NV025NV033美光固態閃存NV038NV040

美光固態閃存技術突破與市場布局深度解析 一、技術突破&#xff1a;232層NAND閃存與高密度存儲的革新 美光NV系列固態閃存的核心競爭力源于其232層NAND閃存技術&#xff0c;這一技術通過垂直堆疊工藝&#xff0c;將存儲單元層層疊加&#xff0c;宛如在指甲蓋面積內構建超過20…