【論文閱讀】A Survey on Multimodal Large Language Models

目錄

  • 前言
  • 一、 背景與核心概念
    • 1-1、多模態大語言模型(MLLMs)的定義
  • 二、MLLMs的架構設計
    • 2-1、三大核心模塊
    • 2-2、架構優化趨勢
  • 三、訓練策略與數據
    • 3-1、 三階段訓練流程
  • 四、 評估方法
    • 4-1、 閉集評估(Closed-set)
    • 4-2、開集評估(Open-set)
    • 4-3、多模態幻覺評估
    • 4-4、 多模態綜合能力評估
  • 五、擴展方向與技術
    • 5-1、模態支持擴展
    • 5-2、 交互粒度擴展
    • 5-3、語言與文化擴展
    • 5-4、 垂直領域擴展
    • 5-5、效率優化擴展
    • 5-6、 新興技術融合
  • 總結


前言

這篇綜述系統梳理了多模態模型的技術棧,從基礎架構到前沿應用,并指出當前瓶頸(如幻覺、長上下文)和解決思路。其核心價值在于(1)方法論:三階段訓練(預訓練→指令微調→對齊)成為主流范式。(2)開源生態:LLaVA、MiniGPT-4等開源模型推動社區發展。(3)跨學科應用:在醫療、機器人等領域的滲透展示通用潛力。

一、 背景與核心概念

1-1、多模態大語言模型(MLLMs)的定義

核心思想:以強大的大語言模型(如GPT-4、LLaMA)為“大腦”,通過模態接口(如視覺編碼器)將圖像、音頻、視頻等非文本模態與文本模態對齊,實現跨模態理解和生成。

與傳統多模態模型的區別:

  • 規模:MLLMs基于百億參數規模的LLMs,而傳統模型(如CLIP、OFA)參數更小。
  • 能力:MLLMs展現涌現能力(如復雜推理、指令跟隨),傳統模型多為單任務專用。

多模態模型發展線如下所示:
在這里插入圖片描述

二、MLLMs的架構設計

2-1、三大核心模塊

1、模態編碼器(Modality Encoder)(眼睛/耳朵)

功能:將原始數據(如圖像、音頻、視屏等)轉換為特征表示,使其能夠與文本模態對其。(例如圖像、音視頻編碼器)

常用模型:

  • 圖像:CLIP-ViT、EVA-CLIP(更高分辨率支持)、ConvNeXt(卷積架構)。

  • 音頻:CLAP、ImageBind(支持多模態統一編碼)。

關鍵發現:輸入分辨率對性能影響顯著(如448x448比224x224更優)。即更高的分辨率可以獲得更加顯著的性能。

如圖所示為常用的圖像編碼器:
在這里插入圖片描述

2、大語言模型(LLM)(大腦)

功能: 作為MLLM的“大腦”,負責整合多模態信息,執行推理,生成文本輸出。

  • 選擇:開源模型(LLaMA-2、Vicuna)或雙語模型(Qwen)。

  • 參數規模的影響:從13B→34B參數提升,中文零樣本能力涌現(即使訓練數據僅為英文)。

  • 知識注入:領域適配,例如數據微調,或者工具調用,即通過指令微調教會LLM調用外部API。

如圖所示為常用公開的大語言模型:
在這里插入圖片描述

3、模態接口(Modality Interface):用于對齊不同的模態

可學習接口:

  • Token級融合:如BLIP-2的Q-Former,將視覺特征壓縮為少量Token。

  • 特征級融合:如CogVLM在LLM每層插入視覺專家模塊。

**專家模型:**調用現成模型(如OCR工具)將圖像轉為文本,再輸入LLM(靈活性差但無需訓練)。

如圖所示為典型多模態模型架構示意圖:
在這里插入圖片描述
4、模塊協同工作示例(以LLaVA為例)

  • 圖像編碼:CLIP-ViT將圖像編碼為視覺特征。
  • 特征對齊:通過兩層MLP將視覺特征投影到LLaMA的文本嵌入空間。
  • 指令微調:聯合訓練視覺-文本特征,使LLaMA能理解“描述圖像中第三只貓的顏色”。
  • 推理生成:LLaMA基于對齊特征生成自然語言響應。

2-2、架構優化趨勢

高分辨率支持:通過分塊(Monkey)、雙編碼器(CogAgent)處理高分辨率圖像。

稀疏化:混合專家(MoE)架構(如MoE-LLaVA)在保持計算成本的同時增加參數量。

三、訓練策略與數據

3-1、 三階段訓練流程

1、預訓練(Pretraining)

目標:將不同模態(如圖像、音頻)的特征映射到統一的語義空間,通過大規模數據吸收通用知識(如物體識別、基本推理)。
數據:大規模粗粒度圖文對(如LAION-5B)或高質量細粒度數據(如GPT-4V生成的ShareGPT4V)。計算圖文相似度,移除相似度太低的樣本。
關鍵技巧:凍結編碼器和LLM,僅訓練接口(防止災難性遺忘)。

如圖所示為預訓練所用的通用數據集:
在這里插入圖片描述

2、指令微調(Instruction Tuning)

目標:使模型能夠理解和執行多樣化的用戶指令(如“描述圖像中的情感”),指令調優學習如何泛化到不可見的任務。

數據構建方法:

  • 任務適配:將VQA數據集轉為指令格式(如“Question: <問題> Answer: <答案>”)。
  • 自指令生成:用GPT-4生成多輪對話數據(如LLaVA-Instruct)。

發現

  • 指令多樣性(設計不同句式(疑問句、命令句)和任務類型(描述、推理、創作))比數據量更重要。
  • 數據質量比數量更重要。
  • 包含推理步驟的指令,可以顯著提升模型的性能。

如圖所示描述任務的指令(相關范例):
在這里插入圖片描述

3、對齊微調(Alignment Tuning)

目標:減少幻覺(確保生成內容與輸入模態一致(如不虛構圖中未出現的物體)),使輸出更符合人類偏好。(簡介、安全,符合倫理)

方法

  • RLHF:通過人類偏好數據訓練獎勵模型,再用PPO優化策略(如LLaVA-RLHF)。
  • DPO:直接優化偏好對(無需顯式獎勵模型)。

如圖所示為三種典型學習范式的比較:
在這里插入圖片描述

四、 評估方法

4-1、 閉集評估(Closed-set)

定義:在預定義任務和答案范圍內測試模型性能,適用于標準化任務(如分類、問答)。
核心指標:

  • 準確率(Accuracy):直接匹配模型輸出與標準答案(如ScienceQA數據集)。
  • CIDEr(Consensus-based Image Description Evaluation):衡量生成文本與參考描述的語義相似性(常用于圖像描述任務)。
  • BLEU-4:基于詞重疊的機器翻譯指標,適用于短文本生成(如VQA簡短回答)。

4-2、開集評估(Open-set)

定義:評估模型在開放場景下的生成能力(如自由對話、創造性任務),答案不固定。
核心方法:

人工評分(Human Rating):

  • 評分維度:相關性、事實性、連貫性、多樣性、安全性。
  • 流程:標注員按1-5分對模型輸出打分(如LLaVA的對話能力評估)。

GPT-4評分(GPT-as-a-Judge):

  • 方法:用GPT-4對模型輸出評分(示例提示):
Instruction: 請根據相關性(1-5分)和準確性(1-5分)評價以下回答:  
問題:<問題>  
模型回答:<回答>  
  • 優點:低成本、可擴展;缺點:依賴GPT-4的偏見和文本理解能力。

4-3、多模態幻覺評估

定義:檢測模型生成內容與輸入模態不一致的問題(如虛構圖中未出現的對象)。
評估方法:

POPE(Polling-based Object Probing Evaluation):

  • 流程:生成多項選擇題(如“圖中是否有狗?”),統計模型回答的準確率。
  • 指標:準確率、假陽性率(FP)。

CHAIR(Caption Hallucination Assessment with Image Relevance):

步驟:

  • 提取生成描述中的所有名詞(如“貓、桌子”)。
  • 檢測這些名詞是否在圖像中存在(通過目標檢測模型)。

指標:幻覺率(錯誤名詞占比)。

FaithScore:

方法:將生成文本拆分為原子事實(如“貓是黑色的”),用視覺模型驗證每個事實是否成立。
指標:原子事實準確率。

4-4、 多模態綜合能力評估

(1) 多維度基準測試

1、MME(Multimodal Evaluation Benchmark):

涵蓋能力:感知(物體計數、顏色識別)、認知(推理、常識)。
任務示例:

  • 感知任務:“圖中紅色物體的數量?”
  • 認知任務:“如果移除支撐桿,積木會倒塌嗎?為什么?”

指標:綜合得分(感知分 + 認知分)。

2、MMBench:

特點:覆蓋20+任務類型(如OCR、時序推理),使用ChatGPT將開放答案匹配到預定義選項。
指標:準確率(標準化為0-100分)。

五、擴展方向與技術

多模態大語言模型的擴展方向主要集中在提升功能多樣性、支持更復雜場景、優化技術效率以及拓展垂直領域應用。以下是具體分類與技術細節

5-1、模態支持擴展

一、 輸入模態擴展

1、3D點云(Point Cloud)

技術:將3D數據(如LiDAR掃描)編碼為稀疏或密集特征。
案例

  • PointLLM:通過投影網絡將點云特征對齊到LLM的文本空間,支持問答(如“房間中有多少把椅子?”)。
  • 3D-LLM:結合視覺和3D編碼器,實現跨模態推理(如分析物體空間關系)。
    挑戰:3D數據的高維稀疏性、計算開銷大。

2、傳感器融合(Sensor Fusion)

技術:整合多種傳感器數據(如熱成像、IMU慣性測量)。
案例

  • ImageBind-LLM:支持圖像、音頻、深度、熱成像等多模態輸入,通過統一編碼器對齊特征。
    應用:自動駕駛(融合攝像頭、雷達、激光雷達數據)。

二、輸出模態擴展

1、多模態生成

技術:結合擴散模型(如Stable Diffusion)生成圖像、音頻或視頻。
案例

  • NExT-GPT:輸入文本生成圖像+音頻,或輸入視頻生成文本描述+配樂。
  • Emu:通過視覺解碼器生成高分辨率圖像,支持多輪編輯(如“將圖中的貓換成狗”)。
    指標:生成質量(FID、CLIP Score)、跨模態一致性。

5-2、 交互粒度擴展

一、細粒度輸入控制
1、區域指定(Region-specific):
技術:支持用戶通過框選(Bounding Box)、點擊(Point)指定圖像區域。
案例:

  • Ferret:接受點、框或草圖輸入,回答與指定區域相關的問題(如“這個紅框內的物體是什么?”)。
  • Shikra:輸出回答時自動關聯圖像坐標(如“左側的狗(坐標[20,50,100,200]在奔跑”)。

2、像素級理解(Pixel-level):

技術:結合分割模型(如Segment Anything)實現掩碼級交互。
案例

  • LISA:通過文本指令生成物體掩碼(如“分割出所有玻璃杯”)。

二、多輪動態交互

歷史記憶增強:

技術:在對話中維護跨模態上下文緩存(如緩存前幾輪的圖像特征)。
案例

  • Video-ChatGPT:支持多輪視頻問答(如“第三秒出現的車輛是什么品牌?”)。

5-3、語言與文化擴展

一、多語言支持
低資源語言適配:

技術:通過翻譯增強(Translate-Train)或跨語言遷移學習。
案例

  • VisCPM:基于中英雙語LLM,用英文多模態數據訓練,通過少量中文數據微調實現中文支持。

挑戰:缺乏非拉丁語系的圖文對齊數據(如阿拉伯語、印地語)。

二、文化適應性
本地化內容生成:
技術:在指令數據中注入文化特定元素(如節日、習俗)。
案例

  • Qwen-VL:支持生成符合中文文化背景的描述(如“端午節龍舟賽”)。

5-4、 垂直領域擴展

一、醫療領域
技術:領域知識注入(如醫學文獻微調)、數據增強(合成病理圖像)。
案例:

  • LLaVA-Med:支持胸部X光診斷問答(如“是否存在肺炎跡象?”),準確率超放射科住院醫師平均水平。
    挑戰:數據隱私、倫理審查。

二、自動駕駛
技術:多傳感器融合、實時性優化(如模型輕量化)。
案例

  • DriveLLM:結合高精地圖和攝像頭數據,回答復雜駕駛場景問題(如“能否在此路口變道?”)。

三、工業檢測
技術:高分辨率缺陷檢測、小樣本學習。
案例

  • Industrial-VLM:通過文字提示定位產品缺陷(如“檢測電路板上的虛焊點”)。

5-5、效率優化擴展

一、輕量化部署
技術:

  • 模型壓縮:量化(INT8)、知識蒸餾(如TinyLLaVA)。
  • 硬件適配:針對移動端(如NPU)優化計算圖。

案例:

  • MobileVLM:1.4B參數模型可在手機端實時運行,支持圖像描述和簡單問答。

二、混合專家(MoE)架構

技術:稀疏激活,僅調用部分專家模塊處理輸入。
案例

  • MoE-LLaVA:在視覺問答任務中,MoE架構比同參數規模模型準確率提升5%-10%。

5-6、 新興技術融合

一、具身智能(Embodied AI)

技術:將MLLMs與機器人控制結合,實現“感知-推理-行動”閉環。
案例

  • PALM-E:通過視覺-語言模型控制機械臂完成復雜操作(如“把紅色積木放在藍色盒子旁邊”)。

二、增強現實(AR)

技術:實時多模態交互(如語音+手勢+視覺)。
案例

  • AR-LLM:在AR眼鏡中疊加MLLM生成的實時導航提示(如“前方路口右轉”)。

參考文章:
多模態模型綜述文章
Github地址

注意: 原文內容較多,本文僅限部分內容筆記,建議直接閱讀原文。

總結

好困,真的好困。🐑

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/81250.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/81250.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/81250.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

[已解決] LaTeX “Unicode character“ 報錯 (中文字符處理)

問題&#xff1a; 寫 LaTeX 文檔&#xff0c;特別是包含中文時&#xff0c;經常遇到類似下圖的 “Unicode character XXXXXX” 報錯 (X) Unicode character 本 (U672C) LaTeX [行 xx, 列 x] (X) Unicode character 報 (U62A5) LaTeX [行 xx, 列 x] ...這通常意味著我們的 LaTe…

現貨黃金跌破 3160 美元,市場行情劇烈波動?

在 5 月 16 日的交易時段中&#xff0c;現貨黃金市場出現戲劇性變化&#xff0c;價格短時間內大幅跳水。截至當日 20:04&#xff0c;現貨黃金短線下挫 20 美元&#xff0c;一舉跌破 3160 美元 / 盎司&#xff0c;日內跌幅達 2.56%&#xff1b;紐約期金日內也大跌 2%&#xff0c…

智慧校園(含實驗室)智能化專項匯報方案

該方案聚焦智慧校園(含實驗室)智能化建設,針對傳統實驗室在運營監管、環境監測、安全管控、排課考勤等方面的問題,依據《智慧校園總體框架》等標準,設計數字孿生平臺、實驗室綜合管理平臺、消安電一體化平臺三大核心平臺,涵蓋通信、安防、建筑設備管理等設施,涉及 395 個…

【Python爬蟲 !!!!!!政府招投標數據爬蟲項目--醫療實例項目文檔(提供源碼!!!)!!!學會Python爬蟲輕松賺外快】

政府招投標數據爬蟲項目--醫療實例項目文檔 1. 項目概述1.1 項目目標1.2 技術棧2. 系統架構2.1 模塊劃分2.2 流程示意圖3. 核心模塊設計3.1 反爬處理模塊(`utils/anti_crawler.py`)3.1.1 功能特性3.1.2 關鍵代碼3.2 爬蟲模塊(`crawler/spiders/`)3.2.1 基類設計(`base_spi…

RabbitMQ是什么?應用場景有哪些?

RabbitMQ 是一款開源的消息代理中間件,基于 AMQP(高級消息隊列協議)實現,用于在分布式系統中進行異步通信和消息傳遞。它通過將消息的發送者和接收者解耦,提高了系統的可擴展性、可靠性和靈活性。 核心特點 多協議支持:不僅支持 AMQP,還兼容 STOMP、MQTT 等多種消息協議…

RT Thread FinSH(msh)調度邏輯

文章目錄 概要FinSH功能FinSH調度邏輯細節小結 概要 RT-Thread&#xff08;Real-Time Thread&#xff09;作為一款開源的嵌入式實時操作系統&#xff0c;在嵌入式設備領域得到了廣泛應用。 該系統不僅具備強大的任務調度功能&#xff0c;還集成了 FinSH命令行系統&#xff0c…

我司助力高校打造「智慧創新AI學習中心」

為推動AI教育融合跨領域應用&#xff0c;東吳大學于2025年4月舉行「智慧創新AI學習中心」揭牌儀式&#xff0c;并宣布正式啟動AI特色課程與教學空間建置計畫。此次建置由我司協助整體教室空間與設備規劃&#xff0c;導入最新NVIDIA GeForce RTX 50系列桌上型電腦&#xff0c;并…

給你的matplotlib images添加scale Bar

?Scale Bar&#xff08;比例尺&#xff09;用于直觀表示圖像與實際物理尺寸&#xff08;如微米、毫米等&#xff09;的對應關系。例如&#xff0c;在顯微鏡圖像中&#xff0c;比例尺可以標注“75μm”表示圖中某線段對應的實際長度。 這里分享使用matplotlib中的imshow結合ma…

基于React的高德地圖api教程004:線標記繪制、修改、刪除功能實現

文章目錄 4、線繪制4.1 繪制線標記4.1.1 開啟線標記繪制模式4.1.2 繪制線標記4.1.3 關閉線標記模式4.2 可視化線標記數據面板4.3 修改線標記4.3.1 修改線標記路徑4.3.2 修改線標記名稱和顏色4.4 刪除線標記4.5 定位線標記4.6 代碼下載4.04、線繪制 4.1 繪制線標記 4.1.1 開啟…

lc42接雨水

1.原題 42. 接雨水 - 力扣&#xff08;LeetCode&#xff09; 給定 n 個非負整數表示每個寬度為 1 的柱子的高度圖&#xff0c;計算按此排列的柱子&#xff0c;下雨之后能接多少雨水。 2.題目解析 這一題是經常被考到的一道算法題&#xff0c;其中最簡單最好用的方法就是雙指…

【讀代碼】端到端多模態語言模型Ultravox深度解析

一、項目基本介紹 Ultravox是由Fixie AI團隊開發的開源多模態大語言模型,專注于實現音頻-文本的端到端實時交互。項目基于Llama 3、Mistral等開源模型,通過創新的跨模態投影架構,繞過了傳統語音識別(ASR)的中間步驟,可直接將音頻特征映射到語言模型的高維空間。 核心優…

力扣HOT100之二叉樹:98. 驗證二叉搜索樹

這道題之前也刷過&#xff0c;自己做了一遍&#xff0c;發現卡在了第70多個樣例&#xff0c;才發現自己沒有利用二叉搜索樹的性質&#xff0c;但凡涉及到二叉搜索樹&#xff0c;應該首先考慮中序遍歷&#xff01;&#xff01;&#xff01; 被卡住的測試樣例是這樣的&#xff1a…

Centos7.9同步外網yum源至內網

curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo curl -o /etc/yum.repos.d/epel.repo http://mirrors.aliyun.com/repo/epel-7.repo yum makecache yum repolist安裝軟件 yum install -y yum-utils createrepo # yum-utils包含re…

HMDB51數據集劃分

生成訓練集、驗證集和測試集 每個split文件應該包含&#xff1a; 訓練集(id1): 70個視頻測試集(id2): 30個視頻未使用(id0): 剩余視頻 這是一個70/30的訓練/測試分割比例。標記為0的視頻被排除在當前實驗之外。實際上訓練集&#xff08;id1&#xff09;&#xff0c;驗證集&am…

Spring Boot 項目的計算機專業論文參考文獻

技術范圍&#xff1a;SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬蟲、數據可視化、小程序、安卓app、大數據、物聯網、機器學習等設計與開發。 主要內容&#xff1a;免費功能設計、開題報告、任務書、中期檢查PPT、系統功能實現、代碼編寫、論文編寫和輔導、論文…

【Linux】Linux安裝并配置MongoDB

目錄 1.添加倉庫 2.安裝 MongoDB 包 3.啟動 MongoDB 服務 4. 驗證安裝 5.配置 5.1.進入無認證模式 5.2.1創建用戶 5.2.2.開啟認證 5.2.3重啟 5.2.4.登錄 6.端口變更 7.卸載 7.1.停止 MongoDB 服務 7.2.禁用 MongoDB 開機自啟動 7.3.卸載 MongoDB 包 7.4.刪除數…

2025/517學習

對離群值怎么操作。這個就是擬合操作的。用更彎曲的曲線去擬合&#xff0c;如常見函數log 多元回歸和單元回歸 如題&#xff0c;如果我有多個自變量&#xff0c;來對一個因變量進行OLS回歸&#xff0c;有沒有operator可以做到&#xff1f;(ts_regression似乎只支持一個…

RKNN開發環境搭建(ubuntu22.04)

以下情況在RV1106G3的平臺上驗證正常。 1、conda安裝 1&#xff09;conda --version//確認是否安裝 2&#xff09;創建一個安裝目錄&#xff0c;進行下一步 3&#xff09;wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-4.6.14-Linux-x…

Flutter到HarmonyOS Next 的跨越:memory_info庫的鴻蒙適配之旅

Flutter到鴻蒙的跨越&#xff1a;memory_info庫的鴻蒙適配之旅 本項目作者&#xff1a;kirk/堅果 您可以使用這個Flutter插件來更改應用程序圖標上的角標 作者倉庫&#xff1a;https://github.com/MrOlolo/memory_info/tree/master/memory_info 在數字化浪潮的推動下&#…

VLAN擴展技術

端口隔離 &#x1f310; 一、原理總結&#xff1a; 端口隔離功能&#xff1a;實現同一VLAN內端口之間的二層隔離。 用戶只需將端口加入同一個隔離組&#xff08;Port-isolate group&#xff09;&#xff0c;即可實現這些端口之間不能互通。 實現效果&#xff1a;更安全、更加…