【論文閱讀】A Survey on Multimodal Large Language Models

前言
一、背景與核心概念
- 1-1、多模態大語言模型（MLLMs）的定義
二、MLLMs的架構設計
- 2-1、三大核心模塊
- 2-2、架構優化趨勢
三、訓練策略與數據
- 3-1、三階段訓練流程
四、評估方法
- 4-1、閉集評估（Closed-set）
- 4-2、開集評估（Open-set）
- 4-3、多模態幻覺評估
- 4-4、多模態綜合能力評估
五、擴展方向與技術
- 5-1、模態支持擴展
- 5-2、交互粒度擴展
- 5-3、語言與文化擴展
- 5-4、垂直領域擴展
- 5-5、效率優化擴展
- 5-6、新興技術融合
總結

前言

這篇綜述系統梳理了多模態模型的技術棧，從基礎架構到前沿應用，并指出當前瓶頸（如幻覺、長上下文）和解決思路。其核心價值在于（1）方法論：三階段訓練（預訓練→指令微調→對齊）成為主流范式。（2）開源生態：LLaVA、MiniGPT-4等開源模型推動社區發展。（3）跨學科應用：在醫療、機器人等領域的滲透展示通用潛力。

一、背景與核心概念

1-1、多模態大語言模型（MLLMs）的定義

核心思想：以強大的大語言模型（如GPT-4、LLaMA）為“大腦”，通過模態接口（如視覺編碼器）將圖像、音頻、視頻等非文本模態與文本模態對齊，實現跨模態理解和生成。

與傳統多模態模型的區別：

規模：MLLMs基于百億參數規模的LLMs，而傳統模型（如CLIP、OFA）參數更小。
能力：MLLMs展現涌現能力（如復雜推理、指令跟隨），傳統模型多為單任務專用。

多模態模型發展線如下所示：
在這里插入圖片描述

二、MLLMs的架構設計

2-1、三大核心模塊

1、模態編碼器（Modality Encoder）（眼睛/耳朵）

功能：將原始數據（如圖像、音頻、視屏等）轉換為特征表示，使其能夠與文本模態對其。（例如圖像、音視頻編碼器）

常用模型：

圖像：CLIP-ViT、EVA-CLIP（更高分辨率支持）、ConvNeXt（卷積架構）。
音頻：CLAP、ImageBind（支持多模態統一編碼）。

關鍵發現：輸入分辨率對性能影響顯著（如448x448比224x224更優）。即更高的分辨率可以獲得更加顯著的性能。

如圖所示為常用的圖像編碼器：
在這里插入圖片描述

2、大語言模型（LLM）（大腦）

功能： 作為MLLM的“大腦”，負責整合多模態信息，執行推理，生成文本輸出。

選擇：開源模型（LLaMA-2、Vicuna）或雙語模型（Qwen）。
參數規模的影響：從13B→34B參數提升，中文零樣本能力涌現（即使訓練數據僅為英文）。
知識注入：領域適配，例如數據微調，或者工具調用，即通過指令微調教會LLM調用外部API。

如圖所示為常用公開的大語言模型：
在這里插入圖片描述

3、模態接口（Modality Interface）：用于對齊不同的模態

可學習接口：

Token級融合：如BLIP-2的Q-Former，將視覺特征壓縮為少量Token。
特征級融合：如CogVLM在LLM每層插入視覺專家模塊。

**專家模型：**調用現成模型（如OCR工具）將圖像轉為文本，再輸入LLM（靈活性差但無需訓練）。

如圖所示為典型多模態模型架構示意圖：
在這里插入圖片描述
4、模塊協同工作示例（以LLaVA為例）

圖像編碼：CLIP-ViT將圖像編碼為視覺特征。
特征對齊：通過兩層MLP將視覺特征投影到LLaMA的文本嵌入空間。
指令微調：聯合訓練視覺-文本特征，使LLaMA能理解“描述圖像中第三只貓的顏色”。
推理生成：LLaMA基于對齊特征生成自然語言響應。

2-2、架構優化趨勢

高分辨率支持：通過分塊（Monkey）、雙編碼器（CogAgent）處理高分辨率圖像。

稀疏化：混合專家（MoE）架構（如MoE-LLaVA）在保持計算成本的同時增加參數量。

三、訓練策略與數據

3-1、三階段訓練流程

1、預訓練（Pretraining）

目標：將不同模態（如圖像、音頻）的特征映射到統一的語義空間，通過大規模數據吸收通用知識（如物體識別、基本推理）。
數據：大規模粗粒度圖文對（如LAION-5B）或高質量細粒度數據（如GPT-4V生成的ShareGPT4V）。計算圖文相似度，移除相似度太低的樣本。
關鍵技巧：凍結編碼器和LLM，僅訓練接口（防止災難性遺忘）。

如圖所示為預訓練所用的通用數據集：
在這里插入圖片描述

2、指令微調（Instruction Tuning）

目標：使模型能夠理解和執行多樣化的用戶指令（如“描述圖像中的情感”），指令調優學習如何泛化到不可見的任務。

數據構建方法：

任務適配：將VQA數據集轉為指令格式（如“Question: <問題> Answer: <答案>”）。
自指令生成：用GPT-4生成多輪對話數據（如LLaVA-Instruct）。

發現：

指令多樣性（設計不同句式（疑問句、命令句）和任務類型（描述、推理、創作））比數據量更重要。
數據質量比數量更重要。
包含推理步驟的指令，可以顯著提升模型的性能。

如圖所示描述任務的指令（相關范例）：
在這里插入圖片描述

3、對齊微調（Alignment Tuning）

目標：減少幻覺（確保生成內容與輸入模態一致（如不虛構圖中未出現的物體）），使輸出更符合人類偏好。（簡介、安全，符合倫理）

方法：

RLHF：通過人類偏好數據訓練獎勵模型，再用PPO優化策略（如LLaVA-RLHF）。
DPO：直接優化偏好對（無需顯式獎勵模型）。

如圖所示為三種典型學習范式的比較：
在這里插入圖片描述

四、評估方法

4-1、閉集評估（Closed-set）

定義：在預定義任務和答案范圍內測試模型性能，適用于標準化任務（如分類、問答）。
核心指標：

準確率（Accuracy）：直接匹配模型輸出與標準答案（如ScienceQA數據集）。
CIDEr（Consensus-based Image Description Evaluation）：衡量生成文本與參考描述的語義相似性（常用于圖像描述任務）。
BLEU-4：基于詞重疊的機器翻譯指標，適用于短文本生成（如VQA簡短回答）。

4-2、開集評估（Open-set）

定義：評估模型在開放場景下的生成能力（如自由對話、創造性任務），答案不固定。
核心方法：

人工評分（Human Rating）：

評分維度：相關性、事實性、連貫性、多樣性、安全性。
流程：標注員按1-5分對模型輸出打分（如LLaVA的對話能力評估）。

GPT-4評分（GPT-as-a-Judge）：

方法：用GPT-4對模型輸出評分（示例提示）：

Instruction: 請根據相關性（1-5分）和準確性（1-5分）評價以下回答：  
問題：<問題>  
模型回答：<回答>

優點：低成本、可擴展；缺點：依賴GPT-4的偏見和文本理解能力。

4-3、多模態幻覺評估

定義：檢測模型生成內容與輸入模態不一致的問題（如虛構圖中未出現的對象）。
評估方法：

POPE（Polling-based Object Probing Evaluation）：

流程：生成多項選擇題（如“圖中是否有狗？”），統計模型回答的準確率。
指標：準確率、假陽性率（FP）。

CHAIR（Caption Hallucination Assessment with Image Relevance）：

步驟：

提取生成描述中的所有名詞（如“貓、桌子”）。
檢測這些名詞是否在圖像中存在（通過目標檢測模型）。

指標：幻覺率（錯誤名詞占比）。

FaithScore：

方法：將生成文本拆分為原子事實（如“貓是黑色的”），用視覺模型驗證每個事實是否成立。
指標：原子事實準確率。

4-4、多模態綜合能力評估

(1) 多維度基準測試

1、MME（Multimodal Evaluation Benchmark）：

涵蓋能力：感知（物體計數、顏色識別）、認知（推理、常識）。
任務示例：

感知任務：“圖中紅色物體的數量？”
認知任務：“如果移除支撐桿，積木會倒塌嗎？為什么？”

指標：綜合得分（感知分 + 認知分）。

2、MMBench：

特點：覆蓋20+任務類型（如OCR、時序推理），使用ChatGPT將開放答案匹配到預定義選項。
指標：準確率（標準化為0-100分）。

五、擴展方向與技術

多模態大語言模型的擴展方向主要集中在提升功能多樣性、支持更復雜場景、優化技術效率以及拓展垂直領域應用。以下是具體分類與技術細節

5-1、模態支持擴展

一、輸入模態擴展

1、3D點云（Point Cloud）

技術：將3D數據（如LiDAR掃描）編碼為稀疏或密集特征。
案例：

PointLLM：通過投影網絡將點云特征對齊到LLM的文本空間，支持問答（如“房間中有多少把椅子？”）。
3D-LLM：結合視覺和3D編碼器，實現跨模態推理（如分析物體空間關系）。
挑戰：3D數據的高維稀疏性、計算開銷大。

2、傳感器融合（Sensor Fusion）

技術：整合多種傳感器數據（如熱成像、IMU慣性測量）。
案例：

ImageBind-LLM：支持圖像、音頻、深度、熱成像等多模態輸入，通過統一編碼器對齊特征。
應用：自動駕駛（融合攝像頭、雷達、激光雷達數據）。

二、輸出模態擴展

1、多模態生成：

技術：結合擴散模型（如Stable Diffusion）生成圖像、音頻或視頻。
案例：

NExT-GPT：輸入文本生成圖像+音頻，或輸入視頻生成文本描述+配樂。
Emu：通過視覺解碼器生成高分辨率圖像，支持多輪編輯（如“將圖中的貓換成狗”）。
指標：生成質量（FID、CLIP Score）、跨模態一致性。

5-2、交互粒度擴展

一、細粒度輸入控制
1、區域指定（Region-specific）：
技術：支持用戶通過框選（Bounding Box）、點擊（Point）指定圖像區域。
案例：

Ferret：接受點、框或草圖輸入，回答與指定區域相關的問題（如“這個紅框內的物體是什么？”）。
Shikra：輸出回答時自動關聯圖像坐標（如“左側的狗（坐標[20,50,100,200]在奔跑”）。

2、像素級理解（Pixel-level）：

技術：結合分割模型（如Segment Anything）實現掩碼級交互。
案例：

LISA：通過文本指令生成物體掩碼（如“分割出所有玻璃杯”）。

二、多輪動態交互

歷史記憶增強：

技術：在對話中維護跨模態上下文緩存（如緩存前幾輪的圖像特征）。
案例：

Video-ChatGPT：支持多輪視頻問答（如“第三秒出現的車輛是什么品牌？”）。

5-3、語言與文化擴展

一、多語言支持
低資源語言適配：

技術：通過翻譯增強（Translate-Train）或跨語言遷移學習。
案例：

VisCPM：基于中英雙語LLM，用英文多模態數據訓練，通過少量中文數據微調實現中文支持。

挑戰：缺乏非拉丁語系的圖文對齊數據（如阿拉伯語、印地語）。

二、文化適應性
本地化內容生成：
技術：在指令數據中注入文化特定元素（如節日、習俗）。
案例：

Qwen-VL：支持生成符合中文文化背景的描述（如“端午節龍舟賽”）。

5-4、垂直領域擴展

一、醫療領域
技術：領域知識注入（如醫學文獻微調）、數據增強（合成病理圖像）。
案例：

LLaVA-Med：支持胸部X光診斷問答（如“是否存在肺炎跡象？”），準確率超放射科住院醫師平均水平。
挑戰：數據隱私、倫理審查。

二、自動駕駛
技術：多傳感器融合、實時性優化（如模型輕量化）。
案例：

DriveLLM：結合高精地圖和攝像頭數據，回答復雜駕駛場景問題（如“能否在此路口變道？”）。

三、工業檢測
技術：高分辨率缺陷檢測、小樣本學習。
案例：

Industrial-VLM：通過文字提示定位產品缺陷（如“檢測電路板上的虛焊點”）。

5-5、效率優化擴展

一、輕量化部署
技術：

模型壓縮：量化（INT8）、知識蒸餾（如TinyLLaVA）。
硬件適配：針對移動端（如NPU）優化計算圖。

案例：

MobileVLM：1.4B參數模型可在手機端實時運行，支持圖像描述和簡單問答。

二、混合專家（MoE）架構

技術：稀疏激活，僅調用部分專家模塊處理輸入。
案例：

MoE-LLaVA：在視覺問答任務中，MoE架構比同參數規模模型準確率提升5%-10%。

5-6、新興技術融合

一、具身智能（Embodied AI）

技術：將MLLMs與機器人控制結合，實現“感知-推理-行動”閉環。
案例：

PALM-E：通過視覺-語言模型控制機械臂完成復雜操作（如“把紅色積木放在藍色盒子旁邊”）。

二、增強現實（AR）

技術：實時多模態交互（如語音+手勢+視覺）。
案例：

AR-LLM：在AR眼鏡中疊加MLLM生成的實時導航提示（如“前方路口右轉”）。

參考文章:
多模態模型綜述文章
Github地址

注意： 原文內容較多，本文僅限部分內容筆記，建議直接閱讀原文。

總結

好困，真的好困。🐑