AI知識補全（八）：多模態大模型是什么？

名人說：人生如逆旅，我亦是行人。 ——蘇軾《臨江仙·送錢穆父》
創作者：Code_流蘇(CSDN)（一個喜歡古詩詞和編程的Coder😊）

上一篇：AI知識補全（七）：AI Agent 智能代理是什么？

目錄

一、多模態大模型概述
1. 什么是多模態
2. 多模態大模型的定義
3. 多模態大模型與傳統LLM的區別

二、多模態大模型的工作原理
1. 多模態數據的處理流程
2. 跨模態對齊技術
3. 多模態理解與生成

三、多模態大模型的架構
1. 常見架構類型
2. 代表性多模態大模型介紹
3. 模型訓練方法與挑戰

四、多模態大模型的應用場景
1. 圖像理解與描述
2. 視頻分析與處理
3. 多模態搜索與推薦
4. 輔助創作與內容生成
5. 醫療與健康
6. 3D與空間計算

五、多模態大模型性能對比
六、多模態大模型的發展趨勢與挑戰
1. 技術發展趨勢
2. 面臨的挑戰
3. 未來研究方向

七、小結：多模態，百花齊放的時代

很高興你打開了這篇博客，更多AI知識，請關注我、訂閱專欄《AI大白話》，內容持續更新中…

一、多模態大模型概述

1. 什么是多模態

在人工智能領域，多模態（Multimodality）指的是同時處理和理解多種不同類型數據的能力。就像人類能夠同時理解看到的圖像、聽到的聲音和閱讀的文字一樣，多模態AI系統也能夠處理多種感知輸入。常見的模態包括：文本、圖像、音頻、視頻和結構化數據。

在這里插入圖片描述

2. 多模態大模型的定義

多模態大模型（Multimodal Large Language Models, MLLMs）是指能夠同時處理、理解和生成多種模態數據的大規模深度學習模型。與僅處理單一模態（如純文本）的傳統大語言模型（LLMs）不同，多模態大模型能夠接收圖像、音頻等多種輸入，理解它們之間的聯系，并生成跨模態的響應。

2024年最新的多模態大模型包括：GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、LLAVA-Next和國產的騰訊混元視覺大模型等。這些模型不僅能夠處理文本，還能分析圖像內容，一些高級版本甚至可以理解視頻、音頻和3D空間數據。

3. 多模態大模型與傳統LLM的區別

特性	傳統LLM	多模態大模型
處理數據類型	主要處理文本	處理文本、圖像、音頻、視頻等多種數據
輸入形式	文本提示	文本提示、圖像、音頻等混合輸入
應用范圍	文本生成、問答、翻譯等	圖像理解、跨模態問答、視覺創作等
模型復雜度	相對簡單	更為復雜，需要處理跨模態對齊
計算資源	較低	更高，需要處理多模態特征提取
訓練數據	主要為文本	包括大量圖文對、視頻等多模態數據
上下文窗口	較小	部分模型支持超長上下文（如Gemini 1.5支持200萬tokens）。

二、多模態大模型的工作原理

1. 多模態數據的處理流程

多模態大模型處理不同類型數據的流程大致可分為以下幾個步驟：

在這里插入圖片描述

基于最新的研究進展，多模態大模型的數據處理流程包含以下關鍵步驟：

特征提取：各模態通過專門的編碼器（Encoder）提取特征
- 文本通過文本編碼器（如Transformer）提取語義特征
- 圖像通過視覺編碼器（如ViT, Vision Transformer）提取視覺特征
- 音頻通過音頻編碼器提取聲學特征
- 視頻通過視頻編碼器處理時序和空間特征
- 3D/空間數據通過空間編碼器提取立體結構特征。
跨模態對齊：將不同模態的特征投影到共享的語義空間，這可以通過以下方式實現：
- 令牌級對齊：將視覺、音頻等特征轉換為與文本token兼容的表示
- 特征級融合：在深層次上融合不同模態的特征表示
- 表示統一：構建統一的多模態表示空間
多模態理解與推理：基于融合后的表示進行理解和推理，包括：
- 多模態上下文學習（M-ICL）：類似于文本模型的上下文學習能力
- 多模態思維鏈（M-CoT）：引導模型進行逐步的推理
- 視覺輔助推理（LAVR）：利用視覺信息輔助邏輯推理
輸出生成：根據理解結果生成相應的輸出（文本、圖像等）

2. 跨模態對齊技術

跨模態對齊是多模態大模型的核心技術之一，目前主流的對齊方法包括：

對比學習（Contrastive Learning）：讓相關的多模態數據表示相互靠近，不相關的數據表示相互遠離，如CLIP（Contrastive Language-Image Pretraining）模型
聯合嵌入（Joint Embedding）：將不同模態的數據映射到同一向量空間
注意力機制（Attention Mechanism）：使用注意力機制實現不同模態間的信息交互
預訓練-微調范式（Pretrain-Finetune Paradigm）：先在大規模多模態數據上預訓練，再在下游任務上微調
部分LoRA微調（PLoRA）：如InternLM-XComposer2模型提出的對齊方法，將額外的LoRA參數應用于圖像token，以保持預訓練語言知識的完整性。

3. 多模態理解與生成

多模態大模型不僅能理解多種模態的輸入，還能生成相應的輸出：

在這里插入圖片描述

多模態理解：模型能夠理解圖像內容并回答關于圖像的問題，識別圖像中的物體、場景和活動
跨模態生成：根據一種模態生成另一種模態的內容，如根據文本描述生成圖像、根據圖像生成文本描述等
多模態對話：在對話中同時處理文本和圖像，實現更自然的人機交互
多模態空間推理：最新的研究如CAD-GPT實現了空間推理增強，能夠理解和生成3D空間中的內容。

三、多模態大模型的架構

1. 常見架構類型

多模態大模型主要有以下幾種架構類型 ：

雙塔架構（Dual-Encoder Architecture，CLIP-style）

在這里插入圖片描述

分別使用獨立的編碼器處理不同模態
適合對比學習任務，如CLIP模型
優點：模型結構簡單，訓練高效
缺點：模態間交互有限

融合架構（Fusion Architecture，LLaVA-style）

在這里插入圖片描述

先分別編碼各模態，再進行特征融合
融合方式包括：早期融合、晚期融合和混合融合
代表模型：ViLBERT, LXMERT, LLaVA
優點：能夠有效捕捉跨模態信息

端到端架構（End-to-End Architecture，Flamingo-style）
- 將不同模態的輸入統一處理，如將圖像轉化為"視覺詞元"
- 代表模型：Flamingo, GPT-4V
- 優點：能夠處理更復雜的跨模態任務
專家架構（Mixture-of-Experts Architecture，MoE-style）

在這里插入圖片描述

使用專門的"專家"子網絡處理不同類型的模態或任務
代表模型：MM1, MoE-LLaVA
優點：在不增加計算成本的情況下擴大總參數量，提高性能。

2. 代表性多模態大模型介紹

目前主流的多模態大模型包括（2024年最新）：

GPT-4o（OpenAI）：2024年5月發布，支持實時視覺、音頻和文本交互，多模態能力全面提升。

在這里插入圖片描述

Claude 3.5 Sonnet（Anthropic）：2024年6月發布，在多項基準測試中表現優于GPT-4o和Gemini 1.5 Pro 。

在這里插入圖片描述

Gemini 1.5 Pro（Google）：支持200萬token的超長上下文，能夠處理長視頻和大量文檔。

在這里插入圖片描述

LLaVA-Next（開源）：基于Vicuna/Mistral大語言模型的高性能開源視覺語言模型
CogVLM（智源）：中文開源視覺語言模型，擅長視覺理解和生成
騰訊混元視覺：在SuperCLUE-V中文多模態榜單中排名第一，超越一些國際大模型。
百度文心一言：支持多模態理解與生成的中文大模型

在這里插入圖片描述

3. 模型訓練方法與挑戰

多模態大模型的訓練通常分為三個階段 ：

預訓練（Pretraining）：
- 在大規模多模態數據上進行預訓練
- 訓練目標通常是自回歸的下一個token預測
指令微調（Instruction Tuning）：
- 使模型理解和執行用戶的指令
- 多模態指令數據包括指令、輸入和輸出
- 數據收集方法包括：人工標注、模型合成和數據增強
對齊微調（Alignment Tuning）：
- 減少模型生成內容中的"幻覺"現象
- 常用方法包括：強化學習與人類反饋（RLHF）和直接偏好優化（DPO）

主要挑戰：

多模態幻覺問題：模型生成與輸入不一致的內容
跨模態對齊難題：不同模態數據具有不同結構特性，難以精確對齊
高質量多模態數據稀缺：獲取高質量配對數據困難
計算資源需求巨大：訓練成本比純文本模型高出數倍

四、多模態大模型的應用場景

在這里插入圖片描述

1. 圖像理解與描述

圖像問答（Visual Question Answering, VQA）：回答關于圖像內容的問題
圖像描述生成（Image Captioning）：自動生成描述圖像內容的文本
視覺推理（Visual Reasoning）：分析圖像中物體之間的關系和邏輯

應用示例：

# 使用多模態模型進行圖像描述生成
from transformers import AutoProcessor, AutoModelForCausalLM
import torch
from PIL import Image# 加載模型和處理器
processor = AutoProcessor.from_pretrained("microsoft/git-base")
model = AutoModelForCausalLM.from_pretrained("microsoft/git-base")# 加載圖像
image = Image.open("example_image.jpg")# 處理圖像
pixel_values = processor(images=image, return_tensors="pt").pixel_values# 生成圖像描述
generated_ids = model.generate(pixel_values=pixel_values, max_length=50)
generated_caption = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(generated_caption)

2. 視頻分析與處理

視頻內容理解：理解視頻中的場景、活動和事件
視頻問答：回答關于視頻內容的問題
行為識別：識別視頻中人物的行為和動作
視頻摘要生成：自動生成視頻內容的文字摘要

現代多模態大模型如Gemini 1.5能夠分析長達數小時的視頻，并且能夠從視頻中"撈針"找出特定的幀和內容。

3. 多模態搜索與推薦

圖像搜索：根據文本描述搜索相關圖像
跨模態檢索：使用一種模態搜索另一種模態的內容
多模態推薦系統：基于用戶的多模態交互行為進行個性化推薦

4. 輔助創作與內容生成

文字創作輔助：基于圖像生成相關的文本內容
圖像編輯與生成：根據文本描述生成或編輯圖像
多媒體內容創作：協助創作者生成多種形式的內容

5. 醫療與健康

醫學影像分析：輔助醫生分析X光片、CT、MRI等醫學影像
健康記錄理解：整合患者的多模態數據進行全面分析
醫患溝通輔助：通過分析語音、圖像等多種模態提升醫患溝通

6. 3D與空間計算

CAD模型生成：如CAD-GPT可以根據文本描述或圖像生成3D模型。
空間規劃設計：幫助設計師進行空間規劃和設計
AR/VR內容創建：為增強現實和虛擬現實應用創建內容

五、多模態大模型性能對比

2024年主流多模態大模型能力對比表

模型名稱	視覺理解能力	推理能力	編程能力	上下文窗口	特殊能力
GPT-4o	通用視覺理解方面表現出色	在數學和計算機科學等科目表現突出，具有較強的復雜推理能力	在多步驟編程任務中表現出色	未公開具體數值	多模態交互能力強
Claude 3.5 Sonnet	在細粒度視覺分析上有優勢	在GPQA和MMLU Pro等推理基準測試上超越Gemini 1.5 Pro	-	支持200K token上下文窗口，接受超過100萬token輸入	高質量多模態響應
Claude 3.5 Haiku	-	-	在SWE-bench Verified上得分率達40.6%，超過Claude 3.5 Sonnet和GPT-4 Turbo	支持200K token上下文窗口	小型模型中的高性能表現
Gemini 1.5 Pro	-	在比較數字大小等基礎數學任務上表現更穩定	-	支持長達200萬token的上下文窗口，遠超其他模型	處理長視頻和從視頻中找出特定幀表現突出
騰訊混元視覺	在中文視覺理解方面表現突出，在SuperCLUE-V榜單上超越一些國際大模型	-	-	-	中文多模態理解優勢明顯
CAD-GPT	-	-	-	-	在3D建模和空間推理方面有特殊優勢

2024年，各大廠商競相發布和更新多模態大模型，不同模型在各個方面表現各有特色：

視覺理解能力：
- GPT-4o在通用視覺理解方面表現出色
- Claude 3.5 Sonnet在細粒度視覺分析上有優勢
- 騰訊混元視覺在中文視覺理解方面表現突出，在SuperCLUE-V榜單上超越一些國際大模型
推理能力：
- GPT-4o在數學和計算機科學等科目表現突出，具有較強的復雜推理能力
- Claude 3.5 Sonnet在GPQA和MMLU Pro等推理基準測試上超越Gemini 1.5 Pro
- Gemini 1.5 Pro實驗版本(0801)在比較數字大小等基礎數學任務上表現更穩定
編程能力：
- Claude 3.5 Haiku在SWE-bench Verified上的得分率達到40.6%，超過原來的Claude 3.5 Sonnet和GPT-4 Turbo
- GPT-4o在多步驟編程任務中表現出色
上下文窗口：
- Gemini 1.5系列支持長達200萬token的上下文窗口，遠超過其他模型
- Claude 3.5系列支持200k token的上下文窗口，并接受超過100萬token的輸入
特殊能力：
- CAD-GPT等專業模型在3D建模和空間推理方面有特殊優勢
- Gemini 1.5在處理長視頻和從視頻中找出特定幀方面表現突出

這種百花齊放的發展態勢正推動多模態AI技術在各個應用場景中的落地和優化，用戶可以根據具體需求選擇最適合的模型。

六、多模態大模型的發展趨勢與挑戰

1. 技術發展趨勢

更廣泛的模態支持：擴展到更多模態，如觸覺、3D數據等
更深層次的模態融合：實現更深入的跨模態理解和關聯
多模態預訓練方法創新：開發更有效的預訓練方法和任務
小樣本/零樣本學習能力增強：提高模型在新任務上的快速適應能力
超長上下文理解：模型上下文長度持續增長，Gemini 1.5已支持200萬tokens，未來有望進一步擴展。
降低算力成本：如DeepSeek V3展示了高效訓練方法，大幅降低了訓練成本。

2. 面臨的挑戰

多模態幻覺問題：模型可能生成與輸入不一致的內容或產生"幻覺"
模態對齊難題：不同模態的數據具有不同的結構和特性，實現精確對齊仍然具有挑戰
計算資源需求：多模態模型需要更多的計算資源進行訓練和推理
多模態數據獲取：高質量、大規模的多模態配對數據相對稀缺
模型評估標準：缺乏統一的多模態模型評估標準和基準

3. 未來研究方向

在這里插入圖片描述

七、小結：多模態，百花齊放的時代

多模態大模型作為AI領域的前沿技術，正在迅速發展并改變我們與智能系統交互的方式。2024年已成為多模態AI真正爆發的元年，各大廠商紛紛推出或更新自己的多模態大模型，如GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro等，國內的騰訊混元視覺也在某些中文測評中表現出色。

從技術角度看，多模態大模型的核心挑戰在于如何有效地實現跨模態對齊和融合，以及如何在有限的計算資源條件下處理大規模多模態數據。未來，隨著計算能力的提升和算法的優化，多模態大模型將在更多領域展現出強大的應用潛力。

多模態能力是通往通用人工智能的重要路徑。通過同時處理文本、圖像、音頻、視頻等多種模態數據，這些模型能夠提供更接近人類認知方式的交互體驗。

對于開發者和研究者來說，掌握多模態大模型的基本原理和應用方法，將有助于開發更智能、更自然的人機交互系統，推動人工智能向著更通用、更全面的方向發展。

希望本文對您了解多模態大模型有所幫助！歡迎在評論區留言討論，也歡迎關注本系列的后續內容。