AI知識補全(八):多模態大模型是什么?

名人說:人生如逆旅,我亦是行人。 ——蘇軾《臨江仙·送錢穆父》
創作者:Code_流蘇(CSDN)(一個喜歡古詩詞和編程的Coder😊)


上一篇:AI知識補全(七):AI Agent 智能代理是什么?

目錄

    • 一、多模態大模型概述
      • 1. 什么是多模態
      • 2. 多模態大模型的定義
      • 3. 多模態大模型與傳統LLM的區別
    • 二、多模態大模型的工作原理
      • 1. 多模態數據的處理流程
      • 2. 跨模態對齊技術
      • 3. 多模態理解與生成
    • 三、多模態大模型的架構
      • 1. 常見架構類型
      • 2. 代表性多模態大模型介紹
      • 3. 模型訓練方法與挑戰
    • 四、多模態大模型的應用場景
      • 1. 圖像理解與描述
      • 2. 視頻分析與處理
      • 3. 多模態搜索與推薦
      • 4. 輔助創作與內容生成
      • 5. 醫療與健康
      • 6. 3D與空間計算
    • 五、多模態大模型性能對比
    • 六、多模態大模型的發展趨勢與挑戰
      • 1. 技術發展趨勢
      • 2. 面臨的挑戰
      • 3. 未來研究方向
    • 七、小結:多模態,百花齊放的時代

很高興你打開了這篇博客,更多AI知識,請關注我、訂閱專欄《AI大白話》,內容持續更新中…

一、多模態大模型概述

1. 什么是多模態

在人工智能領域,多模態(Multimodality)指的是同時處理和理解多種不同類型數據的能力。就像人類能夠同時理解看到的圖像、聽到的聲音和閱讀的文字一樣,多模態AI系統也能夠處理多種感知輸入。常見的模態包括:文本圖像音頻視頻結構化數據

在這里插入圖片描述

2. 多模態大模型的定義

多模態大模型(Multimodal Large Language Models, MLLMs)是指能夠同時處理、理解和生成多種模態數據的大規模深度學習模型。與僅處理單一模態(如純文本)的傳統大語言模型(LLMs)不同,多模態大模型能夠接收圖像、音頻等多種輸入,理解它們之間的聯系,并生成跨模態的響應。

2024年最新的多模態大模型包括:GPT-4oClaude 3.5 SonnetGemini 1.5 ProLLAVA-Next國產的騰訊混元視覺大模型等。這些模型不僅能夠處理文本,還能分析圖像內容,一些高級版本甚至可以理解視頻、音頻和3D空間數據 。

3. 多模態大模型與傳統LLM的區別

特性傳統LLM多模態大模型
處理數據類型主要處理文本處理文本、圖像、音頻、視頻等多種數據
輸入形式文本提示文本提示、圖像、音頻等混合輸入
應用范圍文本生成、問答、翻譯等圖像理解、跨模態問答、視覺創作等
模型復雜度相對簡單更為復雜,需要處理跨模態對齊
計算資源較低更高,需要處理多模態特征提取
訓練數據主要為文本包括大量圖文對、視頻等多模態數據
上下文窗口較小部分模型支持超長上下文(如Gemini 1.5支持200萬tokens)。

二、多模態大模型的工作原理

1. 多模態數據的處理流程

多模態大模型處理不同類型數據的流程大致可分為以下幾個步驟:

在這里插入圖片描述

基于最新的研究進展 ,多模態大模型的數據處理流程包含以下關鍵步驟:

  1. 特征提取:各模態通過專門的編碼器(Encoder)提取特征

    • 文本通過文本編碼器(如Transformer)提取語義特征
    • 圖像通過視覺編碼器(如ViT, Vision Transformer)提取視覺特征
    • 音頻通過音頻編碼器提取聲學特征
    • 視頻通過視頻編碼器處理時序和空間特征
    • 3D/空間數據通過空間編碼器提取立體結構特征 。
  2. 跨模態對齊:將不同模態的特征投影到共享的語義空間,這可以通過以下方式實現:

    • 令牌級對齊:將視覺、音頻等特征轉換為與文本token兼容的表示
    • 特征級融合:在深層次上融合不同模態的特征表示
    • 表示統一:構建統一的多模態表示空間
  3. 多模態理解與推理:基于融合后的表示進行理解和推理,包括:

    • 多模態上下文學習(M-ICL):類似于文本模型的上下文學習能力
    • 多模態思維鏈(M-CoT):引導模型進行逐步的推理
    • 視覺輔助推理(LAVR):利用視覺信息輔助邏輯推理
  4. 輸出生成:根據理解結果生成相應的輸出(文本、圖像等)

2. 跨模態對齊技術

跨模態對齊是多模態大模型的核心技術之一,目前主流的對齊方法包括 :

  • 對比學習(Contrastive Learning):讓相關的多模態數據表示相互靠近,不相關的數據表示相互遠離,如CLIP(Contrastive Language-Image Pretraining)模型

  • 聯合嵌入(Joint Embedding):將不同模態的數據映射到同一向量空間

  • 注意力機制(Attention Mechanism):使用注意力機制實現不同模態間的信息交互

  • 預訓練-微調范式(Pretrain-Finetune Paradigm):先在大規模多模態數據上預訓練,再在下游任務上微調

  • 部分LoRA微調(PLoRA):如InternLM-XComposer2模型提出的對齊方法,將額外的LoRA參數應用于圖像token,以保持預訓練語言知識的完整性 。

3. 多模態理解與生成

多模態大模型不僅能理解多種模態的輸入,還能生成相應的輸出

在這里插入圖片描述

  • 多模態理解:模型能夠理解圖像內容并回答關于圖像的問題,識別圖像中的物體、場景和活動

  • 跨模態生成:根據一種模態生成另一種模態的內容,如根據文本描述生成圖像、根據圖像生成文本描述等

  • 多模態對話:在對話中同時處理文本和圖像,實現更自然的人機交互

  • 多模態空間推理:最新的研究如CAD-GPT實現了空間推理增強,能夠理解和生成3D空間中的內容 。

三、多模態大模型的架構

1. 常見架構類型

多模態大模型主要有以下幾種架構類型

  1. 雙塔架構(Dual-Encoder Architecture,CLIP-style

在這里插入圖片描述

  • 分別使用獨立的編碼器處理不同模態
  • 適合對比學習任務,如CLIP模型
  • 優點:模型結構簡單,訓練高效
  • 缺點:模態間交互有限
  1. 融合架構(Fusion Architecture,LLaVA-style

在這里插入圖片描述

  • 先分別編碼各模態,再進行特征融合
  • 融合方式包括:早期融合、晚期融合和混合融合
  • 代表模型:ViLBERT, LXMERT, LLaVA
  • 優點:能夠有效捕捉跨模態信息
  1. 端到端架構(End-to-End Architecture,Flamingo-style
    在這里插入圖片描述

    • 將不同模態的輸入統一處理,如將圖像轉化為"視覺詞元"
    • 代表模型:Flamingo, GPT-4V
    • 優點:能夠處理更復雜的跨模態任務
  2. 專家架構(Mixture-of-Experts Architecture,MoE-style

在這里插入圖片描述

  • 使用專門的"專家"子網絡處理不同類型的模態或任務
  • 代表模型:MM1, MoE-LLaVA
  • 優點:在不增加計算成本的情況下擴大總參數量,提高性能 。

2. 代表性多模態大模型介紹

目前主流的多模態大模型包括(2024年最新):

  • GPT-4o(OpenAI):2024年5月發布,支持實時視覺、音頻和文本交互,多模態能力全面提升 。

在這里插入圖片描述

  • Claude 3.5 Sonnet(Anthropic):2024年6月發布,在多項基準測試中表現優于GPT-4o和Gemini 1.5 Pro 。

在這里插入圖片描述

  • Gemini 1.5 Pro(Google):支持200萬token的超長上下文,能夠處理長視頻和大量文檔 。

在這里插入圖片描述

  • LLaVA-Next(開源):基于Vicuna/Mistral大語言模型的高性能開源視覺語言模型

  • CogVLM(智源):中文開源視覺語言模型,擅長視覺理解和生成

  • 騰訊混元視覺:在SuperCLUE-V中文多模態榜單中排名第一,超越一些國際大模型 。

  • 百度文心一言:支持多模態理解與生成的中文大模型

在這里插入圖片描述

3. 模型訓練方法與挑戰

多模態大模型的訓練通常分為三個階段

  1. 預訓練(Pretraining):

    • 在大規模多模態數據上進行預訓練
    • 訓練目標通常是自回歸的下一個token預測
  2. 指令微調(Instruction Tuning):

    • 使模型理解和執行用戶的指令
    • 多模態指令數據包括指令、輸入和輸出
    • 數據收集方法包括:人工標注、模型合成和數據增強
  3. 對齊微調(Alignment Tuning):

    • 減少模型生成內容中的"幻覺"現象
    • 常用方法包括:強化學習與人類反饋(RLHF)和直接偏好優化(DPO)

主要挑戰

  • 多模態幻覺問題:模型生成與輸入不一致的內容
  • 跨模態對齊難題:不同模態數據具有不同結構特性,難以精確對齊
  • 高質量多模態數據稀缺:獲取高質量配對數據困難
  • 計算資源需求巨大:訓練成本比純文本模型高出數倍

四、多模態大模型的應用場景

在這里插入圖片描述

1. 圖像理解與描述

  • 圖像問答(Visual Question Answering, VQA):回答關于圖像內容的問題
  • 圖像描述生成(Image Captioning):自動生成描述圖像內容的文本
  • 視覺推理(Visual Reasoning):分析圖像中物體之間的關系和邏輯

應用示例

# 使用多模態模型進行圖像描述生成
from transformers import AutoProcessor, AutoModelForCausalLM
import torch
from PIL import Image# 加載模型和處理器
processor = AutoProcessor.from_pretrained("microsoft/git-base")
model = AutoModelForCausalLM.from_pretrained("microsoft/git-base")# 加載圖像
image = Image.open("example_image.jpg")# 處理圖像
pixel_values = processor(images=image, return_tensors="pt").pixel_values# 生成圖像描述
generated_ids = model.generate(pixel_values=pixel_values, max_length=50)
generated_caption = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(generated_caption)

2. 視頻分析與處理

  • 視頻內容理解:理解視頻中的場景、活動和事件
  • 視頻問答:回答關于視頻內容的問題
  • 行為識別:識別視頻中人物的行為和動作
  • 視頻摘要生成:自動生成視頻內容的文字摘要

現代多模態大模型如Gemini 1.5能夠分析長達數小時的視頻,并且能夠從視頻中"撈針"找出特定的幀和內容 。

3. 多模態搜索與推薦

  • 圖像搜索:根據文本描述搜索相關圖像
  • 跨模態檢索:使用一種模態搜索另一種模態的內容
  • 多模態推薦系統:基于用戶的多模態交互行為進行個性化推薦

4. 輔助創作與內容生成

  • 文字創作輔助:基于圖像生成相關的文本內容
  • 圖像編輯與生成:根據文本描述生成或編輯圖像
  • 多媒體內容創作:協助創作者生成多種形式的內容

5. 醫療與健康

  • 醫學影像分析:輔助醫生分析X光片、CT、MRI等醫學影像
  • 健康記錄理解:整合患者的多模態數據進行全面分析
  • 醫患溝通輔助:通過分析語音、圖像等多種模態提升醫患溝通

6. 3D與空間計算

  • CAD模型生成:如CAD-GPT可以根據文本描述或圖像生成3D模型 。
  • 空間規劃設計:幫助設計師進行空間規劃和設計
  • AR/VR內容創建:為增強現實和虛擬現實應用創建內容

五、多模態大模型性能對比

2024年主流多模態大模型能力對比表

模型名稱視覺理解能力推理能力編程能力上下文窗口特殊能力
GPT-4o通用視覺理解方面表現出色在數學和計算機科學等科目表現突出,具有較強的復雜推理能力在多步驟編程任務中表現出色未公開具體數值多模態交互能力強
Claude 3.5 Sonnet在細粒度視覺分析上有優勢在GPQA和MMLU Pro等推理基準測試上超越Gemini 1.5 Pro-支持200K token上下文窗口,接受超過100萬token輸入高質量多模態響應
Claude 3.5 Haiku--在SWE-bench Verified上得分率達40.6%,超過Claude 3.5 Sonnet和GPT-4 Turbo支持200K token上下文窗口小型模型中的高性能表現
Gemini 1.5 Pro-在比較數字大小等基礎數學任務上表現更穩定-支持長達200萬token的上下文窗口,遠超其他模型處理長視頻和從視頻中找出特定幀表現突出
騰訊混元視覺在中文視覺理解方面表現突出,在SuperCLUE-V榜單上超越一些國際大模型---中文多模態理解優勢明顯
CAD-GPT----在3D建模和空間推理方面有特殊優勢

2024年,各大廠商競相發布和更新多模態大模型,不同模型在各個方面表現各有特色 :

  1. 視覺理解能力

    • GPT-4o在通用視覺理解方面表現出色
    • Claude 3.5 Sonnet在細粒度視覺分析上有優勢
    • 騰訊混元視覺在中文視覺理解方面表現突出,在SuperCLUE-V榜單上超越一些國際大模型
  2. 推理能力

    • GPT-4o在數學和計算機科學等科目表現突出,具有較強的復雜推理能力
    • Claude 3.5 Sonnet在GPQA和MMLU Pro等推理基準測試上超越Gemini 1.5 Pro
    • Gemini 1.5 Pro實驗版本(0801)在比較數字大小等基礎數學任務上表現更穩定
  3. 編程能力

    • Claude 3.5 Haiku在SWE-bench Verified上的得分率達到40.6%,超過原來的Claude 3.5 Sonnet和GPT-4 Turbo
    • GPT-4o在多步驟編程任務中表現出色
  4. 上下文窗口

    • Gemini 1.5系列支持長達200萬token的上下文窗口,遠超過其他模型
    • Claude 3.5系列支持200k token的上下文窗口,并接受超過100萬token的輸入
  5. 特殊能力

    • CAD-GPT等專業模型在3D建模和空間推理方面有特殊優勢
    • Gemini 1.5在處理長視頻和從視頻中找出特定幀方面表現突出

這種百花齊放的發展態勢正推動多模態AI技術在各個應用場景中的落地和優化,用戶可以根據具體需求選擇最適合的模型。

六、多模態大模型的發展趨勢與挑戰

1. 技術發展趨勢

  • 更廣泛的模態支持:擴展到更多模態,如觸覺、3D數據等

  • 更深層次的模態融合:實現更深入的跨模態理解和關聯

  • 多模態預訓練方法創新:開發更有效的預訓練方法和任務

  • 小樣本/零樣本學習能力增強:提高模型在新任務上的快速適應能力

  • 超長上下文理解:模型上下文長度持續增長,Gemini 1.5已支持200萬tokens,未來有望進一步擴展 。

  • 降低算力成本:如DeepSeek V3展示了高效訓練方法,大幅降低了訓練成本 。

2. 面臨的挑戰

  • 多模態幻覺問題:模型可能生成與輸入不一致的內容或產生"幻覺"

  • 模態對齊難題:不同模態的數據具有不同的結構和特性,實現精確對齊仍然具有挑戰

  • 計算資源需求:多模態模型需要更多的計算資源進行訓練和推理

  • 多模態數據獲取:高質量、大規模的多模態配對數據相對稀缺

  • 模型評估標準:缺乏統一的多模態模型評估標準和基準

3. 未來研究方向

在這里插入圖片描述

七、小結:多模態,百花齊放的時代


多模態大模型作為AI領域的前沿技術,正在迅速發展并改變我們與智能系統交互的方式。2024年已成為多模態AI真正爆發的元年,各大廠商紛紛推出或更新自己的多模態大模型,如GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro等,國內的騰訊混元視覺也在某些中文測評中表現出色。

從技術角度看,多模態大模型的核心挑戰在于如何有效地實現跨模態對齊和融合,以及如何在有限的計算資源條件下處理大規模多模態數據。未來,隨著計算能力的提升和算法的優化,多模態大模型將在更多領域展現出強大的應用潛力。

多模態能力是通往通用人工智能的重要路徑。通過同時處理文本、圖像、音頻、視頻等多種模態數據,這些模型能夠提供更接近人類認知方式的交互體驗。

對于開發者和研究者來說,掌握多模態大模型的基本原理和應用方法,將有助于開發更智能、更自然的人機交互系統,推動人工智能向著更通用、更全面的方向發展。


希望本文對您了解多模態大模型有所幫助!歡迎在評論區留言討論,也歡迎關注本系列的后續內容。

創作者:Code_流蘇(CSDN)(一個喜歡古詩詞和編程的Coder😊)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/899500.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/899500.shtml
英文地址,請注明出處:http://en.pswp.cn/news/899500.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

更新docker 容器時,提前換后端jar 包,為什么會存在異常

我們現場更新時,通常都是提前將后端jar 包替換了,然后到了更新的時間,只需要更新相關的前端文件和修改各種配置,就行了。 但是最近一次更新操作中,忽然發現,提前更新后端包,會存在依賴丟失問題…

LoRA 模型微調框架核心原理及實現步驟

LoRA(Low-Rank Adaptation)模型微調框架通過低秩矩陣分解原理,實現了對大型預訓練模型的高效微調。其核心原理是:在凍結預訓練模型權重的基礎上,向特定層注入可訓練的低秩矩陣,以極少量參數(通常…

XHR.readyState詳解

XHR.readyState詳解 引言 XHR.readyState是XMLHttpRequest對象的一個屬性,它反映了當前請求的狀態。在Ajax編程中,正確理解和使用XHR.readyState對于調試和確保異步請求的正確執行至關重要。本文將詳細介紹XHR.readyState的屬性值、含義以及在Ajax請求中的具體應用。 XHR.…

MySQL8.4 InnoDB Cluster高可用集群使用指南

簡介 高可用方案 Orchestrator: 可視化 Web 界面管理 MySQL 拓撲結構,并且兼容多種復制架構(異步、半同步、GTID),提供自動和手動的故障轉移。但是8.0.21后 MySQL 更新了主從復制相關命令,Orchestrator無…

擴散模型總結

目錄 定義與原理 發展歷程 正向擴散過程 反向擴散過程 噪聲預測網絡 離散時間模型 連續時間模型 條件擴散模型 生成質量 訓練穩定性 采樣靈活性 圖像生成 音頻合成 文本生成 計算效率 模型復雜度 定義與原理 擴散模型是一種新型的生成模型,其核心原理源于熱力…

【Java】Java核心知識點與相應面試技巧(七)——類與對象(二)

Java 類與對象篇 1.上期面試題解析: 上文鏈接:https://blog.csdn.net/weixin_73492487/article/details/146607026 創建對象時的內存分配過程? ① 加載類 ② 堆內存分配空間 ③ 默認初始化 ④ 顯式初始化 ⑤ 構造器執行 this和super能否同時…

筆記:遇見未來——6G協同創新技術研討會

https://www.cww.net.cn/article?id564308 研討會由中國移動研究院首席科學家易芝玲博士主持。來自清華大學-中國移動聯合研究院、北京郵電大學-中國移動研究院聯合創新中心、東南大學-中國移動研究院聯合創新中心、中關村泛聯移動通信技術創新應用研究院等合作載體的知名教授…

Python Cookbook-4.14 反轉字典

任務 給定一個字典,此字典將不同的鍵映射到不同的值。而你想創建一個反轉的字典,將各個值反映射到鍵。 解決方案 可以創建一個函數,此函數傳遞一個列表推導作為dict的參數以創建需要的字典。 def invert_dict(d):return dict([(v,k) for …

深度學習在測距模型中的應用

一、單目視覺測距和雙目視覺測距簡介 1、單目視覺測距 模型:深度估計(Depth Estimation) 原理:通過深度學習模型(如MonoDepth2、MiDaS)或傳統的計算機視覺方法(如單目相機結合物體大小推斷&am…

Linux Mem -- Slub內存分配器的幾點疑問及解答

目錄 1 怎樣通過object地址獲取其對應的struct slab? 2 struct page、struct folio和struct slab類型之間轉換,怎么保證內部關鍵數據的傳遞? 3 怎樣判斷一個內存空間是屬于slab、page管理? 4 struct page 結構中 __mapcou…

pip install cryptacular卡住,卡在downloading階段

筆者安裝pip install cryptacular卡在downloading階段,但不知道為何 Collecting cryptacularCreated temporary directory: /tmp/pip-unpack-qfbl8f08http://10.170.22.41:8082 "GET http://repo.huaweicloud.com/repository/pypi/packages/42/69/34d478310d6…

Lag-Llama時間序列模型簡單實現數據預測

前言: 最近在大模型預測,簡單了解了lag-llama開源項目,網上也有很多講解原理的,這里就將如何快速上手使用說一下,只懂得一點點皮毛,有錯誤的地方歡迎大佬指出。 簡單介紹: Lag-Llama 是一個開…

Plastiform復制膠泥:高精度表面復制與測量的高效工具

在工業制造和質量檢測領域,表面復制和測量是確保產品質量的關鍵環節。Plastiform復制膠泥作為一種創新材料,憑借其出色的性能和多樣化的應用,為用戶提供了可靠的解決方案。它能夠快速捕捉復雜表面的細節,確保測量結果的準確性&…

AI大模型、機器學習以及AI Agent開源社區和博客

以下梳理了適合學習 AI大模型、機器學習、AI Agent和多模態技術 的英文網站、社區、官網和博客,按類別分類整理: 一、官方網站與開源平臺 1. AI大模型 (Large Language Models) ? OpenAI ? 官網: openai.com ? 內容: GPT系列模型文檔、研究論文、AP…

python 上下文管理器with

with 上下文管理器 上下文管理器示例如下:若想不使用with關鍵字 上下文管理器 任何實現了 enter() 和 exit() 方法的對象都可稱之為上下文管理器,上下文管理器對象可以使用 with 關鍵字。 必須同時具有__enter__和__exit__,就可以使用with語句…

買賣股票的最佳時機(121)

121. 買賣股票的最佳時機 - 力扣&#xff08;LeetCode&#xff09; 解法&#xff1a; class Solution { public:int maxProfit(vector<int>& prices) {int cur_min prices[0];int max_profit 0;for (int i 1; i < prices.size(); i) {if (prices[i] > cur…

CesiumJS 本地數據瓦片加載南北兩極出現圓點問題

const imageryProvider new UrlTemplateImageryProvider({url: "/gisimg/{z}/{x}/{reverseY}.png",minimumLevel: 0,maximumLevel: 19})上面這段代碼是加載本地切片&#xff0c;但是有個致命問題就是會出現南北兩極顯示藍色圓點 解決方案&#xff1a; 加上這句話&am…

Linux編譯器gcc/g++使用完全指南:從編譯原理到動靜態鏈接

一、gcc/g基礎認知 在Linux開發環境中&#xff0c;gcc和g是我們最常用的編譯器工具&#xff1a; gcc&#xff1a;GNU C Compiler&#xff0c;專門用于編譯C語言程序g&#xff1a;GNU C Compiler&#xff0c;用于編譯C程序&#xff08;也可編譯C語言&#xff09; &#x1f4cc…

Vue學習筆記集--computed

computed 在 Vue 3 的 Composition API 中&#xff0c;computed 用于定義響應式計算屬性 它的核心特性是自動追蹤依賴、緩存計算結果&#xff08;依賴未變化時不會重新計算&#xff09; 基本用法 1. 定義只讀計算屬性 import { ref, computed } from vue;const count ref(…

飛致云榮獲“Alibaba Cloud Linux最佳AI鏡像服務商”稱號

2025年3月24日&#xff0c;阿里云云市場聯合龍蜥社區發布“2024年度Alibaba Cloud Linux最佳AI鏡像服務商”評選結果。 經過主辦方的嚴格考量&#xff0c;飛致云&#xff08;即杭州飛致云信息科技有限公司&#xff09;憑借旗下MaxKB開源知識庫問答系統、1Panel開源面板、Halo開…