大語言模型 (LLM) 與多模態大模型 (MLM)

文章目錄

概述：從“模型”到“大”模型
1、大語言模型 (Large Language Model, LLM)
- 1.1 定義與概述
- - 關鍵特征：
- 1.2 核心技術與架構
- - Transformer架構
  - - 自注意力機制 (Self-Attention)
- 1.3 訓練過程
- 1.4 工作原理
2. 多模態大模型 (Multimodal Large Model, MLM)
- 2.1 定義
- 2.2 核心技術與架構
- 2.3 能力與應用
- 2.4 圖示闡釋：MLM的工作原理 (以視覺問答為例)

概述：從“模型”到“大”模型

在深入探討之前，我們需理解兩個核心概念：

模型 (Model)：在人工智能中，模型是一個從數據中學習而來的數學函數或程序，用于處理特定任務（如圖像分類、文本翻譯）。它由參數 (Parameters) 組成，這些參數是在訓練過程中調整的數值，決定了模型的行為。
大模型 (Large Model)：通常指參數規模巨大（達到數十億甚至萬億級別）、訓練數據量海量、需要巨大計算資源訓練的模型。其“大”不僅指尺寸，更意味著一種能力的涌現 (Emergent Ability)——即當模型規模超過某個臨界點后，它會展現出小模型所不具備的能力，如強大的泛化性、推理能力和上下文學習等。

三者關系可通過以下結構圖理解：

1、大語言模型 (Large Language Model, LLM)

1.1 定義與概述

大語言模型（LLM）是一種專門針對文本數據訓練的大規模人工智能模型。其核心任務是理解人類語言并生成人類語言。

關鍵特征：

大規模參數：參數量通常達到數十億甚至萬億級別
海量訓練數據：使用互聯網規模的文本數據進行訓練
自監督學習：通過預測下一個詞等任務進行預訓練
能力涌現：當規模超過臨界點時，展現出小模型不具備的新能力

1.2 核心技術與架構

Transformer架構

LLM幾乎都基于Google在2017年提出的Transformer架構，其核心組件包括：

自注意力機制 (Self-Attention)

# 簡化的自注意力計算概念
def self_attention(query, key, value):scores = query @ key.T  # 計算注意力分數weights = softmax(scores)  # 標準化為注意力權重return weights @ value  # 加權求和

主要組件：

編碼器-解碼器結構：原始Transformer的完整架構
僅解碼器結構：GPT系列采用的簡化架構
位置編碼：為模型提供詞匯位置信息
層歸一化：穩定訓練過程
前饋神經網絡：處理注意力輸出

1.3 訓練過程

預訓練階段

微調階段

指令微調：讓模型遵循人類指令
人類反饋強化學習：基于人類偏好優化模型輸出
多任務學習：在多個NLP任務上同時訓練

1.4 工作原理

LLM基于概率生成文本的過程如下：

此過程會不斷循環（自回歸），直到生成一個完整的句子或段落。模型的“知識”就蘊含在那些決定概率分布的萬億級參數中。

2. 多模態大模型 (Multimodal Large Model, MLM)

2.1 定義

多模態大模型是能夠同時理解、處理和關聯多種類型信息（模態）的大模型。這些模態包括文本、圖像、音頻、視頻等。其目標是實現不同模態信息間的統一理解和生成，讓AI更接近人類感知世界的方式。

2.2 核心技術與架構

實現多模態的關鍵在于將不同模態的信息映射到同一個語義空間。通常包含以下幾個組件：

1.編碼器 (Encoders)：

圖像編碼器：如ViT (Vision Transformer)，將圖像切塊并編碼為一系列向量。
文本編碼器：通常就是一個現成的LLM的編碼部分，將文本編碼為向量。
音頻/視頻編碼器：將音頻頻譜圖或視頻幀編碼為向量序列。

2.融合模塊 (Fusion Module)：核心挑戰。接收不同編碼器產生的向量序列，并通過跨模態注意力機制等技術，讓它們進行“交流”，實現對齊和融合。Transformer通常是實現融合的優選架構。

3.解碼器 (Decoder)：根據融合后的信息，生成目標輸出（如文本回答、圖像等）。通常使用LLM作為文本解碼器。

2.3 能力與應用

能力：圖像描述、視覺問答、文本生成圖像/視頻、音頻生成、跨模態檢索等。

代表性模型：GPT-4V (視覺問答)、Gemini 1.5 (原生多模態)、CLIP (圖文對比學習)、Stable Diffusion (文生圖，雖不算傳統大模型但原理相關) 等。

2.4 圖示闡釋：MLM的工作原理 (以視覺問答為例)

下圖以“這張圖片里有什么動物？”為例，展示了多模態大模型的工作流程：

關鍵在于融合模塊，它學會了將圖像的視覺特征（“貓的紋理”、“狗的形態”）與文本的語義特征（“動物”）在同一個高維空間里關聯起來，從而使LLM“大腦”能夠基于視覺信息進行推理和回答。

特征	大語言模型 (LLM)	多模態大模型 (MLM)
核心定義	專注于文本的單模態大模型	能處理多種模態信息的大模型
處理模態	文本 ONLY	文本、圖像、音頻、視頻等
技術基礎	Transformer架構、自監督學習	LLM為基礎，加上多模態編碼器與融合器
關鍵能力	文本生成、對話、摘要	跨模態理解與生成（如圖文互答）
代表模型	GPT-4, LLaMA 2, PaLM 2	GPT-4V, Gemini, CLIP

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/97616.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/97616.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/97616.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！