文章目錄
- 概述:從“模型”到“大”模型
- 1、大語言模型 (Large Language Model, LLM)
- 1.1 定義與概述
- 關鍵特征:
- 1.2 核心技術與架構
- Transformer架構
- 自注意力機制 (Self-Attention)
- 1.3 訓練過程
- 1.4 工作原理
- 2. 多模態大模型 (Multimodal Large Model, MLM)
- 2.1 定義
- 2.2 核心技術與架構
- 2.3 能力與應用
- 2.4 圖示闡釋:MLM的工作原理 (以視覺問答為例)
概述:從“模型”到“大”模型
在深入探討之前,我們需理解兩個核心概念:
- 模型 (Model):在人工智能中,模型是一個從數據中學習而來的數學函數或程序,用于處理特定任務(如圖像分類、文本翻譯)。它由參數 (Parameters) 組成,這些參數是在訓練過程中調整的數值,決定了模型的行為。
- 大模型 (Large Model):通常指參數規模巨大(達到數十億甚至萬億級別)、訓練數據量海量、需要巨大計算資源訓練的模型。其“大”不僅指尺寸,更意味著一種能力的涌現 (Emergent Ability)——即當模型規模超過某個臨界點后,它會展現出小模型所不具備的能力,如強大的泛化性、推理能力和上下文學習等。
三者關系可通過以下結構圖理解:
1、大語言模型 (Large Language Model, LLM)
1.1 定義與概述
大語言模型(LLM)是一種專門針對文本數據訓練的大規模人工智能模型。其核心任務是理解人類語言并生成人類語言。
關鍵特征:
- 大規模參數:參數量通常達到數十億甚至萬億級別
- 海量訓練數據:使用互聯網規模的文本數據進行訓練
- 自監督學習:通過預測下一個詞等任務進行預訓練
- 能力涌現:當規模超過臨界點時,展現出小模型不具備的新能力
1.2 核心技術與架構
Transformer架構
LLM幾乎都基于Google在2017年提出的Transformer架構,其核心組件包括:
自注意力機制 (Self-Attention)
# 簡化的自注意力計算概念
def self_attention(query, key, value):scores = query @ key.T # 計算注意力分數weights = softmax(scores) # 標準化為注意力權重return weights @ value # 加權求和
主要組件:
- 編碼器-解碼器結構:原始Transformer的完整架構
- 僅解碼器結構:GPT系列采用的簡化架構
- 位置編碼:為模型提供詞匯位置信息
- 層歸一化:穩定訓練過程
- 前饋神經網絡:處理注意力輸出
1.3 訓練過程
預訓練階段
微調階段
- 指令微調:讓模型遵循人類指令
- 人類反饋強化學習:基于人類偏好優化模型輸出
- 多任務學習:在多個NLP任務上同時訓練
1.4 工作原理
LLM基于概率生成文本的過程如下:
此過程會不斷循環(自回歸),直到生成一個完整的句子或段落。模型的“知識”就蘊含在那些決定概率分布的萬億級參數中。
2. 多模態大模型 (Multimodal Large Model, MLM)
2.1 定義
多模態大模型是能夠同時理解、處理和關聯多種類型信息(模態) 的大模型。這些模態包括文本、圖像、音頻、視頻等。其目標是實現不同模態信息間的統一理解和生成,讓AI更接近人類感知世界的方式。
2.2 核心技術與架構
實現多模態的關鍵在于將不同模態的信息映射到同一個語義空間。通常包含以下幾個組件:
1.編碼器 (Encoders):
- 圖像編碼器:如ViT (Vision Transformer),將圖像切塊并編碼為一系列向量。
- 文本編碼器:通常就是一個現成的LLM的編碼部分,將文本編碼為向量。
- 音頻/視頻編碼器:將音頻頻譜圖或視頻幀編碼為向量序列。
2.融合模塊 (Fusion Module):核心挑戰。接收不同編碼器產生的向量序列,并通過跨模態注意力機制等技術,讓它們進行“交流”,實現對齊和融合。Transformer通常是實現融合的優選架構。
3.解碼器 (Decoder):根據融合后的信息,生成目標輸出(如文本回答、圖像等)。通常使用LLM作為文本解碼器。
2.3 能力與應用
能力:圖像描述、視覺問答、文本生成圖像/視頻、音頻生成、跨模態檢索等。
代表性模型:GPT-4V (視覺問答)、Gemini 1.5 (原生多模態)、CLIP (圖文對比學習)、Stable Diffusion (文生圖,雖不算傳統大模型但原理相關) 等。
2.4 圖示闡釋:MLM的工作原理 (以視覺問答為例)
下圖以“這張圖片里有什么動物?”為例,展示了多模態大模型的工作流程:
關鍵在于融合模塊,它學會了將圖像的視覺特征(“貓的紋理”、“狗的形態”)與文本的語義特征(“動物”)在同一個高維空間里關聯起來,從而使LLM“大腦”能夠基于視覺信息進行推理和回答。
特征 | 大語言模型 (LLM) | 多模態大模型 (MLM) |
---|---|---|
核心定義 | 專注于文本的單模態大模型 | 能處理多種模態信息的大模型 |
處理模態 | 文本 ONLY | 文本、圖像、音頻、視頻等 |
技術基礎 | Transformer架構、自監督學習 | LLM為基礎,加上多模態編碼器與融合器 |
關鍵能力 | 文本生成、對話、摘要 | 跨模態理解與生成(如圖文互答) |
代表模型 | GPT-4, LLaMA 2, PaLM 2 | GPT-4V, Gemini, CLIP |