【多模態大模型】訓練與推理直觀解讀

1.直觀案例解讀-圖文問答

假設我們的輸入是一張包含小貓的圖片，以及一個文本提問：“其中是否有小貓？”。下面我將以最詳盡的方式，描述數據在nanoVLM模型中從輸入到輸出的完整流動過程，并解釋每一步中數據的形狀和含義。

為方便理解，我們設定一些具體的維度（這些維度與nanoVLM中的常見配置類似）：

圖像輸入尺寸: 224x224 像素
ViT Patch 大小: 16x16
ViT 隱藏層維度: 768
語言模型隱藏層維度: 2560
詞匯表大小: 51200

1.1 第一步：圖像編碼 (Vision Transformer)

這是模型的“眼睛”看到并理解圖像的過程。

輸入數據: 一張圖片。
- 形狀: 在送入模型前，圖片被預處理成一個[1, 3, 224, 224]的張量（Tensor）。
- 含義: [批量大小, 顏色通道, 高度, 寬度]。這是一個代表了原始像素值的四維數組。
分塊與嵌入 (Patch Embedding): 圖片進入ViT的ViTPatchEmbeddings層。
- 過程: 一個16x16的卷積核以16像素的步長滑過整張圖片，將圖片分割成 (224/16) x (224/16) = 14 x 14 = 196個小塊（Patches）。同時，這個卷積操作將每個Patch從像素值（16x16x3）直接線性投射成一個768維的向量。模型還會額外添加一個特殊的 [CLS] 向量用于聚合全局信息。
- 輸出數據: vision_embeds
- 形狀: [1, 197, 768]
- 含義: [批量大小, Patch數量+1, ViT隱藏維度]。現在，原始的圖片被轉換成了一個由197個向量組成的序列。每個向量都是對一小塊局部圖像區域的濃縮數學描述。

1.2 第二步：模態投影 (Modality Projection)

這是連接“視覺世界”和“語言世界”的橋梁。

輸入數據: vision_embeds
- 形狀: [1, 197, 768]
投影與重塑: 數據進入ModalityProjector層。
- 過程: 首先，一個線性層將每個768維的視覺向量投射到與語言模型匹配的2560維。然后，通過PixelUnshuffle等操作，將這196個Patch向量（[CLS]向量通常被暫時分離）展平成一個更長的序列，比如256個向量。這樣做是為了讓圖像信息在序列長度上更接近于一段文字，方便語言模型處理。
- 輸出數據: projected_vision_embeds
- 形狀: [1, 256, 2560]
- 含義: [批量大小, 圖像Token數量, 語言模型隱藏維度]。這些可以被看作是**“圖像詞元”**。視覺信息現在被編碼成了語言模型能夠直接理解的格式，每個向量的維度都和語言模型中普通詞匯的向量維度完全一樣。

1.3 第三步：文本編碼與多模態拼接

這是將我們的問題和處理好的圖像信息融合在一起的過程。

文本分詞 (Tokenization):
- 輸入: 文本字符串 “其中是否有小貓？”
- 過程: 分詞器（Tokenizer）將文本切分成Token序列，例如 ['其中', '是', '否', '有', '小', '貓', '？']。為了進行對話，模型還會加上特殊的控制Token，例如 ['<|user|>', '其中', '是', '否', '有', '小', '貓', '？', '<|assistant|>']。假設這變成了10個Token。
- 輸出: input_ids，一個由Token ID組成的序列。
- 形狀: [1, 10]
文本嵌入 (Text Embedding): input_ids進入語言模型的詞嵌入層。
- 過程: 每個Token ID都會被映射成一個2560維的向量。
- 輸出: text_embeds
- 形狀: [1, 10, 2560]
拼接 (Concatenation):
- 過程: 模型將處理好的圖像詞元 (projected_vision_embeds) 和文本詞元 (text_embeds) 拼接成一個統一的序列。
- 輸出數據: final_inputs_embeds
- 形狀: [1, 266, 2560] (256個圖像Token + 10個文本Token)
- 含義: 這是送入語言模型主體的最終輸入。它是一個完整的、融合了多模態信息的上下文序列，既包含了“看”到的內容，也包含了“聽”到的問題。

1.4 第四步：自回歸文本生成 (Language Model)

這是模型進行“思考”并“逐字作答”的核心循環過程。

初次前向傳播 (生成第一個字):
- 輸入: final_inputs_embeds (形狀: [1, 266, 2560])
- 過程: 整個序列通過語言模型的多個Transformer層進行計算。在最后一層，模型會輸出一個logits張量。
- 數據 (Logits):
  - 形狀: [1, 266, 51200]
  - 含義: [批量, 序列長度, 詞匯表大小]。這個張量代表了在序列中每個位置的下一個Token可能是什么的概率分布。
- 選擇下一個字: 我們只關心序列最后一個位置（第266個）的預測結果。模型取出這個位置的logits [1, 51200]，通過采樣（例如argmax或溫度采樣）選擇概率最高的一個Token。假設選中的是**“是”**。
循環生成 (生成后續的字):
- 更新輸入: 將剛剛生成的Token“是”也進行嵌入，得到一個[1, 1, 2560]的向量。然后，將這個新向量拼接到final_inputs_embeds的末尾。
- 新的輸入: new_inputs_embeds
  - 形狀: [1, 267, 2560]
  - 含義: 上下文現在變成了“圖像+問題+‘是’”。
- 再次前向傳播: 將這個新的、更長的序列再次送入語言模型，重復上述過程：獲取最后一個位置（第267個）的logits [1, 51200]，從中采樣得到下一個Token，比如**“的”**。
- 持續循環: 這個“預測->拼接->再預測”的過程不斷重復。模型會接著生成 “，”、“圖”、“片”、“中”、“有”、“一”、“只”、“小”、“貓”、“。” 等Token。每生成一個新字，它都會成為下一次預測的上下文的一部分。
生成結束:
- 過程: 當模型生成一個特殊的終止符（[EOS] token）或者達到預設的最大長度時，循環停止。
- 最終輸出: 將所有生成的Token ID (['是', '的', '，', ..., '。'])通過分詞器解碼，變回人類可讀的字符串：“是的，圖片中有一只小貓。”

2.直觀案例解讀-視頻問答

結合業界對視頻處理的現有知識，來詳細解讀一個典型的**視頻問答（VideoQA）**模型是如何工作的。

視頻問答的核心挑戰在于：如何將視頻中隨時間變化的信息（動態信息）有效地表示出來，并與問題相結合。

下面，我們將遵循與之前類似的分析框架，詳細描述當用戶輸入一段視頻和問題“視頻里的人在做什么？”時，數據在模型中的流動、形狀和含義。

2.1 第一步：視頻采樣 (Frame Sampling)

模型無法一次性處理視頻的每一幀，這在計算上是不可行的。因此，第一步是從視頻中提取出有代表性的關鍵幀。

輸入數據: 一段視頻文件（例如running.mp4）。
- 形狀: 一個視頻文件流。
- 含義: 包含了連續圖像幀和音頻的原始多媒體數據。
采樣過程:
- 過程: 通過一個采樣策略，從視頻中每隔一段時間抽取一幀。例如，一個10秒的視頻，每秒抽一幀，就可以得到10幀。或者，也可以采用更復雜的采樣方法，只在鏡頭變化或物體運動顯著時才采樣。假設我們均勻采樣了 N 幀（例如 N=16）。
- 輸出數據: 一個由N幀圖像組成的批次。
- 形狀: [N, 3, H, W]，例如 [16, 3, 224, 224]。
- 含義: [幀數, 顏色通道, 高度, 寬度]。我們將連續的視頻信號轉換成了一個離散的、有序的圖像序列，這是模型可以開始處理的格式。

2.2 第二步：空間特征提取 (Spatial Feature Extraction)

這一步與nanoVLM中的圖像處理非常相似，但我們需要對采樣出來的每一幀都進行操作。

輸入數據: 上一步得到的N幀圖像。
- 形狀: [16, 3, 224, 224]
逐幀編碼:
- 過程: 將這16幀圖像逐一送入一個預訓練的圖像編碼器（例如nanoVLM中的ViT）。ViT會對每一幀都執行“分塊+嵌入”操作。
- 輸出數據: frame_features，一個包含了所有幀特征的序列。
- 形狀: [16, 197, 768]
- 含義: [幀數, 每幀的Patch數+1, ViT隱藏維度]。這個三維張量非常關鍵，它既包含了每一幀圖像的空間信息（197x768這部分），也通過第一個維度（16）保留了時間順序。

2.3 第三步：時序特征聚合 (Temporal Feature Aggregation)

這是視頻問答區別于圖像問答的核心步驟。我們需要將分散在16幀中的信息，融合成一個能代表整個視頻動態內容的向量。

輸入數據: frame_features
- 形狀: [16, 197, 768]
聚合過程: 業界有多種方法來聚合時序信息，這里介紹一種主流的思路：
- 過程: 使用一個時序模型（例如Transformer Encoder或GRU）來學習這些幀之間的時間依賴關系。你可以將這16個[197, 768]的特征塊看作是16個“時間步”，然后讓模型學習這些時間步之間的關聯。例如，一個Transformer編碼器可以計算第8幀和第3幀之間的“注意力”，從而理解動作的連續性。
- 輸出數據: aggregated_video_features
- 形狀: 經過時序模型處理后，通常會將輸出的序列進行池化（Pooling）或只取特定[CLS] Token的輸出來得到一個固定大小的張量。例如，[1, 256, 2560]。
- 含義: [批量大小, 視頻Token數, 語言模型隱藏維度]。這個向量/向量序列是整個視頻時空信息的精華。它不再是零散的幀，而是對視頻“發生了什么”的整體性、動態性描述，并且已經被投影到了語言模型可以理解的維度空間。

2.4 第四步：文本編碼與多模態拼接

這一步與nanoVLM中的流程完全相同。

文本處理: 將問題 “視頻里的人在做什么？” 進行分詞和嵌入。
- 輸出形狀: [1, 12, 2560] (假設問題被分成12個Token)。
拼接: 將處理好的視頻特征 (aggregated_video_features) 和文本特征拼接成一個統一的序列。
- 輸出數據: final_inputs_embeds
- 形狀: [1, 268, 2560] (256個視頻Token + 12個文本Token)。
- 含義: 這是送入語言模型最終決策者的完整上下文，包含了視頻的動態內容和用戶的具體提問。

第五步：自回歸文本生成

這一步也和nanoVLM的流程完全相同。

輸入: final_inputs_embeds
過程: 語言模型接收這個融合了時空信息的序列，并開始自回歸地逐字生成答案。
- T=1: 模型根據整個視頻和問題，預測出第一個最可能的詞，例如“他們”。
- T=2: 模型將“他們”作為新的上下文，結合原始視頻和問題，預測出第二個詞，例如“正在”。
- T=3…: 不斷重復，直到生成一個完整的句子，例如“他們正在公園里跑步。”，并最終生成一個結束符。

通過以上步驟，模型就成功地將一個動態的視頻內容轉化為了靜態的、結構化的答案。

3.訓練過程

在典型的圖像多模態大模型（如nanoVLM）的訓練中，采用分階段的訓練策略是至關重要的。這主要是為了高效地利用強大的預訓練模型，并穩定地教會它們協同工作，同時控制巨大的計算開銷。

一般的操作邏輯可以分為兩個核心階段，有時會加上一個可選的第三階段。

3.1 第一階段：特征對齊訓練 (Alignment Training)

這個階段的目標是搭建兩種模態之間的“橋梁”，讓語言模型能夠“看懂”視覺編碼器輸出的特征。

操作邏輯:
1. 凍結 (Freeze) 視覺編碼器 (Vision Encoder)：像ViT這樣的視覺模型已經在海量圖像數據上進行了預訓練，具備了強大的通用視覺特征提取能力。我們暫時不希望破壞這種能力，因此將其所有參數鎖定，不進行任何更新。它只作為一成不變的特征提取器。
2. 凍結 (Freeze) 語言模型 (Language Model)：LLM（如Phi-2, Llama）同樣是預訓練好的，擁有強大的語言理解和生成能力。如果在一開始就讓不成熟的梯度信號傳入，可能會嚴重破壞其內部的語言結構，造成“災難性遺忘”。因此，我們也完全凍結它。
3. 只訓練 (Train Only) 模態投影器 (Modality Projector)：這個投影器是新加入的、唯一從零開始訓練的組件。它的參數在訓練開始時是隨機初始化的。
為什么這么做？ (Why?):
- 效率最高：訓練一個幾百萬參數的投影器，遠比訓練兩個數十億參數的主干模型要快得多，對顯存（VRAM）的需求也小得多。
- 穩定性好：這是最關鍵的原因。此階段的唯一任務是，教會投影器如何將視覺編碼器輸出的“視覺語言”（一堆向量）翻譯成語言模型能理解的“文本化語言”（格式和維度都與詞向量一致的向量）。由于兩個主干模型被凍結，來自投影器的、最初不穩定的梯度信號不會“污染”它們。
- 目標明確：先把“翻譯官”訓練好，讓它能準確地傳話。
數據流動示意:
圖像 -> [凍結的ViT] -> 視覺特征 -> [訓練中的Projector] -> 對齊后的視覺特征 -> (與文本拼接) -> [凍z結的LLM] -> (計算損失，但只更新Projector)

3.2 第二階段：指令微調 (Instruction Fine-tuning)

當投影器能夠提供基本靠譜的“翻譯”后，我們就可以開始教整個模型如何根據用戶的指令，結合圖像內容進行思考和回答了。

操作邏輯:
1. 繼續凍結 (Keep Frozen) 視覺編碼器：通常情況下，視覺編碼器的通用特征提取能力已經足夠好，繼續凍結可以節省計算資源，并防止其在指令數據上過擬合。
2. 解凍 (Unfreeze) 語言模型：這是此階段的核心。現在我們要讓語言模型學習如何理解和運用投影器傳來的視覺信息，并將其融入到它的語言邏輯中。
3. 繼續訓練 (Continue Training) 模態投影器：投影器也可以在這一步與語言模型一起進行微調，以更好地協同工作。
一種更高效的變體：LoRA微調
在nanoVLM這個項目中，采用了一種更高效的方式來“解凍”語言模型，即LoRA (Low-Rank Adaptation)。它并不解凍整個語言模型，而是在模型的關鍵部分（如Attention層）旁邊掛上一些小型的、可訓練的“適配器”矩陣。
- 操作: 保持語言模型主干依然凍結，只訓練這些新增的、輕量級的LoRA層。
- 優勢: 效果與完全解凍（全量微調）相近，但需要更新的參數量驟減（只有原來的1%甚至更少），極大地降低了顯存消耗，使得在消費級顯卡（如4090）上微調數十億參數的LLM成為可能。
為什么這么做？ (Why?):
- 學習推理：在第一階段，LLM只是被動地“接收”了視覺信息。在這一階段，它要主動學習如何將這些信息用于遵循指令、進行對話、回答問題等復雜的認知任務。
- 深度融合：讓LLM的內部權重進行調整，以便更深入地將視覺概念（例如“一只貓的紋理”）與語言概念（單詞“貓”）聯系起來。
數據流動示意 (LoRA):
圖像 -> [凍結的ViT] -> 視覺特征 -> [訓練中的Projector] -> 對齊后的視覺特征 -> (與文本拼接) -> [凍結的LLM主干 + 訓練中的LoRA層] -> (計算損失，更新Projector和LoRA層)

3.3 第三階段（可選）：端到端微調 (End-to-End Fine-tuning)

在某些情況下，為了追求極致的性能，研究人員可能會進行一個可選的最終階段。

操作邏輯:
1. 解凍 (Unfreeze) 所有組件：將視覺編碼器、投影器和語言模型（或其LoRA層）全部設為可訓練。
2. 使用非常小的學習率：對整個模型進行非常謹慎的、端到端的微調。
為什么這么做？ (Why?):
- 全局最優化：允許視覺編碼器也進行微調，可能會讓它學會提取一些“更有利于”當前語言模型進行理解”的特定視覺特征，實現最深度的協同。
- 風險與成本高: 這是計算成本最高的階段，且學習率需要精心調整，否則模型性能很容易崩潰。因此，這個階段并不常用。

這個**“凍結 -> 訓練部分 -> 再解凍 -> 微調”**的分階段邏輯，是平衡性能、效率和穩定性的關鍵，也是當前多模態大模型訓練的標準范式。

好的，我們從頭開始，以最完整、連貫的順序，詳細描述當您向 Qwen2.5-VL 輸入一段視頻和一句問題時，數據在模型內部是如何流動的。

場景設定:

輸入視頻: 一段10秒的視頻，內容是一個男人在公園里跑步。
輸入問題: “視頻中的男人在做什么？”

第一步：視頻預處理 (Video Pre-processing)

模型的第一項任務是把連續、動態的視頻信號，轉換成離散、有序的、計算機可以處理的單元。

動態幀率采樣 (Dynamic FPS Sampling):
- [cite_start]過程: 模型不會分析視頻的每一幀，這在計算上是巨大的浪費。它會智能地進行采樣。例如，對于跑步這種動作連續的視頻，它可能決定每秒采樣2幀。如果視頻后半段該男子坐下休息，采樣率可能會自動降低。假設最終從10秒的視頻中均勻采樣了 16幀 圖像 [cite: 32, 147]。
- 輸出數據: 16張獨立的、代表了視頻關鍵瞬間的靜態圖像。
- 形狀: [16, 3, 224, 224] (假設圖像都被處理成224x224分辨率)。
- 含義: [總幀數, 顏色通道, 高度, 寬度]。視頻流成功轉換成了一個有序的圖像序列。

第二步：時空特征提取 (Spatio-Temporal Feature Extraction)

這一步由經過特殊改造的 Vision Transformer (ViT) 視覺編碼器 完成，其目標是同時捕捉圖像的空間細節和幀與幀之間的時間變化。

3D圖像塊劃分 (3D Patch Partitioning):
- [cite_start]過程: 這是Qwen2.5-VL的一個關鍵效率優化。它并非逐幀處理，而是將連續的兩幀分為一組 [cite: 74]。這16幀因此被分成了8個“幀對”。然后，一個2x14x14的3D卷積核會同時在這8個幀對上進行滑動。每一次滑動，都相當于從一個2x14x14大小的“時空立方體”中提取特征。
- 輸出: 每一幀被劃分為 (224/14) * (224/14) = 196 個圖像塊（patch）。因為是兩幀一組，所以總共提取了 8 * 196 = 1568 個時空特征向量。
- 輸出數據: raw_video_features。
- 形狀: [1568, 1280] (假設ViT的隱藏層維度是1280)。
- 含義: [總時空塊數量, ViT隱藏維度]。這是一個初步的、海量的、融合了局部空間信息和短時程時間變化（2幀內）的特征集合。

第三步：視覺特征壓縮與對齊 (Vision Feature Compression & Alignment)

第二步產生的特征向量序列太長（1568個），維度也可能與語言模型不匹配。這一步通過一個 MLP-based Vision-Language Merger（基于MLP的視覺-語言合并器）來解決這個問題。

分組與拼接 (Grouping & Concatenation):
- [cite_start]過程: 模型將空間上相鄰的4個圖塊特征分為一組 [cite: 59][cite_start]。因此，1568個特征向量被分成了 1568 / 4 = 392 組。在每一組內，4個1280維的向量被**拼接（Concatenate）**起來 [cite: 60]。
- 中間數據形狀: [392, 4 * 1280]，即 [392, 5120]。
MLP投影 (MLP Projection):
- [cite_start]過程: 將這392個5120維的特征向量，送入一個兩層的MLP（多層感知機）。這個MLP會將特征壓縮并投影到一個與語言模型詞嵌入維度相匹配的維度 [cite: 60]，例如8192維（對于72B模型）。
- 輸出數據: compressed_video_features。
- 形狀: [392, 8192]。
- 含義: [視頻詞元數量, 語言模型隱藏維度]。現在，我們得到了一個長度大大縮短、維度完全對齊的**“視頻詞元”**序列。它既保留了視頻的核心信息，又顯著降低了后續計算的負擔，為與文本的拼接做好了準備。

第四步：文本處理與多模態融合 (Text Processing & Multimodal Fusion)

現在，模型將用戶的文本問題與處理好的視頻信息融合在一起。

文本編碼:
- 過程: 問題 “視頻中的男人在做什么？” 被分詞器（Tokenizer）轉換成一個Token ID序列，然后通過詞嵌入層，映射成向量。
- 輸出數據: text_embeds。
- 形狀: [15, 8192] (假設問題被分成15個Token)。
最終拼接:
- 過程: 將壓縮好的compressed_video_features（形狀 [392, 8192]）和text_embeds（形狀 [15, 8192]）按順序拼接在一起。
- 輸出數據: final_inputs_embeds。
- 形狀: [1, 407, 8192] (392個視頻詞元 + 15個文本詞元)。
- 含義: 這才是最終送入語言模型解碼器的、數據完全銜接的輸入序列。它是一個完整的、融合了多模態信息的上下文，既包含了“看”到的內容，也包含了“聽”到的問題，且所有向量的維度都已統一。

第五步：帶有絕對時間信息的自回歸生成

這是模型進行“思考”并“逐字作答”的最后一步，也是Qwen2.5-VL的創新核心所在。

應用絕對時間對齊的MROPE:
- [cite_start]過程: 在將final_inputs_embeds序列送入語言模型的Transformer層之前，模型會為其計算多模態旋轉位置嵌入（MROPE） [cite: 93][cite_start]。這里的關鍵創新是：序列中屬于視頻的那392個詞元，其位置編碼中的時間維度ID是與視頻的真實采樣時間戳對齊的 [cite: 90, 100]。例如，來自第0秒的視頻詞元，其時間ID就是0.0；來自第0.5秒的，ID就是0.5。
- 含義: 通過這種方式，絕對時間信息被無縫地注入到了每一個視頻詞元的位置編碼中。這使得語言模型在后續處理中，能夠通過計算這些時間ID之間的間隔來感知事件的快慢、持續時間和發生時刻。
語言模型解碼與循環生成:
- 過程: 攜帶了絕對時間位置信息的序列進入 Qwen2.5 LM Decoder 進行計算。
- 生成第一個字: 模型通過多層注意力機制，綜合考慮整個視頻內容和問題，在序列的最后一個位置（第407個）輸出一個對整個詞匯表的概率分布，并從中采樣出第一個生成的字，例如“視頻”。
- 循環與結束: 將“視頻”這個新生成的字再次嵌入并附加到輸入序列的末尾，形成一個更長的、包含新上下文的序列。模型再次對這個新序列進行處理，預測出下一個字“中”。這個**“預測->拼接->再預測”**的過程不斷循環，直到生成完整的答案“視頻中的男人正在跑步。”，并最終生成一個特殊的結束符（End-of-Sentence Token），標志著回答完畢。