Phi-4-multimodal：圖、文、音頻統一的多模態大模型架構、訓練方法、數據細節

Phi-4-Multimodal 是一種參數高效的多模態模型，通過 LoRA 適配器和模式特定路由器實現文本、視覺和語音/音頻的無縫集成。訓練過程包括多階段優化，確保在不同模式和任務上的性能，數據來源多樣，覆蓋高質量網絡和合成數據。它的設計體現了小型語言模型在多模態任務上的潛力

模型架構

Phi-4-Multimodal 的基礎是 Phi-4-Mini 語言模型，這是一個 3.8 億參數的模型，設計為高效處理文本任務。架構包括：

Transformer層和維度： 32 層Transformer，隱藏狀態大小為 3072。
效率技術： 使用分組查詢注意力（GQA），通過 24 個查詢頭和 8 個鍵/值頭減少 KV 緩存大小至標準模型的三分之一，提升計算效率。
分詞器： 使用 o200k 基礎 tiktoken，分詞表大小為 200,064，支持多語言和多模態輸入。

為了擴展到多模態功能，模型通過 LoRA 適配器和模式特定路由器集成視覺和音頻模式：

視覺模式：
- 圖像編碼器： 使用 SigLIP-400M，結合 LLM2CLIP 在圖像-文本對上微調，分辨率為 448x448。SigLIP-400M 是一個視覺-語言模型，專門為圖像理解優化。
- 項目器： 一個 2 層 MLP，將視覺特征映射到文本嵌入維度 3072，確保視覺輸入與語言模型的嵌入空間兼容。
- LoRA 適配器（LoRA_V）： 添加到語言解碼器的所有線性層，參數約 3.7 億，用于監督微調階段。LoRA 是一種參數高效的微調技術，通過低秩更新適配模型。
- 動態多裁剪策略： 在訓練中處理不同圖像大小，裁剪數量計算為 ?H/C? × ?W/C?，預訓練最多 16 個裁剪，監督微調最多 36 個，必要時調整大小。
語音/音頻模式：
- 輸入特征： 80 維 log-Mel 濾波器組特征，幀率為 10ms，標記率為 80ms（每分鐘 750 個標記），適合高效音頻處理。
- 音頻編碼器： 包括 3 個卷積層和 24 個符合塊，注意維度為 1024，前饋維度為 1536，16 個注意頭，子采樣率為 8。符合塊結合了自注意力機制和卷積，適合捕獲音頻的時序和頻率特征。
- 項目器： 一個 2 層 MLP，將 1024 維語音特征映射到 3072 維文本嵌入，確保音頻輸入與語言模型的嵌入空間兼容。
- LoRA 適配器（LoRA_A）： 應用于所有注意和 MLP 層，秩為 320，參數約 4.6 億，通過低秩更新適配音頻處理。
多模態集成： 模型采用 LoRA 適配器的混合設計，通過模式特定路由器選擇適當的適配器，處理文本、視覺和語音/音頻輸入，無干擾地支持多模態推理。這是一種參數高效的方法，保持基礎語言模型的完整性，同時添加新功能。

總參數量為 5.6 億，相比 Phi-4-Mini 的 3.8 億，增加了約 1.8 億參數，主要用于視覺和音頻編碼器及 LoRA 適配器。上下文長度為 128K 標記，受益于 GQA 和其他效率技術，適合處理長序列輸入。

訓練方法

Phi-4-Multimodal 的訓練過程分多個階段，針對不同模式和任務優化，確保模型在多模態任務上的性能。訓練步驟如下：

基礎語言模型預訓練：
- 在 5 萬億個高質量標記上預訓練，包括網絡數據和合成數據。數據來源經過精心挑選，確保覆蓋多種語言和任務，如功能調用、總結和指令跟隨。
視覺訓練：
- 階段 1：項目器對齊 - 使用標題數據訓練項目器，確保視覺特征與語言模型嵌入空間的對齊。
- 階段 2：聯合視覺訓練 - 在完整數據集上訓練項目器和編碼器，針對 OCR 和密集理解任務，數據集包括圖像-文本對、OCR PDF 和現實圖像。
- 階段 3：生成視覺-語言訓練 - 在解碼器上訓練 LoRA，使用單幀 SFT 數據，開發生成能力，數據集包括公共和內部多模態數據集，如通用圖像、圖表/表格/圖表、PowerPoint、OCR、多圖像和視頻。
- 階段 4：多幀訓練 - 視覺編碼器凍結，在多幀 SFT 數據上訓練，上下文長度為 64k，適合處理多幀場景。
語音/音頻訓練：
- 預訓練： 使用 200 萬小時匿名語音-文本對，覆蓋 8 種語言（中文、英語、法語、德語、意大利語、日語、葡萄牙語、西班牙語），訓練音頻編碼器和項目器，解碼器凍結，初始化為自動編碼解碼（AED）ASR 模型。
- 后訓練： 使用 1 億個精選 SFT 樣本更新項目器和 LoRA_A，50,000 步。最大音頻長度為總結的 30 分鐘（22,500 個標記），其他任務的 30 秒（375 個標記），包括 ASR（40,000 小時，2,800 萬 SFT 示例）、AST（30,000 小時，2,800 萬 SFT 示例，7 種語言到/從英語，CoT）、SQA/SQQA（2,600 萬 SFT 示例，合成 QA 對，TTS 生成查詢）、總結（100 萬 SFT 示例，英語，多說話者，GPT-4 查詢）和音頻理解（1,700 萬 SFT 示例，公共音頻/音樂，GPT-4 Q&A）。
視覺-語音聯合訓練：
- 在視覺和語音單獨訓練后，凍結語言基礎、音頻編碼器和項目器，微調視覺適配器 LoRA_V、編碼器和項目器，使用視覺-語音 SFT 數據加上語言/視覺后訓練數據，確保多模態協同工作。
推理訓練：
- 階段 1：預訓練 - 在 600 億推理鏈式思維 CoT 標記上預訓練，從前沿 LLM 中提取，通過拒絕采樣過濾錯誤輸出，確保數據質量。
- 階段 2：微調 - 在 20 萬個高質量 CoT 樣本上微調，覆蓋不同領域，如數學、編碼和邏輯推理。
- 階段 3：直接偏好優化（DPO）訓練 - 在 30 萬個偏好樣本上應用，將錯誤輸出標記為“非首選”，糾正輸出為“首選”，通過人類反饋進一步對齊模型。

訓練數據細節

Phi-4-Multimodal 是一種由 Microsoft 開發的先進多模態大模型，能夠處理文本、圖像和音頻輸入并生成文本輸出。其訓練數據細節涵蓋語言、視覺-語言、視覺-語音和語音/音頻四個主要類別，數據來源包括網絡、合成和真實數據，數據量龐大且經過精心優化。

語言訓練數據

語言訓練是 Phi-4-Multimodal 的基礎，基于 Phi-4-Mini 語言模型的預訓練和后訓練數據：

預訓練數據：
- 數據來源： 高質量網絡數據和合成數據，特別強調數學和編碼數據集以提升復雜推理能力。
- 數據量： 5 萬億個標記（tokens）。
- 描述： 合成數據通過精心策劃，確保覆蓋高價值的任務，如數學競賽問題和編碼任務，顯著提升模型在這些領域的表現。
后訓練數據：
- 功能調用、總結和代碼完成： 使用額外數據進行后訓練，具體數量未公開，但涉及多種任務。
- 推理訓練： 使用 600 億個推理鏈式思維（CoT）標記，從前沿大型語言模型（LLM）中提取，通過拒絕采樣過濾錯誤輸出，確保數據質量。
- 微調： 在 20 萬個高質量 CoT 樣本上微調，覆蓋數學、編碼和邏輯推理等不同領域。
- 直接偏好優化（DPO）： 在 30 萬個偏好樣本上應用，將錯誤輸出標記為“非首選”，糾正輸出為“首選”，通過人類反饋進一步對齊模型。

視覺-語言訓練數據

視覺-語言訓練擴展了模型處理圖像和相關文本的能力，分為預訓練和監督微調（SFT）兩個階段：

預訓練數據：
- 數據類型： 包括圖像-文本對、圖像接地數據、OCR PDF、現實圖像和圖表理解數據。
- 數據量： 文本部分約 0.5 萬億標記，具體圖像數量未公開。
- 描述： 數據覆蓋廣泛，包括公共和內部多模態數據集，最高圖像分辨率達 1344x1344，適合 OCR 和密集理解任務。
監督微調（SFT）數據：
- 數據類型： 通用圖像、圖表/表格/圖表、PowerPoint、OCR、多圖像、視頻和安全數據集。
- 數據量： 文本部分約 0.3 萬億標記。
- 描述： 數據來源包括公共和內部數據集，確保生成能力和多模態任務性能。

視覺-語音訓練數據

視覺-語音訓練數據是合成生成的，基于視覺-語言 SFT 數據：

數據創建方法： 復用視覺-語言 SFT 數據，通過文本轉語音（TTS）引擎生成語音查詢，基于詞錯誤率（WER）過濾質量。
數據量： 具體數量未公開，但依賴于視覺-語言 SFT 數據規模（約 0.3 萬億標記文本部分）。

語音/音頻訓練數據

語音/音頻訓練數據分為預訓練和后訓練兩個階段，數據量巨大，覆蓋多種任務：

預訓練數據：
- 數據來源： 200 萬小時匿名語音-文本對，覆蓋 8 種語言：中文、英語、法語、德語、意大利語、日語、葡萄牙語、西班牙語。
- 描述： 用于訓練音頻編碼器和項目器，確保語音特征與語言模型嵌入空間對齊，初始化為自動編碼解碼（AED）ASR 模型。
后訓練數據：
- 自動語音識別（ASR）：
  - 數據量： 40,000 小時。
  - SFT 示例： 2.8 百萬。
- 自動語音翻譯（AST）：
  - 數據量： 30,000 小時。
  - SFT 示例： 2.8 百萬（7 種語言到/從英語，包含 CoT）。
- 語音問答（SQA/SQQA）：
  - SFT 示例： 2.6 百萬（合成 QA 對，TTS 生成查詢）。
- 總結（SSUM）：
  - SFT 示例： 100,000（英語，多說話者，GPT-4 查詢）。
- 音頻理解（AU）：
  - SFT 示例： 1.7 百萬（公共音頻/音樂，GPT-4 Q&A）。

訓練數據匯總表：

一個意想不到的細節是，語音預訓練數據高達 200 萬小時。

性能

參考文獻：

Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs，https://arxiv.org/pdf/2503.01743
HunyuanVideo: A Systematic Framework For Large Video Generative Models，https://arxiv.org/pdf/2412.03603