Phi-4-multimodal:圖、文、音頻統一的多模態大模型架構、訓練方法、數據細節

Phi-4-Multimodal 是一種參數高效的多模態模型,通過 LoRA 適配器和模式特定路由器實現文本、視覺和語音/音頻的無縫集成。訓練過程包括多階段優化,確保在不同模式和任務上的性能,數據來源多樣,覆蓋高質量網絡和合成數據。它的設計體現了小型語言模型在多模態任務上的潛力

模型架構

模型架構

Phi-4-Multimodal 的基礎是 Phi-4-Mini 語言模型,這是一個 3.8 億參數的模型,設計為高效處理文本任務。架構包括:

  • Transformer層和維度: 32 層Transformer,隱藏狀態大小為 3072。
  • 效率技術: 使用分組查詢注意力(GQA),通過 24 個查詢頭和 8 個鍵/值頭減少 KV 緩存大小至標準模型的三分之一,提升計算效率。
  • 分詞器: 使用 o200k 基礎 tiktoken,分詞表大小為 200,064,支持多語言和多模態輸入。

為了擴展到多模態功能,模型通過 LoRA 適配器和模式特定路由器集成視覺和音頻模式:

  • 視覺模式:

    • 圖像編碼器: 使用 SigLIP-400M,結合 LLM2CLIP 在圖像-文本對上微調,分辨率為 448x448。SigLIP-400M 是一個視覺-語言模型,專門為圖像理解優化。
    • 項目器: 一個 2 層 MLP,將視覺特征映射到文本嵌入維度 3072,確保視覺輸入與語言模型的嵌入空間兼容。
    • LoRA 適配器(LoRA_V): 添加到語言解碼器的所有線性層,參數約 3.7 億,用于監督微調階段。LoRA 是一種參數高效的微調技術,通過低秩更新適配模型。
    • 動態多裁剪策略: 在訓練中處理不同圖像大小,裁剪數量計算為 ?H/C? × ?W/C?,預訓練最多 16 個裁剪,監督微調最多 36 個,必要時調整大小。
  • 語音/音頻模式:

    • 輸入特征: 80 維 log-Mel 濾波器組特征,幀率為 10ms,標記率為 80ms(每分鐘 750 個標記),適合高效音頻處理。
    • 音頻編碼器: 包括 3 個卷積層和 24 個符合塊,注意維度為 1024,前饋維度為 1536,16 個注意頭,子采樣率為 8。符合塊結合了自注意力機制和卷積,適合捕獲音頻的時序和頻率特征。
    • 項目器: 一個 2 層 MLP,將 1024 維語音特征映射到 3072 維文本嵌入,確保音頻輸入與語言模型的嵌入空間兼容。
    • LoRA 適配器(LoRA_A): 應用于所有注意和 MLP 層,秩為 320,參數約 4.6 億,通過低秩更新適配音頻處理。
  • 多模態集成: 模型采用 LoRA 適配器的混合設計,通過模式特定路由器選擇適當的適配器,處理文本、視覺和語音/音頻輸入,無干擾地支持多模態推理。這是一種參數高效的方法,保持基礎語言模型的完整性,同時添加新功能。

總參數量為 5.6 億,相比 Phi-4-Mini 的 3.8 億,增加了約 1.8 億參數,主要用于視覺和音頻編碼器及 LoRA 適配器。上下文長度為 128K 標記,受益于 GQA 和其他效率技術,適合處理長序列輸入。

訓練方法

Phi-4-Multimodal 的訓練過程分多個階段,針對不同模式和任務優化,確保模型在多模態任務上的性能。訓練步驟如下:

  • 基礎語言模型預訓練:

    • 在 5 萬億個高質量標記上預訓練,包括網絡數據和合成數據。數據來源經過精心挑選,確保覆蓋多種語言和任務,如功能調用、總結和指令跟隨。
  • 視覺訓練:

    • 階段 1:項目器對齊 - 使用標題數據訓練項目器,確保視覺特征與語言模型嵌入空間的對齊。
    • 階段 2:聯合視覺訓練 - 在完整數據集上訓練項目器和編碼器,針對 OCR 和密集理解任務,數據集包括圖像-文本對、OCR PDF 和現實圖像。
    • 階段 3:生成視覺-語言訓練 - 在解碼器上訓練 LoRA,使用單幀 SFT 數據,開發生成能力,數據集包括公共和內部多模態數據集,如通用圖像、圖表/表格/圖表、PowerPoint、OCR、多圖像和視頻。
    • 階段 4:多幀訓練 - 視覺編碼器凍結,在多幀 SFT 數據上訓練,上下文長度為 64k,適合處理多幀場景。
  • 語音/音頻訓練:

    • 預訓練: 使用 200 萬小時匿名語音-文本對,覆蓋 8 種語言(中文、英語、法語、德語、意大利語、日語、葡萄牙語、西班牙語),訓練音頻編碼器和項目器,解碼器凍結,初始化為自動編碼解碼(AED)ASR 模型。
    • 后訓練: 使用 1 億個精選 SFT 樣本更新項目器和 LoRA_A,50,000 步。最大音頻長度為總結的 30 分鐘(22,500 個標記),其他任務的 30 秒(375 個標記),包括 ASR(40,000 小時,2,800 萬 SFT 示例)、AST(30,000 小時,2,800 萬 SFT 示例,7 種語言到/從英語,CoT)、SQA/SQQA(2,600 萬 SFT 示例,合成 QA 對,TTS 生成查詢)、總結(100 萬 SFT 示例,英語,多說話者,GPT-4 查詢)和音頻理解(1,700 萬 SFT 示例,公共音頻/音樂,GPT-4 Q&A)。
  • 視覺-語音聯合訓練:

    • 在視覺和語音單獨訓練后,凍結語言基礎、音頻編碼器和項目器,微調視覺適配器 LoRA_V、編碼器和項目器,使用視覺-語音 SFT 數據加上語言/視覺后訓練數據,確保多模態協同工作。
  • 推理訓練:

    • 階段 1:預訓練 - 在 600 億推理鏈式思維 CoT 標記上預訓練,從前沿 LLM 中提取,通過拒絕采樣過濾錯誤輸出,確保數據質量。
    • 階段 2:微調 - 在 20 萬個高質量 CoT 樣本上微調,覆蓋不同領域,如數學、編碼和邏輯推理。
    • 階段 3:直接偏好優化(DPO)訓練 - 在 30 萬個偏好樣本上應用,將錯誤輸出標記為“非首選”,糾正輸出為“首選”,通過人類反饋進一步對齊模型。

訓練數據細節

Phi-4-Multimodal 是一種由 Microsoft 開發的先進多模態大模型,能夠處理文本、圖像和音頻輸入并生成文本輸出。其訓練數據細節涵蓋語言、視覺-語言、視覺-語音和語音/音頻四個主要類別,數據來源包括網絡、合成和真實數據,數據量龐大且經過精心優化。

語言訓練數據

語言訓練是 Phi-4-Multimodal 的基礎,基于 Phi-4-Mini 語言模型的預訓練和后訓練數據:

  • 預訓練數據:

    • 數據來源: 高質量網絡數據和合成數據,特別強調數學和編碼數據集以提升復雜推理能力。
    • 數據量: 5 萬億個標記(tokens)。
    • 描述: 合成數據通過精心策劃,確保覆蓋高價值的任務,如數學競賽問題和編碼任務,顯著提升模型在這些領域的表現。
  • 后訓練數據:

    • 功能調用、總結和代碼完成: 使用額外數據進行后訓練,具體數量未公開,但涉及多種任務。
    • 推理訓練: 使用 600 億個推理鏈式思維(CoT)標記,從前沿大型語言模型(LLM)中提取,通過拒絕采樣過濾錯誤輸出,確保數據質量。
    • 微調: 在 20 萬個高質量 CoT 樣本上微調,覆蓋數學、編碼和邏輯推理等不同領域。
    • 直接偏好優化(DPO): 在 30 萬個偏好樣本上應用,將錯誤輸出標記為“非首選”,糾正輸出為“首選”,通過人類反饋進一步對齊模型。

視覺-語言訓練數據

視覺-語言訓練擴展了模型處理圖像和相關文本的能力,分為預訓練和監督微調(SFT)兩個階段:

  • 預訓練數據:

    • 數據類型: 包括圖像-文本對、圖像接地數據、OCR PDF、現實圖像和圖表理解數據。
    • 數據量: 文本部分約 0.5 萬億標記,具體圖像數量未公開。
    • 描述: 數據覆蓋廣泛,包括公共和內部多模態數據集,最高圖像分辨率達 1344x1344,適合 OCR 和密集理解任務。
  • 監督微調(SFT)數據:

    • 數據類型: 通用圖像、圖表/表格/圖表、PowerPoint、OCR、多圖像、視頻和安全數據集。
    • 數據量: 文本部分約 0.3 萬億標記。
    • 描述: 數據來源包括公共和內部數據集,確保生成能力和多模態任務性能。

視覺-語音訓練數據

視覺-語音訓練數據是合成生成的,基于視覺-語言 SFT 數據:

  • 數據創建方法: 復用視覺-語言 SFT 數據,通過文本轉語音(TTS)引擎生成語音查詢,基于詞錯誤率(WER)過濾質量。
  • 數據量: 具體數量未公開,但依賴于視覺-語言 SFT 數據規模(約 0.3 萬億標記文本部分)。

語音/音頻訓練數據

語音/音頻訓練數據分為預訓練和后訓練兩個階段,數據量巨大,覆蓋多種任務:

  • 預訓練數據:

    • 數據來源: 200 萬小時匿名語音-文本對,覆蓋 8 種語言:中文、英語、法語、德語、意大利語、日語、葡萄牙語、西班牙語。
    • 描述: 用于訓練音頻編碼器和項目器,確保語音特征與語言模型嵌入空間對齊,初始化為自動編碼解碼(AED)ASR 模型。
  • 后訓練數據:

    • 自動語音識別(ASR):
      • 數據量: 40,000 小時。
      • SFT 示例: 2.8 百萬。
    • 自動語音翻譯(AST):
      • 數據量: 30,000 小時。
      • SFT 示例: 2.8 百萬(7 種語言到/從英語,包含 CoT)。
    • 語音問答(SQA/SQQA):
      • SFT 示例: 2.6 百萬(合成 QA 對,TTS 生成查詢)。
    • 總結(SSUM):
      • SFT 示例: 100,000(英語,多說話者,GPT-4 查詢)。
    • 音頻理解(AU):
      • SFT 示例: 1.7 百萬(公共音頻/音樂,GPT-4 Q&A)。

訓練數據匯總表:

一個意想不到的細節是,語音預訓練數據高達 200 萬小時。

性能

參考文獻:

  • Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs,https://arxiv.org/pdf/2503.01743

  • HunyuanVideo: A Systematic Framework For Large Video Generative Models,https://arxiv.org/pdf/2412.03603

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/72973.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/72973.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/72973.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

前后端數據加密傳輸【最佳方案】

AES和RSA區別 算法類型安全性密鑰長度/輸出長度速度應用場景AES對稱加密高128位、192位、256位快適用于大規模數據加密,入HTTPS協議的數據傳輸RSA非對稱加密高1024位、2048位、4096位較慢適用于數據安全傳輸、數字簽名和身份驗證 綜上:兼顧安全性和性能…

Unity--Cubism Live2D模型使用

了解LIVE2D在unity的使用--前提記錄 了解各個組件的作用 Live2D Manuals & Tutorials 這些文件都是重要的控制動畫參數的 Cubism Editor是編輯Live2D的工具,而導出的數據的類型,需要滿足以上的條件 SDK中包含的Cubism的Importer會自動生成一個Pref…

Linux | Vim 鼠標不能右鍵粘貼、跨系統復制粘貼

注:本文為 “ Vim 中鼠標右鍵粘貼、跨系統復制粘貼問題解決方案” 相關文章合輯。 未整理去重。 Linux 入門:vim 鼠標不能右鍵粘貼、跨系統復制粘貼 foryouslgme 發布時間 2016 - 09 - 28 10:24:16 Vim基礎 命令模式(command-mode)插入模式(insert-m…

Flink-DataStreamAPI-執行模式

一、概覽 DataStream API支持不同的運行時執行模式,我們可以根據用例的要求和作業的特征進行選擇。 STREAMING執行模式:被稱為“經典”執行模式為,主要用于需要持續增量處理并且預計無限期保持在線的無界作業BATCH執行模式:類似…

解決VScode 連接不上問題

問題 :VScode 連接不上 解決方案: 1、手動殺死VS Code服務器進程,然后重新嘗試登錄 打開xshell ,遠程連接服務器 ,查看vscode的進程 ,然后全部殺掉 [cxqiZwz9fjj2ssnshikw14avaZ ~]$ ps ajx | grep vsc…

C#類型轉換基本概念

一、基本定義? C# 類型轉換是將數據從一種類型轉換為另一種類型的過程,分為 ?隱式轉換? 和 ?顯式轉換? 兩類?。 強類型語言特性?:C# 要求變量類型在編譯時確定,類型轉換需滿足兼容性或顯式規則?。目的?:處理不同數據類…

使用阿里云操作系統控制臺排查內存溢出

引言 操作系統控制臺是阿里云最新推出的一款智能運維工具,專為提升運維效率、優化服務器管理而設計。它集成了多種運維管理功能,包括操作系統助手、插件管理器以及其他實用工具,為用戶提供一站式的運維解決方案。無論是個人開發者還是企業運…

(C/S)架構、(B/S)架構

客戶機/服務器(C/S)架構 理論描述: 客戶機/服務器架構是一種網絡架構風格,其中任務被分配給網絡中的不同計算機,以提高效率和靈活性。這種架構由兩部分組成:客戶端(Client)和服務器&…

混合存儲HDD+SSD機型磁盤陣列,配上SSD緩存功能,性能提升300%

企業日常運行各種文件無處不在,文檔、報告、視頻、應用數據......面對成千上萬的文件,團隊之間需要做到無障礙協作,員工能夠即時快速訪問、共享處理文件。隨著業務增長,數字化辦公不僅需要大容量,快速高效的文件訪問越…

C 語言異常處理方式全面解析

引言? 在 C 語言編程領域,穩健的錯誤處理機制對于保障程序的可靠性、穩定性以及安全性至關重要。異常處理作為錯誤處理的進階形式,雖然并非 C 語言標準庫原生支持的特性,但通過巧妙運用語言特性和編程技巧,開發者能夠實現有效的…

【每日學點HarmonyOS Next知識】狀態欄控制、片段按鈕點擊回調、繪制組件、取消按鈕與輸入框對齊、父調子組件方法

1、HarmonyOS 狀態欄怎么控制顯示于隱藏,設置狀態欄顏色,子顏色等控制? 顯示與隱藏 可以設置沉浸式,隱藏的話可以退出沉靜式,在子窗口打開的頁面 aboutToAppear 方法中設置沉浸式 aboutToAppear(): void {// 設置沉浸…

二級Python通關秘籍:字符串操作符/函數/方法全解析與實戰演練

第一章 字符串基礎概念與運算符速通 1.1 字符串的不可變性特性 在Python中,字符串被設計為immutable類型,任何修改操作都會生成新對象。這一特性直接影響字符串拼接的性能表現,建議使用join()方法代替多次操作。 1.2 基礎操作符全掌握 pyt…

GStreamer —— 2.6、Windows下Qt加載GStreamer庫后運行 - “教程6:媒體格式和Pad功能“(附:完整源碼)

運行效果 簡介 上一個教程演示了GUI 工具包集成(gtk)。本教程介紹媒體格式和Pad功能。Pad Capabilities 是 GStreamer 的一個基本元素,盡管大多數它們不可見,因為框架會處理它們 自然而然。這個有點理論性的教程展示了: ? 什么是 Pad 功能。…

【前綴和與差分 C/C++】洛谷 P8218 求區間和

2025 - 03 - 09 - 第 72 篇 Author: 鄭龍浩 / 仟濹 【前綴和與差分 C/C】 文章目錄 洛谷 P8218 求區間和題目描述輸入格式輸出格式輸入輸出樣例 #1輸入 #1輸出 #1 說明/提示思路代碼 洛谷 P8218 求區間和 題目描述 給定 n n n 個正整數組成的數列 a 1 , a 2 , ? , a n a_…

初識Bert

在學習Bert之前我們先了解“遞歸神經網絡(RNN Recurrent neural network)” 和 “長短期記憶(LSTM Long short-term memory)” 我們如果僅僅識別每個字的含義,那么在一句話中沒有相同的字還是可以的但是如果一句話中有相同的字,那…

clickhouse源碼分析

《ClickHouse源碼分析》 當我們談論數據庫時,ClickHouse是一個不容忽視的名字。它是一個用于聯機分析處理(OLAP)的列式數據庫管理系統(DBMS),以其快速的數據查詢能力而聞名。對于想要深入了解這個高效工具…

[網絡爬蟲] 動態網頁抓取 — Selenium 元素定位

🌟想系統化學習爬蟲技術?看看這個:[數據抓取] Python 網絡爬蟲 - 學習手冊-CSDN博客 在使用 Selenium 時,往往需要先定位到指定元素,然后再執行相應的操作。例如,再向文本輸入框中輸入文字之前,…

ArcGIS操作:15 計算點的經緯度,并添加到屬性表

注意:需要轉化為地理坐標系 1、打開屬性表,添加字段 2、計算字段(以計算緯度為例 !Shape!.centroid.Y ) 3、效果

[項目]基于FreeRTOS的STM32四軸飛行器: 七.遙控器按鍵

基于FreeRTOS的STM32四軸飛行器: 七.遙控器 一.遙控器按鍵搖桿功能說明二.搖桿和按鍵的配置三.按鍵掃描 一.遙控器按鍵搖桿功能說明 兩個手柄四個ADC。 左側手柄: 前后推為飛控油門,左右推為控制飛機偏航角。 右側手柄: 控制飛機飛行方向&a…

Redis 內存淘汰策略深度解析

Redis 作為高性能的內存數據庫,其內存資源的高效管理直接關系到系統的穩定性和性能。當 Redis 的內存使用達到配置的最大值(maxmemory)時,新的寫入操作將觸發內存淘汰機制(Eviction Policy),以釋…