快速看一下Kwai Keye-VL的技術報告,
模型架構
Keye-VL和經典的MLLM架構類似,由ViT+MLP+LLM組成。視覺側有兩點可以看看:
1、具有原生分辨率的視覺編碼器
提到,MLLMs使用預訓練的固定分辨率ViT作為視覺編碼器。然而,這些ViT通常是為處理粗粒度的圖像-文本匹配任務而設計的,而MLLMs需要處理更細粒度的生成任務。因此,Kwai Keye-VL模型實現了一個原生分辨率的ViT,以自然地處理原始分辨率的圖像,避免復雜的圖像拼接或分割操作。(ps:前期介紹的《Kimi-VL的MoonViT:視覺編碼器》中好像也是個思想)。
具體實現,Kwai Keye-VL的ViT是基于SigLIP-400M-384-14進行初始化。為了保持圖像的結構完整性和細節,模型采用了插值技術將固定的位置嵌入擴展為自適應分辨率的位置嵌入,并引入了二維旋轉位置嵌入(RoPE)來增強視覺信息的建模能力。
2、視覺編碼
為了確保語言解碼器能夠充分感知和理解圖像和視頻中的視覺信號,模型為圖像和視頻建模保留了足夠的token緩沖區。
對于不同分辨率的圖像,每個圖像的總token數設置為16384,這足以覆蓋超過一百萬像素的圖像,并幫助模型在大多數情況下看到圖像的細節。對于視頻建模,模型設計了一種動態分辨率策略,平衡了最大幀數和總token數。
訓練策略
預訓練
1、訓練數據概述
模型使用了超過600B token,來源包括公共數據集和專有的內部數據。訓練數據主要涵蓋六個類別:圖像字幕、OCR和VQA、定位和計數、交錯文本-圖像、視頻理解和純文本數據。
2、預訓練管道
預訓練采用了四階段的漸進式訓練策略,如下圖:
-
階段0:視覺預訓練
預訓練視覺編碼器,以使其適應內部數據分布并支持動態分辨率。
-
階段1:跨模態對齊
語言模型從Qwen3-8B初始化,在此階段,視覺和語言模型的參數被凍結,專注于優化投影MLP層。通過大規模數據集建立跨模態特征的強對齊,為后續學習階段奠定基礎。
-
階段2:多任務預訓練
解凍所有模型參數,進行端到端的優化,使用多樣化的多任務訓練數據。數據涵蓋了常見的視覺-語言任務,如圖像字幕、OCR、定位、VQA和交錯圖像-文本數據,顯著增強了模型的基本視覺理解能力。
-
階段3:退火
在此階段,模型在精選的高質量數據上進行微調,目標是解決在大規模訓練中缺乏高質量樣本暴露的問題。通過優化的學習策略和數據混合,進一步細化模型的細微理解能力。
-
模型合并
在預訓練的最后階段,探索同質-異質合并技術,通過平均不同數據混合的模型權重,減少整體偏差并增強模型魯棒性。
后訓練
后訓練過程分為兩個階段,訓練模型的綜合能力。初始階段專注于建立自然圖像理解和文本交互的基礎性能,后續階段則集中于逐步增強模型的復雜推理能力。
1、無推理訓練:建立基礎性能
這一階段通過兩個連續步驟建立模型在非推理場景中的核心性能和穩定性。由sft+mpo兩步驟構成,
1.1、SFT
SFT數據候選池包含超過500萬個多模態QA樣本。為了確保任務的多樣性和數據的質量,采取了以下方法:
- 任務多樣性:使用TaskGalaxy框架,將數據分類為70,000種不同的多模態任務類型。
- 數據挑戰性:通過MLLMs生成多個推理路徑,測量每個樣本的復雜性,過濾過于簡單的樣本。
- 數據可靠性:人類注釋者為訓練集中的圖像和視頻精心制作字幕。
訓練策略包括動態學習率,并在訓練后期進行退火處理,以提高性能。
1.2、混合偏好優化(MPO)
MPO可以看看前期文章(《多模態偏好數據集生成與混合偏好優化(MPO)方法》),這里不展開。
在SFT之后,模型通過MPO進一步優化其性能。數據集包括開源樣本、重建偏好樣本、自我改進樣本、僅文本樣本和人類注釋樣本。MPO算法用于優化模型在非推理環境中的整體性能。
2、推理訓練:復雜認知
這一階段通過引入混合模式的CoT冷啟動和強化學習機制,顯著增強模型的多模態感知、推理和“思考與圖像”能力。分下面三步:
2.1、CoT冷啟動
此步驟初始化模型的鏈式思維能力,結合長CoT數據和指示性數據,促進復雜問題的結構化思考,同時保持開放任務的風格多樣性和響應靈活性。
2.2、混合模式RL
在CoT冷啟動的基礎上,使用RL進一步增強模型的能力,特別是在多模態感知、推理和數學推理方面。通過GRPO算法,模型在短視視頻理解等任務上表現出顯著的性能提升。
2.3、迭代對齊
最后一步通過迭代對齊來解決重復崩潰和邏輯錯誤問題。使用拒絕采樣數據,通過多輪迭代優化模型,使其能夠根據任務難度自動選擇合適的推理模式。
數據概覽
階段 | 子階段 | 數據集組成 | 數據類型 | 數據來源和構建方法 |
---|---|---|---|---|
無推理訓練:建立基礎性能 | 監督微調(SFT) | 超過500萬個多模態QA樣本 | 多樣化的任務類型,包括復雜的推理路徑 | 使用TaskGalaxy框架分類為70,000種不同的多模態任務類型;通過MLLMs生成多個推理路徑,過濾過于簡單的樣本;人類注釋者為圖像和視頻制作字幕。 |
混合偏好優化(MPO) | 400,000個開源樣本 50,000個重建偏好樣本 10,000個自我改進樣本 90,000個僅文本樣本 30,000個人類注釋樣本 | 開源數據、重建偏好數據、自我改進數據、僅文本數據和人類注釋數據 | - 開源數據進行簡單去重和過濾,保留400,000個樣本。 - 重建偏好數據:使用現有多模態偏好數據集(如MM-RLHF),并使用開源大模型生成高質量負例。 - 強化微調(RFT)數據:針對SFT模型的弱點構建偏好對。 - 僅文本數據:包括90,000個內部僅文本偏好對。 - 人類注釋數據:使用MM-RLHF流程生成30,000個人類注釋偏好對。 | |
推理訓練:復雜認知的核心突破 | CoT冷啟動 | 330,000個非推理樣本 230,000個推理樣本 20,000個自動推理樣本 100,000個代理推理樣本 | 長CoT數據和指示性數據,結合推理和非推理數據 | 結合長CoT數據和指示性數據,促進復雜問題的結構化思考。 |
混合模式RL | 多模態感知數據 多模態推理數據 基于文本的數學推理數據 代理推理數據 | MMPR、MM-Eureka等數據集,DeepEyes數據集中的47,000個樣本 | 使用MMPR、MM-Eureka等數據集,以及DeepEyes數據集中的樣本,通過GRPO算法增強模型的能力。 | |
迭代對齊 | 來自指令跟隨、OCR、數學、圖表、計數、僅文本內容、安全和認知領域的拒絕采樣數據 | 拒絕采樣數據,用于選擇“好案例”和“壞案例” | 通過多輪迭代,選擇“好案例”和“壞案例”來構建偏好對,使用MPO算法更新模型。 |
實驗
-
ViT的零樣本圖像分類
-
公共基準測試
參考文獻:Kwai Keye-VL Technical Report,https://arxiv.org/pdf/2507.01949
repo:https://github.com/Kwai-Keye/Keye