快手Kwai Keye-VL多模態大模型模型架構、訓練策略、數據情況

快速看一下Kwai Keye-VL的技術報告,

模型架構

Keye-VL和經典的MLLM架構類似,由ViT+MLP+LLM組成。視覺側有兩點可以看看:

1、具有原生分辨率的視覺編碼器

提到,MLLMs使用預訓練的固定分辨率ViT作為視覺編碼器。然而,這些ViT通常是為處理粗粒度的圖像-文本匹配任務而設計的,而MLLMs需要處理更細粒度的生成任務。因此,Kwai Keye-VL模型實現了一個原生分辨率的ViT,以自然地處理原始分辨率的圖像,避免復雜的圖像拼接或分割操作。(ps:前期介紹的《Kimi-VL的MoonViT:視覺編碼器》中好像也是個思想)。

具體實現,Kwai Keye-VL的ViT是基于SigLIP-400M-384-14進行初始化。為了保持圖像的結構完整性和細節,模型采用了插值技術將固定的位置嵌入擴展為自適應分辨率的位置嵌入,并引入了二維旋轉位置嵌入(RoPE)來增強視覺信息的建模能力。

2、視覺編碼

為了確保語言解碼器能夠充分感知和理解圖像和視頻中的視覺信號,模型為圖像和視頻建模保留了足夠的token緩沖區。

對于不同分辨率的圖像,每個圖像的總token數設置為16384,這足以覆蓋超過一百萬像素的圖像,并幫助模型在大多數情況下看到圖像的細節。對于視頻建模,模型設計了一種動態分辨率策略,平衡了最大幀數和總token數。

訓練策略

預訓練

1、訓練數據概述

模型使用了超過600B token,來源包括公共數據集和專有的內部數據。訓練數據主要涵蓋六個類別:圖像字幕、OCR和VQA、定位和計數、交錯文本-圖像、視頻理解和純文本數據。

2、預訓練管道

預訓練采用了四階段的漸進式訓練策略,如下圖:

  • 階段0:視覺預訓練

    預訓練視覺編碼器,以使其適應內部數據分布并支持動態分辨率。

  • 階段1:跨模態對齊

    語言模型從Qwen3-8B初始化,在此階段,視覺和語言模型的參數被凍結,專注于優化投影MLP層。通過大規模數據集建立跨模態特征的強對齊,為后續學習階段奠定基礎。

  • 階段2:多任務預訓練

    解凍所有模型參數,進行端到端的優化,使用多樣化的多任務訓練數據。數據涵蓋了常見的視覺-語言任務,如圖像字幕、OCR、定位、VQA和交錯圖像-文本數據,顯著增強了模型的基本視覺理解能力。

  • 階段3:退火

    在此階段,模型在精選的高質量數據上進行微調,目標是解決在大規模訓練中缺乏高質量樣本暴露的問題。通過優化的學習策略和數據混合,進一步細化模型的細微理解能力。

  • 模型合并

    在預訓練的最后階段,探索同質-異質合并技術,通過平均不同數據混合的模型權重,減少整體偏差并增強模型魯棒性。

后訓練

后訓練過程分為兩個階段,訓練模型的綜合能力。初始階段專注于建立自然圖像理解和文本交互的基礎性能,后續階段則集中于逐步增強模型的復雜推理能力。

1、無推理訓練:建立基礎性能

這一階段通過兩個連續步驟建立模型在非推理場景中的核心性能和穩定性。由sft+mpo兩步驟構成,

1.1、SFT

SFT數據候選池包含超過500萬個多模態QA樣本。為了確保任務的多樣性和數據的質量,采取了以下方法:

  • 任務多樣性:使用TaskGalaxy框架,將數據分類為70,000種不同的多模態任務類型。
  • 數據挑戰性:通過MLLMs生成多個推理路徑,測量每個樣本的復雜性,過濾過于簡單的樣本。
  • 數據可靠性:人類注釋者為訓練集中的圖像和視頻精心制作字幕。

訓練策略包括動態學習率,并在訓練后期進行退火處理,以提高性能。

1.2、混合偏好優化(MPO)

MPO可以看看前期文章(《多模態偏好數據集生成與混合偏好優化(MPO)方法》),這里不展開。

在SFT之后,模型通過MPO進一步優化其性能。數據集包括開源樣本、重建偏好樣本、自我改進樣本、僅文本樣本和人類注釋樣本。MPO算法用于優化模型在非推理環境中的整體性能。

2、推理訓練:復雜認知

這一階段通過引入混合模式的CoT冷啟動和強化學習機制,顯著增強模型的多模態感知、推理和“思考與圖像”能力。分下面三步:

2.1、CoT冷啟動

此步驟初始化模型的鏈式思維能力,結合長CoT數據和指示性數據,促進復雜問題的結構化思考,同時保持開放任務的風格多樣性和響應靈活性。

2.2、混合模式RL

在CoT冷啟動的基礎上,使用RL進一步增強模型的能力,特別是在多模態感知、推理和數學推理方面。通過GRPO算法,模型在短視視頻理解等任務上表現出顯著的性能提升。

2.3、迭代對齊

最后一步通過迭代對齊來解決重復崩潰和邏輯錯誤問題。使用拒絕采樣數據,通過多輪迭代優化模型,使其能夠根據任務難度自動選擇合適的推理模式。

數據概覽

階段子階段數據集組成數據類型數據來源和構建方法
無推理訓練:建立基礎性能監督微調(SFT)超過500萬個多模態QA樣本多樣化的任務類型,包括復雜的推理路徑使用TaskGalaxy框架分類為70,000種不同的多模態任務類型;通過MLLMs生成多個推理路徑,過濾過于簡單的樣本;人類注釋者為圖像和視頻制作字幕。
混合偏好優化(MPO)400,000個開源樣本
50,000個重建偏好樣本
10,000個自我改進樣本
90,000個僅文本樣本
30,000個人類注釋樣本
開源數據、重建偏好數據、自我改進數據、僅文本數據和人類注釋數據- 開源數據進行簡單去重和過濾,保留400,000個樣本。
- 重建偏好數據:使用現有多模態偏好數據集(如MM-RLHF),并使用開源大模型生成高質量負例。
- 強化微調(RFT)數據:針對SFT模型的弱點構建偏好對。
- 僅文本數據:包括90,000個內部僅文本偏好對。
- 人類注釋數據:使用MM-RLHF流程生成30,000個人類注釋偏好對。
推理訓練:復雜認知的核心突破CoT冷啟動330,000個非推理樣本
230,000個推理樣本
20,000個自動推理樣本
100,000個代理推理樣本
長CoT數據和指示性數據,結合推理和非推理數據結合長CoT數據和指示性數據,促進復雜問題的結構化思考。
混合模式RL多模態感知數據
多模態推理數據
基于文本的數學推理數據
代理推理數據
MMPR、MM-Eureka等數據集,DeepEyes數據集中的47,000個樣本使用MMPR、MM-Eureka等數據集,以及DeepEyes數據集中的樣本,通過GRPO算法增強模型的能力。
迭代對齊來自指令跟隨、OCR、數學、圖表、計數、僅文本內容、安全和認知領域的拒絕采樣數據拒絕采樣數據,用于選擇“好案例”和“壞案例”通過多輪迭代,選擇“好案例”和“壞案例”來構建偏好對,使用MPO算法更新模型。

實驗

  • ViT的零樣本圖像分類

  • 公共基準測試

參考文獻:Kwai Keye-VL Technical Report,https://arxiv.org/pdf/2507.01949

repo:https://github.com/Kwai-Keye/Keye

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/913736.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/913736.shtml
英文地址,請注明出處:http://en.pswp.cn/news/913736.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

前端-CSS-day2

目錄 1、后代選擇器 2、子代選擇器 3、并集選擇器 4、交集選擇器 5、偽類選擇器 6、超鏈接偽類 7、CSS特性-繼承性 8、CSS特性-層疊性 9、CSS特性-優先級 10、優先級-疊加計算 11、Emmet寫法 12、背景圖 13、背景圖平鋪方式 14、背景圖位置 15、背景圖縮放 16、…

米思齊2.0 3.0 mixly arduino 編程軟件下載安裝及詳情使用指南 導入庫文件方法 支持8266 esp32

一、米思齊軟件下載及安裝 1、 米思齊軟件下載 https://item.taobao.com/item.htm?id883253312209 2、軟件版本簡單說明: a、 Windows版本(建議win10及以上系統使用): 一鍵更新完整版 2.8GB-3GB:下載后解壓即可使…

結構體指針:使用結構體指針訪問和修改結構體成員。

知識點結構體指針Employee *p; 保存結構體的地址&#xff1b;p->member 用箭頭運算符訪問或修改成員。數組與指針Employee *emps malloc(N * sizeof *emps); 動態創建結構體數組&#xff1b;p < emps N 與 p 配合遍歷。scanf 與數組退化p->name 是 char name[50] 的…

支持零樣本和少樣本的文本到語音48k star的配音工具:GPT-SoVITS-WebUI

支持零樣本和少樣本的文本到語音48k star的配音工具&#xff1a;GPT-SoVITS-WebUI 官網&#xff1a;RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning) 用戶手冊&#xff1a;GPT-SoVITS指南 功能 零樣本文本到語…

基于odoo17的設計模式詳解---備忘模式

大家好&#xff0c;我是你的Odoo技術伙伴。在開發復雜的業務流程時&#xff0c;我們有時會遇到這樣的需求&#xff1a;在對一個對象進行一系列復雜操作之前&#xff0c;保存其當前狀態&#xff0c;以便在操作失敗或用戶希望撤銷時&#xff0c;能夠一鍵恢復到操作之前的樣子。或…

基于Web門戶架構的監獄內網改版實踐:值班排班系統設計與信創適配探討

面向監獄內網改版場景的門戶平臺技術架構與智能排班實踐關鍵詞&#xff1a;監獄內網改版、監獄內部網站改版、值班排班系統、信創適配、智能門戶架構一、場景背景與問題分析 在信創國產化、等級保護合規、政務集約化趨勢持續推進的背景下&#xff0c;傳統監獄內部網站普遍面臨如…

二分查找篇——在排序數組中查找元素的第一個和最后一個位置【LeetCode】

34. 在排序數組中查找元素的第一個和最后一個位置 一、算法邏輯&#xff08;逐步通順講解每一步思路&#xff09; 該算法用于在一個升序排列的數組 nums 中查找某個目標值 target 的第一個出現的位置和最后一個出現的位置。 ? 1?? 定義 lower_bound 函數 def lower_boun…

【深度學習新浪潮】AI在材料力學領域的研究進展一覽

一、材料力學的研究范疇 材料力學是固體力學的核心分支,聚焦于材料在載荷作用下的變形、失效規律及性能優化,其核心任務是揭示材料的強度、剛度和穩定性機制。具體研究內容包括: 基本力學行為:分析桿、梁、軸等結構在拉伸、壓縮、彎曲、扭轉等載荷下的應力分布與應變響應。…

WPF之命令

命令的定義&#xff1a;命令與事件的區別&#xff1a;命令是具有約束性的。命令還可以控制接收者"先做校驗&#xff0c;再保存&#xff0c;再關閉"。命令&#xff1a;WPF的命令&#xff0c;實際上就是實現了ICommand接口的類&#xff0c;平時使用最多的是RoutedComma…

百度文心一言開源大模型ERNIE-4.5-0.3B-PT深度測評

號外號外&#xff01;6月30號&#xff0c;百度文心一言官宣開源ERNIE 4.5大模型&#xff01;&#xff01;&#xff01; 一收到這個消息&#xff0c;博主就立馬從GitCode拉了個模型&#xff0c;本地私有化部署體驗了一下&#xff0c;一個字&#xff0c;酷&#xff01; 鑒于絕大…

零基礎,使用Idea工具寫一個郵件報警程序

打開idea&#xff0c;創建一個project打開文件目錄下的pom.xml文件&#xff0c;添加下面的內容安裝依賴&#xff0c;等待下載完成<dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-mail</artifactId> &…

字體 Unicode 區塊字符展示 PDF 生成器

Unicode 字體字符集可視化工具 - 代碼介紹 項目概述 這個工具是一個用于分析和可視化字體文件中包含的 Unicode 字符的實用程序&#xff0c;能夠掃描指定字體文件&#xff0c;提取其中包含的所有 Unicode 字符&#xff0c;并按 Unicode 區塊分類生成 PDF 文檔&#xff0c;直觀展…

第4章:實戰項目一 打造你的第一個AI知識庫問答機器人 (RAG)

各位老鐵&#xff0c;歡迎來到我們專欄的第一個實戰項目。 在過去的三個章節里&#xff0c;我們已經完成了所有的理論儲備和環境搭建。我們理解了LLM的本質&#xff0c;掌握了Prompt Engineering的要領&#xff0c;洞悉了Embedding和向量數據庫的魔力&#xff0c;并且熟悉了La…

身份證識別api-便捷生活與安全社會的雙重保障

身份證識別技術是人工智能和圖像處理領域的杰出產物之一&#xff0c;正逐步滲透到我們生活的方方面面。而最直觀的作用就是簡化身份證驗證流程。現如今&#xff0c;無論是銀行開戶、酒店入住還是政務辦理、線上支付&#xff0c;都需要輸入 身份證信息進行身份驗證&#xff0c;傳…

跨國企業進入中國市場:如何利用亞馬遜云科技文檔 MCP 服務器解決區域差異問題

業務場景 想象一下&#xff0c;您是一家美國科技公司的 IT 架構師&#xff0c;公司剛剛決定將業務擴展到中國市場。作為技術負責人&#xff0c;您需要規劃如何將現有的基于亞馬遜云科技的應用遷移到中國區域。然而&#xff0c;您很快發現中國區的云服務環境與您熟悉的全球區域…

WPF使用WebBrowser 解決href標簽target=_blank在瀏覽器窗口打開新鏈接而非窗體內部打開的問題

前言 最近在WPF中使用WebBrowser控件顯示網頁的時候遇到一個問題,由于網頁里面有大規模的連接標簽使用了target=_blank的屬性,導致打開的網頁不是在我們的程序內部,而是調用系統瀏覽器打開了我們的網頁內容,這種情況非常的影響用戶體驗。于是就有了這篇文章內容。本文將詳細…

制作MikTex本地包可用于離線安裝包

MikTex安裝包版本是basic-miktex-24.1-x64.exe。注&#xff1a;basic版本表示只安裝MikTex基本包&#xff0c;不安裝全部包。在能夠聯網的電腦上安裝MikTex軟件后&#xff0c;可以按以下步驟制作本地包庫。一、制作本地包庫1、新建一個文件夾&#xff0c;比如在D盤新建miktex-l…

Redis基礎的介紹與使用(一)(Redis簡介以及Redis下載和安裝)

0 引言 本系列用于和大伙兒一起入門Redis&#xff0c;主要包括Redis的下載&#xff0c;分別在終端&#xff0c;圖形顯示界面以及JAVA代碼中進行使用&#xff0c;適合給需要快速了解Redis是什么以及上手使用的朋友們&#xff0c;希望我用最簡單的語言來講清楚相關內容&#xff…

七牛云C++開發面試題及參考答案

智能指針的原理及應用場景是什么&#xff1f; 智能指針是 C 中用于管理動態分配內存的工具&#xff0c;其核心原理是通過 RAII&#xff08;資源獲取即初始化&#xff09;技術&#xff0c;將堆內存的生命周期與對象的生命周期綁定&#xff0c;從而避免手動管理內存帶來的內存泄…

【Python辦公】Excel橫板表頭轉豎版通用工具(GUI版本)橫向到縱向的數據重構

目錄 專欄導讀前言項目概述功能特性技術棧核心代碼解析1. 類結構設計2. 界面布局設計3. 滾動列表實現4. 數據轉換核心邏輯5. 預覽功能實現設計亮點1. 用戶體驗優化2. 技術實現優勢3. 代碼結構優勢使用場景擴展建議總結完整代碼結尾專欄導讀 ?? 歡迎來到Python辦公自動化專欄—…