多模態大模型Keye-VL-1.5發布!視頻理解能力更強!

近日,快手正式發布了多模態大語言模型Keye-VL-1.5-8B。

與之前的版本相比,Keye-VL-1.5的綜合性能實現顯著提升,尤其在基礎視覺理解能力方面,包括視覺元素識別、推理能力以及對時序信息的理—表現尤為突出。Keye-VL-1.5在同等規模的模型中表現出色,甚至超越了一些閉源模型如GPT-4o。

Keye-VL-1.5-8B在技術上實現了三項關鍵創新:

  • 引入慢快編碼策略(Slow-Fast):該策略基于相似性算法自動區分慢幀與快幀,并將快幀的 token 預算控制為慢幀的 30%。同時,通過引入特殊 token 和時間戳標記幀邊界,有效平衡了性能與計算成本。
  • 采用漸進式四階段預訓練方法:從跨模態對齊與多任務預訓練起步,在退火階段將模型上下文長度從 8K 擴展至 128K,使其能夠處理更長視頻和更復雜的視覺內容,大幅增強視頻理解能力。最終的模型融合階段通過使用不同數據混合訓練的模型進行組合,以提高魯棒性并減少偏差。
  • 全面優化后訓練流程:提出五步自動化數據構造流水線,基于 GSPO 算法迭代通用強化學習與對齊階段,全面提升模型的推理能力并與人類偏好對齊。

在多個公開的視頻基準測試中,Keye-VL 1.5 8B在同等規模的模型中性能最優,并在MMMUval和AI2D等大規模基準測試中,Keye-VL 1.5 8B取得了業界最佳成績!

圖片

Keye-VL-1.5-8B現已開源,并公布了公開技術報告,歡迎各位開發者前往體驗和交流。

項目主頁:https://kwai-keye.github.io/

技術報告:https://arxiv.org/pdf/2509.01563

Github:https://github.com/Kwai-Keye/Keye

Model:https://huggingface.co/Kwai-Keye/Keye-VL-1.5-8B

先來看三個案例:

案例一:時序信息理解

demo1

Prompt:視頻中包出現的時間段是多少?

Keye:視頻中包出現的時間段是22.3秒至23.8秒。

案例二:推理能力

demo2

Prompt:視頻里大狗咬小狗的耳朵是為什么?

keye:視頻中,小狗試圖扒著桌子夠取食物,大狗(狗爸)通過輕咬小狗耳朵的行為,實則是在**糾正小狗的不當行為**。這種輕咬是狗群中常見的“教育”方式,成年狗會用它告訴幼崽“這樣做不對”,需遵守規則。當小狗收到這一信號后,便從站立夠食的狀態逐漸坐下來,最終躺下服從管理,說明大狗的行為成功傳遞了“不能偷食桌上食物”的警告。 \boxed{大狗咬小狗耳朵是糾正其試圖偷吃桌上食物的錯誤行為,通過輕咬傳遞警告讓小狗服從管理。}

案例三:描述能力

demo3

Prompt:請仔細描述視頻中的場景內容?

Keye:視頻的主要場景是一個被茂密森林環繞的潮濕角落,畫面中間是一條破損的老舊石階,石板的石板有裂,表面長滿綠色苔蘚和雜草,顯得斑駁滄桑。周圍是高大的深色樹木,樹枝上掛著鮮綠色的樹葉,樹葉間透出柔和的散射光,給場景增添了一層朦朧感。地面上散落著許多小白花或菌類,與綠色苔蘚交織,形成生機盎然的地面覆蓋。背景中森林延伸至遠方,樹木逐漸模糊,展示出場景的深度與神秘感。空氣中似乎帶著細密的雨霧,地面和石階都顯得潮濕,偶爾有雨滴落下,進一步強化了潮濕的氣氛。整體色調綠色和棕色為主,呈現出一種靜謐。自然且略帶荒涼的原始森林景象。

「核心技術架構全公開」

Keye-VL-1.5采用經典的多模態大語言模型架構,由三個核心組件構成:視覺Transformer(ViT)、MLP投影器和語言解碼器。該模型使用SigLIP-400M-384-14作為視覺編碼器,Qwen3-8B作為語言解碼器。在Vision encoder方面,采取了原生分辨率ViT,2D ROPE增強高分圖像理解,使用了500B Token的多源數據進行預訓練。在視覺特征處理方面,針對不同視覺輸入采用差異化編碼策略。對于圖像,每張圖像使用20,480個token來保證細節捕獲。

圖片

一、慢快編碼策略:兼顧性能與成本

視頻內容通常包含兩種類型的畫面:一種是快速變化、富含細節的畫面(如運動場景),另一種是相對靜態的畫面(如靜止風景)。為了在短視頻理解任務中同時實現高準確性與高效率。Keye-VL-1.5 創新性地提出了慢快編碼策略 (slow-fast),該策略設置慢通路處理快速變化幀(低幀數-高分辨率),快通路處理靜態幀(高幀數-低分辨率),從而在節省計算資源的同時保留關鍵信息。

具體來說,通過基于圖片相似性的算法自動識別慢快幀,快幀的token預算設為慢幀的30%,并引入特殊token和時間戳來標識幀邊界,實現了性能與計算成本的有效平衡。

圖片

二、Pretrain 策略:漸進式四階段預訓練方法

Keye-VL-1.5采用精心設計的四階段漸進式訓練流水線,確保每個階段都有清晰且相互關聯的目標。

視覺編碼器預訓練:使用SigLIP-400M權重初始化ViT,通過SigLIP對比損失函數進行持續預訓練,適應內部數據分布。

第一階段 - 跨模態對齊:專注優化投影MLP層,建立跨模態特征的穩固對齊基礎。

第二階段 - 多任務預訓練:解凍所有模型參數進行端到端優化,顯著增強模型的基礎視覺理解能力。

第三階段 - 退火訓練:在精選高質量數據上進行微調,解決第二階段大規模訓練中高質量樣本接觸不足的問題。同時將序列長度從8K擴展至128K,RoPE逆頻率從100萬重置為800萬,并引入長視頻、長文本和大尺度圖像等長上下文模態數據。

模型融合:為減少固定數據比例帶來的內在偏差,在預訓練最終階段采用同質-異質融合技術,對不同數據混合比例下退火訓練的模型權重進行平均,保持多樣化能力的同時減少整體偏差,增強模型魯棒性。

圖片

三、Post-training策略:全面提升推理能力與人類偏好對齊

圖片

Keye-VL-1.5的訓練后處理包含四個主要階段:

Stage 1:監督微調與多偏好優化

使用750萬個多模態問答樣本進行監督微調,然后通過MPO算法進一步提升性能。

圖片

Stage 2:長鏈思考冷啟動

為了獲取高質量的冷啟動訓練數據,Keye-VL-1.5提出了一個全面的五步自動化流水線來生成高質量長鏈思考數據。首先從多個挑戰性領域收集多模態問答數據,并使用專有模型進行問題重寫和任務合并以增加復雜性;然后為每個問答對生成多個推理軌跡并量化模型置信度;接著實施雙層質量評估框架,同時評估答案正確性和推理過程有效性,將樣本分為高質量(A類)、中等質量(B類)和低質量(C類)三個等級;對于B類樣本和部分A類樣本,采用人工指導的改進過程來提升推理質量;最后實施五點質量評分系統和自適應數據利用策略,讓高質量樣本在訓練中被更頻繁使用。

Stage 3:迭代通用強化學習

使用GSPO算法進行可驗證獎勵強化學習訓練,采用漸進提示采樣處理困難樣本(對于模型多次rollout都回答不對的樣本,在prompt中給予不同程度的提示),通過多輪迭代持續優化模型推理能力。這個階段和long cot sft迭代進行,使用RL模型 rollout更好的response(reward model 打分)進行SFT,然后使用SFT模型進行下一階段的RL數據篩選與訓練。

Stage 4:對齊強化學習

重點增強模型在指令遵循(生成滿足用戶內容、格式、長度要求的回應),instruction following(確保回應符合預定義格式如思考-回答等模式)和偏好對齊(提高開放式問題回應的可靠性和交互性)三個維度的能力。

四、實驗效果

Keye-VL在多模態AI領域取得突破性進展

在通用視覺語言任務中,該模型在思考模式下于MMMUval和OpenCompass等大規模基準測試中分別獲得71.4%和79.5%的同等scale的業界最佳成績,在ZeroBenchsub和MMVP等挑戰性測試中同樣表現卓越,并在HallusionBench中實現62.7%準確率,顯著降低AI幻覺現象。在視頻理解領域,Keye-VL表現更佳,在Video-MMMU測試中達到了66分,充分證明了其在視頻內容理解方面的技術優勢。

圖片


Keye-VL內部人工基準測試顯示顯著性能提升

為了全面評估模型能力,快手Keye團隊構建了嚴格的內部視頻評估基準,解決了公開基準測試存在的任務覆蓋有限、問題格式過于簡化、答案方法受限、數據污染風險和語言文化偏見等問題。該基準涵蓋視覺元素識別、推理能力、時序信息理解、基于知識的問答、描述能力、魯棒性、創造能力和領域專業知識八個維度,采用多模型對比評估和GSB偏好選擇的評分方法。

評估結果顯示,Keye-VL-1.5-8B取得了顯著的性能提升:總體綜合得分達到3.53,相比Keye-VL-Preview提升0.51分,在正確性(+0.57)和完整性(+0.25)方面表現尤為突出。與行業基準MiMoVL-7B-RL-2508的直接對比中,Keye-VL-1.5-8B獲得更高的總體得分(3.53對3.40),在正確性方面領先0.19分。詳細能力分析顯示,該模型在推理能力(3.81)、時序信息理解(3.36)和魯棒性(4.29)方面表現卓越,其中魯棒性相比競品領先0.83分,充分證明了模型在處理復雜分析任務和保持穩定性能方面的強大優勢。相比前版本,模型在基礎視覺理解能力方面建立了堅實基礎,視覺元素識別提升0.35分,推理能力提升1.00分,時序信息理解提升0.77分,為處理復雜多模態推理任務提供了強大的技術支撐。

圖片

展望未來,依托快手在短視頻領域深厚的技術積累,Kwai Keye-VL 在視頻理解方面具備獨特優勢。該模型的發布與開源,標志著多模態大語言模型在視頻理解新紀元的探索邁出了堅實一步。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/921705.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/921705.shtml
英文地址,請注明出處:http://en.pswp.cn/news/921705.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

洗完頭后根據個人需求選擇合適的自然風干 | 電吹風 (在保護發質的同時,也能兼顧到生活的便利和舒適。)

文章目錄 引言 I 選合適的方式讓頭發變干 時間充裕,不需要做造型,選擇自然風干 使用電吹風,比較推薦的做法 II 自然風干 天冷可能刺激頭皮 III 電吹風吹干 容易造型 影響頭皮健康 損傷發質 科普 頭皮的微觀結構 頭發絲 引言 吹風吹干:容易造型,但損傷發質、影響頭皮健康 …

GPS汽車限速器有哪些功能?主要運用在哪里?

GPS 汽車限速器是一種結合全球衛星定位(GPS)技術、車速采集技術與車輛控制 / 預警邏輯的設備,核心目標是通過技術手段限制車輛行駛速度,減少超速引發的交通事故,并輔助車輛管理。其功能與應用場景高度匹配不同用戶的 “…

Python從入門到精通_01_python基礎

1 源代碼格式在python文件的第一行,輸入以下語句,可以將python文件的編碼格式設置為utf-8#-*- coding:utf-8 -*-2 輸入輸出input():輸入,無論輸入的是什么類型數據,最后都是字符串類型print(*args, sep , end\n, fileNone, flushF…

使用CI/CD部署項目(前端Nextjs)

寫在前面:在github上使用CI/CD部署Nextjs項目,具體配置可以按照自己的實際的修改 這是我的項目配置,僅供參考 后端項目可以參考:使用CI/CD部署后端項目 正文開始 項目名(PROJECT_NAME)- CI/CD 部署指南…

Java全棧工程師面試實錄:從基礎到實戰的全面解析

Java全棧工程師面試實錄:從基礎到實戰的全面解析 面試官:李明(資深技術負責人) 應聘者:張宇(28歲,碩士學歷,5年開發經驗) 第一輪:Java語言與JVM基礎 李明&…

C#中解析XML時遇到注釋節點報錯

在C#中解析XML時遇到注釋節點報錯的問題&#xff0c;這是因為XML注釋節點&#xff08;<!-- -->&#xff09;是特殊的節點類型。當遍歷XML節點時&#xff0c;注釋節點也會被包含在內&#xff0c;但它們不能像普通元素節點那樣處理。 解決方案 方法1&#xff1a;跳過注釋節…

9.3深度循環神經網絡

目前為止&#xff0c;只討論了具有一個單向隱藏層的循環神經網絡&#xff0c;其中隱變量和觀測值域具體的函數形式的交互方式是相當隨意的。只要交互類型建模具有足夠的靈活性&#xff0c;不是一個單問題。然而&#xff0c;對一個單層來說&#xff0c;可能具有相當的挑戰性。之…

CSS in JS 的演進:Styled Components, Emotion 等的深度對比與技術選型指引

CSS in JS 的演進&#xff1a;Styled Components, Emotion 等的深度對比與技術選型指引在現代前端開發中&#xff0c;組件化思維已成為主流&#xff0c;而如何科學、高效地管理組件的樣式&#xff0c;也隨之成為了一個重要議題。CSS in JS&#xff08;JS中的CSS&#xff09;應運…

【正則表達式】 正則表達式的分組和引用

?? 個人主頁:(時光煮雨) ?? 高質量專欄:vulnhub靶機滲透測試 ?? 希望得到您的訂閱和支持~ ?? 創作高質量博文(平均質量分95+),分享更多關于網絡安全、Python領域的優質內容!(希望得到您的關注~) ??目錄?? 前言 ??一、基本語法 ??二、分組類型 ??2.1.…

Grafana 導入儀表盤失敗:從日志排查到解決 max\_allowed\_packet 問題

問題背景 近期在為項目搭建一套基于 Prometheus 和 Grafana 的可觀測性體系。在完成基礎部署后&#xff0c;我準備導入一個功能相對復雜的官方儀表盤模板&#xff0c;以便快速監控各項指標。然而&#xff0c;當上傳儀表盤的 JSON 文件并點擊保存時&#xff0c;Grafana 界面卻反…

java對接物聯網設備(一)——使用okhttp網絡工具框架對接標準API接口

當前無論是在互聯網領域&#xff0c;還是物聯網項目下&#xff0c;亦或者各類應用類軟件&#xff0c;基于http標準接口的對接是目前市面上最常見也是最簡單的數據交互方式之一&#xff0c;甚至可以說是最流行的&#xff0c;因為它不依賴的各種插件或者服務。 開發者或者提供服…

版本管理系統與平臺(權威資料核對、深入解析、行業選型與國產平臺補充)

本文是一篇基于公開權威資料&#xff08;官方文檔、產品頁、廠商技術文章與技術社區討論&#xff09;重新檢索、核對后撰寫的詳盡博文。內容覆蓋&#xff1a;版本控制基礎、主流 VCS 工具深度比較、常見托管/協作平臺&#xff08;含中國本土平臺&#xff1a;Gitee / GitCode / …

計算機畢設選題:基于Python+Django的B站數據分析系統的設計與實現【源碼+文檔+調試】

精彩專欄推薦訂閱&#xff1a;在 下方專欄&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; &#x1f496;&#x1f525;作者主頁&#xff1a;計算機畢設木哥&#x1f525; &#x1f496; 文章目錄 一、項目介紹二…

Easy ES技術詳解

從Java代碼示例到高級特性 框架介紹 Easy-Es 是一款以 “簡化 Elasticsearch 操作的 ORM 框架” 為核心定位的開源工具&#xff0c;旨在通過低代碼設計降低 Elasticsearch 的使用門檻。作為國內 Top1 Elasticsearch 搜索引擎框架&#xff0c;其最顯著的優勢在于大幅縮減代碼量…

【51單片機】【protues仿真】基于51單片機停車場的車位管理系統

目錄 一、主要功能 二、使用步驟 三、硬件資源 四、軟件設計 五、實驗現象 一、主要功能 1、LCD1602液晶顯示 2、統計并顯示停車場現有車輛數和已停放過車輛數 3、按鍵設置總車位數以及剩余車位數 4、統計并顯示累計駛入和累計駛出車輛數 5、用16個LED燈模擬停車位 6、車…

【Python】S1 基礎篇 P4 if 語句指南

目錄簡單示例條件測試檢查是否相等與不等檢查多個條件檢查特定的值是否在/不在列表中布爾表達式if語句簡單的if語句if-else語句if-elif-else語句使用if語句處理列表檢查特殊元素確定列表非空使用多個列表總結if 語句是Python編程中最基本也是最重要的控制結構之一。它允許程序根…

【實戰中提升自己】內網安全部署之STP的安全技術部署

1 1拓撲 「模擬器、工具合集」復制整段內容 鏈接&#xff1a;https://docs.qq.com/sheet/DV0xxTmFDRFVoY1dQ?tab7ulgil1 STP的安全技術部署 說明&#xff1a;為什么需要注意STP的安全呢&#xff0c;在二層中其實存在很多不安全的因素&#xff0c;物理上…

GEM5學習(5): ARM 架構功耗仿真

運行腳本基于gem5提供的腳本&#xff0c;啟動功耗仿真。實際工作中應該不會用gem5進行功耗的仿真吧&#xff0c;Cadence和Synopsys好像都有配套的的功耗建模工具。事先要配置好 IMG_ROOT的環境變量./build/ARM/gem5.opt configs/example/arm/fs_power.py \--caches \--bootl…

【Python基礎】 19 Rust 與 Python if 語句對比筆記

一、基本語法對比 Rust if 語句 // 基本形式 let number 7;if number < 5 {println!("condition was true"); } else {println!("condition was false"); }// 多條件 else if if number % 4 0 {println!("number is divisible by 4"); } el…

Vue項目_項目配置腳本代碼詳細講解

Vue項目代碼詳細講解 1. jsconfig.json - JavaScript配置文件 {"compilerOptions": { // 編譯器選項配置"target": "es5", // 編譯目標&#xff1a;將代碼編譯為ES5版本&#xff0c;確保更好的瀏覽器兼容性"module": "esnext…