快手Keye-VL 1.5開源128K上下文+0.1秒級視頻定位+跨模態推理,引領視頻理解新標桿

人工智能和多模態學習領域,視頻理解技術的突破為各類應用提供了強大的支持。快手近期開源了其創新性的大型多模態推理模型——Keye-VL 1.5,該模型具備超長的上下文窗口、0.1秒級的視頻時序定位能力,并支持視頻與文本之間的跨模態推理。這一技術的發布,標志著視頻理解和智能推理能力的新高峰。

Keye-VL 1.5:全面提升視頻理解與推理能力

Keye-VL 1.5的優勢主要體現在三個方面:

  1. 128K上下文窗口:?Keye-VL 1.5通過創新的Slow-Fast雙路編碼機制,支持128K超長的上下文窗口,使得模型能夠在處理視頻內容時考慮到更多的歷史信息,從而提高視頻理解的深度和準確性。
  2. 0.1秒級視頻時序定位:?該模型能夠精確到0.1秒的粒度識別視頻中物品或場景的出現時刻。這一時序能力極大提升了視頻內容的精確度,尤其適用于帶貨視頻等短視頻場景,能夠準確判斷關鍵事件發生的具體時刻。
  3. 跨模態推理:?除了基本的視頻理解,Keye-VL 1.5還能夠進行跨模態推理,結合視頻內容和文本信息推斷出可能的后續事件,提供更加完整的事件鏈分析。例如,在視頻中,模型能夠根據寵物之間的互動推測出行為背后的原因。
技術創新:快慢編碼與多階段預訓練

Keye-VL 1.5不僅僅是在視頻理解上做出了突破,還通過以下技術創新提升了模型的整體性能:

  • 快慢編碼機制:?Keye-VL 1.5采用了“快幀”和“慢幀”兩種處理策略。快幀用于靜態場景的高幀率處理,慢幀則保留高分辨率細節,確保在高效運算的同時保留關鍵圖像信息。這一策略讓模型在不犧牲速度的情況下,提高了計算效率。
  • 四階段漸進式預訓練:?Keye-VL 1.5的訓練過程經歷了四個階段,從視覺編碼器的預訓練到跨模態對齊,再到多任務優化和退火訓練,最終使得模型能夠在多個視頻理解基準測試中超越同類模型。
在多個基準測試中領先,開創視頻理解新標準

Keye-VL 1.5在多個公開基準測試中表現出色,獲得了視頻理解領域的多個SOTA(state-of-the-art)成績。在Video-MMETempCompassLongVideoBench等測試中,Keye-VL 1.5均表現超越Qwen2.5-VL 7B等同類模型。特別是在MMBenchOpenCompass等基準中,Keye-VL 1.5的成績在同尺寸模型中遙遙領先。

此外,Keye-VL 1.5也在AI2DOCRBench等視覺推理強相關的數據集中表現突出,充分展示了其在圖像和視頻理解方面的強大能力。

如何實現這些突破:Keye團隊的技術積淀

Keye-VL 1.5的突破離不開Keye團隊在多模態學習和視頻理解方面的深厚積累。團隊利用ViT(視覺Transformer)結合語言解碼器的架構,并引入了3DRoPESlow-Fast編碼等技術,使得模型能夠同時處理高分辨率和高幀率的視頻內容,確保信息的完整性和時序的精準度。

模型權重與在線演示

快手已經將Keye-VL 1.5的模型權重公開,并提供了基于Hugging Face平臺的在線演示。研究人員和開發者可以輕松訪問和測試該模型,以驗證其在實際應用中的表現。

  • 模型權重:?Keye-VL 1.5-8B模型權重
  • 在線演示:?Keye-VL 1.5在線DEMO
總結

隨著快手Keye-VL 1.5的開源,視頻理解和跨模態推理技術邁上了新的臺階。憑借其強大的時序定位、跨模態推理和創新性編碼策略,Keye-VL 1.5為智能視頻分析提供了新的技術框架,并為各類短視頻應用場景,如電商帶貨、智能剪輯、視頻搜索等,提供了強有力的技術支撐。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/95549.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/95549.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/95549.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【前端教程】JavaScript 實現圖片鼠標懸停切換效果與==和=的區別

圖片鼠標懸停切換效果 功能說明 頁面展示4張默認圖片,當鼠標移動到任意一張圖片上時,該圖片會切換為對應的特定圖片(詩、書、畫、唱);當鼠標移出時,圖片恢復為默認圖片。 和的區別 在講解案例前&#xff0c…

ss 原理

SSR(服務端渲染)技術文檔 一、SSR 概述 SSR(Server-Side Rendering,服務端渲染)是一種在服務端生成完整 HTML 頁面,再發送給客戶端渲染的前端渲染模式。與 CSR(客戶端渲染,如 React/…

chrome 瀏覽器開發者工具技巧

$0 我們在開發者工具里面選中了哪個元素,他后面都會跟一個$0 ,則表示 $0 就是選擇這個標簽元素 如圖:

GJOI 9.4 題解

1.CF1801B Buy Gifts / 洛谷 P13532 買禮物 題意 n≤2105n\le 2\times 10^5n≤2105。 思路 神秘卡常題,如果等待提交記錄久一點就能知道自己 A 掉…… 題目問 A 的最大值,減去 B 的最大值,求差值最小值。但是怎么選到兩個最大值呢&#x…

Git 工具的「安裝」及「基礎命令使用」

- 第 119 篇 - Date: 2025 - 09 - 05 Author: 鄭龍浩(仟墨) Git 工具的「安裝」及「基礎命令使用」 學習課程:https://www.bilibili.com/video/BV1MU4y1Y7h5?spm_id_from333.788.player.switch&vd_source2683707f584c21c57616cc6ce8454e…

2025高教社數學建模國賽A題 - 煙幕干擾彈的投放策略(完整參考論文)

基于模擬遺傳退火的煙幕彈投遞方式的研究 摘要 煙幕干擾彈作為一種具有成本低、效費比高等優點的典型防御手段,主要通過化學燃燒或爆炸分散形成氣溶膠云團,在目標前方特定空域形成有效遮蔽,從而干擾敵方導彈攻擊路徑。隨著精確投放技術的發展,現可利用無人機實現煙幕干擾…

[源力覺醒 創作者計劃]_文心一言 4.5開源深度解析:性能狂飆 + 中文專精

文章目錄[源力覺醒 創作者計劃]_文心一言 4.5開源深度解析:性能狂飆 中文專精一. 部署實戰:單卡環境的極速落地1.1 🖥? 環境配置の手把手教程 📝部署準備:硬件與鏡像依賴安裝:一行代碼搞定1.2 🚀 模型啟動…

開發微服務的9個最佳實踐

微服務架構是一種演進的模式,從根本上改變了服務器端代碼的開發和管理方式。這種架構模式涉及將應用程序設計和開發為松散耦合服務的集合,這些服務通過定義良好的輕量級 API 進行交互以滿足業務需求。它旨在通過促進持續交付和開發來幫助軟件開發公司加速…

Karmada v1.15 版本發布

Karmada 是開放的多云多集群容器編排引擎,旨在幫助用戶在多云環境下部署和運維業務應用。憑借兼容 Kubernetes 原生 API 的能力,Karmada 可以平滑遷移單集群工作負載,并且仍可保持與 Kubernetes 周邊生態工具鏈協同。 Karmada v1.15 版本現已…

[GYCTF2020]Ezsqli

文章目錄測試過濾找注入點布爾盲注無列名盲注總結測試過濾 xor for distinct information handler binary floor having join pg_sleep bp測試出來禁用了這些。 找注入點 查詢回顯推斷1Nu1Labool(false)1’bool(false)1’#bool(false)不是單引號包裹1"#bool(false)沒有引…

Agno 多 Agent 協作框架 - 手把手從零開始教程

本教程將帶你從零開始,一步步構建一個完整的多 Agent 協作系統。每一步都有詳細的代碼示例和解釋,讓你真正理解 Agno 框架的工作原理。第一步:創建你的第一個 Agent 讓我們從最簡單的開始 - 創建一個能回答問題的 Agent。 1.1 創建基礎文件 首…

數據庫查詢優化

這篇文章適合剛剛入手項目的小伙伴,為大家如何提高數據庫查詢效率提供一些建議。1.添加索引1.1 索引是什么對于索引基礎薄弱的同學,我們可以從 “索引是什么” 簡單類比:索引就像書籍的目錄,能幫數據庫快速定位到需要的數據&#…

安徽大學概率論期末試卷及答案解析

本文還有配套的精品資源,點擊獲取 簡介:安徽大學的概率論課程圍繞隨機現象的規律性,覆蓋了多個核心概念,如隨機事件的概率、條件概率、獨立事件、概率分布、期望值、方差、大數定律和中心極限定理。本資源包含期末試卷及答案&a…

HarmonyOS應用開發之界面列表不刷新問題Bug排查記:從現象到解決完整記錄

Bug排查在軟件開發過程中扮演著至關重要的角色,本文采用日記形式記錄了Bug排查的全過程,通過這種方式可以更加真實、詳細地記錄問題,便于后續追溯和經驗沉淀。 Bug背景 在使用HarmonyOS的ArkUI框架開發一個卡片管理應用時,遇到了…

FastVLM-0.5B 模型解析

模型介紹 FastVLM(Fast Vision-Language Model)是蘋果團隊于2025年在CVPR會議上提出的高效視覺語言模型,專為移動設備(如iPhone、iPad、Mac)優化,核心創新在于通過全新設計的 FastViTHD混合視覺編碼器 解決…

集成學習 | MATLAB基于CNN-LSTM-Adaboost多輸入單輸出回歸預測

集成學習 | MATLAB基于CNN-LSTM-Adaboost多輸入單輸出回歸預測 一、主要功能 該代碼使用 CNN 提取特征,LSTM 捕捉時序依賴,并通過 AdaBoost 集成多個弱學習器(每個弱學習器是一個 CNN-LSTM 網絡),最終組合成一個強預測器,用于回歸預測任務。代碼完成了從數據預處理、模型…

關于Homebrew:Mac快速安裝Homebrew

關于macOS 安裝HomebrewHomebrewHomebrew介紹Homebrew 官網地址Homebrew 能安裝什么?Mac上安裝Homebrew主要步驟:打開終端,執行官網安裝腳本注意遇到問題①:腳本在克隆 Homebrew 核心倉庫時,??無法連接 GitHub??&a…

【前端】使用Vercel部署前端項目,api轉發到后端服務器

文章目錄Vercel是什么概要Vercel部署分為兩種方案:一、使用GitHub構建部署二、通過 Vercel CLI 上傳本地構建資源注意事項轉發API到后端小結Vercel是什么 Vercel是一款專為前端開發者打造的云部署平臺,它支持一鍵部署靜態網站、AI工具和現代Web應用。Ve…

滾珠導軌在工業制造領域如何實現高效運行?

在工業制造領域中滾珠導軌憑借其高精度、低摩擦、高剛性等特點,被廣泛應用于多種設備和場景,并在設備性能中起著關鍵作用,以下是具體應用:加工中心:滾珠導軌用于加工中心的工作臺和主軸箱等部件的移動,能保…

大基座模型與 Scaling Law:AI 時代的邏輯與困境

一、背景:為什么大模型一定要“做大”? 在人工智能的發展歷程中,有一個不容忽視的“鐵律”:更大的模型往往意味著更強的性能。從 GPT-2 到 GPT-4,從 BERT 到 PaLM,從 LLaMA 到 Claude,每一代的…