【英偉達AI論文】多模態大型語言模型的高效長視頻理解

摘要:近年來,基于視頻的多模態大型語言模型(Video-LLMs)通過將視頻處理為圖像幀序列,顯著提升了視頻理解能力。然而,許多現有方法在視覺主干網絡中獨立處理各幀,缺乏顯式的時序建模,這限制了它們捕捉動態模式并高效處理長視頻的能力。為了解決這些局限,我們提出了STORM(多模態大型語言模型的時空令牌縮減方法),這是一種在圖像編碼器和大型語言模型之間集成專用時序編碼器的新穎架構。我們的時序編碼器利用Mamba狀態空間模型,將時序信息整合到圖像令牌中,生成富含信息的表示,這些表示在整個視頻序列中保留了幀間動態。這種豐富的編碼不僅增強了視頻推理能力,還實現了有效的令牌縮減策略,包括測試時采樣和基于訓練的時序與空間池化,從而在不顯著犧牲關鍵時序信息的情況下,大幅降低了大型語言模型的計算需求。通過集成這些技術,我們的方法同時減少了訓練和推理延遲,并提高了性能,使得在長時間上下文中能夠實現高效且穩健的視頻理解。大量評估表明,STORM在各種長視頻理解基準測試中取得了最先進的結果(在MLVU和LongVideoBench上提升了超過5%),同時將計算成本降低了多達8倍,在固定輸入幀數的情況下,解碼延遲降低了2.4-2.9倍。項目頁面請訪問:Token-Efficient Long Video Understanding for Multimodal LLMs。Huggingface鏈接:Paper page,論文鏈接:2503.04130

研究背景和目的

研究背景

隨著多媒體內容的爆炸式增長,尤其是視頻數據的激增,如何高效且準確地理解和分析視頻內容成為了一個重要而具有挑戰性的任務。視頻理解技術廣泛應用于智能監控、內容推薦、自動駕駛、視頻搜索等多個領域。近年來,基于視頻的多模態大型語言模型(Video-LLMs)在視頻理解方面取得了顯著進展。這些模型通過將視頻處理為圖像幀序列,并利用預訓練的大型語言模型(LLMs)進行時序推理,顯著提升了視頻理解的能力。

然而,盡管現有的Video-LLMs在視頻理解方面取得了不錯的效果,但它們仍存在一些局限性。特別是在處理長視頻時,這些方法往往獨立地處理每一幀圖像,缺乏顯式的時序建模能力。這種處理方式限制了模型捕捉動態模式和高效處理長視頻的能力。此外,由于LLMs的上下文長度限制,直接處理長視頻幀序列會導致計算成本過高,嚴重影響模型的效率和可擴展性。

研究目的

針對上述問題,本研究旨在提出一種新的方法,以提高長視頻理解的高效性和準確性。具體研究目的包括:

  1. 引入顯式的時序建模:通過在視頻編碼器和大型語言模型之間集成一個專用的時序編碼器,以捕捉視頻中的時序動態,從而增強模型的視頻推理能力。
  2. 實現高效的令牌縮減:開發有效的令牌縮減策略,以減少輸入到LLMs的令牌數量,從而降低計算成本并提高推理速度。
  3. 提升長視頻理解能力:通過結合上述技術,實現在長時間上下文中對視頻內容的高效且穩健的理解,并在多個長視頻理解基準測試上取得優異的表現。

研究方法

總體架構

本研究提出了STORM(Spatiotemporal TOken Reduction for Multimodal LLMs)方法,該方法在圖像編碼器和大型語言模型之間引入了一個基于Mamba狀態空間模型的時序編碼器。整體架構如圖2所示,包括以下幾個關鍵組件:

  1. 圖像編碼器:用于將視頻幀轉換為圖像令牌。本研究采用SigLIP作為圖像編碼器。
  2. Mamba時序編碼器:通過應用Mamba狀態空間模型,將時序信息整合到圖像令牌中,生成富含信息的表示。這些表示不僅保留了幀內空間信息,還捕捉了幀間時序動態。
  3. 令牌縮減模塊:包括訓練時的時序池化和空間池化,以及測試時的時序令牌采樣。這些策略顯著減少了輸入到LLMs的令牌數量,同時盡可能保留了關鍵信息。
  4. 大型語言模型:用于處理縮減后的令牌序列,執行時序推理以理解視頻內容。

Mamba時序編碼器

Mamba狀態空間模型是一種條件狀態空間模型,能夠根據輸入動態調整其參數,從而更靈活地建模序列數據。在STORM中,Mamba時序編碼器通過雙向時空掃描模塊,同時捕捉視頻幀內的空間依賴關系和幀間的時序依賴關系。這種掃描方式不僅提高了模型的時序建模能力,還為后續的令牌縮減提供了富含信息的令牌。

令牌縮減策略

  • 時序池化:通過對連續幀的令牌進行平均池化,減少時序維度上的令牌數量。這種方法有效降低了計算成本,同時保留了關鍵的時序信息。
  • 空間池化:對每個幀內的令牌進行平均池化,減少空間維度上的令牌數量。這種方法進一步降低了計算成本,并在某些任務上取得了不錯的效果。
  • 時序令牌采樣:在測試時,通過均勻采樣時序維度上的令牌,進一步減少輸入到LLMs的令牌數量。這種方法不僅提高了推理速度,還在某些情況下提升了模型性能。

研究結果

定量評估

本研究在多個長視頻理解基準測試上對STORM進行了評估,包括MVBench、MLVU、LongVideoBench和VideoMME等。實驗結果表明,STORM在所有這些基準測試上都取得了最先進的結果,顯著超過了現有的Video-LLMs方法。特別是在MLVU和LongVideoBench上,STORM的準確率提升了超過5%。

此外,本研究還評估了不同令牌縮減策略的效果。實驗結果表明,時序池化和空間池化在訓練時顯著減少了輸入到LLMs的令牌數量,從而降低了計算成本。而測試時的時序令牌采樣則在保持或提升模型性能的同時,進一步提高了推理速度。

定性評估

本研究還通過定性評估展示了STORM在長視頻理解方面的優勢。如圖9所示,在處理一個描述“月球墜落災難”的短片時,STORM能夠提供更詳細和連貫的視頻敘事摘要,準確捕捉了關鍵事件和過渡,展示了其在長視頻理解方面的強大能力。

此外,本研究還通過示例視頻展示了STORM在OCR、屬性感知、空間感知、信息摘要和時序推理等多個方面的視頻理解能力。如圖11至圖13所示,即使面對復雜的查詢問題,STORM也能夠準確提取視頻中的相關信息,并生成符合要求的答案。

研究局限

盡管STORM在長視頻理解方面取得了顯著進展,但仍存在一些局限性:

  1. 模型復雜性:引入Mamba時序編碼器增加了模型的復雜性,可能導致訓練難度增加和計算成本上升。盡管本研究通過令牌縮減策略降低了計算成本,但如何在保持模型性能的同時進一步簡化模型結構仍是一個挑戰。
  2. 數據集限制:當前的長視頻理解基準測試數據集在規模和多樣性方面仍有一定限制。為了訓練出更加魯棒和泛化能力更強的模型,需要更大規模、更多樣化的數據集。
  3. 時序令牌采樣的局限性:盡管測試時的時序令牌采樣在提高推理速度方面表現優異,但在某些任務上可能會導致信息損失。如何平衡推理速度和模型性能仍是一個需要深入研究的問題。

未來研究方向

針對上述研究局限,未來可以從以下幾個方面開展進一步研究:

  1. 模型優化:探索更高效的模型結構和訓練方法,以降低模型的復雜性并提高訓練效率。同時,可以研究如何在保持模型性能的同時進一步減少計算成本。
  2. 數據集擴展:構建更大規模、更多樣化的長視頻理解基準測試數據集,以訓練出更加魯棒和泛化能力更強的模型。此外,還可以研究如何利用合成數據或弱監督學習方法來擴展數據集。
  3. 時序令牌采樣策略改進:研究更加智能的時序令牌采樣策略,以在保持模型性能的同時進一步提高推理速度。例如,可以結合注意力機制或強化學習方法來動態調整采樣策略。
  4. 多模態融合:除了視覺信息外,還可以探索如何融合音頻、文本等其他模態的信息來提高視頻理解能力。例如,可以利用多模態預訓練模型來同時處理視頻幀、音頻和字幕等信息。
  5. 實時視頻理解:針對實時應用場景的需求,研究如何在保持模型性能的同時實現更高效的實時視頻理解。例如,可以結合邊緣計算或分布式計算等技術來降低推理延遲。

綜上所述,本研究提出的STORM方法在多模態大型語言模型的高效長視頻理解方面取得了顯著進展。然而,為了實現更加高效、準確和魯棒的視頻理解技術,未來仍需要進一步的研究和探索。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/73173.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/73173.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/73173.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

無障礙閱讀(Web Accessibility)NVDA打開朗讀查看器后,enter鍵不生效的原因

用NVDA測試Web Accessibility時,打開朗讀查看器,enter鍵會無效,而不打開測試器,就沒有問題,很大原因是被應用的元素不是可聚焦的,解決方法嘗試: 將標簽改為可聚焦的語義化標簽,如 b…

2Android中的AIDL是什么以及如何使用它

一、Android中的AIDL概述 AIDL(Android Interface Definition Language)是Android系統中用于定義和實現跨進程通信(IPC)接口的語言。它允許一個進程向另一個進程發送請求并獲取響應,是Android中實現進程間通信的一種重…

Python繪制數據分析中經典的圖形--列線圖

Python繪制數據分析中經典的圖形–列線圖 列線圖是數據分析中的經典圖形,通過背后精妙的算法設計,展示線性模型(logistic regression 和Cox)中各個變量對于預測結果的總體貢獻(線段長短),另外&…

leetcode【面試經典150系列】(一)

目錄 121.買賣股票最佳時機 題目描述 示例 算法分析 代碼(python3) 122.買賣股票最佳時機II 題目描述 示例 算法分析 代碼(python3) 55.跳躍游戲 題目描述 示例 算法分析 代碼 45.跳躍游戲II 題目描述 示例 算法分析 代碼 121.買賣股票…

為什么會出現redis數據庫?redis是什么?

什么是 Redis? 為什么要用 Redis? 下面我將從 Redis 出現的背景、Redis 的解決方案個來回答。 1、Redis 出現的背景 互聯網的應用越來越多,例如社交網絡、電商、實時服務發展的十分迅速,這就導致了傳統技術棧(如關系型數據庫)…

Windows 11下Git Bash執行cURL腳本400問題、CMD/PowerShell不能執行多行文本等問題記錄及解決方案

問題 在Postman里可成功執行的POST請求: 找到Postman的Code 因為cURL基本上算是行業標準,所以Postman默認選中cURL,支持切換不同的開發語言: 點擊上圖右上角的復制按鈕,得到cURL腳本。 Windows 11家庭版&#xff…

Docker基礎入門(一)

初識Docker 什么是Docker Docker是一個快速交付應用、運行應用的技術: 可以將程序及其依賴、運行環境一起打包為一個鏡像,可以遷移到任意Linux操作系統運行時利用沙箱機制形成隔離容器,各個應用互不干擾啟動、移除都可以通過一行命令完成&…

容器編排革命:從 Docker Run 到 Docker Compose 的進化之路20250309

容器編排革命:從 Docker Run 到 Docker Compose 的進化之路 一、容器化部署的范式轉變 在 Docker 生態系統的演進中,容器編排正從“手動操作”走向“自動化管理”。根據 Docker 官方 2023 年開發者調查報告,78% 的開發者已采用 Docker Compo…

c++ 嵌入匯編的方式實現int型自增

x86/x86_64 實現 x86 平臺上&#xff0c;使用 LOCK XADD 指令來實現原子自增&#xff1a; #include <iostream>inline int atomic_increment_x86(int* value) {int result;__asm__ __volatile__("lock xaddl %1, %0": "m"(*value), "r"(…

區塊鏈與去中心化技術

區塊鏈與去中心化技術 核心進展 區塊鏈從加密貨幣&#xff08;如比特幣&#xff09;擴展至智能合約和供應鏈管理。以太坊2.0引入分片技術提升交易吞吐量&#xff0c;而零知識證明&#xff08;ZKP&#xff09;增強了隱私保護15。企業級應用如IBM的Food Trust平臺通過區塊鏈追蹤…

逐夢DBA:Linux環境下 MySQL 的卸載

1. 查看是否安裝過MySQL&#xff0c;如果不存在&#xff0c;則不顯示任何內容 rpm -qa | grep -i mysql # -i 忽略大小寫 2. 查看MySQL服務狀態 systemctl status mysqld.service 3. 關閉 mysql 服務 systemctl stop mysqld.service 4. 查看當前 mysql 卸載狀況 rpm -qa…

【藍橋杯python研究生組備賽】003 貪心

題目1 股票買賣 給定一個長度為 N 的數組&#xff0c;數組中的第 i 個數字表示一個給定股票在第 i 天的價格。 設計一個算法來計算你所能獲取的最大利潤。你可以盡可能地完成更多的交易&#xff08;多次買賣一支股票&#xff09;。 注意&#xff1a;你不能同時參與多筆交易&…

網絡通信Socket中多態HandleIO設計模式深度解析

網絡通信 Socket 中多態 handleIO 詳細講解 大綱 引言 網絡通信的重要性Socket 編程在網絡通信中的地位多態 handleIO 的意義和作用 Socket 編程基礎 Socket 的基本概念Socket 的類型&#xff08;TCP 和 UDP&#xff09;Socket 編程的基本流程 多態的概念與實現 多態的定義和…

flutter 如何與原生框架通訊安卓 和 ios

在 Flutter 中與原生框架&#xff08;Android 和 iOS&#xff09;進行通信的主要方式是通過 **平臺通道&#xff08;Platform Channels&#xff09;**。平臺通道允許 Flutter 代碼與原生代碼進行雙向通信。以下是詳細的步驟和示例&#xff0c;說明如何在 Flutter 中與 Android …

LabVIEW VI Scripting實現連接器窗格自動化

通過VI Scripting自動化配置連接器窗格&#xff0c;可大幅提升開發效率、統一接口規范&#xff0c;并適配動態需求。以下為真實場景中的典型應用案例&#xff0c;涵蓋工業、汽車電子及教育領域&#xff0c;展示其實際價值與實施效果。 特點&#xff1a; 程序化配置&#xff1a;…

1-001:MySQL的存儲引擎有哪些?它們之間有什么區別?

MySQL 存儲引擎 ├── InnoDB&#xff08;默認引擎&#xff09; │ ├── 事務支持&#xff1a;支持 ACID 和事務&#xff08;事務日志、回滾、崩潰恢復&#xff09; │ ├── 鎖機制&#xff1a;支持行級鎖&#xff0c;提高并發性能 │ ├── 外鍵支持&#xff1a;支持外鍵…

package.json 依賴包約束及快速刪除node_modules

文章目錄 一、package.json版本約束1、初始項目安裝2. 已有 yarn.lock 文件的項目安裝3. 特殊情況手動修改 package.json 版本&#xff1a;使用 yarn upgrade 命令&#xff1a; 二、快速刪除node_modules三、depcheck 檢測npm未使用的依賴 一、package.json版本約束 1、初始項…

Redis Sentinel (哨兵模式)深度解析:構建高可用分布式緩存系統的核心機制

一、傳統主從復制的痛點 在分布式系統架構中&#xff0c;Redis 作為高性能緩存和數據存儲解決方案&#xff0c;其可用性直接關系到整個系統的穩定性。傳統的主從復制架構雖然實現了數據冗余&#xff0c;但在面臨節點故障時仍存在明顯缺陷&#xff1a; ?手動故障轉移&#xf…

[免費]微信小程序(圖書館)自習室座位預約管理系統(SpringBoot后端+Vue管理端)(高級版)【論文+源碼+SQL腳本】

大家好&#xff0c;我是java1234_小鋒老師&#xff0c;看到一個不錯的微信小程序(圖書館)自習室座位預約管理系統(SpringBoot后端Vue管理端)(高級版)&#xff0c;分享下哈。 項目視頻演示 【免費】微信小程序(圖書館)自習室座位預約管理系統(SpringBoot后端Vue管理端)(高級版…

微服務架構下的 Node.js

Node.js 在微服務架構中的特點 輕量級和高效性 Node.js 以其輕量級和高效的特點&#xff0c;非常適合構建微服務架構。它具有事件驅動和非阻塞 I/O 模型&#xff0c;能夠在處理高并發請求時表現出色。這意味著 Node.js 可以同時處理大量的并發連接&#xff0c;而不會因為阻塞…