【英偉達AI論文】多模態大型語言模型的高效長視頻理解

摘要：近年來，基于視頻的多模態大型語言模型（Video-LLMs）通過將視頻處理為圖像幀序列，顯著提升了視頻理解能力。然而，許多現有方法在視覺主干網絡中獨立處理各幀，缺乏顯式的時序建模，這限制了它們捕捉動態模式并高效處理長視頻的能力。為了解決這些局限，我們提出了STORM（多模態大型語言模型的時空令牌縮減方法），這是一種在圖像編碼器和大型語言模型之間集成專用時序編碼器的新穎架構。我們的時序編碼器利用Mamba狀態空間模型，將時序信息整合到圖像令牌中，生成富含信息的表示，這些表示在整個視頻序列中保留了幀間動態。這種豐富的編碼不僅增強了視頻推理能力，還實現了有效的令牌縮減策略，包括測試時采樣和基于訓練的時序與空間池化，從而在不顯著犧牲關鍵時序信息的情況下，大幅降低了大型語言模型的計算需求。通過集成這些技術，我們的方法同時減少了訓練和推理延遲，并提高了性能，使得在長時間上下文中能夠實現高效且穩健的視頻理解。大量評估表明，STORM在各種長視頻理解基準測試中取得了最先進的結果（在MLVU和LongVideoBench上提升了超過5%），同時將計算成本降低了多達8倍，在固定輸入幀數的情況下，解碼延遲降低了2.4-2.9倍。項目頁面請訪問：Token-Efficient Long Video Understanding for Multimodal LLMs。Huggingface鏈接：Paper page，論文鏈接：2503.04130

研究背景和目的

研究背景

隨著多媒體內容的爆炸式增長，尤其是視頻數據的激增，如何高效且準確地理解和分析視頻內容成為了一個重要而具有挑戰性的任務。視頻理解技術廣泛應用于智能監控、內容推薦、自動駕駛、視頻搜索等多個領域。近年來，基于視頻的多模態大型語言模型（Video-LLMs）在視頻理解方面取得了顯著進展。這些模型通過將視頻處理為圖像幀序列，并利用預訓練的大型語言模型（LLMs）進行時序推理，顯著提升了視頻理解的能力。

然而，盡管現有的Video-LLMs在視頻理解方面取得了不錯的效果，但它們仍存在一些局限性。特別是在處理長視頻時，這些方法往往獨立地處理每一幀圖像，缺乏顯式的時序建模能力。這種處理方式限制了模型捕捉動態模式和高效處理長視頻的能力。此外，由于LLMs的上下文長度限制，直接處理長視頻幀序列會導致計算成本過高，嚴重影響模型的效率和可擴展性。

研究目的

針對上述問題，本研究旨在提出一種新的方法，以提高長視頻理解的高效性和準確性。具體研究目的包括：

引入顯式的時序建模：通過在視頻編碼器和大型語言模型之間集成一個專用的時序編碼器，以捕捉視頻中的時序動態，從而增強模型的視頻推理能力。
實現高效的令牌縮減：開發有效的令牌縮減策略，以減少輸入到LLMs的令牌數量，從而降低計算成本并提高推理速度。
提升長視頻理解能力：通過結合上述技術，實現在長時間上下文中對視頻內容的高效且穩健的理解，并在多個長視頻理解基準測試上取得優異的表現。

研究方法

總體架構

本研究提出了STORM（Spatiotemporal TOken Reduction for Multimodal LLMs）方法，該方法在圖像編碼器和大型語言模型之間引入了一個基于Mamba狀態空間模型的時序編碼器。整體架構如圖2所示，包括以下幾個關鍵組件：

圖像編碼器：用于將視頻幀轉換為圖像令牌。本研究采用SigLIP作為圖像編碼器。
Mamba時序編碼器：通過應用Mamba狀態空間模型，將時序信息整合到圖像令牌中，生成富含信息的表示。這些表示不僅保留了幀內空間信息，還捕捉了幀間時序動態。
令牌縮減模塊：包括訓練時的時序池化和空間池化，以及測試時的時序令牌采樣。這些策略顯著減少了輸入到LLMs的令牌數量，同時盡可能保留了關鍵信息。
大型語言模型：用于處理縮減后的令牌序列，執行時序推理以理解視頻內容。

Mamba時序編碼器

Mamba狀態空間模型是一種條件狀態空間模型，能夠根據輸入動態調整其參數，從而更靈活地建模序列數據。在STORM中，Mamba時序編碼器通過雙向時空掃描模塊，同時捕捉視頻幀內的空間依賴關系和幀間的時序依賴關系。這種掃描方式不僅提高了模型的時序建模能力，還為后續的令牌縮減提供了富含信息的令牌。

令牌縮減策略

時序池化：通過對連續幀的令牌進行平均池化，減少時序維度上的令牌數量。這種方法有效降低了計算成本，同時保留了關鍵的時序信息。
空間池化：對每個幀內的令牌進行平均池化，減少空間維度上的令牌數量。這種方法進一步降低了計算成本，并在某些任務上取得了不錯的效果。
時序令牌采樣：在測試時，通過均勻采樣時序維度上的令牌，進一步減少輸入到LLMs的令牌數量。這種方法不僅提高了推理速度，還在某些情況下提升了模型性能。

研究結果

定量評估

本研究在多個長視頻理解基準測試上對STORM進行了評估，包括MVBench、MLVU、LongVideoBench和VideoMME等。實驗結果表明，STORM在所有這些基準測試上都取得了最先進的結果，顯著超過了現有的Video-LLMs方法。特別是在MLVU和LongVideoBench上，STORM的準確率提升了超過5%。

此外，本研究還評估了不同令牌縮減策略的效果。實驗結果表明，時序池化和空間池化在訓練時顯著減少了輸入到LLMs的令牌數量，從而降低了計算成本。而測試時的時序令牌采樣則在保持或提升模型性能的同時，進一步提高了推理速度。

定性評估

本研究還通過定性評估展示了STORM在長視頻理解方面的優勢。如圖9所示，在處理一個描述“月球墜落災難”的短片時，STORM能夠提供更詳細和連貫的視頻敘事摘要，準確捕捉了關鍵事件和過渡，展示了其在長視頻理解方面的強大能力。

此外，本研究還通過示例視頻展示了STORM在OCR、屬性感知、空間感知、信息摘要和時序推理等多個方面的視頻理解能力。如圖11至圖13所示，即使面對復雜的查詢問題，STORM也能夠準確提取視頻中的相關信息，并生成符合要求的答案。

研究局限

盡管STORM在長視頻理解方面取得了顯著進展，但仍存在一些局限性：

模型復雜性：引入Mamba時序編碼器增加了模型的復雜性，可能導致訓練難度增加和計算成本上升。盡管本研究通過令牌縮減策略降低了計算成本，但如何在保持模型性能的同時進一步簡化模型結構仍是一個挑戰。
數據集限制：當前的長視頻理解基準測試數據集在規模和多樣性方面仍有一定限制。為了訓練出更加魯棒和泛化能力更強的模型，需要更大規模、更多樣化的數據集。
時序令牌采樣的局限性：盡管測試時的時序令牌采樣在提高推理速度方面表現優異，但在某些任務上可能會導致信息損失。如何平衡推理速度和模型性能仍是一個需要深入研究的問題。

未來研究方向

針對上述研究局限，未來可以從以下幾個方面開展進一步研究：

模型優化：探索更高效的模型結構和訓練方法，以降低模型的復雜性并提高訓練效率。同時，可以研究如何在保持模型性能的同時進一步減少計算成本。
數據集擴展：構建更大規模、更多樣化的長視頻理解基準測試數據集，以訓練出更加魯棒和泛化能力更強的模型。此外，還可以研究如何利用合成數據或弱監督學習方法來擴展數據集。
時序令牌采樣策略改進：研究更加智能的時序令牌采樣策略，以在保持模型性能的同時進一步提高推理速度。例如，可以結合注意力機制或強化學習方法來動態調整采樣策略。
多模態融合：除了視覺信息外，還可以探索如何融合音頻、文本等其他模態的信息來提高視頻理解能力。例如，可以利用多模態預訓練模型來同時處理視頻幀、音頻和字幕等信息。
實時視頻理解：針對實時應用場景的需求，研究如何在保持模型性能的同時實現更高效的實時視頻理解。例如，可以結合邊緣計算或分布式計算等技術來降低推理延遲。

綜上所述，本研究提出的STORM方法在多模態大型語言模型的高效長視頻理解方面取得了顯著進展。然而，為了實現更加高效、準確和魯棒的視頻理解技術，未來仍需要進一步的研究和探索。