VideoAgent——使用大規模語言模型作為代理來理解長視頻

概述

論文地址：https://arxiv.org/pdf/2403.10517
本研究引入了一個新穎的基于代理的系統，名為 VideoAgent。該系統以大規模語言模型為核心，負責識別關鍵信息以回答問題和編輯視頻。VideoAgent 在具有挑戰性的 EgoSchema 和 NExT-QA 基準上進行了評估，平均幀數分別為 8.4 幀和 8.2 幀，零鏡頭準確率分別達到 54.1% 和 71.3%。的零鏡頭準確率。

介紹

理解長視頻需要能夠處理各種信息并有效推理長序列的模型。現有的嘗試發現，要建立能滿足所有這些要求的模型非常困難。目前的大規模語言模型適合處理長語境，但不足以處理視覺信息。另一方面，視覺語言模型被認為難以處理長視覺輸入。我們的系統模仿了視頻理解過程，側重于推理能力而不是處理長視覺輸入；VideoAgent 比現有方法更有效、更高效，是長視頻理解領域的一大進步。

建議方法

初始狀態檢索：.

首先，向 LLM 展示視頻中的均勻采樣幀，使其熟悉視頻上下文。視覺語言模型（VLM）用于將視覺信息轉化為語言描述。這種初始狀態記錄了視頻內容和含義的概況。

決定下一步行動：。

考慮到當前情況，LLM 決定下一步行動；有兩種可能的選擇。一個是回答問題，另一個是搜索新信息；LLM 會考慮問題和現有信息，進行反思，并根據置信度選擇行動。

收集新的觀察結果：。

需要新信息時，LLM 使用工具來檢索。有些信息是在分段級別收集的，以增強時間推理功能。獲取的信息可作為更新當前狀態的觀測信息。

最新現狀：.

考慮到新的觀察結果，VLM 用于為每一幀生成標題，然后請求 LLM 生成下一輪的預測。

與傳統方法相比，這種方法具有若干優勢。特別是，收集信息的適應性選擇策略可以找到相關信息，并將回答不同難度問題所需的成本降至最低。

試驗

數據集和衡量標準

EgoSchema 包含一個以自我為中心的視頻，包含 5000 個問題；NExT-QA 包含一個以物體互動為特色的自然視頻，包含 48000 個問題。自然視頻，包含 48,000 個問題。

實施細節。

所有視頻都以 1 幀/秒的速度解碼，并根據視覺描述和幀特征之間的余弦相似度檢索出最相關的幀。在實驗中，我們將 LaViLa 用于 EgoSchema，將 CogAgent 用于 NExT-QA。GPT-4 也被用作 LLM。

與最先進技術的比較

VideoAgent 在 EgoSchema 和 NExT-QA 數據集上取得了 SOTA 結果，明顯優于之前的方法。例如，它在完整的 EgoSchema 數據集上取得了 54.1% 的準確率，在 500 個問題的子集上取得了 60.2% 的準確率。

迭代幀選擇分析。

VideoAgent 的關鍵組件之一是迭代幀選擇。這一過程會動態檢索和匯總信息，直到收集到足夠的信息來回答問題。為了更好地理解這一過程，我們進行了全面的分析和消融研究。

基本模型的消融

LLM（大型語言模型）：對不同的 LLM 進行了比較，發現 GPT-4 的性能優于其他模型；GPT-4 在結構化預測方面尤為突出，在生成準確的 JSON 格式方面表現出色。

VLM（視覺語言模型）：對三種最先進的 VLM 進行了研究，結果發現 CogAgent 和 LaViLa 的性能相近，而 BLIP-2 的性能較差。

CLIP（對比語言圖像模型）：對不同版本的 CLIP 進行了評估，結果表明，所有版本的 CLIP 性能相當；CLIP 在檢索任務方面更勝一籌，而且效率更高，因為它不需要重新計算圖像嵌入。

案例研究

我們以解析 NExT-QA 實例為例，說明視頻代理如何識別缺失信息、確定所需的附加信息并使用 CLIP 檢索詳細信息。

演示了 VideoAgent 如何正確解析 YouTube 上一小時的視頻。演示者強調，在這種情況下，GPT-4V 可以提供已識別的幀來正確回答問題。

結論

本研究介紹了一個視頻理解系統，該系統利用一個名為 VideoAgent 的大規模語言模型，通過多輪迭代過程有效地檢索和聚合信息，展示了其在理解長視頻方面的卓越效果和效率。今后的工作將集中在改進和整合模型、將其擴展到實時應用、將其應用到各種應用領域以及改進用戶界面等方面，這將進一步推進和拓寬 VideoAgent 的應用。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/42102.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/42102.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/42102.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！