VideoAgent——使用大規模語言模型作為代理來理解長視頻

概述

論文地址:https://arxiv.org/pdf/2403.10517
本研究引入了一個新穎的基于代理的系統,名為 VideoAgent。該系統以大規模語言模型為核心,負責識別關鍵信息以回答問題和編輯視頻。VideoAgent 在具有挑戰性的 EgoSchema 和 NExT-QA 基準上進行了評估,平均幀數分別為 8.4 幀和 8.2 幀,零鏡頭準確率分別達到 54.1% 和 71.3%。的零鏡頭準確率。

介紹

理解長視頻需要能夠處理各種信息并有效推理長序列的模型。現有的嘗試發現,要建立能滿足所有這些要求的模型非常困難。目前的大規模語言模型適合處理長語境,但不足以處理視覺信息。另一方面,視覺語言模型被認為難以處理長視覺輸入。我們的系統模仿了視頻理解過程,側重于推理能力而不是處理長視覺輸入;VideoAgent 比現有方法更有效、更高效,是長視頻理解領域的一大進步。

相關研究

傳統方法包括對視頻進行選擇性或壓縮性處理。壓縮稀疏性方法試圖將視頻壓縮為有意義的嵌入或表示。選擇性壓縮方法則試圖根據輸入的問題或文本對視頻進行子采樣。代理是做出決策和執行行動的實體。大規模語言建模(LLM)技術的進步促使越來越多的研究將 LLM 作為代理來使用。這種方法已成功應用于多種場景,如在線搜索和紙牌游戲。受人類理解視頻方式的啟發,本研究將視頻理解重新表述為一個決策過程。

建議方法

  1. 初始狀態檢索:.

首先,向 LLM 展示視頻中的均勻采樣幀,使其熟悉視頻上下文。視覺語言模型(VLM)用于將視覺信息轉化為語言描述。這種初始狀態記錄了視頻內容和含義的概況。

  1. 決定下一步行動:。

考慮到當前情況,LLM 決定下一步行動;有兩種可能的選擇。一個是回答問題,另一個是搜索新信息;LLM 會考慮問題和現有信息,進行反思,并根據置信度選擇行動。

  1. 收集新的觀察結果:。

需要新信息時,LLM 使用工具來檢索。有些信息是在分段級別收集的,以增強時間推理功能。獲取的信息可作為更新當前狀態的觀測信息。

  1. 最新現狀:.

考慮到新的觀察結果,VLM 用于為每一幀生成標題,然后請求 LLM 生成下一輪的預測。

與傳統方法相比,這種方法具有若干優勢。特別是,收集信息的適應性選擇策略可以找到相關信息,并將回答不同難度問題所需的成本降至最低。

試驗

數據集和衡量標準

EgoSchema 包含一個以自我為中心的視頻,包含 5000 個問題;NExT-QA 包含一個以物體互動為特色的自然視頻,包含 48000 個問題。自然視頻,包含 48,000 個問題。

實施細節。

所有視頻都以 1 幀/秒的速度解碼,并根據視覺描述和幀特征之間的余弦相似度檢索出最相關的幀。在實驗中,我們將 LaViLa 用于 EgoSchema,將 CogAgent 用于 NExT-QA。GPT-4 也被用作 LLM。

與最先進技術的比較

VideoAgent 在 EgoSchema 和 NExT-QA 數據集上取得了 SOTA 結果,明顯優于之前的方法。例如,它在完整的 EgoSchema 數據集上取得了 54.1% 的準確率,在 500 個問題的子集上取得了 60.2% 的準確率。

迭代幀選擇分析。

VideoAgent 的關鍵組件之一是迭代幀選擇。這一過程會動態檢索和匯總信息,直到收集到足夠的信息來回答問題。為了更好地理解這一過程,我們進行了全面的分析和消融研究。

基本模型的消融

LLM(大型語言模型):對不同的 LLM 進行了比較,發現 GPT-4 的性能優于其他模型;GPT-4 在結構化預測方面尤為突出,在生成準確的 JSON 格式方面表現出色。

VLM(視覺語言模型):對三種最先進的 VLM 進行了研究,結果發現 CogAgent 和 LaViLa 的性能相近,而 BLIP-2 的性能較差。

CLIP(對比語言圖像模型):對不同版本的 CLIP 進行了評估,結果表明,所有版本的 CLIP 性能相當;CLIP 在檢索任務方面更勝一籌,而且效率更高,因為它不需要重新計算圖像嵌入。

案例研究

我們以解析 NExT-QA 實例為例,說明視頻代理如何識別缺失信息、確定所需的附加信息并使用 CLIP 檢索詳細信息。

演示了 VideoAgent 如何正確解析 YouTube 上一小時的視頻。演示者強調,在這種情況下,GPT-4V 可以提供已識別的幀來正確回答問題。

結論

本研究介紹了一個視頻理解系統,該系統利用一個名為 VideoAgent 的大規模語言模型,通過多輪迭代過程有效地檢索和聚合信息,展示了其在理解長視頻方面的卓越效果和效率。今后的工作將集中在改進和整合模型、將其擴展到實時應用、將其應用到各種應用領域以及改進用戶界面等方面,這將進一步推進和拓寬 VideoAgent 的應用。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/42102.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/42102.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/42102.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

TD-MPC(Temporal Difference Model Predictive Control)人形機器人行走舉例

td-mpc控制機器人行走舉例 TD-MPC(Temporal Difference Model Predictive Control)是一種結合了時序差分學習和模型預測控制的強化學習方法,特別適用于控制復雜系統如人形機器人行走任務。TD-MPC通過使用模型預測控制(MPC)在已學到的環境模型中進行多步預測和優化,再結合…

數據特征采樣在 MySQL 同步一致性校驗中的實踐

作者:vivo 互聯網存儲研發團隊 - Shang Yongxing 本文介紹了當前DTS應用中,MySQL數據同步使用到的數據一致性校驗工具,并對它的實現思路進行分享。 一、背景 在 MySQL 的使用過程中,經常會因為如集群拆分、數據傳輸、數據聚合等…

qt 播放視頻

在 Qt 中播放視頻&#xff0c;你可以使用 Qt Multimedia 模塊。這個模塊提供了處理音頻和視頻內容的功能。以下是一個簡單的例子&#xff0c;展示了如何使用 QMediaPlayer 和 QVideoWidget 來播放視頻&#xff1a; 包含必要的頭文件&#xff1a; #include <QMediaPlayer&g…

容器:queue(隊列)

以下是關于queue容器的總結 1、構造函數&#xff1a;queue [queueName] 2、添加、刪除元素: push() 、pop() 3、獲取隊頭/隊尾元素&#xff1a;front()、back() 4、獲取棧的大小&#xff1a;size() 5、判斷棧是否為空&#xff1a;empty() #include <iostream> #include …

一個簡單的spring+kafka生產者

1. pom <dependency><groupId>org.springframework.kafka</groupId><artifactId>spring-kafka</artifactId></dependency>2. 生產者 import com.alibaba.fastjson.JSON; import com.alibaba.fastjson.serializer.SerializerFeature; impo…

https 自簽證書相關生成csr文件、p12文件、crt文件、jks文件、key文件、pem文件

文章目錄 前言https 自簽證書相關生成csr文件、p12文件、crt文件、jks文件、key文件、pem文件1, 檢查openssl的版本2. 生成私鑰和證書簽署請求 (CSR)3. 生成自簽名證書4. 將證書和私鑰轉換為 PKCS12 格式的密鑰庫5. 創建信任庫 (Truststore)6. 將 PKCS12 文件轉換為 JKS 文件7.…

IDEA安裝IDE Eval Reset插件,30天自動續期,無限激活

第一步&#xff1a; 下載idea 注意&#xff1a;版本要是2021.2.2以下 第二步&#xff1a;快捷鍵CtrlAlts打開設置 第三步&#xff1a;打開下圖中藍色按鈕 第四步&#xff1a;點擊彈窗的 “” &#xff0c;并輸入 plugins.zhile.io 點擊 “ok” 第五步&#xff1a;搜索IDE Ea…

前端必修技能:高手進階核心知識分享 - CSS mix-blend-mode 圖片混合模式詳解

標簽定義及使用說明 mix-blend-mode 屬性描述了元素的內容應該與元素的直系父元素的內容和元素的背景如何混合。 語法 mix-blend-mod: 使用mix-blend-mode 各種混合模式實例 注意: Internet Explorer 或 Edge 瀏覽器不支持 mix-blend-mode 屬性。 &#xff08;還是那個熟…

AJAX-個人版-思路步驟整理版

前置知識&#xff1a;老式的web創建工程方法就是創建項目然后添加web工件&#xff0c;然后添加lib依賴如&#xff1a;tomcat,servlet&#xff0c;等。 傳統請求 對于傳統請求操作&#xff1a;整體流程也就是創建靜態頁面&#xff0c; <!DOCTYPE html> <html lang&q…

CSS技巧:用CSS繪制超寫實的酷炫徽章緞帶效果,超漂亮,超酷炫

為什么要用CSS來畫個徽章&#xff1f;這貨腦子進水了吧&#xff01; 今天在電腦前設計&#xff0c;要做徽章效果。突然覺得可以嘗試用css實現近似的效果。說干就干&#xff0c;打開編輯器&#xff0c;讓我的手指頭活躍起來&#xff01; 技術要點 通過多個圓形嵌套和漸變屬性…

【Rust練習】1.變量綁定與解構

地址&#xff1a;https://practice-zh.course.rs/variables.html &#x1f31f; 變量只有在初始化后才能被使用 // 修復下面代碼的錯誤并盡可能少的修改 fn main() {let x: i32; // 未初始化&#xff0c;但被使用let y: i32; // 未初始化&#xff0c;也未被使用println!(&quo…

WIN32核心編程 - 線程操作(一) 線程信息 - 線程控制

公開視頻 -> 鏈接點擊跳轉公開課程博客首頁 -> 鏈接點擊跳轉博客主頁 目錄 Thread Thread Control 創建 - Create 執行 - Execute 掛起 - Suspend 恢復 - Resume 終止 - Terminate 遠程 - Remote Thread Info GetCurrentThread/Id GetThreadContext CreateToo…

Vue iview-ui 被tooltip包裹的標題,點擊跳轉后,提示框不消失

tooltip包裹的標題&#xff0c;點擊跳轉后&#xff0c;提示框不消失 就會有這種顯示問題 下面這種錯誤方法不可行&#xff0c;解決辦法往下翻 css寫得沒錯&#xff0c;問題出在Javascript當中的 getElementsByClassName(“xxabc”)&#xff0c; 這個方法得到的是一個由class&q…

【Android】【WIFI】檢查 SDIO 設備的狀態

檢查 SDIO 設備的狀態 要檢查 Android 設備上 SDIO 設備的狀態&#xff0c;可以使用 ADB 命令來獲取系統信息。以下是一些示例命令&#xff1a; 列出 SDIO 設備 adb shell cat /proc/devices | grep sdio檢查 SDIO 模塊是否加載 adb shell lsmod | grep sdio獲取 SDIO 相關的…

IDEA中使用Maven打包及碰到的問題

1. 項目打包 IDEA中&#xff0c;maven打包的方式有兩種&#xff0c;分別是 install 和 package &#xff0c;他們的區別如下&#xff1a; install 方式 install 打包時做了兩件事&#xff0c;① 將項目打包成 jar 或者 war&#xff0c;打包結果存放在項目的 target 目錄下。…

自閉癥在生活中的典型表現

自閉癥&#xff0c;這個看似遙遠卻又悄然存在于我們周圍的疾病&#xff0c;其影響深遠且復雜。在日常生活中&#xff0c;自閉癥患者的典型表現往往讓人印象深刻&#xff0c;這些表現不僅揭示了他們內心的世界&#xff0c;也提醒我們要以更加包容和理解的心態去面對他們。 首先…

R語言4.3.0保姆級安裝教程,包含安裝包

[軟件名稱]&#xff1a;R語言4.3.0 R是用于統計分析、繪圖的語言和操作環境。R是屬于GNU系統的一個自由、免費、源代碼開放的軟件&#xff0c;它是一個用于統計計算和統計制圖的優秀工具。 獲取鏈接: https://pan.quark.cn/s/180306f47179 安裝步驟: 1.解壓壓縮包。 2.進入…

EtherCAT轉Profinet網關配置說明第二講:上位機軟件配置

EtherCAT協議轉Profinet協議網關模塊&#xff08;XD-ECPNS20&#xff09;&#xff0c;不僅可以實現數據之間的通信&#xff0c;還可以實現不同系統之間的數據共享。EtherCAT協議轉Profinet協議網關模塊&#xff08;XD-ECPNS20&#xff09;具有高速傳輸的特點&#xff0c;因此通…

iOS開發語言基礎與Xcode工具初探

在iOS開發的世界里&#xff0c;Swift語言和Xcode開發工具是每個開發者旅程的起點。Swift&#xff0c;一種由Apple設計的編程語言&#xff0c;以其簡潔的語法和強大的性能&#xff0c;成為了iOS開發的首選語言。而Xcode&#xff0c;則是Apple官方提供的集成開發環境&#xff08;…

Spring的核心概念理解案列

IDEA開發的簡單“登陸成功”小項目 IDEA項目結構&#xff1a; 每一部分代碼和相應的解讀&#xff1a; com.itTony文件下有dao&#xff08;實體&#xff09;層&#xff0c;service&#xff08;服務&#xff09;層&#xff0c;編寫的2個類&#xff08;HelloSpring和TestSpring&…