視頻理解之Actionclip(論文宏觀解讀)

?配合解讀代碼解讀

1.研究背景

1. 視頻行為識別的重要性

視頻行為識別是視頻理解領域的核心任務之一,旨在通過分析視頻內容來識別和分類其中的人物行為或活動。這一任務在多個領域具有重要的應用價值,例如智能監控、人機交互、自動駕駛、醫療健康等。隨著視頻數據的爆炸式增長,如何高效、準確地識別視頻中的行為成為計算機視覺領域的研究熱點。

2. 發展歷程

視頻行為識別的研究主要經歷了兩個階段:特征工程階段架構工程階段

  • 特征工程階段:在大規模標注數據集出現之前,研究者主要依賴手工設計的特征來提取視頻中的時空信息。例如,早期方法包括基于光流的特征(如光流金字塔)、基于軌跡的特征(如密集軌跡)和基于局部特征的描述符(如3D HOG)。這些方法雖然在小規模數據集上取得了一定的成果,但由于缺乏對復雜視頻內容的深度學習能力,其泛化能力和性能提升有限。

  • 架構工程階段:隨著深度學習的興起和大規模視頻數據集(如Kinetics)的出現,視頻行為識別進入了一個新的階段。研究者開始設計各種深度神經網絡架構來自動學習視頻中的時空特征。這些架構主要包括:

    • 雙流網絡(Two-stream Networks):通過分別處理RGB幀和光流幀來捕捉視頻的外觀和運動信息,然后將兩部分特征融合進行分類。

    • 3D卷積神經網絡(3D CNNs):通過在傳統2D CNN的基礎上引入時間維度,直接從RGB幀中學習時空特征。

    • 計算高效網絡(Compute-efficient Networks):為了在精度和速度之間取得平衡,研究者設計了多種輕量級網絡架構,例如I3D、X3D等。

    • 基于Transformer的網絡:近年來,Transformer架構在圖像識別和自然語言處理中取得了巨大成功。一些研究開始將其應用于視頻行為識別,例如ViViT、TimeSformer等,通過建模長距離時空依賴關系來提升性能。

3. 現有方法的局限性

盡管現有的視頻行為識別方法在大規模數據集上取得了顯著的性能提升,但它們大多基于單模態框架,即將視頻內容映射為固定類別標簽的分類問題。這種框架存在以下局限性:

  • 泛化能力受限:模型只能識別訓練時見過的類別,難以泛化到新的、未見過的行為類別。這限制了模型在新數據集或新任務上的應用能力。

  • 依賴大量標注數據:為了適應新的行為類別,需要重新收集和標注大量數據,這在實際應用中成本高昂且耗時。

  • 缺乏語義信息:現有方法通常將類別標簽映射為數字或獨熱向量,忽略了標簽文本本身的語義信息。這導致模型無法充分利用自然語言的豐富語義來增強視頻表示。

4. 本文提出的解決方案

為了解決上述問題,本文提出了一種新的視角,將視頻行為識別建模為視頻-文本匹配問題,并基于多模態學習框架進行建模。具體來說:

  • 多模態學習框架:通過引入自然語言的語義信息,將視頻和標簽文本分別編碼為語義特征,并通過相似性計算模塊將它們匹配起來。這種框架不僅增強了視頻表示的語義信息,還支持零樣本行為識別,無需額外的標注數據。

  • “預訓練、提示、微調”范式:為了充分利用大規模網絡數據并降低預訓練成本,本文提出了一種新的范式。該范式通過預訓練模型、提示工程(將下游任務調整為類似于預訓練任務的形式)和目標數據集上的微調,實現了高效的行為識別。這一范式不僅避免了大規模預訓練的高昂計算成本,還通過提示設計充分利用了預訓練模型的強大能力。

2.創新點

1.多模態學習框架

通過引入自然語言的語義信息,將視頻和標簽文本分別編碼為語義特征,并通過相似性計算模塊將它們匹配起來。這種框架不僅增強了視頻表示的語義信息,還支持零樣本行為識別,無需額外的標注數據。(利用clip進行預訓練)

2.?文本提示(Textual Prompt):任務適配與語義增強

文本提示的作用

文本提示的核心思想是通過自然語言的語義信息來增強模型對標簽的理解和匹配能力。具體來說,文本提示通過以下方式實現任務適配與語義增強:

  1. 任務適配

    • 將下游任務轉化為預訓練任務的形式:預訓練模型(如CLIP)通常在大規模的圖像-文本對上進行訓練,學習如何將圖像與描述它們的文本匹配起來。通過設計文本提示,可以將視頻行為識別任務轉化為一個視頻-文本匹配問題,從而讓預訓練模型能夠更好地適應下游任務。

    • 靈活調整任務目標:文本提示允許對任務目標進行靈活調整。例如,通過添加前綴、后綴或填空形式的提示(如“這是一個關于[標簽]的視頻”或“人類正在[標簽]”),可以將行為識別任務轉化為更接近預訓練任務的形式,使模型能夠更好地利用預訓練階段學到的語義信息。

  2. 語義增強

    • 豐富標簽的語義信息:傳統的標簽映射方式忽略了標簽的語義信息,而文本提示通過自然語言描述來增強標簽的語義。例如,將“跑步”擴展為“一個人在戶外跑步”或“運動員在田徑場上跑步”,可以為模型提供更豐富的語義背景,從而更好地理解視頻內容。

    • 提升模型的泛化能力:通過文本提示,模型能夠學習到標簽的多種語義表達方式,從而在面對未見過的類別或新任務時,能夠更好地利用語義信息進行推理。例如,在零樣本識別任務中,模型可以通過匹配視頻特征與文本提示的語義表示,識別出未見過的行為類別。

具體實現

  • 前綴提示(Prefix Prompt):在標簽前添加固定文本,如“一個人正在[標簽]”。

  • 后綴提示(Suffix Prompt):在標簽后添加固定文本,如“[標簽]的行為”。

  • 填空提示(Cloze Prompt):設計填空形式的文本,如“這是一個關于[標簽]的視頻”。


3.?視覺提示(Visual Prompt):任務適配與語義增強

視覺提示的作用

視覺提示的核心思想是通過調整視頻輸入的結構或特征提取方式,使預訓練模型能夠更好地處理視頻數據。具體來說,視覺提示通過以下方式實現任務適配與語義增強:

  1. 任務適配

    • 將視頻數據轉化為預訓練模型的輸入形式:預訓練模型通常在圖像數據上進行訓練,而視頻數據包含多個幀的時空信息。視覺提示通過設計特定的時空特征提取方式,將視頻數據轉化為預訓練模型能夠處理的形式。例如,通過添加時間維度的特征或設計特定的時空編碼器,可以使預訓練模型更好地理解視頻內容。

    • 避免對預訓練模型進行大規模修改:視覺提示通常通過在預訓練模型的輸入階段或輸出階段進行調整,而不是直接修改預訓練模型的結構。這種設計避免了因修改模型結構而導致的“災難性遺忘”,同時保留了預訓練模型的強大語義理解能力。

  2. 語義增強

    • 增強視頻的時空語義信息:視覺提示通過設計特定的時空特征提取方式,能夠更好地捕捉視頻中的時空信息。例如,通過添加時間位置編碼(Temporal Positional Embedding)或使用時間卷積(Temporal Convolution)等方法,可以增強視頻的時空語義信息,從而提升模型對視頻內容的理解能力。

    • 提升模型對視頻數據的適應能力:通過視覺提示,模型能夠更好地處理視頻數據中的時空變化,從而在面對復雜的視頻內容時,能夠更準確地識別行為類別。例如,在處理長視頻或包含多種行為的視頻時,視覺提示能夠幫助模型更好地捕捉關鍵幀和行為片段。

具體實現

  • 前網絡提示(Pre-network Prompt):在視頻幀輸入預訓練模型之前,添加額外的時間位置編碼或時空特征提取模塊。例如,將視頻幀的時空信息編碼為一個整體輸入,使預訓練模型能夠更好地理解視頻的時空結構。

  • 中網絡提示(In-network Prompt):在預訓練模型的內部結構中插入特定的時空模塊,如時間偏移模塊(Temporal Shift Module),以增強模型對視頻時空信息的處理能力。

  • 后網絡提示(Post-network Prompt):在預訓練模型提取的特征之后,使用特定的時空聚合模塊(如均值池化、卷積、LSTM或Transformer)對視頻幀的特征進行進一步處理,從而增強視頻的時空語義信息。

4結果

1.?性能提升

本文提出的 ActionCLIP 方法在多個視頻行為識別數據集上取得了顯著的性能提升,驗證了“預訓練、提示、微調”范式的有效性。

  • Kinetics-400 數據集上,ActionCLIP 使用 ViT-B/16 作為骨干網絡,達到了 83.8% 的 top-1 準確率,超越了大多數現有方法,包括一些使用更大模型或更多輸入幀的方法。這一結果表明,通過多模態學習框架和提示機制,模型能夠更好地利用語義信息進行行為識別。

  • Charades 數據集上,ActionCLIP 達到了 44.3% 的 mAP(Mean Average Precision),在多標簽視頻分類任務中表現出色,進一步證明了該方法在復雜場景下的有效性。

2.?零樣本(Zero-shot)和少樣本(Few-shot)識別能力

ActionCLIP 在零樣本和少樣本行為識別任務中表現出色,展示了強大的泛化能力:

  • Kinetics-400 數據集上,ActionCLIP 能夠在沒有任何目標類別標注的情況下進行零樣本識別,并且在少樣本情況下(每類別僅有少量標注樣本)的性能顯著優于傳統單模態方法(如 3D-ResNet-50 和 STM)。

  • UCF-101HMDB-51 數據集上,ActionCLIP 使用在 Kinetics-400 上預訓練的模型,能夠直接進行零樣本識別,而傳統方法在這種情況下無法工作。這表明多模態學習框架和提示機制能夠顯著提升模型對未見過類別的識別能力。

5 未來不足

  1. 預訓練數據限制:盡管本文提出了“預訓練、提示、微調”范式,但由于大規模視頻-文本數據預訓練的計算成本高昂,本文未直接進行預訓練,而是使用了預訓練的CLIP模型。未來可以探索更高效的預訓練方法,以充分利用大規模網絡數據。

  2. 提示設計的局限性:雖然本文設計了多種提示方法,但提示的設計仍然依賴于人工經驗和啟發式方法,缺乏自動化的提示生成機制。未來可以研究如何自動設計更有效的提示,以進一步提高模型性能。

  3. 多模態融合的深度:本文的多模態學習框架主要通過視頻和標簽文本的相似性計算來實現融合,未來可以探索更深層次的多模態融合方法,如聯合建模視頻和文本的語義信息,以進一步提升模型的泛化能力和識別性能。

  4. 模型規模和輸入幀數的限制:雖然本文已經展示了較大模型和更多輸入幀數對性能的提升作用,但目前的模型規模和輸入幀數仍有提升空間。未來可以嘗試更大規模的模型和更多輸入幀數的配置,以進一步提高行為識別的性能。

6 圖像解讀

圖a為整體框架-(神經網絡)

圖b為文本text

圖c為前綴 pre-visual prompt(vit)

圖d為中間visual-prompt

圖g temproal Transfom(后綴)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/73199.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/73199.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/73199.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【mysql】centOS7安裝mysql詳細操作步驟!

【mysql】centOS7安裝mysql詳細操作步驟!—通過tar包方式 需要 root 權限,使用 root 用戶進行命令操作。 1. 查看 CentOS 版本 cat /etc/redhat-release2. 安裝rpm包,以8為例 打開 MySQL 官方 yum 倉庫網站,獲取與當前 CentOS …

【網絡編程】事件選擇模型

十、基于I/O模型的網絡開發 10.9 事件選擇模型 10.0.1 基本概念 事件選擇(WSAEventSelect) 模型是另一個有用的異步 I/O 模型。和 WSAAsyncSelect 模 型類似的是,它也允許應用程序在一個或多個套接字上接收以事件為基礎的網絡事件通知,最 主要的差別在…

STM32 F407ZGT6開發板

#ifndef _tftlcd_H #define _tftlcd_H #include "system.h" //定義LCD彩屏的驅動類型 可根據自己手上的彩屏背面型號來選擇打開哪種驅動 //#def…

江科大51單片機筆記【15】直流電機驅動(PWM)

寫在前言 此為博主自學江科大51單片機(B站)的筆記,方便后續重溫知識 在后面的章節中,為了防止篇幅過長和易于查找,我把一個小節分成兩部分來發,上章節主要是關于本節課的硬件介紹、電路圖、原理圖等理論…

鴻蒙模擬器運行NDK項目失敗 9568347

鴻蒙編譯NDK項目 模擬器運行NDK項目失敗 9568347 23:32:17.572: $ hdc file send D:\study\hongmeng\MyTestNdk\entry\build\default\outputs\default\entry-default-unsigned.hap "data/local/tmp/9fff4611338a424bb31b521bdc3555af" in 30 ms 23:32:17.651: $ hd…

uniapp+Vue3 開發小程序的下載文件功能

小程序下載文件&#xff0c;可以先預覽文件內容&#xff0c;然后在手機上打開文件的工具中選擇保存。 簡單示例&#xff1a;&#xff08;復制到HBuilder直接食用即可&#xff09; <template><view class"container-detail"><view class"example…

電機控制常見面試問題(九)

文章目錄 一、談談電機死區時間1.死區時間過短的后果&#xff1a;2.如何判斷死區時間不足?3.解決方案 二、請描述對實時操作系統&#xff08;RTOS&#xff09;的理解三.解釋FOC算法的原理并比較與其他無刷電機控制算法的優劣四.什么是電機堵轉&#xff0c;如何避免電機堵轉五.…

【分布式】聊聊分布式id實現方案和生產經驗

對于分布式Id來說&#xff0c;在面試過程中也是高頻面試題&#xff0c;所以主要針對分布式id實現方案進行詳細分析下。 應用場景 對于無論是單機還是分布式系統來說&#xff0c;對于很多場景需要全局唯一ID&#xff0c; 數據庫id唯一性日志traceId 可以方便找到日志鏈&#…

【性能測試】Jmeter如何做一份測試報告(3)

本篇文章主要介紹Jmeter中下載插件&#xff08;Jmeter Plugins&#xff09; 如何使用監聽器插件&#xff0c;線程組插件&#xff0c;梯度壓測線程組 測試報告需要去關注的數據&#xff0c;怎么看測試報告圖表 目錄 一&#xff1a;插件下載 1&#xff1a;下載地址 2&#xff…

cocos creator使用mesh修改圖片為圓形,減少使用mask,j減少drawcall,優化性能

cocos creator版本2.4.11 一個mask占用drawcall 3個以上&#xff0c;針對游戲中技能圖標&#xff0c;cd,以及多玩家頭像&#xff0c;是有很大優化空間 1.上代碼&#xff0c;只適合單獨圖片的&#xff0c;不適合在圖集中的圖片 const { ccclass, property } cc._decorator;c…

AI重構SEO關鍵詞布局

內容概要 在搜索引擎優化&#xff08;SEO&#xff09;領域&#xff0c;AI技術的深度應用正在顛覆傳統關鍵詞布局邏輯。通過機器學習算法與語義分析模型&#xff0c;智能系統能夠實時解析海量搜索數據&#xff0c;構建動態詞庫并精準捕捉用戶意圖。相較于依賴人工經驗的關鍵詞篩…

泛微ecode的頁面開發發送請求參數攜帶集合

1.在開發過程中我們難免遇見會存在需要將集合傳遞到后端的情況&#xff0c;那么這里就有一些如下的注意事項&#xff0c;如以下代碼&#xff1a; // 新增action.boundasync addQuestion(formData) {var theList this.questionAnswerList;var questionAnswerListArray new Ar…

20250212:linux系統DNS解析卡頓5秒的bug

問題: 1:人臉離線識別記錄可以正常上傳云端 2:人臉在線識別請求卻一直超時 3:客戶使用在線網絡 思路:

道路運輸安全員考試:備考中的心理調適與策略

備考道路運輸安全員考試&#xff0c;心理調適同樣重要。考試壓力往往會影響考生的學習效率和考試發揮。? 首先&#xff0c;要正確認識考試壓力。適度的壓力可以激發學習動力&#xff0c;但過度的壓力則會適得其反。當感到壓力過大時&#xff0c;要學會自我調節。可以通過運動…

LLM - 白話RAG(Retrieval-Augmented Generation)

文章目錄 Pre一、大模型的"幻覺"之謎1.1 何為"幻覺"現象&#xff1f;1.2 專業場景的致命挑戰 二、RAG技術解析&#xff1a;給大模型裝上"知識外掛"2.1 核心原理&#xff1a;動態知識增強2.2 技術實現三部曲 三、RAG vs 微調&#xff1a;技術選型…

探索現代 C++:新特性、工程實踐與熱點趨勢

目錄 一、現代 C 的關鍵特性與熱點關聯 二、精簡代碼示例解析 三、工程實踐中的應用思考 四、總結與展望 近幾年&#xff0c;人工智能、邊緣計算與跨語言開發成為技術熱點&#xff0c;而 C 作為高性能系統編程的主力軍&#xff0c;也在不斷進化。從 C11 到 C20&#xff0c;…

《HTML + CSS + JS 打造炫酷輪播圖詳解》

《HTML CSS JS 打造炫酷輪播圖詳解》 一、項目概述 本次項目旨在使用 HTML、CSS 和 JavaScript 實現一個具有基本功能的輪播圖&#xff0c;包括圖片自動輪播、上一張 / 下一張按鈕切換、小圓點指示與切換等功能&#xff0c;以提升網頁的交互性和視覺吸引力。 二、實現步驟…

257. 二叉樹的所有路徑(遞歸+回溯)

257. 二叉樹的所有路徑 力扣題目鏈接(opens new window) 給定一個二叉樹&#xff0c;返回所有從根節點到葉子節點的路徑。 說明: 葉子節點是指沒有子節點的節點。 示例: 思路&#xff1a;在葉子節點收割結果&#xff0c;如果不是葉子節點&#xff0c;則依次處理左右子樹&a…

【架構差異】SpringとSpringBoot:Bean機制的深入剖析與自動配置原理

目錄標題 SpringBoot框架中Bean機制的深入剖析與自動配置原理摘要1. 引言2. SpringBoot與Spring的架構差異2.1 從Spring到SpringBoot的演進2.2 SpringBoot中的Bean容器體系 3. SpringBoot的自動配置機制3.1 SpringBootApplication解析3.2 自動配置原理深度解析3.2.1 自動配置類…

CSDN博客:Markdown編輯語法教程總結教程(中)

?個人主頁&#xff1a;折枝寄北的博客 Markdown編輯語法教程總結 前言1. 列表1.1 無序列表1.2 有序列表1.3 待辦事項列表1.4 自定義列表 2. 圖片2.1 直接插入圖片2.2 插入帶尺寸的圖片2.3 插入寬度確定&#xff0c;高度等比例的圖片2.4 插入高度確定寬度等比例的圖片2.5 插入居…