?配合解讀代碼解讀
1.研究背景
1. 視頻行為識別的重要性
視頻行為識別是視頻理解領域的核心任務之一,旨在通過分析視頻內容來識別和分類其中的人物行為或活動。這一任務在多個領域具有重要的應用價值,例如智能監控、人機交互、自動駕駛、醫療健康等。隨著視頻數據的爆炸式增長,如何高效、準確地識別視頻中的行為成為計算機視覺領域的研究熱點。
2. 發展歷程
視頻行為識別的研究主要經歷了兩個階段:特征工程階段和架構工程階段。
-
特征工程階段:在大規模標注數據集出現之前,研究者主要依賴手工設計的特征來提取視頻中的時空信息。例如,早期方法包括基于光流的特征(如光流金字塔)、基于軌跡的特征(如密集軌跡)和基于局部特征的描述符(如3D HOG)。這些方法雖然在小規模數據集上取得了一定的成果,但由于缺乏對復雜視頻內容的深度學習能力,其泛化能力和性能提升有限。
-
架構工程階段:隨著深度學習的興起和大規模視頻數據集(如Kinetics)的出現,視頻行為識別進入了一個新的階段。研究者開始設計各種深度神經網絡架構來自動學習視頻中的時空特征。這些架構主要包括:
-
雙流網絡(Two-stream Networks):通過分別處理RGB幀和光流幀來捕捉視頻的外觀和運動信息,然后將兩部分特征融合進行分類。
-
3D卷積神經網絡(3D CNNs):通過在傳統2D CNN的基礎上引入時間維度,直接從RGB幀中學習時空特征。
-
計算高效網絡(Compute-efficient Networks):為了在精度和速度之間取得平衡,研究者設計了多種輕量級網絡架構,例如I3D、X3D等。
-
基于Transformer的網絡:近年來,Transformer架構在圖像識別和自然語言處理中取得了巨大成功。一些研究開始將其應用于視頻行為識別,例如ViViT、TimeSformer等,通過建模長距離時空依賴關系來提升性能。
-
3. 現有方法的局限性
盡管現有的視頻行為識別方法在大規模數據集上取得了顯著的性能提升,但它們大多基于單模態框架,即將視頻內容映射為固定類別標簽的分類問題。這種框架存在以下局限性:
-
泛化能力受限:模型只能識別訓練時見過的類別,難以泛化到新的、未見過的行為類別。這限制了模型在新數據集或新任務上的應用能力。
-
依賴大量標注數據:為了適應新的行為類別,需要重新收集和標注大量數據,這在實際應用中成本高昂且耗時。
-
缺乏語義信息:現有方法通常將類別標簽映射為數字或獨熱向量,忽略了標簽文本本身的語義信息。這導致模型無法充分利用自然語言的豐富語義來增強視頻表示。
4. 本文提出的解決方案
為了解決上述問題,本文提出了一種新的視角,將視頻行為識別建模為視頻-文本匹配問題,并基于多模態學習框架進行建模。具體來說:
-
多模態學習框架:通過引入自然語言的語義信息,將視頻和標簽文本分別編碼為語義特征,并通過相似性計算模塊將它們匹配起來。這種框架不僅增強了視頻表示的語義信息,還支持零樣本行為識別,無需額外的標注數據。
-
“預訓練、提示、微調”范式:為了充分利用大規模網絡數據并降低預訓練成本,本文提出了一種新的范式。該范式通過預訓練模型、提示工程(將下游任務調整為類似于預訓練任務的形式)和目標數據集上的微調,實現了高效的行為識別。這一范式不僅避免了大規模預訓練的高昂計算成本,還通過提示設計充分利用了預訓練模型的強大能力。
2.創新點
1.多模態學習框架
通過引入自然語言的語義信息,將視頻和標簽文本分別編碼為語義特征,并通過相似性計算模塊將它們匹配起來。這種框架不僅增強了視頻表示的語義信息,還支持零樣本行為識別,無需額外的標注數據。(利用clip進行預訓練)
2.?文本提示(Textual Prompt):任務適配與語義增強
文本提示的作用
文本提示的核心思想是通過自然語言的語義信息來增強模型對標簽的理解和匹配能力。具體來說,文本提示通過以下方式實現任務適配與語義增強:
-
任務適配:
-
將下游任務轉化為預訓練任務的形式:預訓練模型(如CLIP)通常在大規模的圖像-文本對上進行訓練,學習如何將圖像與描述它們的文本匹配起來。通過設計文本提示,可以將視頻行為識別任務轉化為一個視頻-文本匹配問題,從而讓預訓練模型能夠更好地適應下游任務。
-
靈活調整任務目標:文本提示允許對任務目標進行靈活調整。例如,通過添加前綴、后綴或填空形式的提示(如“這是一個關于[標簽]的視頻”或“人類正在[標簽]”),可以將行為識別任務轉化為更接近預訓練任務的形式,使模型能夠更好地利用預訓練階段學到的語義信息。
-
-
語義增強:
-
豐富標簽的語義信息:傳統的標簽映射方式忽略了標簽的語義信息,而文本提示通過自然語言描述來增強標簽的語義。例如,將“跑步”擴展為“一個人在戶外跑步”或“運動員在田徑場上跑步”,可以為模型提供更豐富的語義背景,從而更好地理解視頻內容。
-
提升模型的泛化能力:通過文本提示,模型能夠學習到標簽的多種語義表達方式,從而在面對未見過的類別或新任務時,能夠更好地利用語義信息進行推理。例如,在零樣本識別任務中,模型可以通過匹配視頻特征與文本提示的語義表示,識別出未見過的行為類別。
-
具體實現
-
前綴提示(Prefix Prompt):在標簽前添加固定文本,如“一個人正在[標簽]”。
-
后綴提示(Suffix Prompt):在標簽后添加固定文本,如“[標簽]的行為”。
-
填空提示(Cloze Prompt):設計填空形式的文本,如“這是一個關于[標簽]的視頻”。
3.?視覺提示(Visual Prompt):任務適配與語義增強
視覺提示的作用
視覺提示的核心思想是通過調整視頻輸入的結構或特征提取方式,使預訓練模型能夠更好地處理視頻數據。具體來說,視覺提示通過以下方式實現任務適配與語義增強:
-
任務適配:
-
將視頻數據轉化為預訓練模型的輸入形式:預訓練模型通常在圖像數據上進行訓練,而視頻數據包含多個幀的時空信息。視覺提示通過設計特定的時空特征提取方式,將視頻數據轉化為預訓練模型能夠處理的形式。例如,通過添加時間維度的特征或設計特定的時空編碼器,可以使預訓練模型更好地理解視頻內容。
-
避免對預訓練模型進行大規模修改:視覺提示通常通過在預訓練模型的輸入階段或輸出階段進行調整,而不是直接修改預訓練模型的結構。這種設計避免了因修改模型結構而導致的“災難性遺忘”,同時保留了預訓練模型的強大語義理解能力。
-
-
語義增強:
-
增強視頻的時空語義信息:視覺提示通過設計特定的時空特征提取方式,能夠更好地捕捉視頻中的時空信息。例如,通過添加時間位置編碼(Temporal Positional Embedding)或使用時間卷積(Temporal Convolution)等方法,可以增強視頻的時空語義信息,從而提升模型對視頻內容的理解能力。
-
提升模型對視頻數據的適應能力:通過視覺提示,模型能夠更好地處理視頻數據中的時空變化,從而在面對復雜的視頻內容時,能夠更準確地識別行為類別。例如,在處理長視頻或包含多種行為的視頻時,視覺提示能夠幫助模型更好地捕捉關鍵幀和行為片段。
-
具體實現
-
前網絡提示(Pre-network Prompt):在視頻幀輸入預訓練模型之前,添加額外的時間位置編碼或時空特征提取模塊。例如,將視頻幀的時空信息編碼為一個整體輸入,使預訓練模型能夠更好地理解視頻的時空結構。
-
中網絡提示(In-network Prompt):在預訓練模型的內部結構中插入特定的時空模塊,如時間偏移模塊(Temporal Shift Module),以增強模型對視頻時空信息的處理能力。
-
后網絡提示(Post-network Prompt):在預訓練模型提取的特征之后,使用特定的時空聚合模塊(如均值池化、卷積、LSTM或Transformer)對視頻幀的特征進行進一步處理,從而增強視頻的時空語義信息。
4結果
1.?性能提升
本文提出的 ActionCLIP 方法在多個視頻行為識別數據集上取得了顯著的性能提升,驗證了“預訓練、提示、微調”范式的有效性。
-
在 Kinetics-400 數據集上,ActionCLIP 使用 ViT-B/16 作為骨干網絡,達到了 83.8% 的 top-1 準確率,超越了大多數現有方法,包括一些使用更大模型或更多輸入幀的方法。這一結果表明,通過多模態學習框架和提示機制,模型能夠更好地利用語義信息進行行為識別。
-
在 Charades 數據集上,ActionCLIP 達到了 44.3% 的 mAP(Mean Average Precision),在多標簽視頻分類任務中表現出色,進一步證明了該方法在復雜場景下的有效性。
2.?零樣本(Zero-shot)和少樣本(Few-shot)識別能力
ActionCLIP 在零樣本和少樣本行為識別任務中表現出色,展示了強大的泛化能力:
-
在 Kinetics-400 數據集上,ActionCLIP 能夠在沒有任何目標類別標注的情況下進行零樣本識別,并且在少樣本情況下(每類別僅有少量標注樣本)的性能顯著優于傳統單模態方法(如 3D-ResNet-50 和 STM)。
-
在 UCF-101 和 HMDB-51 數據集上,ActionCLIP 使用在 Kinetics-400 上預訓練的模型,能夠直接進行零樣本識別,而傳統方法在這種情況下無法工作。這表明多模態學習框架和提示機制能夠顯著提升模型對未見過類別的識別能力。
5 未來不足
-
預訓練數據限制:盡管本文提出了“預訓練、提示、微調”范式,但由于大規模視頻-文本數據預訓練的計算成本高昂,本文未直接進行預訓練,而是使用了預訓練的CLIP模型。未來可以探索更高效的預訓練方法,以充分利用大規模網絡數據。
-
提示設計的局限性:雖然本文設計了多種提示方法,但提示的設計仍然依賴于人工經驗和啟發式方法,缺乏自動化的提示生成機制。未來可以研究如何自動設計更有效的提示,以進一步提高模型性能。
-
多模態融合的深度:本文的多模態學習框架主要通過視頻和標簽文本的相似性計算來實現融合,未來可以探索更深層次的多模態融合方法,如聯合建模視頻和文本的語義信息,以進一步提升模型的泛化能力和識別性能。
-
模型規模和輸入幀數的限制:雖然本文已經展示了較大模型和更多輸入幀數對性能的提升作用,但目前的模型規模和輸入幀數仍有提升空間。未來可以嘗試更大規模的模型和更多輸入幀數的配置,以進一步提高行為識別的性能。
6 圖像解讀
圖a為整體框架-(神經網絡)
圖b為文本text
圖c為前綴 pre-visual prompt(vit)
圖d為中間visual-prompt
圖g temproal Transfom(后綴)