HiCMAE 論文復現:基于 RAVDESS 數據集的音視頻情感識別
1. 項目背景與論文概述
1.1 多模態情感識別背景
多模態情感識別是人工智能領域的重要研究方向,旨在通過結合多種感知模態(如音頻、視頻、文本等)來更準確地識別人類情感狀態。與傳統單模態方法相比,多模態方法能夠利用不同模態間的互補信息,提高情感識別的魯棒性和準確性。
RAVDESS(Ryerson Audio-Visual Database of Emotional Speech and Song)是一個常用的多模態情感識別數據集,包含24位專業演員(12名男性,12名女性)表達的8種情感狀態(中性、平靜、快樂、悲傷、憤怒、恐懼、厭惡和驚訝)的音視頻數據。
1.2 HiCMAE 論文核心思想
HiCMAE(Hierarchical Cross-Modal Masked Autoencoder)是一種新穎的多模態自監督學習框架,其主要貢獻包括:
- 跨模態掩碼自編碼器:通過隨機掩碼一種模態的部分輸入,訓練模型從另一種模態重建被掩碼的內容
- 分層表示學習:在不同層次上學習模態內和模態間的表示
- 對比學習機制:通過對比學習對齊不同模態的表示空間
這種方法能夠有效學習音頻和視頻模態之間的對應關系,提高下游情感識別任務的性能。<