abstract
多模態情感分析(MSA)旨在利用多模態的互補信息對用戶生成的視頻進行情感理解。現有的方法主要集中在設計復雜的特征融合策略來整合單獨提取的多模態表示,忽略了與情感無關的信息的干擾。在本文中,我們提出將單模表征分解為情感特定特征和情感獨立特征,并將前者融合到MSA任務中。具體來說,我們設計了一個新的情感感知解糾纏表示轉換框架,稱為SDRS,由兩個部分組成。交互式情感感知表征解糾纏旨在利用新開發的交叉注意自編碼器,通過考慮其他模態的語境影響,提取每個非語言模態的情感特異性特征表征。注意跨模態表征轉移試圖利用投射后的非語言情感特異性表征在潛在表征空間中轉移文本表征。最后利用變換后的表示對預訓練的語言模型進行微調,用于多模態情感分析。在CMU-MOSI、CMU-MOSEI和CH-SIMS三個公共基準數據集上進行了大量實驗。結果表明,所提出的SDRS框架不僅可以獲得僅基于多模態標簽的最新結果,而且優于額外需要每個模態標簽的方法。
intro
隨著移動設備和社交網絡的快速發展和廣泛使用,人們開始對多模式交互特征進行建模[4,6]。近年來,基于模型的融合技術得到了發展[2 - 4,7],如張量融合[8]、記憶融合[9]和多模態自適應門融合[10]。為了減輕異質性問題,研究人員試圖獨立學習模態不變表征和模態特定表征[11 - 16]。這些方法主要學習如何利用各種模態的互補性和冗余性來表示多模態數據。
然而,在現有的MSA方法中,不同模態的特征通常是獨立提取的,或者作為模態不變和模態特定的特征,這兩種方法都沒有考慮到與情感無關的信息可能產生的干擾。此外,單模態情緒可能受到來自其他模態的信息的影響,如圖1所示。為了有效區分情感特定特征和情感獨立特征,從本質上有必要探索來自不同模態的交互信息[17-21]。盡管有些方法考慮了每個模態內部的差異,但模態之間的解耦特征是孤立地完成的[11,14,22]。這些方法往往只考慮特征融合過程中多模態信息的相互影響,而忽略了特征解耦過程中多模態信息的相互影響,即忽略了多模態交互在去除與情感無關的信息干擾中的作用。
基于這些觀察結果,我們建議通過考慮其他模態的影響,將單模態表征分解為情感特定特征和情感獨立特征。具體而言,我們設計了一種新的情感感知解糾纏表征轉移框架(SDRS),該框架由兩個主要部分組成:交互式情感感知表征解糾纏(ISRD)和注意跨模態表征轉移(ACRS)。
ISRD的目標是通過交叉注意自動編碼器(CAAE)來學習特定于情感的特征表示。CAAE使用由堆疊的交叉注意層組成的轉換器式編碼器和解碼器,在提取情感特定特征時考慮其他模態的信息,從而在多模態環境中捕獲單個模態的真實表達情感。
我們設計了一種新的對比損失來區分情感特定和情感獨立的特征,有助于減輕模式的異質性。在ISRD的實現過程中,我們采用一種從粗到細的策略來訓練CAAE,即首先訓練粗粒度CAAE來學習特定極性的表征,然后使用這些表征來指導細粒度CAAE學習特定情感的表征。
基于文本語義對情感分析的重要影響,ACRS旨在利用非語言情感特定表征來轉移原始文本表征,這些非語言情感特定表征首先被投射到文本表征空間中。通過這種轉換操作,可以最大限度地減少原始語義的變化,并可以探索非語言模式對情感的影響。這也使得下游語言模型更容易對融合詞嵌入進行微調。我們在三個公共基準數據集上進行了廣泛的實驗: