這是一篇我完全看不懂的論文,寫的好晦澀,適合唬人,所以在方法部分我以大白話為主
abstract
在多模態情感分析(MSA)中,多模態融合已經得到了廣泛的研究,但融合深度和多模態容量分配的作用還沒有得到充分的研究。在這項工作中,我們將融合深度、可擴展性和專用多模容量作為有效融合的主要因素。本文介紹了DeepMLF,一種新的多模態語言模型(LM),該模型具有面向深度融合的可學習標記.
DeepMLF利用視聽編碼器和預訓練的解碼器LM,在其各層中增加了多模態信息。我們將可學習的標記附加到LM,以:1)以受控的方式捕獲模態交互; 2)為每個模態保留獨立的信息流。這些融合標記通過LM塊中的因果自注意來收集語言信息,并通過交叉注意MM塊與視聽信息整合。作為專用的多模式容量,該設計支持跨多個層的漸進式融合,提供融合過程的深度。我們的訓練方法結合了特定模態損失和語言建模損失,解碼器LM的任務是預測標簽真實極性。在具有不同數據集特征的三個MSA基準測試中,DeepMLF實現了最先進的性能。我們的結果證實,融合深度越深,性能越好,最佳融合深度(5-7)超過了現有方法。此外,我們對融合令牌數量的分析表明,較小的令牌集(≈ 20)可獲得最佳性能。我們通過視聽編碼器初始化實驗來檢驗表示學習順序(融合課程)的重要性。我們的消融研究證明了所提出的融合設計和門控的優越性,同時提供了DeepMLF對LLM的可擴展性的整體檢查,以及每個訓練目標和嵌入正則化的影響。
連摘要都寫的如此晦澀
- 現有技術:多模態融合(比如同時分析語音、表情、文字)已經被廣泛研究,但有兩個問題沒解決清楚:
- ??融合深度??(不同模態的信息應該在神經網絡的哪幾層進行融合?深層還是淺層?)
- ??容量分配??(如何給不同模態分配計算資源?比如是否要讓語音單獨處理一部分信息)
#+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
- 關鍵設計??:
- ??可學習的融合標記??:在語言模型(比如類似GPT的文本模型)中加入一些"靈活的小開關",這些開關能:
- 控制不同模態(語音、視覺、文字)的交互程度
- 讓每個模態保留獨立的信息流(避免強行融合導致信息混亂)
- ??分層漸進融合??:在語言模型的多個層級(5-7層)逐步融合多模態信息(類似人類先聽聲音,再看表情,最后綜合理解情緒)
- ??專用多模態計算模塊??:新增一個交叉注意力模塊,專門處理語音和視覺信息與文本的關聯
#+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
- 在三個不同數據集上表現最優(SOTA),證明:
- 深層融合(5-7層)比淺層融合效果好
- 融合標記數量并非越多越好(約20個最佳)
- 訓練策略很重要:先單獨訓練各模態編碼器,再聯合訓練(類似先學單科再綜合考試)
- 模型可擴展到大型語言模型(LLM),說明方法具有通用性
intro
(從人類認知到研究領域,從普遍到具體;以人類多模態感知的自然現象為起點,引出多模態機器學習MML的核心目標:模仿人類認知,開發能集成多模態數據的系統,強調多模態融合是MML的技術關鍵,并分類為早期/晚期/混合/深度融合,指出深度融合的優勢,但現有研究對齊探索不足)
人類感知并聯合收割機來自不同來源和感官的信息,以理解周圍環境并與之互動。多模態信號和表示也被人類大腦在學習概念時使用。因此,我們可以說,多模態跨越了整個人類認知過程。多模態機器學習(MML)研究如何開發能夠處理和集成異構和互連類型的數據(如視覺,聽覺和文本信息)的系統或代理。該領域的目標涉及系統的設計,理解,推理,并通過多種感官形式從世界中學習,例如,語言和非語言交流以及對場景的理解。
從通過語音和語言識別情感到從文本生成圖像,基本操作是多模態融合[1]。從技術上講,融合是學習表征的問題,這些表征既捕獲單峰信息,又捕獲不同模態元素之間的跨模態交互。從概念上講,與更異構的模態相比,更同質的模態更容易聯合收割機。融合技術可以大致分為早期、晚期、混合和深度融合方法。早期融合結合早期階段的數據,后期融合在最后階段,和混合融合結合這些方案。深度融合通常涉及架構內的多個融合階段。
最近在MML領域的工作采用深度融合方案來利用多模態的優點。從ViLBERT [2]和UNITER [3]的自監督方法到基于多模態大語言模型(LLM)的方法[4]、[5],在若干層上執行融合,例如,UNITER為24。然而,對于純監督的多模態任務,例如對以人為中心的視頻剪輯的情感理解,所使用的融合機制相當膚淺。特別地,它們通常涉及將預先訓練的架構與淺層融合機制相結合。
(問題定位,現有研究的不足,領域聚焦縮小到多模態情感分析,
批判現狀:
1.融合深度不足,當前MSA方法融合機制“膚淺”,如僅3層,而其他MML任務,如ViLBERT已用深度融合