摘要
(DynMM),一種新的方法,自適應融合多模態數據和 d在推理過程中生成依賴于數據的前向路徑。為此,我們提出了一種門控功能來提供基于多模態特征和一個的模態級或融合級決策提高計算效率的源感知損失函數。
細節
模態級別決策
- 假設有三種模態,x1,x2,x3,則有6種專家網絡:E1(x1), E2(x2), E3(x3),E4(x1, x2), E5(x2, x3), E6(x1, x2), E7(x1, x2, x3);
- 利用一個門控,選擇B個專家網絡:y =
其中,xi表示第i位專家作為輸入的模態的子集;
假設有兩種模態:
融合級別決策
在融合的過程中加入決策:oij表示每個中間模塊的輸出,
損失函數
C(Ei)表示執行一個專家網絡Ei的計算成本。類似地,C(Oi,j)表示第j個細胞中第i個融合操作的計算代價;Ltask為任務的損失。
但是門控g是one-hot是離散的不可微,所以變成一個軟值,
訓練階段
- pretrain stage
在訓練的早期階段遵循門網絡的稀疏決策會導致偏差,很少被選擇的分支有更少和更小的權重更新;糟糕的性能可能導致它們被選擇的次數更少(因此永遠不會改進);所以要保證每個分支在門控模塊參與進來之前都得到了完全的優化;
對于模態級的DynMM,充分地訓練了每個專家網絡;
對于融合級的DynMM,對每個融合單元采用隨機決策(即從候選操作集合中隨機選擇一個操作),從而使動態網絡的每條路徑都是一致的。 - 微調
第二階段:微調。在這個階段,我們將門控網絡納入到我們的優化過程中。利用上述介紹的重參數化技術,我們共同優化了動態網絡 具有以端到端方式進行的門控網絡。