摘要
大量先前的研究已經表明,注意力機制在提高深度卷積神經網絡(CNNs)性能方面具有巨大潛力。然而,現有的大多數方法要么忽略了在通道和空間維度上同時建模注意力,要么引入了更高的模型復雜度和更重的計算負擔。為了緩解這一困境,本文提出了一種輕量級且高效的多維協同注意力(MCA)機制,這是一種使用三分支架構幾乎不增加額外開銷的同時在通道、高度和寬度維度上推斷注意力的新方法。對于MCA的核心組件,我們不僅開發了一種自適應組合機制,用于在壓縮變換中融合雙跨維度特征響應,從而增強特征描述符的信息性和判別性,還在激勵變換中設計了一種門控機制,該機制自適應地確定交互作用的覆蓋范圍以捕獲局部特征交互,從而克服了性能和計算開銷權衡之間的矛盾。我們的MCA方法簡單且通用,可以輕松地作為即插即用模塊插入各種經典CNN中,并可以與原始網絡以端到端的方式進行訓練。在CIFAR和ImageNet-1K數據集上的圖像識別的大量實驗結果證明了我們的方法相對于其他最先進(SOTA)方法的優越性。此外,我們還通過可視化GradCAM++結果直觀地了解了MCA的實際益處。代碼可在https://github.com/ndsclark/MCANet上獲取。
1 引言
卷積神經網絡(CNNs)因其強大的表示能力而在計算機視覺領域得到了普遍應用,其不斷發展也不斷