1.GCT(Gated Channel Transformation)
定義
GCT(Gated Channel Transformation)是一種用于增強卷積神經網絡特征提取能力的模塊。它的核心思想是通過門控機制對特征圖的通道進行動態調整,從而突出對任務更有幫助的特征通道,同時抑制無關或冗余的特征通道。
工作原理
-
門控機制:GCT 引入了一個門控向量(Gating Vector),該向量的每個元素對應于特征圖的一個通道。門控向量的值決定了每個通道的重要性權重,這些權重是通過學習得到的,能夠根據輸入數據的特征動態調整。
-
特征增強:在特征提取過程中,GCT 對每個通道的特征圖進行加權操作。重要的通道會被賦予較高的權重,從而在后續的處理中占據更大的比重;而不太重要的通道則會被削弱。這種選擇性增強機制能夠提高模型對關鍵特征的敏感性,同時減少噪聲特征的干擾。
-
輕量化設計:GCT 模塊的設計通常較為輕量化,不會顯著增加模型的計算復雜度或參數量,因此可以方便地嵌入到現有的卷積神經網絡架構中。
2.自適應任務動態加權Adaptive Task Dynamic Weighting
自適應極化特征融合模塊
在頸部網絡構建該模塊,目的是提升特征語義融合能力,更好地捕捉復雜細節。它能自適應地調整特征通道的權重,增強對關鍵信息的表達,可使模型更敏銳地感知課堂行為中的復雜細節,如學生細微手勢或表情變化等。
任務動態對齊檢測頭模塊
該模塊可提高模型在多尺度目標上的識別能力。課堂行為檢測中目標尺度變化大,如學生整體形象是大目標,手中的文具則是小目標。此模塊通過對不同尺度目標進行動態對齊和優化,使模型能夠更有效地處理這些不同大小的行為目標。
動態分組卷積混洗轉換模塊
引入到主干網絡中,一方面增強特征表示能力,讓模型能更精準地提取和表達圖像特征;另一方面實現網絡輕量化,降低計算復雜度,提高計算效率,使模型在資源受限的設備上也能更快速地運行。
Wise-IoU 損失函數
用 Wise-IoU 函數替代傳統的 CIoU 損失函數,其能更準確地衡量邊界框之間的重疊程度,在訓練過程中為模型提供更有效的反饋,進一步提升邊界框的擬合精度,從而提高檢測精度
3.雙向特征金字塔網絡(BiFPN)
概念:BiFPN 是一種改進的特征金字塔網絡(FPN)結構,它在傳統 FPN 的基礎上引入了雙向特征傳遞機制,旨在更高效地融合不同尺度的特征。
工作原理:
-
雙向特征融合:傳統的 FPN 只支持自頂向下的特征融合,而 BiFPN 增加了自底向上的特征傳遞路徑。這樣,低層的細節特征可以通過多尺度特征融合傳遞到高層,同時高層的語義特征也可以向下傳遞給低層。
-
多尺度特征增強:BiFPN 的雙向結構使得特征在不同尺度之間能夠進行更充分的交互和融合,從而增強模型對多尺度目標的檢測能力,特別是對于小目標和復雜背景下的目標檢測。
4.全局局部空間聚合(GLSA)模塊
概念:GLSA 模塊是一種用于聚合全局和局部特征的結構,它通過結合全局特征和局部特征來增強模型對目標的語義理解。
工作原理:
-
全局特征:通過全局池化或全局注意力機制獲取圖像的全局特征信息,這些特征提供了圖像的整體語義信息。
-
局部特征:通過卷積操作獲取局部特征,這些特征關注圖像的局部細節。
-
聚合操作:將全局特征和局部特征進行融合,通常通過加權求和或特征拼接等方式實現。這種融合方式使得模型能夠同時利用全局語義信息和局部細節信息。
5.高效局部注意力(ELA)機制
概念:ELA 是一種注意力機制,專門用于增強模型對局部特征的關注。它通過引入注意力權重,動態調整特征圖中不同區域的重要性。
工作原理:
-
注意力生成:ELA 機制首先計算特征圖的注意力權重,這些權重基于輸入特征圖的特征分布動態生成。通常是通過卷積操作和激活函數(如 Sigmoid)來生成注意力圖。
-
特征加權:將生成的注意力圖與原始特征圖逐元素相乘,從而對特征圖中的每個區域進行加權。注意力權重高的區域在后續處理中會被賦予更高的重要性。
6.BiLevelRoutingAttention
是一種新型的動態稀疏注意力機制,旨在解決傳統注意力機制計算負擔重和內存占用高的問題.
- 核心思想:引入了一種新穎的雙層次路由機制,通過雙層路由實現了動態的、查詢感知的稀疏性。對于一個查詢,不相關的鍵值對首先在粗略的區域級別被過濾掉,然后在剩余候選區域(即路由區域)的并集中應用細粒度令牌到令牌的注意力。這樣使得注意力機制能夠根據每個查詢自適應地關注最有語義相關的鍵 - 值對,從而實現高效的計算。
- 實現方式:通過構建一個區域級別的親和度圖,然后對其進行修剪,保留每個節點的前 k 個連接,每個區域只需要關注前 k 個路由的區域。確定關注區域后,應用標記到標記的注意力。在這個過程中,通過收集鍵 / 值標記來處理,只涉及對于硬件友好的稠密矩陣乘法,利用稀疏性來節省計算和內存。
- 相關模型:將雙層次路由注意力作為基本構件,可構建通用的視覺變換器 BiFormer。由于 BiFormer 以一種查詢自適應的方式只關注小部分相關令牌,不受其他不相關令牌的分心,因此在密集預測任務中,BiFormer 在良好的性能和高計算效率方面都表現出色。在圖像分類、目標檢測和語義分割等多個計算機視覺任務中的實證結果驗證了其有效性。6.
?
?