一、PKINet論文
論文地址:2403.06258 (arxiv.org)
二、CAAttention結構
CAA(Context Anchor Attention)注意力模塊是一種用于捕捉長距離上下文信息的并行模塊。
在計算機視覺領域中,上下文信息是指與目標物體或任務相關的周圍環境和語境信息。上下文信息可以幫助我們更好地理解和解釋圖像或視頻中的目標物體。
在傳統的注意力機制中,通常只考慮圖像或視頻中的局部區域,而忽略了與目標物體有關的更遠的上下文信息。這可能導致對目標的理解和解釋不準確或不全面。為了解決這個問題,CAA模塊被引入到模型中。CAA模塊可以同時處理多個區域,并捕捉圖像或視頻中目標物體周圍的長距離上下文信息。
CAA模塊通過使用一組預定義的上下文錨點(context anchors)來捕捉上下文信息。這些上下文錨點可以在圖像或視頻中選擇特定的位置,以捕捉目標物體周圍的相關信息。
CAA模塊通過計算圖像或視頻中的每個像素與上下文錨點之間的相似度來決定每個像素的權重。這樣,模塊就可以將更多的注意力放在與目標物體相關的區域上,從而捕捉到更多的上下文信息。