論文:(aaai2025) SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation
Localization through Spare-Coding Transformer代碼:https://github.com/scu-zjz/SparseViT

這個論文研究的是圖像篡改檢測(Image Manipulation Localization, IML)問題。作者指出,幾乎所有現有的模型都采用了“語義分割骨干網”與“手工設計特征”相結合的設計。作者認為,使用 sparse coding 對全局信息建模能夠有效的檢測圖像中的篡改區域。
論文的整體框架如下圖所示,包括兩個部分:encoder with sparse self-attention 和 融合多尺度特征的LFF。其中,encoder包括4個階段,前面2個階段為卷積,階段3和4為 sparse self-attention,sparse rate 包括8,4,2,1,在圖中用不同顏色標明。
Sparse Self-Attention: 對于輸入尺寸為 HxWxC 的特征,作者使用 sparsity rate 為S 來處理,將特征分解為大小為 SxS 個 non-overlapping patch,每個 patch 的尺寸為 (H/S)x(W/S),然后在每個 patch 內計算全局注意力。下圖展示了 sparse rate = 2 的一個示例。
Learnable Feature Fusion(LFF): 結構如下圖所示,階段3和4的特征F1到F6分別通過卷積和上采樣,變成一樣的尺寸,通道數量均為512,最后相加融合。作者給每個通道都設計了一個可學習的參數 γ \gamma γ,自適應的調整 feature map 的權重。
作者實驗分析了 sparse attention 的效果,可以看出稀疏化后,錨點的注意力更多地集中在包含非語義信息的與操作相關的邊緣區域,而不是周圍的語義區域。
其它實驗可以參考作者論文,這里不過多介紹。