SparseViT：基于稀疏編碼Transformer的非語義中心、參數高效的圖像篡改定位

摘要

https://arxiv.org/pdf/2412.14598
非語義特征或語義無關特征，與圖像上下文無關但對圖像篡改敏感，被認為是圖像篡改定位（IML）的重要證據。由于無法獲得人工標簽，現有工作依賴于手工方法提取非語義特征。手工非語義特征損害了IML模型在未見或復雜場景中的泛化能力。因此，對于IML，一個亟待解決的問題是：如何自適應地提取非語義特征？非語義特征與上下文無關且對篡改敏感。也就是說，在一張圖像中，除非發生篡改，否則這些特征在不同圖像塊之間是一致的。那么，圖像塊之間稀疏且離散的交互就足以提取非語義特征。然而，不同圖像塊的圖像語義差異巨大，需要圖像塊之間密集且連續的交互來學習語義表示。因此，在本文中，我們提出了一種稀疏視覺Transformer（SparseViT），它將ViT中的密集全局自注意力重新定義為稀疏離散的方式。這種稀疏自注意力打破了圖像語義，迫使SparseViT自適應地為圖像提取非語義特征。此外，與現有的IML模型相比，稀疏自注意力機制極大地減少了模型大小（最大在浮點運算次數上減少了 $80\%$ ），實現了驚人的參數效率和計算量減少。大量實驗表明，在不使用任何手工特征提取器的情況下，SparseViT在基準數據集上的泛化能力和效率均優于其他模型。

代碼鏈接 - https://github.com/scu-zjz/SparseViT

引言

隨著圖像編輯工具和圖像生成技術的快速發展，圖像篡改變得異常方便。為了應對這一趨勢，研究人員開發了圖像篡改定位（IML）技術來識別圖像中的特定篡改區域。由于篡改后圖像上不可避免地會留下偽影（篡改痕跡），這些偽影可以分為語義和非語義（語義無關）特征。語義無關特征是指突出顯示低級偽影信息的特征，這些特征與圖像的語義內容無關。這些特征在圖像的篡改區域和非篡改區域之間的分布存在顯著差異（Guillaro等，2023）。現有的骨干網絡（Simonyan和Zisserman，2014）（Wang等，2020）（Dosovitskiy等，2020），主要為語義相關任務而設計，在提取篡改圖像的語義特征方面非常有效。對于提取非語義特征，大多數現有方法依賴于手工特征提取器（Zhou等，2018）（Bayar和Stamm，2018）（Cozzolino和Verdoliva，2019）。如表1所示，幾乎所有現有的IML模型都遵循“語義分割骨干網絡”結合“手工非語義特征提取”的設計。
在這里插入圖片描述

然而，這種方法需要對不同的非語義特征采用自定義提取策略，在提取這些特征時缺乏適應性。因此，這種方法在提高模型適應未知場景的能力方面受到限制。與傳統的手工提取非語義特征的方法不同，我們提出了一種自適應機制來提取篡改圖像中的非語義特征。我們認識到，圖像的語義特征表現出強烈的連續性和顯著的上下文相關性（Wang等，2018），這意味著局部語義特征往往不足以表示圖像的全局語義。因此，構建全局語義特征需要局部區域之間緊密且連續的交互。相比之下，圖像的非語義特征，如頻率和噪聲，對篡改高度敏感，并且在圖像的不同區域之間表現出更大的獨立性。這一特性使我們能夠采用稀疏編碼為非語義特征建立全局交互，利用其敏感性來檢測篡改。

基于這一概念，我們引入了SparseViT，這是一種新穎的稀疏視覺Transformer。SparseViT采用稀疏自注意力機制，對ViT中的密集全局自注意力進行重新設計，以更好地適應非語義特征的統計特性。通過稀疏處理，自注意力機制選擇性地抑制語義信息的表達，專注于捕獲與圖像篡改相關的非語義特征。SparseViT采用分層策略，在不同層級應用不同程度的稀疏性，以精細地提取非語義特征。我們還設計了一個多尺度融合模塊（LFF）作為解碼器，該模塊整合了在不同稀疏級別提取的特征圖，豐富了模型對跨多個尺度的非語義內容的理解，并增強了其魯棒性。這種設計使SparseViT能夠專注于學習對篡改敏感的非語義特征，同時忽略語義特征，從而實現對圖像中非語義特征的自適應提取。

據我們所知，目前尚無專門為非語義特征自適應提取而設計的模型。SparseViT可以視為非語義特征自適應提取方面的開創性工作。我們的所有實驗均在同一評估協議下進行。所有模型均在CAT-Net（Kwon等人，2021）數據集上進行訓練，并在多個基準數據集上進行測試。我們提出的方法在多個基準數據集上展示了出色的圖像篡改定位能力，與其他模型相比，我們的模型取得了最佳的平均性能。綜上所述，我們的貢獻如下：

我們發現，圖像中的語義特征需要通過持續的局部交互來構建全局語義，而非語義特征由于其局部獨立性，可以通過稀疏編碼實現全局交互。
基于語義和非語義特征的獨特行為，我們提出使用稀疏自注意力機制從圖像中自適應提取非語義特征。
為了解決傳統多尺度融合方法的不可學習性問題，我們引入了一種可學習的多尺度監督機制。
我們提出的SparseViT在不依賴特征提取器的情況下保持了參數效率，并在四個公共數據集上取得了最先進的（SoTA）性能和出色的模型泛化能力。

方法

當前數據集中的篡改實例通常側重于移動、刪除或復制整個對象等操作。這使得現有模型（Pun, Yuan, and Bi 2015）僅憑語義特征就能相對較好地識別篡改區域。然而，這種對語義特征的過度依賴忽視了非語義特征的重要性，限制了模型在不熟悉或復雜的篡改場景中的泛化能力。我們觀察到，圖像的語義信息表現出強烈的連續性和上下文依賴性（Wang et al. 2018），因此需要全局注意力機制來加強局部和全局區域之間的交互（Vaswani 2017）。相比之下，非語義信息在局部和全局特征之間往往保持一致，并在圖像的不同區域表現出更大的獨立性（Ulyanov, Vedaldi, and Lempitsky 2018）。利用這一區別，我們可以設計一種機制，減少對語義信息的依賴，同時增強對非語義信息的捕獲。
在這里插入圖片描述

為此，我們提出將全局注意力機制分解為“稀疏注意力”形式。在表示圖像的語義信息時，稀疏注意力可以防止模型對其過度擬合，從而使模型能夠更多地關注圖像中的非語義信息。如圖1所示，我們通過用稀疏自注意力替換全局自注意力，改進了Uniformer（Li et al. 2023）中的傳統注意力計算，其稀疏性呈指數衰減。

稀疏自注意力

傳統的深度模型側重于檢測語義對象，旨在擬合這些語義對象。因此，傳統的自注意力采用全局交互模式，其中圖像中的每個補丁都與其他所有補丁參與令牌到令牌的注意力計算（Liu et al. 2021b）（Yuan et al. 2021）。然而，在圖像篡改定位領域，這種全局交互引入了許多不相關的鍵值對。此外，模型對語義信息的過度關注意味著在全局交互期間，它會考慮圖像中所有補丁的特征，如顏色和形狀，從而對圖像的整體內容有全面的理解。由于模型在全局交互期間主要關注圖像的整體語義結構，因此它往往會忽略篡改后產生的非語義信息的局部不一致性。
在這里插入圖片描述

為了解決這個問題，我們提出使用稀疏注意力來替換原始的全局注意力。我們引入了一個新的架構超參數，稱為“稀疏率”，簡寫為“ $\mathcal{S}$ ”。給定輸入特征圖 $\in \mathbb{R}^{H \times W \times C}$ ，我們不是對整個 $\times W$ 特征圖應用注意力，而是將特征劃分為形狀為 $\left(\mathcal{S} \times \mathcal{S}, \frac{H}{S} \times \frac{W}{S}, C\right)$ 的張量塊。這意味著特征圖被分解為 $\mathcal{S} \times \mathcal{S}$ 個大小為 $\frac{H}{S} \times \frac{W}{S}$ 的非重疊張量塊，并在這些張量塊內分別進行自注意力計算。如圖2所示，只有標記有相同顏色的張量塊才會執行自注意力計算。這種設計抑制了稀疏注意力塊中語義信息的表達，使模型能夠專注于提取非語義特征。此外，特征圖中張量塊的稀疏化消除了在篡改定位中涉及大量不相關鍵值對的注意力計算的需要，從而減少了浮點運算次數（FLOPs）。

多尺度特征

在圖像篡改定位任務中，引入具有不同稀疏率的多尺度監督至關重要。稀疏率較小的特征圖富含語義信息，有助于模型理解圖像的全局上下文和結構。相反，稀疏率較大的特征圖包含更多非語義信息，有助于模型捕獲圖像細節和局部特征。引入多尺度監督使模型能夠通過不同程度地抑制語義特征來自適應地提取各種非語義特征，從而增強其在不同視覺場景中的泛化能力。

如圖1所示，我們在第3階段和第4階段的不同塊中引入了不同的稀疏率。第3階段和第4階段中每個塊的稀疏率計算方法如下：

$\begin{array}{ll} S3_{S}^{b_{i}}=2^{\left(3-\frac{i}{5}\right)}, \quad i=0 \ldots 19 \\ S4_{\mathcal{S}}^{b_{i}}=2^{\left(1-\frac{i}{4}\right)}, \quad i=0 \ldots 6 \end{array}$

其中，上標 $b_{i}$ 表示階段內的不同層，每層從0開始編號，下標 $\mathcal{S}$ 表示稀疏率。我們將第3階段和第4階段不同稀疏率下的最后一個塊的輸出作為我們的多尺度特征圖。此外，由于全局注意力的稀疏化，我們可以輕松獲得多尺度信息。這種方法不僅在不增加計算負擔的情況下顯著提高了模型的準確性和性能，而且使模型更加高效和穩健。

輕量級且有效的預測頭LFF

層縮放（Touvron et al. 2021）是Transformer中使用的一種技術，其中通常堆疊多層自注意力和前饋網絡，每層引入一個可學習的縮放參數 $\gamma$ 。這個縮放參數可以學習不同的值，從而在整個網絡中實現更有效的信息傳遞。目前，特征融合方法通常通過簡單的操作如加法或連接（Lin et al. 2017）來實現，這些操作僅提供特征圖的固定線性聚合，而不考慮這種組合是否對特定對象最優。對于模型的最終預測，我們的目標是設計一個簡單而有效的預測頭。受Transformer架構中層縮放機制的啟發，我們為每個特征圖引入了一個可學習參數來控制縮放比例，從而實現更自適應的特征融合。

在這里插入圖片描述

所提出的可學習特征融合（Learnable Feature Fusion，LFF）預測頭由五個主要部分組成，如圖3所示。首先，使用LFF層將特征圖 $F_{1}$ 到 $F_{4}$ 的通道統一為512維。特征圖 $F_{5}$ 和 $F_{6}$ 被上采樣到原始尺寸的十六分之一。然后，每個特征圖乘以其對應的 $\gamma$ 縮放參數，該參數初始化為一個較小的值，如 $1 e ? 6$ 。之后，使用另一個LFF層將所有縮放后的特征圖相加，并將相加結果的通道維度減少到1。最后，對結果進行上采樣，并將上采樣后的 $\times W \times 1$ 掩碼作為最終預測結果。LFF過程可以形式化表示如下：

$\begin{array}{c} F_{i}=\text{Linear}\left(C_{i}, C\right)\left(F_{i}\right), \quad i=1 \ldots 4 \\ F_{i}=\text{Upsample}\left(\frac{H}{16} \times \frac{W}{16}\right)\left(F_{i}\right), \quad i=5,6 \\ M_{p}=\text{Add}\left(F_{i} \times \gamma\right), \quad i=1 \ldots 6 \\ M_{p}=\text{Linear}(C, 1)\left(M_{p}\right) \\ M_{p}=\text{Upsample}(H \times W)\left(M_{p}\right) \end{array}$

通過設置特征圖權重參數，模型可以動態調整每個特征圖對融合結果的貢獻，從而增強特征融合的靈活性。通過這種簡單的設計，模型可以更好地平衡和整合多尺度特征，突出重要特征的同時抑制不相關或冗余的特征。

結果

實驗設置

為確保與現有的最先進的圖像篡改定位方法進行公平比較，我們在CAT-Net（Kwon等，2021）引入的數據集上訓練了我們的模型，然后在CASIAv1（Dong, Wang, and Tan 2013）、NIST16（Guan等，2019）、COVERAGE（Wen等，2016）、Columbia（Hsu and Chang 2006）和DEF12k（Mahfoudi等，2019）數據集上進行了測試。與大多數先前的工作（Wei等，2023）（Ma等，2024）類似，我們使用像素級別的F1分數和AUC（曲線下面積）來衡量模型的性能。除非另有說明，否則我們報告的結果使用的是0.5的默認閾值。有關實驗設置和DEF-12k數據集的詳細信息，請參閱附錄A。

消融研究

為了更好地評估每個組件的性能影響，我們采用了一種增量方法，即逐步添加組件，并將其與包含所有組件的完整模型進行比較。這種方法使我們能夠徹底測量和優化所提出模型的架構。我們研究了使用稀疏注意力和全局注意力對模型參數和浮點運算（FLOPs）的影響。此外，我們還比較了手動設計的特征提取器和稀疏注意力機制在提取非語義特征方面的能力。為了探索LFF預測頭的影響，我們在引入稀疏注意力的情況下，將其性能與SegFormer（Xie等，2021）中的多層感知器（MLP）預測頭進行了比較。這一比較不僅幫助我們評估了預測頭設計的有效性，還揭示了不同預測頭對模型整體性能的具體影響。此外，我們還比較了傳統的單尺度監督與我們提出的多尺度監督方法，以探討多尺度監督的優勢及其對模型性能的貢獻。所有這些評估的結果都是基于在CAT-Net提出的數據集上進行訓練，并在CASIAv1、NIST16、COVERAGE、Columbia和DEF-12k上進行測試得出的。實驗結果如表2和表3所示。
在這里插入圖片描述

稀疏注意力在捕獲非語義信息方面有效。在表2中，我們比較了稀疏注意力和全局注意力在五個數據集上的性能。此外，我們還報告了在這些數據集上手動提取的非語義特征和稀疏注意力的性能。結果一致地證實了稀疏注意力機制在從篡改圖像中提取非語義特征方面具有顯著優勢。我們觀察到，某些手工制作的特征提取方法在數據集上并沒有顯著提升模型性能，在某些情況下甚至導致性能下降。這引發了對手動非語義特征提取有效性的質疑，值得進一步研究。然而，顯而易見的是，稀疏注意力機制在所有數據集上都顯著提高了模型性能，在五個不同的數據集上都實現了全面的提升。
在這里插入圖片描述

此外，稀疏注意力的設計也顯示出在減少計算負擔方面的優勢。與全局注意力相比，稀疏注意力將模型的浮點運算減少了大約 $15\%$ ，這對于大規模圖像處理任務尤其有價值。綜上所述，稀疏注意力通過精確提取篡改圖像中的非語義信息，提高了模型對細微偽影的敏感性，從而顯著提高了模型的泛化能力。
在這里插入圖片描述

如圖4所示，我們通過定性分析證明，在稀疏化之后，模型成功抑制了需要密集編碼和長距離上下文依賴的語義特征，同時能夠提取不需要密集編碼的非語義特征。在附錄C中，我們對稀疏注意力和手工制作的特征提取器進行了定性分析。

LFF的影響。在表3中，我們報告了單尺度特征、LFF和MLP（Xie等，2021）預測頭在數據集上的性能。實驗結果表明，無論使用單尺度特征還是多尺度特征，或者采用不同的特征融合策略，CASIAv1數據集上的F1分數都表現出高度一致性。我們將這一現象歸因于CASIAv1和CASIAv2來源于相同的數據集，因此CASIAv1數據集上的性能不足以反映模型的泛化能力（Ma等，2023）。進一步分析發現，與僅使用單尺度特征相比，LFF預測頭和MLP預測頭在五個數據集上的平均F1分數都取得了顯著提高。這表明有效的特征融合策略可以顯著增強模型在檢測圖像篡改方面的性能。具體來說，與MLP預測頭相比，LFF在平均F1分數方面也取得了提升，驗證了可學習特征融合在性能上優于簡單的特征相加。

局部特征融合（LFF）的優勢在于它能夠自適應地學習不同特征圖之間的最佳融合權重，而不僅僅是將它們相加。這種學習機制使得LFF能夠更精確地處理多尺度特征，從而更好地捕獲圖像中的篡改痕跡。此外，使用多尺度特征已被證明是有益的，因為它提供了不同層次的語義和非語義信息，有助于模型在各種操作條件下做出更準確的預測。

最先進技術對比

為確保評估的公平性，我們只考慮了代碼可在網上公開獲取的模型。我們遵循與CAT-Net相同的協議，對這些模型進行了重新訓練，并在公共數據集上進行了測試。在本研究中，我們考慮了多種方法，并最終納入了四種依賴手工提取篡改圖像非語義特征的方法：ManTraNet、MVSS、CATNet v2和TruFor。此外，我們還納入了一種不使用手工特征提取的方法：PSCC-Net（Liu等，2022）。這些方法的簡要概述如表1所示，以供參考。我們的目標是提供一個全面且公平的對比，以更深入地了解不同方法在圖像篡改定位中的性能和潛力。
在這里插入圖片描述

定位結果。在表4中，我們展示了各種方法在像素級定位方面的性能。我們的方法憑借其優越的平均F1分數脫穎而出，在所有數據集上均排名第一。對這些結果的詳細分析表明，我們的模型在基于手工非語義特征提取的傳統方法和不依賴手工特征的模型方面均表現出色。我們的模型之所以在眾多模型中脫穎而出，原因在于其在特征學習和表示方面的創新。通過深入探索篡改圖像的內在結構，我們的模型能夠準確捕獲篡改留下的微妙痕跡。即使面對復雜多變的篡改技術，它仍能保持高檢測準確率。

檢測結果。我們選擇了在Pixel-F1指標上表現最佳的權重參數來評估模型的AUC性能。通過分析表4中的數據，我們觀察到我們的SparseViT模型在幾乎所有測試數據集上都取得了最佳性能，并表現出了最高的平均AUC值。這一結果表明，SparseViT模型在廣泛的性能評估點上均優于現有的基線模型。
在這里插入圖片描述

模型大小對比。與當前表現最佳的Trufor相比，SparseViT在相同的訓練數據大小（ $512 \times 512$ 像素）下不僅實現了優越的F1和AUC性能，還將模型大小減少了80%以上。此外，即使與使用較小訓練數據（ $256 \times 256$ 像素）的ManTraNet相比，SparseViT在減少計算負載方面也表現出顯著優勢。具體數據如表5所示。
在這里插入圖片描述

魯棒性分析。遵循（Wu、AbdAlmageed和Natarajan，2019）以及（Hu等，2020）的指南，我們在CASIAv1數據集上評估了模型針對圖像篡改定位中三種常見攻擊方法的魯棒性，即JPEG壓縮、高斯模糊和高斯噪聲。結果如圖6所示。觀察結果表明，SparseViT在抵抗這些干擾方面優于現有的最先進模型，表現出了卓越的魯棒性。
在這里插入圖片描述

總體而言，與在公平的跨數據集評估協議下測試的現有模型相比，我們的模型實現了最先進的性能。圖5從定性角度說明了我們的模型的一個關鍵優勢：無論是否涉及對象級篡改，我們的模型都能有效地利用獨立于圖像語義內容的非語義特征來準確識別篡改區域，從而避免與語義相關的誤報。

結論

依賴手工方法來增強模型提取非語義特征的能力通常會限制其在不熟悉場景中的泛化潛力。為了超越手工方法，我們建議使用稀疏自注意力機制來學習非語義特征。稀疏自注意力使模型更加關注對篡改敏感的非語義特征，同時抑制語義信息的表達。我們的自適應方法不僅參數高效，而且比以往的手工方法更有效，大量實驗表明，SparseViT實現了最先進（SoTA）的性能和泛化能力。

附錄

附錄A. 實驗設置詳情

數據集。為確保與當前最先進的圖像篡改定位（IML）方法進行公平比較，我們的模型在CAT-Net（Kwon等人，2021）提供的數據集上進行訓練。隨后，我們在圖像篡改定位領域廣泛認可的公共數據集上測試了訓練好的模型。這些數據集包括CASIAv1（Dong, Wang, and Tan, 2013）、NIST16（Guan等人，2019）、COVERAGE（Wen等人，2016）、Columbia（Hsu and Chang, 2006）和DEFACTO（Mahfoudi等人，2019）。特別地，鑒于DEFACTO數據集缺少作為負樣本的真實圖像，我們采用了MVSS（Dong等人，2022a）提出的方法來解決這一問題。我們從DEFACTO數據集中隨機選擇了6000張圖像作為正樣本，并同樣從MS-COCO數據集中提取了6000張圖像作為負樣本。這12000張圖像共同構成了我們用于測試的DEF-12k數據集。這種方法確保了評估過程中，模型不僅能在不同的數據集上展示其性能，而且在缺少標準負樣本的情況下也能進行有效測試。

評估標準。在我們的評估過程中，與大多數先前的研究一樣，我們使用像素級的F1分數和AUC（曲線下面積）作為衡量模型性能的關鍵指標。我們承認，使用最優閾值進行評估可能會導致性能估計過于樂觀，因為在實際應用中理想閾值通常是未知的，并且可能因不同場景而異。為避免這種情況并提供更實用、更具可比性的性能評估，除非另有說明，否則我們在評估報告中采用了固定閾值。具體來說，我們選擇0.5作為報告模型性能指標時的默認閾值。

實現。我們的SparseViT模型在PyTorch框架中得到了精心實現，并在NVIDIA RTX 3090 GPU上進行了高效訓練。在訓練過程中，我們選擇了16的批量大小，并設置了200個訓練周期，以確保模型能夠充分學習和收斂。在優化方面，我們使用了Adam優化器，初始學習率為 $\times 10^{-4}$ ，然后使用余弦退火策略將其周期性衰減到 $\times 10^{-7}$ 。這種方法有助于模型在訓練過程中精細地接近最優解。與MVSS-Net類似，我們在訓練前進行了數據增強，以提高模型的泛化能力。所使用的數據增強技術包括圖像翻轉、模糊、壓縮和簡單篡改操作，這些操作有助于模擬圖像在現實世界中可能經歷的各種變換和篡改。此外，為了進一步提高模型的性能，我們采用了預訓練策略。具體來說，我們使用在ImageNet1k數據集上預訓練的Uniformer（Li等人，2023）權重來初始化我們的SparseViT模型。

附錄B. 稀疏率組合

盡管我們已經引入了超參數“稀疏率”來實現全局自注意力中的稀疏性，以提取非語義特征，但注意力機制中不同程度的稀疏性可以不同程度地識別非語義特征。因此，為我們的模型選擇“稀疏率”對于提取非語義特征至關重要。
在這里插入圖片描述

在本研究中，我們進行了一系列實驗，重點研究模型內部稀疏率的組合。首先，我們探討了單一稀疏率對非語義特征提取的影響。如表6所示，我們在四個不同的數據集上測試了模型在不同稀疏率（2,4,8）下的像素級F1分數。實驗結果表明，在CASIAv1和Columbia數據集上，與較高稀疏率的模型相比，較低稀疏率的模型實現了相似甚至更高的F1分數，而它們在NIST16和COVERAGE數據集上的表現則遜于高稀疏率模型。
在這里插入圖片描述

我們的分析顯示，與較高的稀疏率相比，較低的稀疏率在抑制語義信息方面效果較差。這表明，在像CASIAv1和Columbia這樣包含更多對象級篡改的數據集上，即使模型學習了錯誤的語義關聯，它仍然可以獲得良好的F1分數。然而，在像NIST16和COVERAGE這樣精心設計的數據集上，由于非語義特征學習不足，模型的泛化能力受到限制。在圖7中，我們對不同稀疏水平進行了定性分析。F1分數顯示，由于非語義特征學習不足，較低稀疏率的模型在抵抗語義關聯方面表現不佳。這導致與較高稀疏率的模型相比，在NIST16等高質量數據集上的定位性能較差。

為了克服這一限制，并增強模型對非語義特征的學習能力，同時提高其泛化能力，我們提出了一種新策略：在模型的不同層中應用稀疏化，且稀疏率按指數遞減。這種方法旨在平衡模型對非語義特征和語義特征的學習，使模型能夠保持對非語義特征的敏感性，同時捕獲一些語義信息，從而在各種數據集上實現更平衡和穩健的性能。

附錄C. 定性比較結果

在圖8中，我們比較了手工特征提取器和稀疏自注意力方法在定位圖像中篡改區域的能力。結果表明，DCT和SRM手工特征提取器在識別篡改區域方面取得了一定改進。然而，當Sobel和Bayar特征提取器與LFF預測頭結合使用時，其定位性能并未超過僅使用LFF預測頭的情況。這引發了疑問：是否所有手工特征提取器都能有效地從圖像中提取非語義特征。顯然，稀疏自注意力機制即使不依賴LFF預測頭，也表現出優于DCT和其他手工特征提取器的定位能力。這一發現證實了稀疏自注意力機制能夠自適應地從篡改圖像中提取非語義特征，表明與傳統手工方法相比，稀疏自注意力機制在捕獲圖像內的非語義信息方面可能更有效。
在這里插入圖片描述

附錄D. IoU結果報告

我們報告了最先進的IML模型的像素級IoU分數，如表8所示。SparseViT在所有四個數據集上都取得了最佳結果。SparseViT不僅在像素級F1分數上表現出色，而且在整體圖像分割和識別任務中也表現出高精度和魯棒性。這歸功于SparseViT獨特的稀疏結構設計，它顯著增強了模型捕獲非語義特征的能力，同時保持了參數效率。

附錄E. 在其他ViT上實現稀疏編碼

我們選擇Uniformer，因為像PVT（Wang等人，2021）和Segformer（Xie等人，2021）這樣的模型使用重疊補丁劃分，這可能會使補丁之間的稀疏交互變得難以控制，并導致語義過擬合。此外，Uniformer在淺層使用CNN來提取特征，我們認為CNN捕獲邊緣等基本特征的能力對IML是有益的。我們的方法也與原始ViT（Dosovitskiy等人，2020）兼容，如表9所示。我們在原始ViT和VOLO（Yuan等人，2022）（無LFF）上實現了稀疏注意力，結果表明我們的方法對原始ViT同樣有效。
在這里插入圖片描述

附錄F. LFF在提高性能中的作用

設計LFF的目標之一是實現輕量級且高效的性能。因此，在“LFF的影響”部分，我們重點將其與為輕量級目的而設計的MLP進行比較。為了進一步突出LFF在輕量級設計和效率方面的優勢，我們在表7中提供了與AFF（Dai等人，2021）和ASPP（Chen等人，2017）的額外比較。結果表明，SparseViT在平均F1分數和參數效率方面優于這些方法，證明了LFF可以顯著降低模型復雜性和計算成本，同時保持性能。在這里插入圖片描述