Imperceptible Adversarial Attack via Invertible Neural Networks
作者:Zihan Chen, Ziyue Wang, Junjie Huang*, Wentao Zhao, Xiao Liu, Dejian Guan
解決的問題:雖然視覺不可感知性是對抗性示例的理想特性,但傳統的對抗性攻擊仍然會產生可追蹤的對抗擾動。
代碼:https://github.com/jjhuangcs/AdvINN
類型:黑盒 目標攻擊,
摘要:
作者利用可逆神經網絡(AdvINN)方法進行對抗性攻擊,生成魯棒且難以察覺的對抗性示例。AdvINN利用INN的信息保留屬性,添加目標類的指定信息、刪除與原始類別不同的信息來生成對抗樣本。
引言部分引出對抗攻擊示例
雖然對抗樣本的存在可能會阻礙深度學習在風險敏感領域的應用,但它進一步促進了對深度學習魯棒性的研究。
現有對抗樣本的類別:
- 在原始圖像上添加擾動來生成對抗樣本:FGSM系列的對抗攻擊方法+混合其他類別的信息來生成對抗樣本,這種方法可能會導致噪聲被感知和圖像存儲容量的增加;
- 在原始圖像上丟棄部分信息來生成對抗樣本,這種方法可能會影響目標攻擊的性能。
方法整體概述
給定一張良性圖像 x c l n x_{cln} xcln?,其標簽為 c c c,作者的目標是通過丟棄類 c c c的discriminant information和添加target image x t g t x_{tgt} xtgt?的對抗細節,同時能夠通過殘差圖像 x r x_r xr?解析添加和丟棄的特征信息。方案整體包含Invertible Information Exchange Module (IIEM)和目標圖像選擇和學習(Target image selection and learning)兩個模塊,整體概述如下圖所示:
- IIEM模塊: θ \theta θ是 f θ ( ? ) {f_\theta }({\cdot}) fθ?(?)的參數,由Invertible Information Exchange Module (IIEM), Target Image Learning Module (TILM) 和loss functions三個模塊組成用于優化;IIEM由損失函數驅動,通過執行 x c l n {x_{cln }} xcln?和 x t g t {x_{tgt}} xtgt?的信息交換來生成對抗圖像。由于IIEM的保留屬性,輸入圖像 ( x c l n , x t g t ) ({x_{cln}},{x_{tgt}}) (xcln?,xtgt?)和輸出圖像 ( x a d v , x r ) ({x_{adv}},{x_{r}}) (xadv?,xr?)是相同的且 ( x a d v , x r ) = f θ ? 1 ( x c l n , x t g t ) ({x_{adv}},{x_r})= {f_\theta }^{ - 1}({x_{cln }},{x_{tgt}}) (xadv?,xr?)=fθ??1(xcln?,xtgt?)。AdvINN生成對抗樣本的目標函數定義如下:
L a d v ( ? ) \mathcal{L_{adv}}( \cdot ) Ladv?(?)表示對抗損失, L r e c ( ? ) \mathcal{L_{rec}}( \cdot ) Lrec?(?)表示重構損失, λ a d v {\lambda _{adv}} λadv? 表示正則參數, ε \varepsilon ε表示對抗擾動預算。
-target image選擇: target image是對抗信息的來源,可以從highest confidence target image (HCT)、universal adversarial perturbation (UAP)或online learned classifier guided target image( CGT)中選擇;
方法詳細闡述:
Invertible Information Exchange Module (IIEM)
該模塊主要包括離散小波變換和仿射偶爾兩個模塊,示意圖如下:
- 離散小波變換:作者使用離散小波變換(正文使用的是哈兒小波變換)用以區分輸入干凈和目標圖像分解為低頻和高頻成分。分解低頻和高頻特征有助于修改輸入圖像的高頻成分,因而可以產生更不易察覺的對抗樣本(注意:修改高頻成分生成的對抗樣本更不易被察覺。)離散小波變換 T ( ? ) \mathcal{T}(\cdot) T(?)中,輸入圖像 x x x可被轉換成小波域 T ( x ) \mathcal{T}(x) T(x),該域上包含一個低頻子帶特征和3個高頻子帶特征。在IIEM的輸出端,逆離散小波變換 T ? 1 ( ? ) {\mathcal{T}^{-1}}( \cdot ) T?1(?)用于重構特征到圖像域。
- 仿射耦合模塊:可逆信息交換模塊由 M M M個Affine Coupling Blocks(仿射耦合模塊)組成。 w c l n i w_{cln }^i wclni?和 w t g t i w_{tgt}^i wtgti?表示第 i i i個Affine Coupling Blocks的輸入特征, w c l n i = T ( x c l n ) w_{cln }^i = T({x_{cln }}) wclni?=T(xcln?), w t g t i = T ( x t g t ) w_{tgt}^i = T({x_{tgt}}) wtgti?=T(xtgt?)。第 i i i個Affine Coupling Blocks的前向過程可表示為:
Θ \Theta Θ表示兩個矩陣對應相乘, α \alpha α表示一個sigmod 函數乘以一個常數因子, ψ ( ? ) , ρ ( ? ) , η ( ? ) \psi ( \cdot ),\rho ( \cdot ),\eta ( \cdot ) ψ(?),ρ(?),η(?)表示dense network architecture。給定第M個仿射耦合模塊的輸出,利用逆小波變換可獲得對抗圖像和殘差圖像: x a d v = T ? 1 ( w c l n M ) , x r = T ? 1 ( w t g t M ) {x_{adv}} = {T^{ - 1}}(w_{cln }^M),{x_r} = {T^{ - 1}}(w_{tgt}^M) xadv?=T?1(wclnM?),xr?=T?1(wtgtM?) - 信息保留屬性:由于DWI和IDWT的可逆性, ( w c l n M , w t g t M ) (w_{cln }^M, w_{tgt}^M) (wclnM?,wtgtM?)可以被保存在 ( x a d v , x r ) ({x_{adv}}, {x_r}) (xadv?,xr?), ( w c l n i ? 1 , w t g t i ? 1 ) (w_{cln }^{i - 1},w_{tgt}^{i - 1}) (wclni?1?,wtgti?1?)可以被保存在 ( w c ln ? i , w t g t i ) (w_{c\ln }^{i },w_{tgt}^{i}) (wclni?,wtgti?)
IIEM是完全可逆,輸出圖像 ( x a d v , x r ) ({x_{adv}},{x_r}) (xadv?,xr?)和輸入圖像 ( x c l n , x t g t ) ({x_{cln}},{x_tgt}) (xcln?,xt?gt)包含相同的信息。他們之間的聯系可表示如下:
σ \sigma σ表示干凈圖像上丟棄的信息, δ \delta δ表示添加到干凈圖像上目標圖像的判別信息。
目標圖像選擇和學習(Target image selection and learning)
- 選取最高置信類的圖像:選取最高置信的圖像作為目標圖像可能包含大量目標類的無關信息,例如背景紋理和其他的類的信息。這將會影響攻擊成功率和尋優過程;
- 通用對抗擾動:作者沿用該方法,利用優化后的通用對抗攝動作為目標圖像,加快收斂速度;
- 目標圖像學習模塊:該模塊學習分類器引導的目標圖像,而不是使用固定的圖像作為目標圖像。目標圖像被設置為一個可學習的變量,該變量用一個恒定的圖像初始化(即所有像素設置為0.5),然后根據攻擊分類器的梯度進行更新。這樣,自適應生成的目標圖像可以嵌入目標類的更多判別信息,從而輔助生成對抗樣例。
學習細節
整個網絡的總體損失定義如下:
L a d v {\mathcal{L}_{adv}} Ladv?表示對抗損失用于定位正確的優化方向和加速收斂速度,
+消融實驗