對抗攻擊-知識點

在這里插入圖片描述

所以輕微擾動即可使預測錯誤。

比如想象一張2x2的迷你圖片（4個像素），這時正交基就是4個互相垂直的方向：單獨增加像素1、像素2、像素3、像素4的亮度，且保證每次調整不會互相干擾。

假設圖像有 d 個像素（如 224x224x3=150,528 維），正交基就是 d 個互相垂直的向量
- - 每個向量代表一種獨立的像素修改模式
- - 任意兩個模式互不干擾（修改模式A不會影響模式B的效果）

特征降采樣（Feature Downsampling）是深度學習（尤其是卷積神經網絡 CNN）中的一種核心操作，旨在逐步減少特征圖的空間尺寸（寬和高），同時增加其通道數（深度）。

通過黑盒攻擊（查詢幾百次才得到的對抗樣本）來訓練出魯棒性更強的模型

計算示例（像素值R=100, G=150, B=200）：

Y = 0.299*100 + 0.587*150 + 0.114*200 ≈ 139.25
Cb = -0.1687*100 -0.3313*150 +0.5*200 +128 ≈ 113.23
Cr = 0.5*100 -0.4187*150 -0.0813*200 +128 ≈ 124.56

乘以固定系數即可

$F(u, v) = Σ_{i=0}^{7} Σ_{j=0}^{7} f(i, j) * B_{u,v}(i, j)$

$F (u, v)$ 是一個數值，不是波面
一個 $F (u, v)$ 相當于（u，v）確定基函數波面分別與64個像素點的乘積之和，表示了

DCT系數矩陣本質上是一個頻率能量分布圖：

每個位置對應特定方向/頻率的波面系數值表示該頻率分量（基函數波面）在圖像中的強度整體分布揭示圖像的空間頻率特征

將系數按位置排列成8x8矩陣

$B_{u,v}(i,j) = C(u) * C(v) * cos( (2i+1)uπ / 16 ) * cos( (2j+1)vπ / 16 )$

i 相當于x，j 相當于y；
參數 uu 控制水平方向的頻率（即橫向條紋的密度）；
參數 vv 控制垂直方向的頻率（即縱向條紋的密度）。
最終表達出來的是64個不同的波面
畫圖

在這里插入圖片描述

C(u)也是

對任何8x8像素塊，通過其得到的8x8基函數值都相同
在這里插入圖片描述 >

DCT將圖片的信息分散到64個基函數波面上來存儲
而人眼對左上角的低頻基函數波面更敏感
這些低頻分量描述圖像中緩慢、平滑的變化，如大面積的色塊、亮度漸變、柔和邊緣。人眼對這些大面積、平緩變化的信息極其敏感。

圖像通道數（Channels）取決于格式和存儲的數據類型。以下是主要區別：

典型通道數：
- RGB 模式：3 通道（紅、綠、藍）
- RGBA 模式：4 通道（紅、綠、藍 + Alpha 透明度）
- 灰度模式：1 通道（僅亮度）
- 灰度+Alpha：2 通道（亮度 + 透明度）
位深度：支持 8 位/通道（24 位色）或 16 位/通道（48 位色）
透明支持：Alpha 通道實現平滑過渡透明

格式	典型通道數	透明度支持	位深度	通道特性
PNG	1/2/3/4	? Alpha 通道	8 或 16 位	靈活支持多種模式
JPEG	3 (或 1)	?	8 位固定	純色彩數據，無擴展通道
RAW	1 (重建為3)	?	12-16 位	原始傳感器單通道 + 元數據

💡 注意：

PNG 的 Alpha 通道讓邊緣融合更自然（如陰影/發光效果）
RAW 的"單通道"本質使其文件體積遠小于同分辨率 PNG（未壓縮時）
JPEG 的 3 通道固定結構是其壓縮效率高的原因之一

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/90788.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/90788.shtml
英文地址，請注明出處：http://en.pswp.cn/web/90788.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！