文章目錄
- 自然圖像往往靠近機器學習分類器學習到的決策邊界(decision boundaries)。
- 正交方向--改變某一個不影響其它的
- 特征降采樣(Feature Downsampling)
- 通過黑盒攻擊的持續挑戰,我們才能構建真正安全可靠的智能系統
- DCT圖像變換
- 圖片通道數
- 1. **PNG (Portable Network Graphics)**
- 2. **JPEG/JPG (Joint Photographic Experts Group)**
- 3. **RAW (原始傳感器數據)**
- 通道對比總結
自然圖像往往靠近機器學習分類器學習到的決策邊界(decision boundaries)。
所以輕微擾動即可使預測錯誤。
正交方向–改變某一個不影響其它的
比如想象一張2x2的迷你圖片(4個像素),這時正交基就是4個互相垂直的方向:單獨增加像素1、像素2、像素3、像素4的亮度,且保證每次調整不會互相干擾。
- 假設圖像有 d 個像素(如 224x224x3=150,528 維),正交基就是 d 個互相垂直的向量
-
- 每個向量代表 一種獨立的像素修改模式
-
- 任意兩個模式 互不干擾(修改模式A不會影響模式B的效果)
-
特征降采樣(Feature Downsampling)
特征降采樣(Feature Downsampling) 是深度學習(尤其是卷積神經網絡 CNN)中的一種核心操作,旨在逐步減少特征圖的空間尺寸(寬和高),同時增加其通道數(深度)。
通過黑盒攻擊的持續挑戰,我們才能構建真正安全可靠的智能系統
通過黑盒攻擊(查詢幾百次才得到的對抗樣本)來訓練出魯棒性更強的模型
DCT圖像變換
- 1 將RGB圖像轉換為亮度(Y)和色度(Cb, Cr)通道
將RGB圖像轉換為亮度(Y)和色度(Cb, Cr)通道的步驟發生在DCT變換前
計算示例(像素值R=100, G=150, B=200):
Y = 0.299*100 + 0.587*150 + 0.114*200 ≈ 139.25
Cb = -0.1687*100 -0.3313*150 +0.5*200 +128 ≈ 113.23
Cr = 0.5*100 -0.4187*150 -0.0813*200 +128 ≈ 124.56
乘以固定系數即可
- 2 DCT系數矩陣F(u,v)F(u, v)F(u,v),(核心目的)
F(u,v)=Σi=07Σj=07f(i,j)?Bu,v(i,j)F(u, v) = Σ_{i=0}^{7} Σ_{j=0}^{7} f(i, j) * B_{u,v}(i, j)F(u,v)=Σi=07?Σj=07?f(i,j)?Bu,v?(i,j)
F(u,v)F(u, v)F(u,v)是一個數值,不是波面
一個F(u,v)F(u, v)F(u,v)相當于 (u,v)確定基函數波面分別與64個像素點的乘積之和,表示了
DCT系數矩陣本質上是一個頻率能量分布圖:
每個位置對應特定方向/頻率的波面系數值表示該頻率分量(基函數波面)在圖像中的強度整體分布揭示圖像的空間頻率特征
將系數按位置排列成8x8矩陣
- 3 DCT固定的64個基函數波面
Bu,v(i,j)=C(u)?C(v)?cos((2i+1)uπ/16)?cos((2j+1)vπ/16)B_{u,v}(i,j) = C(u) * C(v) * cos( (2i+1)uπ / 16 ) * cos( (2j+1)vπ / 16 )Bu,v?(i,j)=C(u)?C(v)?cos((2i+1)uπ/16)?cos((2j+1)vπ/16)
i 相當于x,j 相當于y;
參數 uu 控制水平方向的頻率(即橫向條紋的密度);
參數 vv 控制垂直方向的頻率(即縱向條紋的密度)。
最終表達出來的是64個不同的波面
畫圖
C(u)也是
對任何8x8像素塊,通過其得到的8x8基函數值都相同
>
- DCT將圖片的信息分散到64個基函數波面上來存儲
- 而人眼對左上角的低頻基函數波面更敏感
- 這些低頻分量描述圖像中緩慢、平滑的變化,如大面積的色塊、亮度漸變、柔和邊緣。人眼對這些大面積、平緩變化的信息極其敏感。
- 4 刪除高頻信息后還原圖片
圖片通道數
圖像通道數(Channels)取決于格式和存儲的數據類型。以下是主要區別:
1. PNG (Portable Network Graphics)
- 典型通道數:
- RGB 模式:3 通道(紅、綠、藍)
- RGBA 模式:4 通道(紅、綠、藍 + Alpha 透明度)
- 灰度模式:1 通道(僅亮度)
- 灰度+Alpha:2 通道(亮度 + 透明度)
- 位深度:支持 8 位/通道(24 位色)或 16 位/通道(48 位色)
- 透明支持:Alpha 通道實現平滑過渡透明
2. JPEG/JPG (Joint Photographic Experts Group)
- 典型通道數:
- 僅支持 3 通道(紅、綠、藍)
- 不支持透明度(無 Alpha 通道)
- 特殊模式:
- 灰度 JPEG:1 通道(較少用)
- 位深度:固定 8 位/通道(24 位色)
- 透明替代方案:通過背景色模擬透明(效果生硬)
3. RAW (原始傳感器數據)
- 核心通道數:
- 本質是 1 通道(每個像素只記錄單色光強度)
- 實際處理:
- 通過 Bayer 濾鏡陣列重建為 3 通道 RGB
- 專業軟件可提取 4 通道(R、G1、G2、B)或更多
- 位深度:12-16 位/通道(佳能 CR2:14 位/通道)
- 特殊通道:
- 可能包含紅外/深度等元數據通道
通道對比總結
格式 | 典型通道數 | 透明度支持 | 位深度 | 通道特性 |
---|---|---|---|---|
PNG | 1/2/3/4 | ? Alpha 通道 | 8 或 16 位 | 靈活支持多種模式 |
JPEG | 3 (或 1) | ? | 8 位固定 | 純色彩數據,無擴展通道 |
RAW | 1 (重建為3) | ? | 12-16 位 | 原始傳感器單通道 + 元數據 |
💡 注意:
- PNG 的 Alpha 通道讓邊緣融合更自然(如陰影/發光效果)
- RAW 的"單通道"本質使其文件體積遠小于同分辨率 PNG(未壓縮時)
- JPEG 的 3 通道固定結構是其壓縮效率高的原因之一