文章目錄
- Deep Image Prior
- 1. 方法原理
- 1.1 研究動機
- 1.2 方法
- 2. 實驗驗證
- 2.1 去噪
- 2.2 超分辨率
- 2.3 圖像修復
- 2.4 消融實驗
- 3. 總結
Deep Image Prior
1. 方法原理
1.1 研究動機
動機
- 深度神經網絡在圖像復原和生成領域有非常好的表現一般歸功于神經網絡學習到了圖像的先驗信息
- 網絡結構本身是否具有先驗信息呢?
挑戰
- 如何驗證網絡結構本身是否具有先驗信息?
- 無訓練集,無未退化的原圖作為標簽,使用單張退化的圖像進行恢復
- 唯一的先驗信息來自于網絡結構本身
貢獻
- 發現了神經網絡結構對自然信號的低阻抗性和對噪聲信號具有高阻抗的隱式先驗信息
- 在去噪、超分辨率、圖像修復等任務上利用這種隱式先驗信息實現了非常好的效果
- 網絡僅僅使用退化的單個圖像進行訓練,所以沒有大量數據集帶來的圖像先驗信息,而是網絡結構自身所具有的結構先驗信息
1.2 方法
使用一個隨機向量 z ∈ R c ′ × H ′ × W ′ z \in R^{c' \times H' \times W'} z∈Rc′×H′×W′,和一個神經網絡( f θ ( . ) f_{\theta}(.) fθ?(.))輸出一個我們想要的圖像 x ∈ R 3 × H × W x \in R^{3 \times H\times W} x∈R3×H×W
x = f θ ( z ) x = f_{\theta}(z) x=fθ?(z)
然后,針對一個具體的 去噪、超分辨率或圖像修復的問題,這就變為了一個最小化能量的問題(最大似然)
x ? = m i n x E ( x ; x 0 ) + R ( x ) x^* = \underset{x}{min}E(x;x_0) + R(x) x?=xmin?E(x;x0?)+R(x)
其中 m i n x E ( x ; x 0 ) \underset{x}{min}E(x;x_0) xmin?E(x;x0?)是和任務相關的數據匹配項,而 R ( x ) R(x) R(x)是一個正則項。正則項目可以是簡單的TV正則化,在本文中想要證明的就是網絡結構本身就具有類似于TV正則化的效果,也就是:
x ? = m i n x E ( f θ ( z ) ; x 0 ) x^* = \underset{x}{min}E(f_{\theta}(z);x_0) x?=xmin?E(fθ?(z);x0?)
為了最小化能量,我們可以從觀測數據 z z z出發,或者從網絡本身出發。DIP考慮的是只從網絡結構本身探討這個問題。
用一個最簡單的重構損失來驗證:我們使用一個網絡參數化圖像,然后最小化重構圖像和真實圖像的損失:
E ( x ; x 0 ) = ∣ ∣ x ? x 0 ∣ ∣ 2 E(x;x_0) = ||x - x_0||^2 E(x;x0?)=∣∣x?x0?∣∣2
m i n θ ∣ ∣ f θ ( z ) ? x 0 ∣ ∣ \underset{\theta}{min}||f_{\theta}(z) - x_0|| θmin?∣∣fθ?(z)?x0?∣∣
使用不同的 x 0 x_0 x0?進行驗證:
- 真實圖片作為 x 0 x_0 x0?
- 真實圖片+噪聲作為 x 0 x_0 x0?
- 真實圖片像素點隨機打亂作為 x 0 x_0 x0?
- 噪聲作為 x 0 x_0 x0?

從上面這幅圖中可以發現,相同的神經網絡對不同的數據進行恢復,如果是真實自然圖片網絡可以非常快地進行恢復,而對于噪聲網絡的恢復在迭代很多次之后才能恢復。這展現出一種網絡結構的特性:對信號具有低阻抗,而對隨機噪聲具有高阻抗。因此我們可以在訓練過程中使用 early stopping方法,在迭代一定次數后得到的圖片的信號信息。
2. 實驗驗證
2.1 去噪

迭代2400次的時候自然信息就基本擬合了,沒有出現擬合噪聲信息。
迭代50k的時候就擬合了噪聲信息。
和其他方法進行對比

2.2 超分辨率

2.3 圖像修復


2.4 消融實驗


3. 總結
關鍵點
- 神經網絡對自然信息具有低阻性,對隨機噪聲具有高阻性
- 神經網絡提供的隱式先驗信息可以用來進行去噪、圖像修復、超分辨率
優勢
- 不需要預訓練網絡,不需要準備訓練數據集
- 可以同時解決多種問題
問題
- 速度慢,處理一個工作需要迭代上千次
- 性能不穩定,對不同的噪聲達到較好效果的迭代次數不同
- 怎么確定終止次數是一個重要問題
- 沒有從理論上證明這種方法的可靠性(后續有其他文章證明)