AutoEncoder和 Denoising AutoEncoder學習筆記

參考：
【1】 https://lilianweng.github.io/posts/2018-08-12-vae/

寫在前面：
只是直覺上的認識，并沒有數學推導。后面會寫一篇（抄）大一統文章（概率角度理解為什么AE要選擇MSE Loss）

1 AutoEncoder

在這里插入圖片描述
AE實際上是一個壓縮模型，它通過將輸入 $x$ 傳進encoder將圖像壓縮到隱式特征（latant representation），然后再通過decoder輸出 $x^{'}$ ，試圖重建出 $x$ 。既重建公式為該兩個變量的均方差損失：
$L=||x-x'||^2=\frac{1}{N}\sum_{i=1}^N(x^i -x'^i)^2$

如果成功訓練好一個AE，那么encoder就可以說能正確提取出輸入 $x$ 的重要特征，而decoder也可以根據這些重要特征還原出與輸入 $x$ 相近的 $x^{'}$ 。

但AE僅僅是在學習等式函數 $x = x^{'}$ ，所以很容易就過擬合了（神經網絡有強大的擬合函數的能力），過擬合之后那么其僅對訓練集數據表現很好，對未知數據的表現就一塌糊涂了。

2 Denoising AutoEncoder

在這里插入圖片描述
DAE相當于該模型上了強度，與其給你看完整的東西，不如我遮蓋一部分，讓你猜這部分是什么，然后將這個東西還原出來（人類視覺方面，如果遮蓋了某個東西的一部分，大概率我們還是能想象出來的）

輸入到encoder的數據就由 $x$ ，變為 $\tilde x^i \sim M_D(\tilde x^i|x^i)$ ，其中 $\tilde x$ 表示被破壞的，或者被噪聲污染過后的 $x$ 。 $M_D$ 表示噪聲的隨即映射分布，或者被隨機破壞（置0）的每個像素上的概率。總之就是這么一回事。

我們可以理解為，當一部分像素被破壞之后，對于圖像這種高維輸入且高度冗余的數據，模型就要根據其他的維度去預測損失的維度的數據，就不再是去過擬合一個維度，這就構建了一個很好的學習到魯棒隱式特征的基礎。
【一個不恰當的例子：比如看到1、2、3，AE就記住了1、2、3的特征，那么給數據1、3、4，那么它可能就還原不出4。但是看到1、2、_，GT為1、2、3，那么模型可能就會根據1、2去推理出3（比如1+2=3），那么給出數據1、3、4，對于4，模型也有能力根據1、3去推出，學習到了某些加法操作的特征】

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/713894.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/713894.shtml
英文地址，請注明出處：http://en.pswp.cn/news/713894.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！