機器學習：利用卷積神經網絡實現圖像風格遷移 (一)

相信很多人都對之前大名鼎鼎的 Prisma 早有耳聞，Prisma 能夠將一張普通的圖像轉換成各種藝術風格的圖像，今天，我們將要介紹一下Prisma 這款軟件背后的算法原理。就是發表于 2016 CVPR 一篇文章，

“ Image Style Transfer Using Convolutional Neural Networks”

算法的流程圖主要如下：

這里寫圖片描述

總得來說，就是利用一個訓練好的卷積神經網絡 VGG-19，這個網絡在ImageNet 上已經訓練過了。

給定一張風格圖像 a 和一張普通圖像 p，風格圖像經過VGG-19 的時候在每個卷積層會得到很多 feature maps, 這些feature maps 組成一個集合 A，同樣的，普通圖像 p 通過 VGG-19 的時候也會得到很多 feature maps，這些feature maps 組成一個集合 P，然后生成一張隨機噪聲圖像 x, 隨機噪聲圖像 x 通過VGG-19 的時候也會生成很多feature maps，這些 feature maps 構成集合 G 和 F 分別對應集合 A 和 P, 最終的優化函數是希望調整 x 讓隨機噪聲圖像 x 最后看起來既保持普通圖像 p 的內容, 又有一定的風格圖像 a 的風格。

content representation

在建立目標函數之前，我們需要先給出一些定義: 在CNN 中, 假設某一 layer 含有 Nl 個 filters, 那么將會生成 Nl 個 feature maps，每個 feature map 的維度為 Ml , Ml 是 feature map 的高與寬的乘積。所以每一層 feature maps 的集合可以表示為 Fl∈RNl×Ml , Flij 表示第 i個 filter在 position j 上的 activation。

所以，我們可以給出 content 的 cost function:

L c o n t e n t (p, x, l) = 1 2 \sum i j (F l i j ? P l i j)

style representation

為了建立風格的representation，我們先利用 Gram matrix 去表示每一層各個 feature maps 之間的關系，Gl∈RNl×Nl , Glij 是 feature maps i,j 的內積：

G l i j = \sum k F l i k F l j k

利用 Gram matrix，我們可以建立每一層的關于 style 的 cost :

E l = 1 4 N 2 l M 2 l \sum i, j (G l i j ? A l i j) 2

結合所有層，可以得到總的cost

L s t y l e (a, x) = \sum l = 0 L w l E l

最后將 content 和 style 的 cost 相結合，最終可以得到:

L t o t a l (p, a, x) = α L c o n t e n t (p, x) + β L s t y l e (a, x)

α,β 表示權值，在建立 Lcontent 的時候，用到了 VGG-19 的 conv4_2 層，而在建立 Lstyle 的時候，用到了VGG-19 的 conv1_1, conv2_1, conv3_1, conv4_1 以及 conv5_1。

下一篇博客里，我們將介紹基于 TensorFlow 的代碼實現。

轉載于:https://www.cnblogs.com/mtcnn/p/9412430.html

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/255627.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/255627.shtml
英文地址，請注明出處：http://en.pswp.cn/news/255627.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！