解讀Facebook CAN：如何給人工智能賦予藝術創作的力量

雷鋒網 AI 科技評論按：能夠迭代進化、模仿指定數據特征的GAN（生成式對抗性網絡）已經是公認的處理圖像生成問題的好方法，自從提出以來相關的研究成果不少，在圖像增強、超分辨率、風格轉換任務中的效果可謂是驚人的。（具體可以參見?Valse 2017 | 生成對抗網絡（GAN）研究年度進展評述 - 雷鋒網(公眾號：雷鋒網) ）

利用GAN達到圖像超分辨率和風格轉換示例

今年也有利用GAN做的簡筆畫到圖像轉換模型pix2pix（代碼地址?https://github.com/phillipi/pix2pix? ，demo地址?https://affinelayer.com/pixsrv/??）。除了下圖轉換貓的，還有建筑物的、鞋子的、包包的，模型非常有想象力，隨便畫也沒關系，感興趣的讀者可以自己到demo地址里畫畫看。

解讀Facebook CAN：如何給人工智能賦予藝術創作的力量

?demo中用把線條轉換成貓的示例

GAN能生成藝術作品嗎？

GAN既然已經有如此的圖像生成能力了，我們能不能用GAN生成藝術作品呢，畢竟許多現代藝術作品看照片好像也并不怎么復雜，比如下面這幅；超寫實主義的就更不用說了。

解讀Facebook CAN：如何給人工智能賦予藝術創作的力量

蒙德里安《紅黃藍的構成》

然而，要創造出一副人類覺得有藝術價值的作品并沒有那么簡單。人類喜歡創新性的作品，人類不喜歡完全模仿的作品；《蒙娜麗莎》和《蘭亭集序》只有原作者的原版才被認可是世界藝術瑰寶，后世的人就算基于它們創作，也要有自己的創新，才能帶來新的藝術價值，才能被觀賞者認可。

根據GAN的基本結構，鑒別器D要判斷生成器G生成的圖像是否和其它已經提供給鑒別器D的圖像是同一個類別（特征相符），這就決定了最好的情況下輸出的圖像也只能是對現有作品的模仿，如果有創新，就會被鑒別器D識別出來，就達不成目標了。上面幾個GAN的例子就能體現出鑒別器D帶來的這個特點，用GAN生成的藝術作品也就注定缺乏實質性的創新，藝術價值有限。

那么，能不能讓GAN具有一些創新的能力，讓這些創新有藝術價值、帶有這些創新的作品還能夠被人類認可呢？羅格斯大學藝術與人工智能實驗室、Facebook人工智能研究院（FAIR）、查爾斯頓學院藝術史系三方合作的這篇論文就通過CAN（Creative Adversarial Network，創造性對抗網絡）給出了一種答案。神經網絡庫Keras的作者Fran?ois Chollet也在Twitter上推薦了這篇文章。

解讀Facebook CAN：如何給人工智能賦予藝術創作的力量

先看看作品如何

解讀Facebook CAN：如何給人工智能賦予藝術創作的力量

CAN模型生成的一些藝術作品

可以看到，生成的藝術作品風格非常多樣，從簡單的抽象畫到復雜的線條組合都有，內容層次也有區分。論文中也有對比測試結果，CAN生成的作品不僅比GAN生成的更討人喜歡，甚至來自巴塞爾藝術展的人類藝術作品都比不上CAN。（具體數據看后文）

如何認識藝術創新

剛才說到，藝術作品需要有創新性，CAN中的C就是Creative，創新性的意思。那么創新性要如何衡量呢、如何達到呢？

以往基于GAN的圖像生成方法研究中，人類可以把訓練好的網絡生成的圖像和客觀事實相對比（超分辨率、圖像補全問題中）或者根據經驗判斷（風格轉換問題中），用來衡量網絡的效果；也有過一些更早期的算法，讓人類作為訓練反饋的一環，引導網絡的訓練過程。但是對于這次的課題需要設計一個能自動訓練和生成、還要衡量作品的創新性的系統而言，以往的方法就起不到什么幫助。

同時，在作者們看來，為了能模仿人類藝術創作的過程，算法中很重要的一部分就是要把算法的創意過程和人類藝術家以往的藝術作品聯系起來，像人類一樣把對以往藝術的理解和創造新藝術形態的能力整合在一起。為了能夠想辦法找到一個能夠衡量創新性、參與迭代訓練的創新性指標，作者們找來了一組藝術理論。

D.E.Berlyne認為，從生理心理學的角度講，人類的狀態中有一種叫做“喚醒水平”的指標，它可以衡量一個人有多警醒、多興奮；喚醒水平可以從最低的睡覺、休息，一直到暴怒、激動。而一副作品具有“喚醒潛力”的總體特質，它可以提升或者降低觀者的喚醒水平；它是作品新穎性、意外性、復雜性、多義性和疑惑性高低的綜合體現，這幾個屬性越高，作品的喚醒潛力就越高。

Colin Martindale（1943-2008）提出過一個假說，他認為在任一時刻，創意藝術家們都會嘗試增加他們作品的“喚醒潛力”，這就是一種拓寬創作習慣邊界的方法。但是，這種增加動作必須使得觀察者的負面反應盡可能小（盡量使觀察者不付出額外的努力），否則過于激進的產品就會受到負面的評價。

Colin Martindale還提出過一個假說，他認為當藝術家探索藝術風格的更多作用的時候，轉換藝術風格就會有提高“喚醒潛力”的作用。

這組理論只是解釋藝術創新的理論中的寥寥幾個，但是它們綜合起來給出了兩個具有計算性的、可以用于迭代訓練的指標：

創新作品的創新程度不能過高，觀者不認為作品是藝術作品的可能性應當盡可能小；
新的藝術風格就是創新的體現。

CAN網絡的構建

根據提煉出的這兩個指標，論文中基于GAN的原型構建了這樣一種新型的對抗性網絡CAN。

解讀Facebook CAN：如何給人工智能賦予藝術創作的力量

CAN模型的系統框圖

首先，對于“指標1：創新作品的創新程度不能過高，觀者不認為作品是藝術作品的可能性應當盡可能小”，就可以轉換為經典的對抗性網絡，G生成圖像，經過藝術作品訓練過的D判斷G生成圖像的是不是藝術作品。這樣的對抗性網絡生成的圖像就已經可以被人類看作是藝術作品。

然后，論文中的模型還根據“指標2：新的藝術風格就是創新的體現”增加了一部分新結構用來處理藝術風格。

論文中使用了25類不同的帶標簽藝術作品用于D的訓練，包含了抽象印象派、立體派、現代派、巴洛克、文藝復興早期等等風格的共7萬5千多幅。然后經過訓練的D除了要反饋一幅圖像“是否是藝術作品”外，還要反饋“能否分辨圖像是哪種藝術風格”。G然后就會利用D的反饋生成盡量難以分辨藝術風格的圖像——難以歸類到現有分類中的，就是創新了。

“是否是藝術作品”、“是否難以分辨藝術風格”是兩種對立的信號，前一種信號會迫使生成器G生成能夠被看作的藝術的圖像，但是假如它在現有的藝術風格范疇中就達到了這個目標，鑒別器D就能夠分辨出圖像的藝術風格了，然后生成器就會受到懲罰。這樣后一種信號就會讓生成器生成難以分辨風格的作品。所以兩種信號就可以共同作用，讓生成器能夠盡可能探索整個創意空間中藝術作品的范圍邊界，同時最大化生成的作品盡可能游離于現有的標準藝術風格之外。

這也就是論文標題「CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms」的含義，創造性對抗網絡可以學習藝術風格，然后背離這些現有的風格進行藝術創作。

還說藝術風格，現在是“不好分辨”，“好分辨”不行嗎？

相比GAN，CAN增加的反饋是“是否難以分辨藝術風格”，追求的是生成的圖像藝術風格難以分辨。雖然根據藝術理論的推導，新的藝術風格是一種創新，但既然是多加了一個反饋，追求“生成的圖像藝術風格容易分辨”可以嗎？會不會也能生成不錯的作品呢？

從另一個角度看，假如追求“難以分辨”的CAN確實比追求“容易分辨”的CAN生成的圖像更好，那這就是模型選取了合理的反饋的最佳體現。

說做就做。除了CAN之外，論文中還建立了三種模型用來對比。

DCGAN ?64x64：經過藝術作品訓練的DCGAN（深度卷積生成式對抗網絡），輸出分辨率為64x64
DCGAN 256x256：相比DCGAN ?64x64，生成器多加了兩層網絡，輸出分辨率為256x256
scCAN：style-classification-CAN，追求“生成的圖像藝術風格容易分辨”的CAN

這三種模型生成的畫面像下面這樣

解讀Facebook CAN：如何給人工智能賦予藝術創作的力量

兩種DCGAN和scCAN生成的畫面

scCAN生成的畫面中確實有了可辨認的風格，比如人物特寫、風景或者群像。但是直觀看上去并不怎么討人喜歡。

讓我們再來看一組CAN生成的圖像，上方是人類評價最高的、下方是人類評價最低的。應該說都比scCAN生成的圖像精彩得多。

解讀Facebook CAN：如何給人工智能賦予藝術創作的力量

人類評價最高和最低的CAN生成的圖像

人類能給CAN的圖像打幾分？

根據剛才的圖像可以看到，CAN的效果當然不錯，DCGAN 256x256的圖像其實也挺好。那么CAN的圖像對觀畫的人來說是不是真的已經難以分辨創作者了呢？跟真的藝術家創作的作品相比高下又如何呢？

為了具體比較，論文中做了幾個實驗，讓人類給不同組的作品打分。

實驗1、2： 來自抽象印象派藝術家的作品、選自巴塞爾藝術展的作品、CAN生成的圖像、DCGAN生成的圖像，一共4組作品，由普通人判斷這些作品來自人還是電腦，并給作品打分。

結果：實驗1里有53%的人認為CAN的圖像是來自人類的，認為DCGAN 64x64的圖像來自人的有35%；實驗2里認為CAN的圖像來自人類的比例是75%，DCGAN 256x256則是65%。來自抽象印象派藝術家的作品無疑是比例最高的，但有意思的是，兩個實驗里認為巴塞爾藝術展的作品來自人的比例都還不如CAN高（實驗1中41%，實驗2中48%）。

解讀Facebook CAN：如何給人工智能賦予藝術創作的力量