2015倫敦深度學習峰會筆記（轉載）

摘要：在倫敦舉行的第三屆深度學習峰會由RE.WORK主辦，匯集了從工業領域到學術領域不同背景的專業人士，本文是該峰會第一天的筆記。包括Koray Kavukcuoglu、Sander Dieleman等知名深度學習專家分享了自己的經驗。

上周，我有機會參加在倫敦舉行的第三屆深度學習峰會，上兩屆分別在舊金山和波士頓舉行。

深度學習峰會由?RE.WORK主辦，匯集了從工業領域到學術領域不同背景的專業人士，在快節奏的兩天里，安排了許多時長為20分鐘的演講以及供人們交流討論的茶歇。

這里是我第一天的筆記，如果您發現我有說錯的地方，請告知我！

所有的演講都已錄成視頻，一旦視頻發布，我將會在此篇博客中更新鏈接。

英偉達的?Alison?Lowndes致歡迎詞之后，演講由Alex?Graves開始，他的講話是《神經圖靈機》（NTMs，?論文及代碼）。Alex是遞歸神經網絡（RNNs）最重要的研究者之一，同時他是谷歌DeepMind的成員。神經圖靈機背后的思想是學習編程而不是模式。其中的困難之一是編碼程序操作，因此它們是可微的，使得NTMs可以通過梯度下降方法來訓練。他們已經能夠訓練NTMs讓它們執行基本的算法，如復制，循環和排序。他們現在正在尋找NP問題的解決方案，如旅行商問題，初步結果表明效果不錯。

神經圖靈機學習排序

Koray?Kavukcuoglu，同樣來自于谷歌DeepMind，他的演講是《端到端的Agents學習》。Koray也是Torch框架的創建者之一，Torch被大量用于谷歌DeepMind和Facebook?AI?Research之中。他演講的主題是通用性AI，同一個系統可以在大量任務中工作并且從原始輸入中自動學習。他提出了著名的深度Q網絡（DQN）算法，它學會了玩Atari?2600款游戲并且比人類玩家玩的還要出色，最后出現在了《自然》雜志的封面上（?論文）。DQNs是由深度學習（端到端訓練，從原始數據到行動值）和強化學習的組合，后者在某種程度上是一個agent（例如玩家），通過在環境（例如游戲）中行動進行學習，并且最大化獎勵（例如得分）。Koray然后展示了Gorila（?論文），它是一種分布式DQNs訓練架構，許多actors通過并行的方式采取行動，在49款游戲中，有41款游戲得到的結果比使用原始本地架構要好。更多關于Gorila的資料可以在2015?ICLR（?幻燈片?視頻1?視頻2）上的David?Silver演講中找到。DQNs還未解決的問題之一是長期策略（例如，找到在之后游戲之中打開門的一把鑰匙）。他們同時還在演講游戲之間的遷移學習。

Gorila，當你需要大規模的強化學習時可以使用

之后演講風格改變，Ben?Medlock，?Swiftkey的聯合創始人和CTO，與The?Next?Web的Martin?Bryan之間開始了爐邊談話。Swiftkey是一款智能鍵盤，它代替了智能手機的內置鍵盤。目前算法主要集中在輸入詞改正和聯想，長期目標是預測用戶意圖而不是用戶想要輸入的文字。搭載深度學習的第一個版本幾乎準備就緒了。DL可以幫助分析艱難的語言，比如漢語和芬蘭語，并且與傳統神經網絡處理相比，它可以利用更多的上下文信息（位置，應用程序，時間等）。DL在更長期分析中同樣有用，使用RNNs和之前語句可以得到更好的預測。

接下來是英偉達的Alison?Lowndes的演講，她演講的內容是《深度學習對現代生活的影響》。她大體概述了深度學習，包括神經網絡復興背后的三個驅動力（更多的數據，更好的模型，強大的GPUs）。Alison給出了最近一些不錯的例子，比如Giraffe（?論文和代碼），它是一款國際象棋引擎，通過與自己對弈，在僅僅72個小時之內就達到了國際大師的水準。

Giraffe在72小時內成為國際象棋專業玩家

之后根特大學博士、目前就職于谷歌DeepMind的Sander?Dieleman發表了演講，演講主題是關于他與另外幾位根特博士生如何在浮游生物分類中贏得了Kaggle競賽。他們的模型使用了一個基于OxfordNet（?論文）的CNN，這個CNN贏得了2014年ImageNet挑戰賽。那次挑戰的一個困難點是僅僅只有30000個樣本，但分類有121個之多，所以他們做了極大的數據擴展以避免過擬合（旋轉，轉換，改變比例，翻轉等）。Sanders寫了一篇關于這個解決方案?很棒的博客。

擴展浮游生物數據集的一種良好方式

Jeffrey?de?Fauw，又一位根特大學的博士，也是一位數據科學家，展示了Kaggle糖尿病性視網膜病變比賽的解決方案。本次比賽的目標是在眼部圖像中確定糖尿病性視網膜病變（糖尿病性視網膜病變是發達國家中工作人群致盲的首要原因）的跡象。此外，只提供小數據集（35000條標記了左和右眼的數據），這些數據是偏態分布的，而且還有噪聲。他分享了此次比賽的經驗和教訓：

先用小型網絡，能夠更快迭代；
不要用太多的過濾器；
對較小類進行細分采樣和擴張數據（例如亮度等）。

Jeffrey針對此解決方案同樣寫了篇?不錯的博客。

真實數據，不平衡分類和相機拍攝噪聲

Andrew?Simpson，薩里大學研究員，演講了關于永恒學習機器（PLMs）的話題。PLMs是一種新型的深度神經網絡，能夠快速學習。Andrew說，目前的DNNs有一些缺陷，特別是在使用它們前需要進行訓練，而且永遠保持同一個狀態，使用LSTM的RNNs也有同樣的問題，因為它們可以使用內存進行預測但是不能進一步訓練。PLMs由兩類DNNs組成，一類用來分類圖像（存儲DNN），另一類用來生成新圖像（召回DNN）。它們使用永恒隨機梯度下降，在每次迭代的時候，隨機選擇一個分類，召回DNN用這些輸入來合成各個訓練圖像。經過召回訓練的圖像同隨機選擇的類一起來訓練網絡得到反向傳播SGD中的一個步驟。通過“新經驗”SGD步驟，新的類可以迅速添加，而不需要從頭開始訓練新的DNN。更多資料可以在這些論文中找到?論文1?論文2。

PSGD訓練2種組合起來的深度神經網絡

下一位是Matthew?Zeiler，Clarifai的創始人及CEO，講述了他們的API可以在10000種概念（一個概念既可以是一個對象，一個形容詞或者一個動作）上分類圖像。該API同樣可以用于視頻處理。他給出了一個令人印象深刻的視頻處理演示，各種概念在視頻時間軸上高亮顯示，使視頻易于搜索；它可以讓任何人編輯視頻的能力同樣引人注目！他們非常注重性能（三五分鐘的視頻可以在6秒鐘內處理完），充分利用AWS?GPUs和專有工具包優化了速度和內存。目前它們支持21種語言概念，并對本地化做出了顯著努力。他們將進一步涉足醫療保健領域，與現場傳感器一起支持醫學分析（例如耳朵，嘴巴和鼻子的圖片）。

Matthew?Zeiler展示漢語視頻注釋（圖片由Courtney?Corley提供）

接下來是Max?Wellington，阿姆斯特丹大學計算機科學教授，?Scyfer?BV創始人，深度學習發起人，專注于醫療保健。他首先介紹了將機器學習運用于醫療保健領域中的困難，也就是維度災難（對于個人有TB級的數據，但是對于患者則很少）和隱私災難（數據被封鎖在各個醫院，缺少整體觀察）。他提出了一些可行的方案：

生成擴展數據集模型；
充分利用數據的對稱性；
去除已知偏差（例如一些醫院可能在不同階段治療疾病）；
使用貝葉斯方法減少過度擬合。

他進一步闡述，展示了他最近一些工作：

貝葉斯黑科技（?論文，?Hugo?Larochelle備注），其目標是學習一個神經網絡，類似于集成神經網絡降低權重存儲和概率校準輸出；
貝葉斯變分法丟失率（?論文，?Hugo?Larochelle備注），使用新的算法來學習丟失率，有助于避免過擬合；
一篇尚未發布的關于區域不變性的論文（深度生成模型不變性表示，Louizos等人，2015），NN可以創建輸入數據的潛在表示信息，去除已選擇的信息（例如照片光照信息），有助于去除偏差。

去除光照信息后圖片能夠很好地被聚類

上午的最后一個演講，主講人Lior?Wolf，特拉維夫大學的教員，演講的主題是《使用深度學習和Fisher向量進行圖片標注》（?論文PDF）。他首先表明，他以計算機視覺研究員的身份涉足自然語言處理領域，這又是一個DL如何在各個領域越來越多的佐證。Lior然后談到了3個任務：

圖像標注（從給定列表中為一張圖片分配一個描述）；
圖像搜索（給定描述搜索圖像）；
合成描述（為新的圖像生成新的描述）。

為了實現圖像標注和搜索，他們最開始用CNNs將圖片轉換成向量，用Word2Vec將詞語轉換成向量。大部分研究工作都集中于如何將詞語向量結合到語句向量之中，由此產生了基于Fisher向量的模型。一旦他們得到了語句向量，他們使用典型相關分析（CCA）將圖片表示和語句表示投射到同一空間里，使圖像和句子可以匹配，找到最近鄰的部分。為了合成描述，CNN->CCA管道中結合使用RNNs和輸入數據。尚未解決的問題之一是，系統決定什么來描述，仍然需要繼續研究，圖像的哪一部分需要被描述。

自動生成的一個不錯的描述

午餐之后，下午的演講由兩場語義分割開始，這意味著識別和描述圖片中的物體。在道路場景解析（自動駕駛汽車），機器人抓取物體和醫療保健（分割腫瘤，齲齒等）等中是很有用的任務。

Sven?Behnke，波恩大學計算機科學系主管，講述了兩個算法，神經抽象金字塔和語義RGB-D感知器。《神經抽象金字塔（NAP）》是他的歷史著作（約98年，?論文）。NAP是一個神經網絡，其包括橫向連接，與人類視覺系統工作方式十分接近。它成功地應用于圖像去噪和人臉定位。他最近的工作集中在語義RGB-D感知器方面，它是DNNs，輸入數據來自于類似體感傳感器，包括距離信息。使用這些距離信息，可以計算出每個像素的高度并相應地縮放輸入，由此得到更好得分割和語義解釋（?論文PDF）。此外，他們還在原始對象上使用深度遮罩，并且將色彩畫的深度圖像作為CNN的輸入，由此取得了良好的效果（?論文PDF）。

使用距離信息得到更好的語義分割

Bernardino?Romera?Paredes，牛津大學博士后研究助理，接著分享了語義分割的一種新算法（?論文），它采用了全卷積網絡再加上一個條件隨機域作為遞歸神經網絡，端到端地訓練。他們取得了最好的準確性，但目前算法在實時使用上還不夠快。他們發布了一個很棒的在線演示：http://crfasrnn.torr.vision

貓是DL從業人員常用的圖像

接下來是Miriam?Redi，雅虎實驗室的研究科學家，她的演講內容是《機器視覺的主觀眼》。她的研究目標是在圖像，特征中找到隱藏的元素，比如情感，社會，美學，創意和文化。她展示了四個不同的項目：

計算機肖像美學（?論文）。使用畫面特征和攝影師注解，他們能夠預測肖像的美感，發現圖像的特征，比如對比度和清晰度與感官美有高相關性，而性別，年齡和種族與感官美無相關性；
幫助發現美但不流行的圖片（?論文）。目標是在Flicker上發現美的但是被忽視的內容。他們首先在諸多資源中創建大型美感注解的數據集，然后創建能夠找到新的美麗圖畫的模型；
跨文化情感預測（?論文）。他們創建了12種語言的情感標注數據集。有趣的是，他們試圖使用遷移學習，最后發現在拉丁語（使用法語標注訓練出的分類器能夠很好的預測拉丁語情緒）中遷移學習表現良好，而從拉丁語數據集中學習到的模型在預測漢語情緒上效果不佳；
使用Vine視頻預測創造性（?論文）。從諸多注解的視頻和視頻特征中，他們發現，當兼顧美學特征和新奇特征時，他們可以對創造性的定義進行建模。

總體來看，盡管大部分工作都是手工對特征進行編碼，并且幾乎沒有使用深度學習，但是還是有許多有趣的問題有待探索，而且結果還非常令人滿意。

雅虎實驗室項目對創造性的定義

Cees?Snoek，QUVA總監，他演講的內容是《視頻理解：今天和未來的期待》。Cees講述了視頻標記，說道，高通公司正在建設Zeroth平臺，它可以使預訓練的深度學習模型在您的移動設備上進行物體識別（如果搭載了高通Snapdragon芯片）。在演講的第二部分，他提出了視頻動作識別的一種方法。最初的想法是使用小管（?論文PDF）過濾幀，只取移動物體周邊的區域。搜索空間大大減少，分類速度隨之增加。然后，使用物體識別（?論文PDF）并且使用Word2Vec計算運動對象距離，他們可以在沒有動作標記數據集的情況下預測動作（?論文PDF）。

幀序列中生成的小管

隨后是圓桌對話《深度學習在未來該何去何從》。嘉賓有Tony?Robinson，?Speechmatics創始人及CTO，Daniel?Hulme，?SataliaCEO，John?Henderson，白星投資負責人擔任主持人。Tony?Robinson是90年代使用神經網絡進行語音識別的先驅，之后在AI冬天轉向了其他算法方面，最后他又干回老本行了。Daniel?Hulme的工作重心放在使用象征性AI（他將DL定義為子象征性AI）攻克難題（例如車輛路徑），這其中重要的問題是如何行動而不是如何預測。當問及什么是AI的時候，Daniel說是目標導向適應行為，而Tony則說是目前計算機不能做的事情:)。對于未來，Tony說他僅僅能預測到計算機性能的提升，并且希望不要對深度學習大肆宣揚以免進入第二個冬天。當然，Daniel看到了2020年象征性AI的復興。對于口頭對話，他們意識到還有許多工作要做，這些工作一定會得到回報。他們同樣被問及到AI對人類的威脅，并很快進行了反駁。他們用兩種場景闡述了這個問題，一個是智能機器人（終結者類型的），另一個是愚鈍機器人，使用愚蠢的方法解決問題（想想根除癌癥，對機器人來說最簡單的方法是消滅人類···）。由于我們有預知后果的能力，第二類機器人似乎更加危險。

這天最后一個演講人是Sébastien?Bratières，劍橋大學?dawin?gmbh演講布道者和聯合博士研究員。演講的主題是語音識別深度學習。Sébastien概述了DL如何改變語音識別管道。概括地說，語音識別是由一個聲學模型（AM）構成，它能夠從原始音頻和語言模型（LM）中預測字詞/音素序列，這個語言模型基于前一個字詞選擇另一個詞語。在過去的5到10年中，AMs已經從高斯混合模型+隱馬爾科夫模型演變到深度神經網絡，而LMs從N-grams演變到RNNs。盡管管道已被簡化，但仍然會使用舊模型（GMM+HMM仍然用于制備DNN的輸入數據），未來的目標是只使用DL訓練端到端的模型。盡管如此，仍有許多“不變”的問題，這對用戶體驗很重要，而且目前DL還未解決，比如適應性（不同口音，背影噪音等，在訓練集中沒有表現出來）。展望未來，Sébastien說，人類不是通過轉錄語音來學習語音識別的，非監督式學習在此還有發展空間（零資源的方法）。