“ImageNet Classification with Deep Convolutional Neural Networks” (Krizhevsky 等, 2012, p. 1)
使用深度卷積神經網絡進行 ImageNet 分類
3公式,26個引用,4張圖片,2個簡單表格
Abstract
我們訓練了一個大型深度卷積神經網絡,將 ImageNet LSVRC-2010 競賽中的 120 萬張高分辨率圖像分類為 1000 個不同的類別。
在測試數據上,我們實現了 37.5% 和 17.0% 的 top-1 和 top-5 錯誤率,這比之前的最先進水平要好得多。
該神經網絡擁有 6000 萬個參數和 650,000 個神經元,由五個卷積層(其中一些后面是最大池層)和三個全連接層(最終為 1000 路 softmax)組成。
為了加快訓練速度,我們使用非飽和神經元和非常高效的 GPU 實現卷積運算。為了減少全連接層中的過度擬合,我們采用了最近開發的稱為“dropout”的正則化方法,事實證明該方法非常有效。
我們還在 ILSVRC-2012 競賽中輸入了該模型的一個變體,并取得了 15.3% 的獲勝前 5 名測試錯誤率,而第二名的測試錯誤率為 26.2%。
1. Introduction
1.當前物體識別充分使用機器學習的方法,為了提高性能需要更大、質量更高的數據集從而學習更強大的模型。(列舉最近的數據集)。
2.模型需要先驗知識——引出CNN卷積神經網絡。
3.然而訓練是昂貴的,好在現在有GPU和足夠的有標簽高質量數據。
4.本文的具體貢獻
5.最后,神經網絡大小受限于GPU內存和時間,當前是在兩個GTX580 GPU上訓練了5-6天的實驗結果,只要GPU更快數據集更大,實驗結果就會改善!
2. The Dataset
介紹 ImageNet,介紹大規模視覺挑戰賽ILSVRC
作者在ILSVRC-2010上執行了大部分實驗,在ImageNet上通常使用top-1和top-5兩個錯誤率。
ImageNet的數據圖像分辨率不一樣,作者將它剪裁成256*256的固定大小,除此之外沒有使用任何其他處理方式。
3. The Architecture
我們的網絡架構如圖 2 所示。它包含八個學習層,五個卷積層和三個全連接層。下面,我們描述了我們網絡架構的一些新穎或不尋常的特征。第 3.1-3.4 節根據我們對其重要性的估計進行排序,最重要的排在最前面。
3.1 ReLU Nonlinearity
3.2 Training on Multiple GPUs
3.3 3.4
3.5 Overall Architecture
4. Reducing Overfitting
我們的神經網絡架構有 6000 萬個參數。盡管 ILSVRC 的 1000 個類別使每個訓練示例對從圖像到標簽的映射施加 10 位約束,但事實證明,這不足以在不出現嚴重過擬合的情況下學習如此多的參數。下面,我們描述了對抗過度擬合的兩種主要方法。
4.1 數據增強
“4.2 Dropout” 輟學
5. Details of learning
一些細節:兩個GTX 580訓練5-6天,120萬張圖片90個周期訓練,批量大小128,隨機梯度下降,動量0.9,權重衰減0.0005,標準差0.01,用0初始化。學習率初始化為0.01。
我們發現少量權重衰減對于模型學習很重要!
(這話跟我說的一樣!)
6. Results
表1總結了我們在ILSVRC-2010上的結果。
我們還在ILSVRC-2012競賽中使用了我們的模型,具體結果在表2給出。
最后,我們還報告了ImageNet2009年秋季版本的錯誤率。
6.1定性評價
7. Discussion
大型深度神經網絡用于監督學習能夠取得破紀錄的結果。如果刪除單個卷積層top-1性能會損失大約2%。深度很重要!
我們未使用無監督與訓練,我們希望未來在視頻上使用深度卷積網絡,因為時間也能提供很多信息。(吹牛,預測未來)