用于大規模圖像識別的深度卷積網絡

概述

論文地址：https://arxiv.org/pdf/1409.1556.pdf

這項研究探討了卷積網絡深度對圖像識別準確性的影響。重要的是，對具有小型卷積濾波器的網絡進行的評估表明，具有 16-19 個權重層的深度網絡的性能優于傳統配置。這些結果使得該模型在2014年ImageNet挑戰賽中取得了成功，并在其他數據集上表現出色。研究人員的目標是向公眾提供兩個最有效的 ConvNet 模型，以促進深度視覺表示方面的研究。

導言

卷積網絡（ConvNet）最近已成功用于大規模圖像識別。這歸功于大型圖像數據集和高性能計算系統的進步。特別是，ImageNet 競賽推動了視覺識別技術的進步。卷積網絡正變得越來越普遍，人們也嘗試了許多改進方法。本研究表明，卷積網絡的深度非常重要，并提出了一種使用小型濾波器構建深度網絡的方法。因此，構建的網絡具有很高的準確性，其性能可應用于其他數據集。最后，我們向公眾提供了一個最先進的模型，有望推動相關研究的發展。

建筑學

在 ConvNet 訓練過程中，輸入是固定大小的 224 x 224 RGB 圖像，唯一的預處理是減去每個像素的平均 RGB 值。卷積層中使用了一個小型 3×3 過濾器，步距為 1 像素。空間池化由最大池化層執行。卷積層之后是三個全連接層，最后一個是用于 ILSVRC 分類的 softmax 層。所有隱藏層都具有 ReLU 非線性，網絡不包括局部響應歸一化。

配置

本文評估了五種卷積網絡（ConvNet）配置模型（A 至 E）。這些模型基于一般設計，深度不同（A 為 11 層，E 為 19 層）。權重層數和層寬隨網絡深度而變化，第一層從 64 開始，每增加一個最大池化層，權重層數和層寬就增加 2 倍，最終達到 512。

表 2 列出了每種配置的參數數量。盡管深度較大，但網絡中的權重層數并不比變換較大的較淺網絡中的權重層數多。

討論

本研究對卷積網絡（ConvNet）進行了重新配置，通過使用小型 3×3 過濾器而不是傳統的大型感受野來提高性能。這樣就能引入非線性整流層并減少參數。較小濾波器的引入提高了決策函數的可辨別性，1×1 卷積也改善了非線性。這比以前的方法更有效，在更深的網絡中性能更高。

分類框架

訓練

在本研究中，使用了帶動量的迷你批次梯度下降法來訓練 ConvNet，批次大小為 256，動量設置為 0.9。權重衰減和丟棄用于規范化，學習率逐步降低。初始權重從淺層模型開始設置，在訓練深層結構時對某些層進行初始化。對圖像進行隨機裁剪，并添加水平翻轉和 RGB 顏色偏移以增強訓練集。

圖像大小

本研究嘗試了兩種方法，一種是將 S 設置為代表 ConvNet 訓練圖像最小邊緣的比例，另一種是將 S 設置為固定比例或隨機比例。首先，模型在兩個固定比例（S=256 和 S=384）下進行訓練。其次，在多尺度訓練中，每幅圖像都被隨機重新縮放，以便識別各種尺度的物體。最后，在 S=384 下訓練的模型基礎上建立多尺度模型，并通過隨機縮放進行微調。

測試

在測試過程中，訓練好的 ConvNet 對輸入圖像進行各向同性重縮放，然后將網絡密集地應用到重縮放的測試圖像上。這樣，整個圖像上就會出現一個類得分圖，最終得出類得分。測試集被水平翻轉，原始圖像和翻轉圖像的結果取平均值。全卷積網絡適用于整個圖像，無需對每種作物進行重新計算，從而提高了測試效率。我們也考慮過使用多作物，但認為增加的計算時間并不能證明準確率的提高是合理的。

實施細節

該實現源自 C++ Caffe 工具箱，可在多個 GPU 上進行訓練和評估。多 GPU 訓練使用數據并行性，在每個 GPU 上處理批處理，計算梯度，最后求平均值。這樣得出的結果與在單個 GPU 上進行的訓練結果相當。在我們的實驗中，我們使用了一個配備四個英偉達?（NVIDIA?）Titan Black GPU的系統，訓練耗時兩到三周，比現成的4GPU系統快3.75倍。

分類實驗

數據集

本節展示了 ConvNet 架構在 ILSVRC-2012 數據集上取得的圖像分類結果。該數據集包含 1000 類圖像，分為三個集：訓練集、驗證集和測試集。分類性能通過兩個指標進行評估：前 1 名錯誤和前 5 名錯誤，前者表示錯誤分類圖像的百分比，后者表示在前 5 名預測中不包含正確答案的圖像的百分比。

單一量表評估

首先，使用上一節所述的層配置，在單一尺度上評估各個 ConvNet 模型的性能。對于固定 S，Q = S；對于抖動 S∈[Smin,Smax]，Q = 0.5(Smin+Smax)。結果如表 3 所示。

比較卷積神經網絡（ConvNet）各種配置的實驗結果表明，有無歸一化層和深度的增加都會影響分類誤差。誤差隨著深度的增加而減小，非線性變換和空間上下文捕捉也很重要。研究還表明，深度模型對大型數據集也有好處，具有小濾波器的深度網絡表現更好。訓練過程中的尺度抖動也很有效，有助于獲得多尺度圖像統計數據。

多階段評估

在對 ConvNet 模型進行評估時，研究了測試過程中尺度抖動的影響。該技術包括將測試圖像重新縮放為不同尺度，然后運行模型計算類的后驗均值。為了考慮到訓練和測試尺度不匹配對性能的潛在影響，在訓練過程中由于尺度抖動，以固定尺度訓練的模型在接近的尺寸下進行評估，并同時在大范圍的尺度下進行測試。

結果表明，測試時的尺度抖動比在單一尺度下評估同一模型更能提高性能。最深的配置（D 和 E）顯示出最好的性能，表明比例抖動比使用固定的最小邊 S 進行訓練更有益。

評估多種作物

表 5 比較了高密度 ConvNet 評估和多作物評估，并通過平均 softmax 輸出檢驗了兩種方法的互補性。當使用多作物時，性能略好，而兩者的組合則優于對方。這被認為是由于處理了不同的卷積邊界條件。

COMBNET 融合

在本實驗中，不同 ConvNet 模型的輸出被組合在一起，通過互補來提高性能。結合不同模型后，ILSVRC 測試誤差為 7.3%。僅將兩個最佳多尺度模型組合起來，誤差就降低到了 6.8%，而最佳單一模型的誤差為 7.1%。

與最新技術的比較

在 ILSVRC-2014 的分類任務中，作者的深度 ConvNet 明顯優于上一代模型，使用七個模型的集合將錯誤率降低到 6.8%。這使得深度 ConvNet 在 ILSVRC-2012 和 ILSVRC-2013 比賽中取得了最佳成績，大大超過了競爭對手的參賽作品。特別是，兩個模型的組合取得了最佳成績，與許多其他模型相比，它以更少的資源實現了更高的性能。

結論

該研究評估了大規模圖像分類中的深度卷積網絡（最多 19 層）。使用傳統的 ConvNet 架構，在 ImageNet Challenge 數據集上取得了最先進的性能，表明隨著深度的增加，表示深度有助于提高分類準確性。該模型還適用于廣泛的任務和數據集，其性能不亞于或優于基于淺層圖像表征的復雜識別管道。這再次證明了深度在視覺表示中的重要性。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/45811.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/45811.shtml
英文地址，請注明出處：http://en.pswp.cn/web/45811.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！