圖像識別中的深度學習



來源:《中國計算機學會通訊》第8期《專題》

作者:王曉剛

深度學習發展歷史

深度學習是近十年來人工智能領域取得的重要突破。它在語音識別、自然語言處理、計算機視覺、圖像與視頻分析、多媒體等諸多領域的應用取得了巨大成功。現有的深度學習模型屬于神經網絡。神經網絡的起源可追溯到20世紀40年代,曾經在八九十年代流行。神經網絡試圖通過模擬大腦認知的機理解決各種機器學習問題。1986年,魯梅爾哈特(Rumelhart)、欣頓(Hinton)和威廉姆斯(Williams)在《自然》雜志發表了著名的反向傳播算法用于訓練神經網絡[1],該算法直到今天仍被廣泛應用。

神經網絡有大量參數,經常發生過擬合問題,雖然其識別結果在訓練集上準確率很高,但在測試集上效果卻很差。這是因為當時的訓練數據集規模都較小,加之計算資源有限,即便是訓練一個較小的網絡也需要很長的時間。與其他模型相比,神經網絡并未在識別準確率上體現出明顯的優勢。

因此更多的學者開始采用支持向量機、Boosting、最近鄰等分類器。這些分類器可以用具有一個或兩個隱含層的神經網絡模擬,因此被稱為淺層機器學習模型。在這種模型中,往往是針對不同的任務設計不同的系統,并采用不同的手工設計的特征。例物體識別采用尺度不變特征轉換(Scale Invariant Feature Transform, SIFT),人臉識別采用局部二值模式(Local Binary Patterns, LBP),行人檢測采用方向梯度直方圖(Histogram of Oriented Gradient, HOG)特征。

2006年,欣頓提出了深度學習。之后深度學習在諸多領域取得了巨大成功,受到廣泛關注。神經網絡能夠重新煥發青春的原因有幾個方面:首先,大規模訓練數據的出現在很大程度上緩解了訓練過擬合的問題。例如,ImageNet[2]訓練集擁有上百萬個有標注的圖像。其次,計算機硬件的飛速發展為其提供了強大的計算能力,一個GPU芯片可以集成上千個核。這使得訓練大規模神經網絡成為可能。第三,神經網絡的模型設計和訓練方法都取得了長足的進步。例如,為了改進神經網絡的訓練,學者提出了非監督和逐層的預訓練,使得在利用反向傳播算法對網絡進行全局優化之前,網絡參數能達到一個好的起始點,從而在訓練完成時能達到一個較好的局部極小點。

深度學習在計算機視覺領域最具影響力的突破發生在2012年,欣頓的研究小組采用深度學習贏得了ImageNet圖像分類比賽的冠軍[3]。排名第2到第4位的小組采用的都是傳統的計算機視覺方法、手工設計的特征,他們之間準確率的差別不超過1%。欣頓研究小組的準確率超出第二名10%以上,(見表1)。這個結果在計算機視覺領域產生了極大的震動,引發了深度學習的熱潮。

計算機視覺領域另一個重要的挑戰是人臉識別。有研究表明[5],如果只把不包括頭發在內的人臉的中心區域給人看,人眼在戶外臉部檢測數據庫(Labeled Faces in the Wild, LFW)上的識別率是97.53%。如果把整張圖像,包括背景和頭發給人看,人眼的識別率是99.15%。經典的人臉識別算法Eigenface [6] 在LFW測試集上只有60%的識別率。在非深度學習算法中,最高的識別率是96.33% [7]。目前深度學習可以達到99.47%的識別率[8]

在欣頓的科研小組贏得ImageNet比賽冠軍之后的6個月,谷歌和百度都發布了新的基于圖像內容的搜索引擎。他們采用深度學習模型,應用在各自的數據上,發現圖像搜索準確率得到了大幅度提高。百度在2012年成立了深度學習研究院,2014年5月又在美國硅谷成立了新的深度學習實驗室,聘請斯坦福大學著名教授吳恩達擔任首席科學家。臉譜于2013年12月在紐約成立了新的人工智能實驗室,聘請深度學習領域的著名學者、卷積網絡的發明人雅恩·樂昆(Yann LeCun)作為首席科學家。2014年1月,谷歌拋出四億美金收購了深度學習的創業公司DeepMind。鑒于深度學習在學術界和工業界的巨大影響力,2013年,《麻省理工科技評論》(MIT Technology Review)將其列為世界十大技術突破之首。

深度學習有何與眾不同?

深度學習和其他機器學習方法相比有哪些關鍵的不同點,它為何能在許多領域取得成功?

特征學習

深度學習與傳統模式識別方法的最大不同在于它所采用的特征是從大數據中自動學習得到,而非采用手工設計。好的特征可以提高模式識別系統的性能。過去幾十年,在模式識別的各種應用中,手工設計的特征一直處于統治地位。手工設計主要依靠設計者的先驗知識,很難利用大數據的優勢。由于依賴手工調參數,因此特征的設計中所允許出現的參數數量十分有限。深度學習可以從大數據中自動學習特征的表示,可以包含成千上萬的參數。

采用手工設計出有效的特征往往需要五到十年時間,而深度學習可以針對新的應用從訓練數據中很快學習到新的有效的特征表示。

一個模式識別系統包括特征和分類器兩部分。在傳統方法中,特征和分類器的優化是分開的。而在神經網絡的框架下,特征表示和分類器是聯合優化的,可以最大程度地發揮二者聯合協作的性能。

2012年欣頓參加ImageNet比賽所采用的卷積網絡模型[9]的特征表示包含了從上百萬樣本中學習得到的6000萬個參數。從ImageNet上學習得到的特征表示具有非常強的泛化能力,可以成功應用到其他數據集和任務中,例如物體的檢測、跟蹤和檢索等。在計算機視覺領域另外一個著名的競賽是PSACAL VOC。但是它的訓練集規模較小,不適合訓練深度學習模型。有學者將ImageNet上學習得到的特征表示用于PSACAL VOC上的物體檢測,檢測率提高了20%[10]。

既然特征學習如此重要,那么,什么是好的特征呢?一幅圖像中,各種復雜的因素往往以非線性的方式結合在一起。例如人臉圖像中就包含了身份、姿態、年齡、表情、光線等各種信息。深度學習的關鍵就是通過多層非線性映射將這些因素成功分開,例如在深度模型的最后一個隱含層,不同神經元代表了不同因素。如果將這個隱含層當作特征表示,人臉識別、姿態估計、表情識別、年齡估計就會變得非常簡單,因為各個因素之間變成了簡單的線性關系,不再彼此干擾。

深層結構的優勢

深度學習模型的“深”字意味著神經網絡的結構深,由很多層組成。而支持向量機和Boosting等其他常用的機器學習模型都是淺層結構。三層神經網絡模型(包括輸入層、輸出層和一個隱含層)可以近似任何分類函數。既然如此,為什么需要深層模型呢?

研究表明,針對特定的任務,如果模型的深度不夠,其所需要的計算單元會呈指數增加。這意味著雖然淺層模型可以表達相同的分類函數,但其需要的參數和訓練樣本要多得多。淺層模型提供的是局部表達。它將高維圖像空間分成若干個局部區域,每個局部區域至少存儲一個從訓練數據中獲得的模板,如圖1(a)所示。淺層模型將一個測試樣本和這些模板逐一匹配,根據匹配的結果預測其類別。例如,在支持向量機模型中,模板是支持向量;在最近鄰分類器中,模板是所有的訓練樣本。隨著分類問題復雜度的增加,需要將圖像空間劃分成越來越多的局部區域,因而需要越來越多的參數和訓練樣本。盡管目前許多深度模型的參數量已經相當巨大,但如果換成淺層神經網絡,其所需要的參數量要大出多個數量級才能達到相同的數據擬合效果,以至于很難實現。

深度模型之所以能減少參數的關鍵在于重復利用中間層的計算單元。以人臉識別為例,深度學習可以針對人臉圖像的分層特征表達進行:最底層從原始像素開始學習濾波器,刻畫局部的邊緣和紋理特征;中層濾波器通過將各種邊緣濾波器進行組合,描述不同類型的人臉器官;最高層描述的是整個人臉的全局特征。

深度學習提供的是分布式的特征表示。在最高的隱含層,每個神經元代表一個屬性分類器(如圖1(b)所示),例如性別、人種和頭發顏色等。每個神經元將圖像空間一分為二,N個神經元的組合就可以表達2N個局部區域,而用淺層模型表達這些區域的劃分至少需要2N個模板。由此可以看出,深度模型的表達能力更強,效率更高。

提取全局特征和上下文信息的能力

深度模型具有強大的學習能力和高效的特征表達能力,更重要的優點是從像素級原始數據到抽象的語義概念逐層提取信息,這使得它在提取圖像的全局特征和上下文信息方面具有突出的優勢,為解決傳統的計算機視覺問題(如圖像分割和關鍵點檢測)帶來了新的思路。

以人臉的圖像分割為例(如圖2所示),為了預測每個像素屬于哪個臉部器官(眼睛、鼻子、嘴),通常的做法是在該像素周圍取一個小區域,提取紋理特征(例如局部二值模式),再基于該特征利用支持向量機等淺層模型分類。因為局部區域包含的信息量有限,往往產生分類錯誤,因此要對分割后的圖像加入平滑和形狀先驗等約束。

人眼即使在存在局部遮擋的情況下也可以根據臉部其他區域的信息估計被遮擋部分的標注。由此可知全局和上下文信息對于局部的判斷是非常重要的,而這些信息在基于局部特征的方法中在最開始階段就丟失了。理想情況下,模型應該將整幅圖像作為輸入,直接預測整幅分割圖。圖像分割可以被看做一個高維數據轉換的問題來解決。這樣不但利用到了上下文信息,模型在高維數據轉換過程中也隱式地加入了形狀先驗。但是由于整幅圖像內容過于復雜,淺層模型很難有效地捕捉全局特征。而深度學習的出現使這一思路成為可能,在人臉分割[11]、人體分割[12]、人臉圖像配準[13]和人體姿態估計等各個方面都取得了成功[14]。

聯合深度學習

一些研究計算機視覺的學者將深度學習模型視為黑盒子,這種看法是不全面的。傳統計算機視覺系統和深度學習模型存在著密切的聯系,利用這種聯系可以提出新的深度模型和訓練方法。用于行人檢測的聯合深度學習[15]就是一個成功的例子。一個計算機視覺系統包含若干個關鍵的組成模塊。例如,一個行人檢測器包括特征提取、部件檢測器、部件幾何形變建模、部件遮擋推理、分類器等模塊。在聯合深度學習中[15],深度模型的各個層和視覺系統的各個模塊可以建立對應關系。如果視覺系統中的關鍵模塊在現有深度學習的模型中沒有與之對應的層,則它們可以啟發我們提出新的深度模型。例如,大量物體檢測的研究工作表明,對物體部件的幾何形變建模可以有效提高檢測率,但是在常用的深度模型中沒有與之相對應的層,因此聯合深度學習[15]及其后續的工作[16]都提出了新的形變層和形變池化層1來實現這一功能。

從訓練方式上看,計算機視覺系統的各個模塊是逐一訓練或手工設計的。在深度模型的預訓練階段2,各個層也是逐一訓練的。如果我們能夠建立計算機視覺系統和深度模型之間的對應關系,那么在視覺研究中積累的經驗就可以對深度模型的預訓練提供指導。這樣預訓練后得到的模型就可以達到與傳統計算機視覺系統可比的結果。在此基礎上,深度學習還會利用反向傳播對所有層進行聯合優化,使它們之間的相互協作達到最優,從而使整個網絡的性能得到重大提升。

深度學習在物體識別中的應用

ImageNet圖像分類

深度學習在物體識別中最重要的進展體現在ImageNet ILSVRC3挑戰中的圖像分類任務。傳統計算機視覺方法在此測試集上最低的錯誤率是26.172%。2012年,欣頓的研究小組利用卷積網絡把錯誤率降到了15.315%。此網絡結構被稱為Alex Net[3],與傳統的卷積網絡相比,它有三點與眾不同之處:首先,Alex Net采用了dropout的訓練策略,在訓練過程中將輸入層和中間層的一些神經元隨機置零。這模擬了噪音對輸入數據的各種干擾使一些神經元對一些視覺模式產生漏檢的情況。Dropout使訓練過程收斂得更慢,但得到的網絡模型更加魯棒。其次,Alex Net采用整流線型單元作為非線性的激發函數。這不僅大大降低了計算的復雜度,而且使神經元的輸出具有稀疏的特征,對各種干擾更加魯棒。第三,Alex Net通過對訓練樣本鏡像映射和加入隨機平移擾動,產生了更多的訓練樣本,減少了過擬合。

在ImageNet ILSVRC 2013比賽中,排名前20的小組使用的都是深度學習技術。獲勝者是紐約大學羅伯·費格斯(Rob Fergus)的研究小組,所采用的深度模型是卷積網絡,并對網絡結構作了進一步優化,錯誤率為11.197%,其模型稱作Clarifai[17]。

在ILSVRC 2014比賽中,獲勝者GooLeNet[18]將錯誤率降到了6.656%。GooLeNet突出的特點是大大增加了卷積網絡的深度,超過了20層,這在此之前是不可想象的。很深的網絡結構給預測誤差的反向傳播帶了困難,這是因為預測誤差是從最頂層傳到底層的,傳到底層的誤差很小,難以驅動底層參數的更新。GooLeNet采取的策略是將監督信號直接加到多個中間層,這意味著中間層和底層的特征表示也要能夠對訓練數據進行準確分類。如何有效地訓練很深的網絡模型仍是未來研究的一個重要課題。

雖然深度學習在ImageNet上取得了巨大成功,但是很多應用的訓練集是較小的,在這種情況下,如何應用深度學習呢?有三種方法可供參考:(1)可以將ImageNet上訓練得到的模型作為起點,利用目標訓練集和反向傳播對其進行繼續訓練,將模型適應到特定的應用[10]。此時ImageNet起到預訓練的作用。(2)如果目標訓練集不夠大 ,可以將底層的網絡參數固定,沿用ImageNet上的訓練集結果,只對上層進行更新。這是因為底層的網絡參數是最難更新的,而從ImageNet學習得到的底層濾波器往往描述了各種不同的局部邊緣和紋理信息,而這些濾波器對一般的圖像有較好的普適性。(3)直接采用ImageNet上訓練得到的模型,把最高的隱含層的輸出作為特征表達,代替常用的手工設計的特征[19, 20]。

人臉識別

深度學習在物體識別上的另一個重要突破是人臉識別。人臉識別的最大挑戰是如何區分由于光線、姿態和表情等因素引起的類內變化和由于身份不同產生的類間變化。這兩種變化的分布是非線性的,且極為復雜,傳統的線性模型無法將它們有效區分開。深度學習的目的是通過多層的非線性變換得到新的特征表示。這些新特征須盡可能多地去掉類內變化,而保留類間變化。

人臉識別包括人臉確認和人臉辨識兩種任務。人臉確認是判斷兩張人臉照片是否屬于同一個人,屬于二分類問題,隨機猜的正確率是50%。人臉辨識是將一張人臉圖像分為N個類別之一,類別是由人臉的身份定義的。這是個多分類問題,更具挑戰性,其難度隨著類別數的增多而增大,隨機猜的正確率是1/N。兩種任務都可以通過深度模型學習人臉的特征表達。

2013年,文獻[21]采用人臉確認任務作為監督信號,利用卷積網絡學習人臉特征,在LFW上取得了92.52%的識別率。這一結果雖然與后續的深度學習方法相比較低,但也超過了大多數非深度學習算法。由于人臉確認是一個二分類問題,用它學習人臉特征的效率比較低,容易在訓練集上發生過擬合。而人臉辨識是一個更具挑戰性的多分類問題,不容易發生過擬合,更適合通過深度模型學習人臉特征。另一方面,在人臉確認中,每一對訓練樣本被人工標注成兩類中的一類,所含信息量較少。而在人臉辨識中,每個訓練樣本都被人工標注成N類之一,信息量大。

在2014年的IEEE國際計算機視覺與模式識別會議(IEEE Conference on Computer Vision and Pattern Recognition, CVPR)上,DeepID[22]和DeepFace[23] 都采用人臉辨識作為監督信號,在LFW上分別取得了97.45%和97.35%的識別率(見表2)。他們利用卷積網絡預測N維標注向量,將最高的隱含層作為人臉特征。這一層在訓練過程中要區分大量的人臉類別(例如在DeepID中區分1000個類別的人臉),因此包含了豐富的類間變化的信息,有很強的泛化能力。雖然訓練中采用的是人臉辨識任務,但得到的特征可以應用到人臉確認任務中,以及識別訓練集中是否有新人。例如,LFW上用于測試的任務是人臉確認任務,不同于訓練中的人臉辨識任務;DeepID[21]和DeepFace[22]的訓練集與LFW測試集的人物身份是不重合的。

通過人臉辨識任務學習得到的人臉特征包含較多的類內變化。DeepID2[24]聯合使用人臉確認和人臉辨識作為監督信號,得到的人臉特征在保持類間變化的同時使類內變化最小化,從而將LFW上的人臉識別率提高到99.15%。DeepID2利用Titan GPU提取一幅人臉圖像的特征只需要35毫秒,而且可以離線進行。經過主元分析(Principal Component Analysis, PCA)壓縮最終得到80維的特征向量,可以用于快速人臉在線比對。在后續工作中,DeepID2[8]通過擴展網絡結構,增加訓練數據,以及在每一層都加入監督信息,在LFW達到了99.47%的識別率。

一些人認為深度學習的成功是由于用具有大量參數的復雜模型去擬合數據集,其實遠非如此簡單。例如DeepID2+的成功還在于其所具有的很多重要有趣的特征[8]:它最上層的神經元響應是中度稀疏的,對人臉身份和各種人臉屬性具有很強的選擇性,對局部遮擋有很強的魯棒性。在以往的研究中,為了得到這些屬性,我們往往需要對模型加入各種顯示的約束。而DeepID2+通過大規模學習自動擁有了這些屬性,其背后的理論分析值得未來進一步研究。

深度學習在物體檢測中的應用

物體檢測是比物體識別更難的任務。一幅圖像中可能包含屬于不同類別的多個物體,物體檢測需要確定每個物體的位置和類別。2013年,ImageNet ILSVRC比賽的組織者增加了物體檢測的任務,要求在4萬張互聯網圖片中檢測200類物體。比賽獲勝者使用的是手動設計的特征,平均物體檢測率(mean Averaged Precision, mAP)只有22.581%。在ILSVRC 2014中,深度學習將平均物體檢測率提高到了43.933%。較有影響力的工作包括 RCNN[10]、Overfeat[25]、GoogLeNet[18]、DeepID-Net[16]、network in network[26]、VGG[27]和spatial pyramid pooling in deep CNN[28]。RCNN[10]首次提出了被廣泛采用的基于深度學習的物體檢測流程,并首先采用非深度學習方法(例如selective search[29])提出候選區域,利用深度卷積網絡從候選區域提取特征,然后利用支持向量機等線性分類器基于特征將區域分為物體和背景。DeepID-Net[16]進一步完善了這一流程,使得檢測率有了大幅提升,并且對每一個環節的貢獻做了詳細的實驗分析。深度卷積網絡結構的設計也至關重要,如果一個網絡結構能夠提高圖像分類任務的準確性,通常也能顯著提升物體檢測器的性能。

深度學習的成功還體現在行人檢測上。在最大的行人檢測測試集(Caltech[30])上,廣泛采用的方向梯度直方圖(Histogram of Oriented Gradient, HOG)特征和可變形部件模型[31]的平均誤檢率是68%。目前基于深度學習檢測的最好結果是20.86%[32]。在最新的研究進展中,很多被證明行之有效的物體檢測都用到了深度學習。例如,聯合深度學習[15]提出了形變層,對物體部件間的幾何形變進行建模;多階段深度學習[33]可以模擬物體檢測中常用的級聯分類器;可切換深度網絡[34]可以表達物體各個部件的混合模型;文獻[35]通過遷移學習將一個深度模型行人檢測器自適應到一個目標場景。

深度學習用于視頻分析

深度學習在視頻分類上的應用還處于起步階段,未來還有很多工作要做。描述視頻的靜態圖像特征可以采用從ImageNet上學習得到的深度模型,難點是如何描述動態特征。以往的視覺研究方法對動態特征的描述往往依賴于光流估計、對關鍵點的跟蹤和動態紋理。如何將這些信息體現在深度模型中是個難點。最直接的做法是將視頻視為三維圖像,直接應用卷積網絡[36]在每一層學習三維濾波器。但是這一思路顯然沒有考慮到時間維和空間維的差異性。另外一種簡單但更加有效的思路是,通過預處理計算光流場或其他動態特征的空間場分布,作為卷積網絡的一個輸入通道[37~39]。也有研究工作利用深度編碼器(deep autoencoder)以非線性的方式提取動態紋理[38]。在最新的研究工作中[41],長短時記憶網絡(Long Short-Term Memory, LSTM)受到廣泛關注,它可以捕捉長期依賴性,對視頻中復雜的動態建模。

未來發展的展望

深度學習在圖像識別中的應用方興未艾,未來有著巨大的發展空間。

在物體識別和物體檢測研究的一個趨勢是使用更大更深的網絡結構。在ILSVRC 2012中,Alex Net只包含了5個卷積層和兩個全連接層。而在ILSVRC2014中, GooLeNet和 VGG 使用的網絡結構都超過了20層。更深的網絡結構使得反向傳播更加困難。與此同時,訓練數據的規模也在迅速變大。這迫切需要研究新的算法和開發新的并行計算系統來更加有效地利用大數據訓練更大更深的模型。

與圖像識別相比,深度學習在視頻分類中的應用還遠未成熟。從ImageNet 訓練得到的圖像特征可以直接有效地應用到各種與圖像相關的識別任務(例如圖像分類、圖像檢索、物體檢測和圖像分割等)和其他不同的圖像測試集中,具有良好的泛化性能。但是深度學習至今還沒有得到類似的可用于視頻分析的特征。要達到這個目的,不但要建立大規模的訓練數據集(文獻[42]最新建立了包含100萬個YouTube視頻的數據庫),還需要研究適用于視頻分析的新的深度模型。訓練用于視頻分析的深度模型的計算量也會大大增加。

在與圖像和視頻相關的應用中,深度模型的輸出預測(例如分割圖或物體檢測框)往往具有空間和時間上的相關性。因此研究具有結構性輸出的深度模型也是一個重點。

雖然神經網絡的目的在于解決一般意義上的機器學習問題,但領域知識對深度模型的設計也起著重要的作用。在與圖像和視頻相關的應用中,最成功的是深度卷積網絡,其設計正是利用了圖像的特殊結構。其中最重要的兩個操作——卷積和池化都來自與圖像相關的領域知識。如何通過研究領域知識,在深度模型中引入新的有效的操作和層,對于提高圖像和視頻識別的性能有著重要意義。例如,池化層帶來了局部的平移不變性,文獻[16]中提出的形變池化層在此基礎上更好地描述了物體各個部分的幾何形變。在未來研究中,可以將其進一步擴展,從而取得旋轉不變性、尺度不變性和對遮擋的魯棒性。

通過研究深度模型和傳統計算機視覺系統之間的關系,不但可以幫助我們理解深度學習成功的原因,還可以啟發新的模型和訓練方法。聯合深度學習[15]和多階段深度學習[33]未來還有更多的工作要做。

雖然深度學習在實踐中取得了巨大成功,而且通過大數據訓練得到的深度模型體現出的特性(例如稀疏性、選擇性和對遮擋的魯棒性[8])引人注目,但其背后的理論分析還有許多工作需要完成。例如,何時收斂?如何取得較好的局部極小點?每一層變換取得了哪些對識別有益的不變性,又損失了哪些信息?最近馬拉特(Mallat)利用小波對深層網絡結構進行了量化分析[43],這是在此方向上的重要探索。

結語

深度模型并非黑盒子,它與傳統的計算機視覺系統有著密切的聯系,神經網絡的各個層通過聯合學習、整體優化,使得性能得到大幅提升。與圖像識別相關的各種應用也在推動深度學習在網絡結構、層的設計和訓練方法各個方面的快速發展。可以預見在未來數年內,深度學習將會在理論、算法和應用各方面進入高速發展時期。■

作者:

王曉剛

香港中文大學助理教授。主要研究方向為計算機視覺、深度學習、群體視頻監控、物體檢測和人臉識別等。xgwang@ee.cuhk.edu.hk

腳注:

1 池化操作是在特征分布圖的一個局部區域內取最大值或平均值傳到神經網絡下一層的特征分布圖。經過池化操作,輸出的特征分布圖對局部形變具有更好的魯棒性。

2 預訓練是對神經網絡的各個層次逐一優化,從而使網絡參數達到一個好的初始點。人們通常在預訓練之后,利用反向傳播對所有層次的網絡參數進行聯合優化,進一步提高網絡的性能。

3 ILSVRC,大規模視覺識別挑戰賽(Large Scale Visual Recognition Challenge)。

圖:


表:



參考文獻:

[1] D. E. Rumelhart, G. E. Hinton, and R. J. Williams. Learning internal representations by error propagation. Nature, 1986; 323(99):533~536.

[2] J. Deng, W. Dong, R. Socher, and et al.. Imagenet: A large-scale hierarchical image database. In IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2009.

[3] A. Krizhevsky, L. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. Neural Information Processing Systems, 2012.

[4] G. B. Huang, M. Ramesh, T. Berg, and E. Learned-Miler. Labeled faces in the wild: A database for studying face recognition in unconstrained environments. Technical report, University of Massachusetts, Amherst, 2007.

[5] N. Kumar, A. C. Berg, P. N. Belhumeur, and S. K. Nayar. Attribute and simile classifiers for face verification. In IEEE Int’l Conf. Computer Vision, 2009.

[6] M. Turk and A. Pentland. Eigenfaces for recognition. Journal of Cognitive Neuroscience, 1991; 3(1):71~86.

[7] D. Chen, X. Cao, F. Wen, and J. Sun. Blessing of dimensionality: Highdimensional feature and its efficient compression for face verification. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2013.

[8] Y. Sun, X. Wang, and X. Tang. Deeply learned face representations are sparse, selective, and robust. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2015.

[9] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 1998; 86: 2278~2324.

[10] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.

[11] P. Luo, X. Wang, and X. Tang. Hierarchical face parsing via deep learning. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2012.

[12] P. Luo, X. Wang, and X. Tang. Pedestrian parsing via deep decompositional network. IEEE Int’l Conf. Computer Vision, 2013.

[13] Y. Sun, X. Wang, and X. Tang. Deep convolutional network cascade for facial point detection. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2013.

[14] A. Toshev and C. Szegedy. Deeppose: Human pose estimation via deep neural networks. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.

[15] W. Ouyang and X. Wang. Joint deep learning for pedestrian detection. IEEE Int’l Conf. Computer Vision, 2013.

[16] W. Ouyang, P. Luo, X. Zeng, S. Qiu, Y. Tian, H. Li, S. Yang, Z. Wang, C. Qian, Z. Zhu, R. Wang, C. Loy, X. Wang, and X. Tang. Deepidnet: multi-stage and deformable deep convolutional neural networks for object detection. arXiv:1409.3505, 2014.

[17] http://www.clarifai.com/

[18] C. Szegedy, W. Liu, Y. Jia, and et al.. Going deeper with convolutions. arXiv:1409.4842, 2014.

[19] A. S. Razavian, H. Azizpour, J. Sullivan, and S. Carlsson. Cnn features off-the-shelf: an astounding baseline for recognition. arXiv:1403.6382, 2014.

[20] Y. Gong, L. Wang, R. Guo, and S. Lazebnik. Multi-scale orderless pooling of deep convolutional activation features. arXiv:1403.1840, 2014.

[21] Y. Sun, X. Wang, and X. Tang. Hybrid deep learning for computing face similarities. In Proc. IEEE Int’l Conf. Computer Vision, 2013.

[22] Y. Sun, X. Wang, and X. Tang. Deep learning face representation from predicting 10,000 classes. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.

[23] Y. Taigman, M. Yang, M. Ranzato, and L. Wolf. Deepface: Closing the gap to human-level performance in face verification. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.

[24] Y. Sun, X. Wang, and X. Tang. Deep learning face representation by joint identification-verification. Neural Information Processing Systems, 2014.

[25] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. Int’l Conf. Learning Representations, 2014.

[26] M. Lin, Q.. Chen, and S. Yan. Network in network. arXiv:1312.4400v3, 2013.

[27] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv:1409.1556, 2014.

[28] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. arXiv:1406.4729, 2014.

[29] J. R. R. Uijlings, K. E. A. Van de Sande, T. Gevers, and W. M. Smeulders. Selective search for object recognition. International Journal of Computer Vision, 2013:104:154~171.

[30] P. Dollar, C. Wojek, B. Schiele, and P. Perona. Pedestrian detection: A benchmark. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2009.

[31] P. Felzenszwalb, R. B. Grishick, D.McAllister, and D. Ramanan. Object detection with discriminatively trained part based models. IEEE Trans. PAMI, ,2010; 32:1627~1645.

[32] Y. Tian, P. Luo, X. Wang, and X. Tang. Pedestrian Detection aided by Deep Learning Semantic Tasks. arXiv:1412.0069, 2014.

[33] X. Zeng, W. Ouyang, and X. Wang. Multi-stage contextual deep learning for pedestrian detection. IEEE Int’l Conf. Computer Vision, 2013.

[34] P. Luo, Y. Tian, X. Wang, and X. Tang. Switchable deep network for pedestrian detection. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.

[35] X. Zeng, W. Ouyang, and X. Wang. Deep learning of scene-specific classifier for pedestrian detection. European Conf. Computer Vision, 2014.

[36] S. Ji, W. Xu, M. Yang, and K. Yu. 3d convolutional neural networks for human action recognition. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2013; 35(1):221~231.

[37] K. Simonyan and A. Zisserman. Two-Stream Convolutional Networks for Action Recognition in Videos. arXiv:1406.2199, 2014.

[38] J. Shao, C. C. Loy, and X. Wang. Deeply Learned Attributes for Crowded Scene Understanding. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2015.

[39] K. Kang and X. Wang. Fully Convolutional Neural Networks for Crowd Segmentation. arXiv:1411.4464, 2014.

[40] X. Yan, H. Chang, S. Shan, and X. Chen. Modeling Video Dynamics with Deep Dynencoder. European Conf. Computer Vision, 2015.

[41] J. Donahue, L. A. Hendricks, S. Guadarrama, M. Rohrbach, S. Venugopalan, K. Saenko, and T. Darrell. Long-term recurrent convolutional networks for visual recognition and description. arXiv:1411.4389, 2014.

[42] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei. Large-scale video classification with convolutional neural networks. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.

[43] J. Bruna and S. Mallat. Invariant scattering convolution networks. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2013; 35(8):1872~1886.

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/387850.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/387850.shtml
英文地址,請注明出處:http://en.pswp.cn/news/387850.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

多個css樣式合并到一個“目錄”css文件中

執行訪問jsp后發現沒有效果 同樣的代碼,在html中效果對比如下: 具體原因:不清楚,暫時記著~~~在jsp中不支持import這種css樣式的引用 轉載于:https://www.cnblogs.com/mangwusuozhi/p/10050108.html

Git 學習筆記之 merge

Merge: 1、Fast-forward(快進式) 2、recursice strategy (策略合并,三方合并) Fast-forward 策略合并 //創建一個文件夾,并初始化 Git mkdir GitDemo cd GitDemo git init//初次提交,創建 master 分支 touch master.tx…

熊貓直播 使用什么sdk_沒什么可花的-但是16項基本操作才能讓您開始使用熊貓

熊貓直播 使用什么sdkPython has become the go-to programming language for many data scientists and machine learning researchers. One essential data processing tool for them to make this choice is the pandas library. For sure, the pandas library is so versat…

萌新一手包App前后端開發日記(一)

從事Android移動端也有些日子了,還記得一開始選擇這份工作,是憧憬著有朝一日能讓親朋好友用上自己開發的軟件,但日子久了才發現,并不是所有的公司,所有的項目的適用群體都是“親朋好友”,/無奈臉 攤手。當…

方差,協方差 、統計學的基本概念

一、統計學的基本概念 統計學里最基本的概念就是樣本的均值、方差、標準差。首先,我們給定一個含有n個樣本的集合,下面給出這些概念的公式描述: 均值: 標準差: 方差: 均值描述的是樣本集合的中間點&#xf…

關系型數據庫的核心單元是_核中的數據關系

關系型數據庫的核心單元是Nucleoid is an open source (Apache 2.0), a runtime environment that provides logical integrity in declarative programming, and at the same time, it stores declarative statements so that it doesn’t require external database, in shor…

MongoDB第二天

集合的操作: db.表名稱 show tables / collection db.表名.drop() 文檔的操作: 插入數據 db.表名.insert({"name":"jerry"}) db.insertMany([{"name":"sb",...}]) var ul {"name":"sb"} db.sb.insert(ul) db.sb.…

Python 主成分分析PCA

Python 主成分分析PCA 主成分分析&#xff08;PCA&#xff09;是一種基于變量協方差矩陣對數據進行壓縮降維、去噪的有效方法&#xff0c;PCA的思想是將n維特征映射到k維上&#xff08;k<n&#xff09;&#xff0c;這k維特征稱為主元&#xff0c;是舊特征的線性組合&#xf…

小程序 國際化_在國際化您的應用程序時忘記的一件事

小程序 國際化The hidden bugs waiting to be found by your international users您的國際用戶正在等待發現的隱藏錯誤 While internationalizing our applications, we focus on the things we can see: text, tool-tips, error messages, and the like. But, hidden in our …

三. 性能測試領域

能力驗證&#xff1a; 概念&#xff1a;系統能否在A條件下具備B能力 應用&#xff1a;為客戶進行系統上線后的驗收測試&#xff0c;作為第三方對一個已經部署系統的性能驗證 特點&#xff1a;需要在已確定的環境下運行 需要根據典型場景設計測試方案和用例 一個典型場景包括操…

PCA主成分分析Python實現

作者&#xff1a;拾毅者 出處&#xff1a;http://blog.csdn.net/Dream_angel_Z/article/details/50760130 Github源碼&#xff1a;https://github.com/csuldw/MachineLearning/tree/master/PCA PCA&#xff08;principle component analysis&#xff09; &#xff0c;主成分分…

scp

將文件或目錄從本地通過網絡拷貝到目標端。拷貝目錄要帶 -r 參數 格式&#xff1a;scp 本地用戶名IP地址:文件名1 遠程用戶名IP地址:文件名 2 例&#xff1a; scp media.repo root192.168.20.32:/etc/yum.repos.d/ 將遠程主機文件或目錄拷貝到本機&#xff0c;源和目的參數調換…

robo 3t連接_使用robo 3t studio 3t連接到地圖集

robo 3t連接Robo 3T (formerly Robomongo) is a graphical application to connect to MongoDB. The newest version now includes support for TLS/SSL and SNI which is required to connect to Atlas M0 free tier clusters.Robo 3T(以前稱為Robomongo )是用于連接MongoDB的…

JavaWeb--JavaEE

一、JavaEE平臺安裝1、升級eclipseEE插件2、MyEclipse二、配置Eclipse工作空間1.字體設置 2.工作空間編碼 UTF-83.JDK版本指定 4.集成Tomcat Server運行環境5.配置server webapps目錄 端口號 啟動時間等三、創建第一個Web項目1.創建 Web Project2.設置 tomcat、創建web.xml3.目…

軟件需求規格說明書通用模版_通用需求挑戰和機遇

軟件需求規格說明書通用模版When developing applications there will be requirements that are needed on more than one application. Examples of such common requirements are non-functional, cookie consent and design patterns. How can we work with these types of…

python版PCA(主成分分析)

python版PCA&#xff08;主成分分析&#xff09; 在用統計分析方法研究這個多變量的課題時&#xff0c;變量個數太多就會增加課題的復雜性。人們自然希望變量個數較少而得到的信息較多。在很多情形&#xff0c;變量之間是有一定的相關關系的&#xff0c;當兩個變量之間有一定…

干貨|Spring Cloud Bus 消息總線介紹

2019獨角獸企業重金招聘Python工程師標準>>> 繼上一篇 干貨&#xff5c;Spring Cloud Stream 體系及原理介紹 之后&#xff0c;本期我們來了解下 Spring Cloud 體系中的另外一個組件 Spring Cloud Bus (建議先熟悉 Spring Cloud Stream&#xff0c;不然無法理解 Spr…

一類動詞二類動詞三類動詞_基于http動詞的完全無效授權技術

一類動詞二類動詞三類動詞Authorization is a basic feature of modern web applications. It’s a mechanism of specifying access rights or privileges to resources according to user roles. In case of CMS like applications, it needs to be equipped with advanced l…

主成份分析(PCA)詳解

主成分分析法&#xff08;Principal Component Analysis&#xff09;大多在數據維度比較高的時候&#xff0c;用來減少數據維度&#xff0c;因而加快模型訓練速度。另外也有些用途&#xff0c;比如圖片壓縮&#xff08;主要是用SVD&#xff0c;也可以用PCA來做&#xff09;、因…

thinkphp5記錄

ThinkPHP5 隱藏index.php問題 thinkphp模板輸出cookie,session中… 轉載于:https://www.cnblogs.com/niuben/p/10056049.html