摘要
在本文中,我們將學習過程解耦為表征學習和分類,系統地探究不同的平衡策略如何對長尾識別產生影響。研究結果令人驚訝:(1)數據不平衡在學習高質量表征時可能并非問題;(2)通過最簡單的實例平衡(自然)采樣學習得到的表征,僅通過調整分類器也有可能實現強大的長尾識別能力。我們進行了大量實驗,并在常見的長尾基準測試(如ImageNet-LT、Places-LT和iNaturalist)上創造了新的最先進性能,表明通過使用一種將表示與分類解耦的簡單方法,有可能超越精心設計的損失函數、采樣策略,甚至是帶有記憶的復雜模塊。
引言
大多數方法都是將用于識別的分類器與數據表示聯合學習。然而,這種聯合學習方案使得長尾識別能力是如何實現的變得不明確——它是來自于學習更好的表示,還是通過移動分類器決策邊界更好地處理數據不平衡問題呢?為了回答這個問題,我們退一步,將長尾識別解耦為表征學習和分類。
具體來說,我們首先訓練模型,使用不同的采樣策略來學習表征,包括標準的基于實例的采樣、類別平衡采樣以及兩者的混合。接下來,我們研究三種不同的基本方法,以便在所學表征的基礎上,獲得具有平衡決策邊界的分類器。
1、以類別平衡的方式對參數化線性分類器進行重新訓練
2、非參數最近類均值分類器,它根據數據與訓練集中特定類別的最近均值表示來對數據進行分類。
3、對分類器權重進行歸一化,這直接調整權重大小以使其更加平衡,并引入一個溫度參數來調節歸一化過程。
我們進行了大量實驗,將上述解耦學習方案的實例與同時訓練分類器和表征的傳統方案進行比較。
貢獻
1、我們發現,將表征學習與分類解耦會產生驚人的結果,這對長尾識別的常見觀點提出了挑戰:實例均衡采樣能夠學習到最佳且最具泛化性的表征。
Instance-balanced sampling 是指在訓練過程中 每一個樣本(instance)被采樣的概率是均等的,而不管其所屬類別的頻率如何。
2、 在長尾識別中,在表征學習過程中重新調整聯合學習的分類器所指定的決策邊界是有利的:我們的實驗表明,這可以通過使用類別平衡采樣重新訓練分類器來實現,或者通過一種簡單但有效的分類器權重歸一化方法來實現,該方法只有一個控制“溫度”的超參數,并且不需要額外的訓練。
3、通過將解耦學習方案應用于標準網絡(如ResNeXt),我們在多個長尾識別基準數據集(包括ImageNet-LT、Places-LT和iNaturalist)上,取得了比成熟的最先進方法(不同的采樣策略、新的損失設計和其他復雜模塊)顯著更高的準確率。
Learning representations for long-tailed recognition
對于長尾識別問題,訓練集在類別上遵循長尾分布。由于在訓練過程中,我們對于出現頻率較低的類別數據較少,因此使用不平衡數據集訓練的模型往往在少樣本類別上表現出欠擬合的情況。 但在實際應用中,我們感興趣的是獲得能夠很好地識別所有類別的模型。
在本節中,我們考慮在長尾識別中將表征與分類解耦。我們提出了一些學習分類器的方法,旨在通過采用不同的采樣策略進行微調,或通過諸如最近類均值分類器等其他非參數方法,來修正頭部類別和尾部類別的決策邊界。
Classifier Re-training
一種直接的方法是使用類別平衡采樣重新訓練分類器。也就是說,在保持特征表示不變的情況下,我們隨機重新初始化并使用類別平衡采樣在少量輪次內優化分類器權重W和b。
最近,類似的方法也在(Zhang等人,2019年)中用于長尾視頻數據集上的動作識別。
Nearest Class Mean classifier
另一種常用的方法是,首先在訓練集上計算每個類別的平均特征表示,然后使用余弦相似度或在L2歸一化平均特征上計算的歐幾里得距離來執行最近鄰搜索。盡管它很簡單,但這是一個強大的基線(參見第5節中的實驗評估);余弦相似度通過其固有的歸一化緩解了權重不平衡問題。
τ -normalized classifier (τ -normalized).
我們研究了一種高效地重新平衡分類器決策邊界的方法。每個分類器權重wj的范數和該類別的樣本數量nj呈明顯關系:
1、哪個類的樣本多,它的分類器權重就大,這就會導致softmax層中該類擁有更強的競爭力,容易被模型預測為這個類。
然而,如果我們在特征提取部分固定之后,對分類器進行微調,且微調過程中使用class-balanced sampling,即每類樣本等量訓練,那么各類別的分類器權重范數就會趨于一致。
再訓練一遍分類頭部,樣本均衡采樣,每類“發言權”相同,
? 所以每類分類器權重就不會因為樣本多寡而出現偏差;
? 從而修正原本偏向頭部類的決策邊界。
受上述觀察結果的啟發,我們考慮通過以下τ歸一化過程直接調整分類器權重范數,來糾正決策邊界的不平衡問題。
實驗
無論是整體性能,還是中樣本和少樣本類別,趨勢都是一致的,漸進平衡采樣的效果最佳。正如預期,實例平衡采樣在多樣本類別上表現最佳。這是可以預料到的,因為最終得到的模型嚴重偏向于多樣本類別。我們在聯合訓練中對不同采樣策略的研究結果,驗證了相關工作中嘗試設計更好的數據采樣方法的有效性。
聯合學習還是解耦學習?對于圖1中展示的大多數情況,就整體性能以及除多示例情況外的所有類別劃分而言,使用解耦方法的性能明顯更好。即使是非參數的最近類均值(NCM)方法在大多數情況下也極具競爭力,而對比關系變換(cRT)和τ歸一化方法在很大程度上優于聯合訓練的基線(即比聯合學習的分類器高出5%),甚至在整體準確率上比采用漸進平衡采樣的最佳聯合訓練設置還要高出2%。對于中示例和少示例類別,提升幅度甚至更高,分別達到5%和11%。
為了進一步證明我們關于解耦特征表示與分類器是有益的這一觀點,我們進行了將主干網絡(ResNeXt - 50)與線性分類器聯合微調的實驗。在表1中,我們展示了使用標準學習率或較小(0.1倍)學習率對整個網絡進行微調、僅微調主干網絡的最后一個模塊,或者僅重新訓練線性分類器并固定特征表示時的結果。對整個網絡進行微調會產生最差的性能(46.3%和48.8%),而保持特征表示固定的性能最佳(49.5%)。對于中/少樣本類別,這種趨勢更加明顯。該結果表明,對于長尾識別而言,解耦特征表示與分類器是可取的。
實例平衡采樣能給出最具泛化性的表征。在所有解耦方法中,就整體性能以及除了多示例類之外的所有劃分而言,我們發現實例平衡采樣能給出最佳結果。這一點尤為有趣,因為這意味著在學習高質量表征時,數據不平衡可能并非問題。