論文標題
《Improving Calibration for Long-Tailed Recognition》
改進長尾識別的校準工作
作者
Zhisheng Zhong、 Jiequan Cui、Shu Liu 和 Jiaya Jia
香港中文大學和 SmartMore
初讀
摘要
- 深度神經網絡在訓練數據集類別極度不平衡時可能會表現不佳。最近,兩階段方法將表示學習和分類器學習解耦以提高性能。但仍然存在一個重要問題,即誤校準(miscalibration)。
- 為了解決這個問題,我們設計了兩種方法來改善這類場景中的校準和性能。
- 受到預測類別概率分布與類別實例數量高度相關的啟發,我們提出了標簽感知平滑(label-aware smoothing)來處理不同類別的過度自信問題,并改進分類器學習。
- 由于這兩個階段使用了不同的采樣器,導致數據集之間存在偏差,我們在解耦框架中進一步提出了移位批量歸一化(shifted batch normalization)。
- 我們提出的方法在多個流行的長尾識別基準數據集上創造了新的記錄,包括 CIFAR-10-LT、CIFAR-100-LT、ImageNet-LT、Places-LT 和 iNaturalist 2018。
結論
- 在本文中,我們發現相比于在平衡數據集上訓練的模型,在長尾數據集上訓練的模型更容易出現**誤校準和過度自信(miscalibrated and overconfident)**的問題。
- 因此,我們相應地提出了兩種解決方案:
- 使用 **mixup 和設計標簽感知平滑(label-aware smoothing)**來處理不同類別的過度自信問題。
- 我們注意到在長尾識別的兩階段重采樣方法中存在數據集偏差(或域偏移)。為了減少解耦框架中的數據集偏差,我們提出了在批量歸一化層上的移位學習(shift learning),這進一步提高了性能。
- 在各種基準上的大量定量和定性實驗表明,我們的 MiSLAS 在 top-1 識別準確性和置信度校準方面都取得了不錯的性能,并達到了新的最先進水平。
再讀
Section 1 Introduction
-
背景:
隨著眾多大規模、高質量的數據集的可用,例如 ImageNet,COCO 和 Places,深度卷積神經網絡(CNNs)在各種計算機視覺任務中取得了顯著的突破,例如圖像識別,目標檢測和語義分割。這些數據集通常在每個對象/類別實例數量上是人為平衡的。然而,在許多現實世界應用中,數據可能遵循意料之外的長尾分布,其中不同類別的實例數量嚴重不平衡。當在這些長尾數據集上訓練 CNNs 時,性能顯著下降。為了解決這個嚴重的問題,提出了一系列用于長尾識別的方法。
-
兩階段方法與一階段方法:
最近,許多兩階段方法與一階段方法相比取得了顯著的改進。
- **延遲重采樣(Deferred Re-sampling,DRS)和延遲重加權(Deferred Reweighting,DRW)**首先在第一階段以正常方式訓練 CNN。DRS 在第二階段通過類平衡重采樣調整 CNN,而 DRW 在第二階段通過為不同類別分配不同權重來調整 CNN。
- Zhou 等人在一階段提出了雙邊分支網絡(Bilateral Branch Network,BBN),通過動態結合實例平衡采樣器和反向平衡采樣器來模擬DRS的過程。
- Kang 等人提出了兩個兩階段解耦模型,分類器重新訓練(Classifier Retraining,cRT)和學習權重縮放(Learnable Weight Scaling,LWS),以進一步提升性能,其中解耦模型凍結了主干網絡,僅在第二階段使用類平衡重采樣訓練分類器。
-
置信度校準(Confidence calibration):
-
置信度校準是通過估計真實正確可能性的代表性來預測概率。在許多應用中,對于識別模型來說,置信度校準非常重要。
-
**期望校準誤差(Expected Calibration Error,ECE)**被廣泛用于測量網絡的校準程度。為了計算 ECE,首先將所有 N N N 個預測分到 B B B 個等大小的間隔箱中。ECE 定義如下:
ECE = ∑ b = 1 B ∣ S b ∣ N ∣ acc ( S b ) ? conf ( S b ) ∣ × 100 % \text{ECE}=\sum_{b=1}^B\frac{|\mathcal{S}_b|}{N}\left|\text{acc}(\mathcal{S}_b)-\text{conf}(\mathcal{S}_b) \right|\times100\% ECE=b=1∑B?N∣Sb?∣?∣acc(Sb?)?conf(Sb?)∣×100%- 參數字典:
- S b \mathcal{S}_b Sb? 是預測得分屬于 B i n ? b Bin-b Bin?b 的樣本集。
- a c c ( ? ) acc(\cdot) acc(?) 和 c o n f ( ? ) conf(\cdot) conf(?) 分別是 S b \mathcal{S}_b Sb? 的準確度和預測置信度。
- 參數字典:
-
-
誤校準和過度自信(miscalibrated and overconfident):
-
我們的研究表明,由于每個類別的組成比例不平衡,訓練于長尾數據集的網絡更容易出現誤校準和過度自信。
-
我們在圖 1 中繪制了具有 15 個箱子(bins)的可靠性圖表,比較了在原始 CIFAR-100 數據集上訓練的普通交叉熵(cross-entropy,CE)模型,以及在 CIFAR-100-LT 上訓練的普通 CE 模型、cRT 和 LWS,后者具有 100 的不平衡因子(imbalanced factor,IF)。
- 圖片注解:ResNet-32 的可靠性圖表。從左上角到右下角依次為:
- 在原始平衡的 CIFAR-100 數據集上訓練的普通模型,
- 以及在具有100的不平衡因子(IF)的 CIFAR-100-LT 上訓練的普通模型、
- cRT 和 LWS。
- 圖片注解:ResNet-32 的可靠性圖表。從左上角到右下角依次為:
-
可以注意到,在長尾數據集上訓練的網絡通常具有更高的 ECE。兩階段模型 cRT 和 LWS 也遭受過度自信的問題。此外,附錄 C 中的圖 9 和圖 10(前兩個圖)描述了這種現象在其他長尾數據集上,如 CIFAR-10-LT 和 ImageNet-LT,也同樣存在。
-
-
兩階段解耦的問題:
- 另一個問題是,兩階段解耦忽略了兩個階段中的數據集偏差或域偏移(the dataset bias or domain shift)。
- 具體來說,兩階段模型首先在第一階段在實例平衡數據集 D I \mathcal{D}_I DI? 上進行訓練。然后,模型在第二階段在類別平衡數據集 D C \mathcal{D}_C DC? 上進行訓練。顯然, P D I ( x , y ) ≠ P D C ( x , y ) P_{\mathcal{D}_I}(\boldsymbol{x},y) \ne P_{\mathcal{D}_C}(\boldsymbol{x},y) PDI??(x,y)=PDC??(x,y),且不同采樣方式的數據集分布不一致。
- 受到遷移學習(transfer learning)的啟發,我們專注于**批量歸一化層(the batch normalization layer)**來處理數據集偏差問題。
-
本文貢獻:
在這項工作中,我們提出了一個混合移位標簽感知平滑模型(Mixup Shifted Label-Aware Smoothing model,MiSLAS),以有效地解決上述問題。我們的主要貢獻如下:
- 我們發現,與在平衡數據上訓練的模型相比,在長尾數據集上訓練的模型存在更多的誤校準和過度自信(miscalibrated and overconfident)問題。兩階段模型也遭受這個問題。
- 我們發現,mixup 可以緩解過度自信問題,并對表示學習有積極影響,但對分類器學習的負面影響或可以忽略不計。為了進一步強化分類器學習和校準,我們提出了標簽感知平滑來處理不同類別的過度自信問題。
- 這是首次嘗試指出長尾識別的兩階段重采樣方法中的數據集偏差或域偏移問題。為了在解耦框架中處理這個問題,我們提出了在批量歸一化層上的移位學習(shift learning on the batch normalization layer),這可以大大提高性能。
Section 2 Related Work
-
重采樣和重加權(Re-sampling and re-weighting)
-
有兩種重采樣策略:一種是過采樣尾部類別的圖像,另一種是欠采樣頭部類別的圖像。
- 過采樣(over-sampling)通常在大數據集上有效,但在小數據集上可能會特別容易過度擬合尾部類別。
- 對于欠采樣(under-sampling),它丟棄了大量的數據,這不可避免地導致深度模型泛化能力的下降。
-
**重加權(Reweighting)**是另一種顯著的策略。
-
它為不同的類別甚至實例分配不同的權重。傳統的重加權方法根據類別的樣本數量成反比分配類別權重。
-
然而,在大型數據集上,重加權使得深度模型在訓練過程中難以優化。
- Cui 等人使用有效數量來計算類別權重,從而緩解了這個問題。
- 另一項工作是自適應地重加權每個實例。例如,焦點損失(focal loss)為易于分類的樣本分配較小的權重。
-
-
-
置信度校準和正則化(Confidence calibration and regularization)
- 在許多應用中,校準的置信度對于分類模型非常重要。現代神經網絡的校準問題首先在 [9] 中討論。作者發現,模型容量、規范化和正則化對網絡校準有強烈的影響。
- mixup 是一種正則化技術,通過輸入和標簽的插值進行訓練。
- mixup 啟發了后續的 manifold mixup、CutMix 和 Remix,這些技術都顯示出顯著的改進。Thulasidasan 等人發現,使用 mixup 訓練的 CNN 更好地校準了。
- **標簽平滑(label smoothing)**是另一種正則化技術,它鼓勵模型減少過度自信。
- 與在地面真實(ground truth)標簽上計算損失的交叉熵不同,標簽平滑在標簽的軟化版本上計算損失。它減輕了過擬合,并增加了校準和可靠性。
-
兩階段方法(Two-stage methods)
- Cao 等人提出了延遲重加權(Deferred Reweighting,DRW)和延遲重采樣(Deferred Re-sampling,DRS),這些方法比傳統的單階段方法效果更好。它的第二階段從更好的特征開始,調整決策邊界并進行局部特征調整。
- 最近,Kang 等人和 Zhou 等人得出結論,盡管類別重新平衡對于聯合訓練表示和分類器很重要,但實例平衡采樣提供了更一般的表示。基于這一觀察,Kang 等人通過分解表示學習和分類器學習實現了最先進的結果。
- 它首先使用實例平衡采樣訓練深度模型,然后在與表示學習參數固定的情況下,使用類別平衡采樣微調分類器。
- 類似地,Zhou 等人將 mixup 訓練集成到提出的累積學習策略中。
- 它橋接了表示學習和分類器重新平衡。累積學習策略需要實例平衡和反向實例平衡的雙重采樣器。
Section 3 Main Approach
3.1.Study of mixup Strategy
mixup 策略研究
-
相關工作與實驗目的:
在兩階段學習框架中,Kang 等人和 Zhou 等人發現,實例平衡采樣為長尾識別提供了最一般的表示。此外,Thulasidasan 等人展示了對 mixup 進行訓練的網絡具有更好的校準。基于這些發現,在使用實例平衡采樣的情況下,我們探索了 mixup 在兩階段解耦框架中的作用,以實現更高的表示泛化和減少過度自信。
-
實驗:
-
實驗設置:
-
我們在 ImageNet-LT 上訓練了一個普通的交叉熵模型,以及兩個兩階段模型 cRT 和 LWS,第一階段訓練 180 個周期,第二階段分別微調 10 個周期。
-
我們變化訓練設置(是否使用 mixup α = 0.2 \alpha=0.2 α=0.2)對兩個階段都進行了實驗。這些變體的 Top-1 準確率列于表 1 中。
- 圖片注解:對于 ImageNet-LT 驗證集,分類器權重范數,其中類別按 N j N_j Nj? 的降序排列, N j N_j Nj? 表示 Class- j j j 的訓練樣本數量。
- 左圖:cRT 模型使用或不使用 mixup 的權重范數。
- 右圖:LWS 模型使用或不使用 mixup 的權重范數。
- 淺色陰影:真實范數。
- 深色線條:平滑版本。最好在屏幕上查看。
- 圖片注解:對于 ImageNet-LT 驗證集,分類器權重范數,其中類別按 N j N_j Nj? 的降序排列, N j N_j Nj? 表示 Class- j j j 的訓練樣本數量。
-
-
mixup 有效性分析:
它揭示了以下幾點。
- 應用 mixup 時,CE 模型的改進可以忽略不計。但對于 cRT 和 LWS,性能得到了極大的提升。
- 在第二階段應用額外的 mixup 并沒有帶來明顯的改進,甚至可能損害性能。原因是 mixup 鼓勵表示學習,但對分類器學習有不利或可忽略的影響。
-
分類器權重范數分析:
-
此外,我們在圖 2 中繪制了這些變體的最終分類器權重范數。我們展示了所有類別的權重向量的 L 2 L_2 L2? 范數,以及按實例數量降序排列的訓練數據分布。
- 圖片注解:展示了 ImageNet-LT 驗證集上分類器權重范數的圖表,其中類別按照 N j N_j Nj? 的降序排列, N j N_j Nj? 表示 Class- j j j 的訓練樣本數量。
- 左圖:顯示了 cRT 模型在有無 mixup 情況下的權重范數。
- 右圖:顯示了 LWS 模型在有無 mixup 情況下的權重范數。
- 淺色陰影區域代表真實的權重范數。
- 深色線條代表平滑后的版本。最好在屏幕上查看。
- 圖片注解:展示了 ImageNet-LT 驗證集上分類器權重范數的圖表,其中類別按照 N j N_j Nj? 的降序排列, N j N_j Nj? 表示 Class- j j j 的訓練樣本數量。
-
我們觀察到,應用 mixup(橙色)時,尾部類別的權重范數傾向于變大,而頭部類別的權重范數減小。這意味著 mixup 可能對尾部類別更友好。
-
-
期望校準誤差分析:
我們還列出了上述模型的 ECEs 于表 1 中。
- 僅在第一階段添加 mixup 時,cRT 和 LWS 模型能夠一致地獲得更好的 Top-1 準確率和更低的 ECEs,適用于不同的主干網絡(第 4 行和第 6 行)。
- 由于對分類器學習(通過在第二階段添加 mixup)的 Top-1 準確率提升不滿意且 ECE 下降不穩定,我們提出了一個標簽感知平滑來進一步改善校準和分類器學習。
-
3.2.Label-aware Smoothing
標簽感知平滑
在本小節中,我們分析和解決過度自信以及分類器學習改進受限這兩個問題。
-
過度自信(over-confidence):
-
假設分類器的權重為 W ∈ R M × K \boldsymbol{W}\in\R^{M\times K} W∈RM×K,其中 M M M 是特征的數量, K K K 是類別的數量。
-
交叉熵損失函數會導致網絡對頭部類別產生過度自信。經過 softmax 激活后的交叉熵損失為 l ( y , p ) = ? log ? ( p y ) = ? w y ? x + log ? ( ∑ exp ? ( w i ? x ) ) l(y,\boldsymbol{p})=?\log(\boldsymbol{p}_y)=?\boldsymbol{w}^?_y\boldsymbol{x}+\log(\sum\exp(\boldsymbol{w}^?_i\boldsymbol{x})) l(y,p)=?log(py?)=?wy??x+log(∑exp(wi??x)),其中 y ∈ { 1 , 2 , … , K } y\in\{1, 2,\dots,K\} y∈{1,2,…,K} 是標簽。 x ∈ R M x\in\R^M x∈RM 是發送到分類器的特征向量, w i \boldsymbol{w}_i wi? 是 W \boldsymbol{W} W 的第 i i i 列向量。最優解是 w y ? T x = inf \boldsymbol{w}^{?T}_y\boldsymbol{x}=\text{inf} wy?T?x=inf,而其他 w i T x , i ≠ y \boldsymbol{w}^T_i\boldsymbol{x},\ i\ne y wiT?x,?i=y 足夠小。
-
因為頭部類別包含更多的訓練示例,網絡會使頭部類別的權重范數 ‖ w ‖ ‖w‖ ‖w‖ 變大以接近最優解。這導致預測概率主要接近 1.0(參見 Fig. 3,上半部分淺藍色部分)。
- 圖片注解:在 CIFAR-100-LT 上,當 IF 為 100 時,不同類別部分(頭部(每個類 100+ 張圖像)、中部(每類 20-100 張圖像)和尾部(每類少于 20 張圖像))的預測概率分布的提琴圖。
- 上半部分淺藍色表示“LWS + 交叉熵”。
- 下半部分深藍色代表“LWS + 標簽感知平滑”。
- 圖片注解:在 CIFAR-100-LT 上,當 IF 為 100 時,不同類別部分(頭部(每個類 100+ 張圖像)、中部(每類 20-100 張圖像)和尾部(每類少于 20 張圖像))的預測概率分布的提琴圖。
-
另一個事實是,預測概率的分布與實例數量有關。與平衡識別不同,為了解決長尾問題,對這些類別應用不同的策略是必要的。
-
-
標簽感知平滑(label-aware smoothing):
-
標簽感知平滑的表達式:
在這里,我們提出了標簽感知平滑(label-aware smoothing)來解決交叉熵中的過度自信問題以及預測概率分布不均的問題。它被表達為:
l ( q , p ) = ? ∑ i = 1 K q i log ? p i , l(\boldsymbol{q},\boldsymbol{p})=-\sum_{i=1}^K\boldsymbol{q}_i\log\boldsymbol{p}_i, l(q,p)=?i=1∑K?qi?logpi?,q i = { 1 ? ? y = 1 ? f ( N y ) , if? i = y , ? K ? 1 = f ( N K ? 1 ) / ( K ? 1 ) , otherwise, ( 1 ) \begin{align} q_i=\begin{cases}1-\epsilon_y=1-f(N_y),&\text{if } i = y, \\ \epsilon_{K-1} = f(N_{K-1}) / (K-1), & \text{otherwise,} \end{cases}\qquad\qquad(1) \end{align} qi?={1??y?=1?f(Ny?),?K?1?=f(NK?1?)/(K?1),?if?i=y,otherwise,?(1)??
-
參數字典:
其中 ? y \epsilon_y ?y? 是類別 y y y 的小標簽平滑因子,與它的類別數量 N y N_y Ny? 相關。
現在最優解變成了(證明見附錄E):
w i ? T x = { log ? ( ( K ? 1 ) ( 1 ? ? y ) ? y ) + c , i = y , c , otherwise, ( 2 ) w^{*T}_ix = \begin{cases} \log\left( \frac{(K-1)(1-\epsilon_y)}{\epsilon_y} \right) + c, &i = y, \\ c, & \text{otherwise,} \end{cases}\qquad\qquad(2) wi?T?x={log(?y?(K?1)(1??y?)?)+c,c,?i=y,otherwise,?(2)- 其中 c c c 是一個任意實數。
與交叉熵中的最優解相比,標簽感知平滑鼓勵有限的輸出,更加一般化,并且可以緩解過擬合。
-
-
相關函數(related function):
-
我們假設長尾數據集中的標簽是按照實例數量降序分配的,即 $N_1\ge N_2\ge\cdots\ge N_K $。因為頭部類別包含更多樣化的示例,所以預測概率比尾類更有希望。
-
因此,我們要求實例數量較大的類別使用更強的標簽平滑因子——即相關函數 f ( N y ) f(N_y) f(Ny?) 應該與 N y N_y Ny? 負相關。我們定義了三種相關函數 f ( N y ) f(N_y) f(Ny?) 如下:
-
凹形式(Concave form):
f ( N y ) = ? K + ( ? 1 ? ? K ) sin ? [ π ( N y ? N K ) 2 ( N 1 ? N K ) ] ; ( 3. a ) f(N_y)=\epsilon_K+(\epsilon_1-\epsilon_K)\sin\left[\frac{\pi\left(N_y-N_K\right)}{2(N_1 - N_K)}\right];\qquad(3.a) f(Ny?)=?K?+(?1???K?)sin[2(N1??NK?)π(Ny??NK?)?];(3.a) -
線性形式(Linear form):
f ( N y ) = ? K + ( ? 1 ? ? K ) N y ? N K N 1 ? N K ; ( 3. b ) f(N_y)=\epsilon_K+(\epsilon_1-\epsilon_K)\frac{N_y-N_K}{N_1-N_K}\qquad; (3.b) f(Ny?)=?K?+(?1???K?)N1??NK?Ny??NK??;(3.b) -
凸形式(Convex form):
f ( N y ) = ? 1 + ( ? 1 ? ? K ) sin ? [ 3 π 2 + π ( N y ? N K ) 2 ( N 1 ? N K ) ] ; ( 3. c ) f(N_y)=\epsilon_1+(\epsilon_1-\epsilon_K)\sin\left[\frac{3\pi}{2}+\frac{\pi\left(N_y-N_K\right)}{2(N_1-N_K)}\right];\qquad(3.c) f(Ny?)=?1?+(?1???K?)sin[23π?+2(N1??NK?)π(Ny??NK?)?];(3.c) -
參數字典:
其中 ? 1 \epsilon_1 ?1? 和 ? K \epsilon_K ?K? 是兩個超參數。
-
-
這些函數的說明在圖 6 中展示。如果我們將 ? 1 ≥ ? K \epsilon_1\ge\epsilon_K ?1?≥?K?,則得到 ? 1 ≥ ? 2 ≥ ? ≥ ? K \epsilon_1 \ge\epsilon_2 \ge\cdots\ge\epsilon_K ?1?≥?2?≥?≥?K?。對于類別 y y y 的大實例數量 N y N_y Ny?,標簽感知平滑分配了一個強平滑因子。它降低了擬合概率,緩解過度自信,因為頭部和中部類別比尾類別更容易過度自信(見圖3)。
-
-
-
特定的通用分類器學習框架:
-
由于標簽感知平滑(label-aware smoothing)的形式比交叉熵(cross-entropy)更復雜,我們提出了一種通用的分類器學習框架來適應它。
-
相關工作回顧:
在這里,我們快速回顧一下 cRT 和 LWS。
- cRT 學習一個包含 K M K\ M K?M 個可學習參數的分類器權重,而 LWS 則限制于學習一個只有K個可學習參數的權重縮放向量 s ∈ R K s\in\R^K s∈RK。
- 相比之下,cRT 具有更多的可學習參數和更強的表示能力。LWS 傾向于在大型數據集上獲得更好的驗證損失和性能(請參閱[15]中的實驗部分)。因此,LWS 具有更好的泛化性質。
-
分類器框架:
為了結合 cRT 和 LWS 的優勢,我們在第二階段設計了分類器框架如下:
z = diag ( s ) ( r W + Δ W ) ? x . ( 4 ) z=\text{diag}(\boldsymbol{s}) (r\boldsymbol{W}+\boldsymbol{\Delta W})^\top x.\qquad\qquad(4) z=diag(s)(rW+ΔW)?x.(4)- 在等式(4)中,我們在第二階段固定了原始分類器權重 W \boldsymbol{W} W。
- 如果我們使可學習的縮放向量 s \boldsymbol{s} s 固定,設置 s = 1 \boldsymbol{s}=1 s=1 和保留因子 r = 0 r=0 r=0,并且只學習新的分類器權重 Δ W ∈ R M × K \boldsymbol{\Delta W}\in\R^{M\times K} ΔW∈RM×K,等式(4)將退化為 cRT。
- 因為 LWS 固定了原始分類器權重 W \boldsymbol{W} W 并只學習縮放 s \boldsymbol{s} s,如果我們設置 r = 1 r=1 r=1 和 Δ W = 0 \boldsymbol{\Delta W}=0 ΔW=0,等式(4)將退化為 LWS。
- 在大多數情況下,LWS 在大型數據集上取得了更好的結果。因此,我們使 s \boldsymbol{s} s 可學習并設置 r = 1 r=1 r=1。
- 我們還使 Δ W \boldsymbol{\Delta W} ΔW 可學習,以提高表示能力并使用不同的學習率來優化 Δ W \boldsymbol{\Delta W} ΔW。
- Δ W \boldsymbol{\Delta W} ΔW 可以被視為 W \boldsymbol{W} W 上權重向量 w \boldsymbol{w} w 的位移變換。它改變了 W \boldsymbol{W} W 中權重向量 w \boldsymbol{w} w 的方向,這是 LWS 無法實現的。
-
3.3.Shift Learning on Batch Normalization
批量歸一化移位學習
-
概述:
- 在兩階段訓練框架中,模型首先在第一階段使用實例平衡采樣進行訓練,然后在第二階段使用類別平衡采樣進行訓練。
- 由于該框架涉及兩個采樣器,或者兩個數據集——實例平衡數據集 D I \mathcal{D}_I DI? 和類別平衡數據集 D C \mathcal{D}_C DC?,我們將這個兩階段訓練框架視為遷移學習的一種變體。
- 如果我們從遷移學習的角度來看待這個兩階段解耦訓練框架,固定主干部分并在第二階段僅調整分類器顯然是不合理的,尤其是對于批量歸一化(batch normalization,BN)層。
-
均值/方差分析:
具體來說,我們假設網絡的輸入是 x i x_i xi?,某個批量歸一化(BN)層的輸入特征是 g ( x i ) g(x_i) g(xi?),且迷你批次的大小是 m m m。這兩個階段中,通道 j j j 的均值和運行方差分別為:
-
對于第一階段(實例平衡采樣):
x i ~ P D I ( x , y ) , μ I ( j ) = 1 m ∑ i = 1 m g ( x i ) j , σ I 2 ( j ) = 1 m ∑ i = 1 m [ g ( x i ) ( j ) ? μ I ( j ) ] 2 ( 5 ) \begin{align} &\boldsymbol{x}_i\sim P_{\mathcal{D}_I}(\boldsymbol{x},y),\quad\boldsymbol{\mu}^{(j)}_I=\frac{1}{m}\sum_{i=1}^m g(\boldsymbol{x}_i)^j,\\ &\boldsymbol{\sigma}^{2(j)}_I=\frac{1}m\sum_{i=1}^m[g(\boldsymbol{x}_i)^{(j)}-\boldsymbol{\mu}^{(j)}_I]^2\qquad\qquad(5) \end{align} ?xi?~PDI??(x,y),μI(j)?=m1?i=1∑m?g(xi?)j,σI2(j)?=m1?i=1∑m?[g(xi?)(j)?μI(j)?]2(5)?? -
對于第二階段(類別平衡采樣):
x i ~ P D C ( x , y ) , μ C ( j ) = 1 m ∑ i = 1 m g ( x i ) j , σ C 2 ( j ) = 1 m ∑ i = 1 m [ g ( x i ) ( j ) ? μ C ( j ) ] 2 ( 6 ) \begin{align} &\boldsymbol{x}_i\sim P_{\mathcal{D}_C}(\boldsymbol{x},y),\quad\boldsymbol{\mu}^{(j)}_C=\frac{1}{m}\sum_{i=1}^m g(\boldsymbol{x}_i)^j,\\ &\boldsymbol{\sigma}^{2(j)}_C=\frac{1}m\sum_{i=1}^m[g(\boldsymbol{x}_i)^{(j)}-\boldsymbol{\mu}^{(j)}_C]^2\qquad\qquad(6) \end{align} ?xi?~PDC??(x,y),μC(j)?=m1?i=1∑m?g(xi?)j,σC2(j)?=m1?i=1∑m?[g(xi?)(j)?μC(j)?]2(6)??
-
-
分析與解決:
- 由于不同的采樣策略,頭部、中部和尾部類別的組成比例也不同,這導致 P D I ( x , y ) ≠ P D C ( x , y ) P_{\mathcal{D}_I}(\boldsymbol{x},y)\ne P_{\mathcal{D}_C}(\boldsymbol{x},y) PDI??(x,y)=PDC??(x,y)。通過等式(5)和(6),在兩種采樣策略下均值 μ \boldsymbol{\mu} μ 和方差 σ \boldsymbol{\sigma} σ 存在偏差,即 μ I ≠ μ C \boldsymbol{\mu}_I\ne\boldsymbol{\mu}_C μI?=μC? 和 σ I 2 ≠ σ C 2 \boldsymbol{\sigma}^2_I\ne\boldsymbol{\sigma}^2_C σI2?=σC2?。因此,對于解耦框架來說,BN 在兩個具有不同采樣策略的數據集之間共享均值和方差是不可行的。
- 受到 AdaBN 和 TransNorm 的啟發,我們在第二階段更新運行均值 μ \boldsymbol{\mu} μ 和方差 σ σ σ,同時固定可學習的線性變換參數 α \alpha α 和 β \beta β,以實現更好的標準化。
Section 4 Experiments
4.1.Datasets and Setup
我們的實驗設置,包括實現細節和評估協議,主要遵循[4]用于 CIFAR10-LT 和 CIFAR-100-LT,以及[15]用于 ImageNet-LT、PlacesLT 和 iNaturalist 2018。更多有關訓練和超參數設置的詳細信息,請參見附錄A。
4.1.1 Datasets Explanation
-
CIFAR-10 和 CIFAR-100
- CIFAR-10 和 CIFAR-100 都包含 60,000 張圖像,其中 50,000 張用于訓練,10,000 張用于驗證,分別有 10 個類別和 100 個類別。
- 為了公平比較,我們使用與[4]中相同設置的長尾版本的 CIFAR 數據集。這是通過控制數據不平衡的程度,使用不平衡因子 KaTeX parse error: Got function '\max' with no arguments as subscript at position 28: …\boldsymbol{N}_\?m?a?x?}{\boldsymbol{N…,其中 KaTeX parse error: Got function '\max' with no arguments as subscript at position 16: \boldsymbol{N}_\?m?a?x? 和 KaTeX parse error: Got function '\min' with no arguments as subscript at position 16: \boldsymbol{N}_\?m?i?n? 是最多和最少頻繁類別的訓練樣本數量。
- 遵循 Cao 等人[4]和Zhou等人[39]的方法,我們進行了 IF 為100、50 和 10 的實驗。
-
ImageNet-LT 和 Places-LT
- ImageNet-LT 和 Places-LT 是由 Liu 等人提出的。ImageNet-LT 是大規模物體分類數據集 ImageNet 的長尾版本,通過遵循帕累托分布(Pareto distribution)采樣一個子集,冪值 α = 6 \alpha=6 α=6。它包含來自 1,000 個類別的 115.8 K 張圖像,類別的基數從 5 到 1,280 不等。
- Places-LT 是大規模場景分類數據集 Places 的長尾版本。它由來自 365 個類別的 184.5 K 張圖像組成,類別的基數從 5 到 4,980 不等。
-
iNaturalist 2018
iNaturalist 2018 是一個大規模的分類數據集,并且遭受極其不平衡的標簽分布。它由來自 8,142 個類別的 437.5 K 張圖像組成。此外,在 iNaturalist 2018 數據集上,我們還面臨著細粒度問題。
4.1.2 Implementation Details
實現細節
- 對于所有實驗,我們使用帶有動量 0.9 的 SGD 優化器來優化網絡。
- 對于 CIFAR-LT,
- 我們主要遵循 Cao 等人的方法。我們在一個 GPU 上訓練所有 MiSLAS 模型,并使用多步學習率計劃,在第一階段的 160 個和 180 個周期時將學習率降低 0.1。
- 對于 ImageNetLT、Places-LT 和 iNaturalist 2018,
- 我們主要遵循 Kang 等人的方法,并使用余弦學習率計劃來訓練所有 MiSLAS 模型,后端網絡分別為 ResNet-10、50、101 和 152,在四個 GPU 上進行訓練。
4.2.Ablation Study
-
校準性能(Calibration performance):
-
在這里,我們在圖 4 中展示了我們的方法在 CIFAR-100-LT 上 IF 為 100 的 15 個箱子的可靠性圖。與圖 1 相比,mixup 和標簽感知平滑不僅可以大大提高網絡的校準性能(即使是低于平衡數據集的 ECE),還可以大大提高長尾識別的性能。
- 圖片注解:圖 4 展示了在 CIFAR-100-LT 上 IF 為 100 的 ResNet-32 模型的可靠性圖。從左至右依次為:使用 mixup 的 cRT、使用 mixup 的 LWS、使用 mixup 和 移位 BN 的 LWS,以及 MiSLAS(符合圖 1 的設置)。
-
類似的趨勢也可以在 CIFAR-10-LT、ImageNet-LT 和 Places-LT 上觀察到(具體細節請參見表 1 和附錄 C 中的圖),這證明了所提出方法在校準方面的有效性。
- 圖片注解:表 1 展示了在 ImageNet-LT 數據集上訓練的 ResNet 系列模型的普通交叉熵(CE)模型,以及 cRT(左)和 LWS(右)解耦模型的 Top-1 準確率(%)和 ECE(%)。我們在兩個階段上變化增強策略,包括使用 α = 0.2 \alpha=0.2 α=0.2( ? \checkmark ?)或不使用( × \times ×)mixup。
-
所有實驗結果表明,在非平衡數據集上訓練網絡會導致嚴重的過度自信。由于傳統的 mixup 和標簽平滑都包含了軟化地面真實標簽(softening the ground truth labels)的操作,這可能表明,使用硬標簽進行訓練可能是導致網絡過度自信的另一個促成因素。
-
-
比較標簽感知平滑與重加權(re-weighting with label-aware smoothing):
在這里,我們比較了提出的標簽感知平滑(LAS)與重加權方法。
-
主要的區別在于標簽轉換。特別是,標簽感知平滑根據標簽分布將硬標簽轉換為軟版本(參見等式(1)的其他情況: q i = f ( N y ) ( K ? 1 ) , i ≠ y \boldsymbol{q}_i=\frac{f(\boldsymbol{N}_y)}{(K?1)},\ i\ne y qi?=(K?1)f(Ny?)?,?i=y)。而重加權方法不包含這種關鍵轉換,只是通過 q i = 0 , i ≠ y \boldsymbol{q}_i=0,i\ne y qi?=0,i=y 將值設置為零。
-
此外,由于標簽的轉換,LAS 中 w i ? ? x w^{?\top}_i\boldsymbol{x} wi???x 的最優解變成了等式(2)。相比之下,重加權的最優解與交叉熵相同,即 w i ? ? x = inf ? w^{?\top}_i\boldsymbol{x}=\inf wi???x=inf,這無法適當改變預測分布并導致過度自信。
-
根據我們在表 2 中的實驗結果,在第二階段使用重加權方法會比使用LAS的情況降低性能和校準。
- 圖片注解:表 2 展示了標簽感知平滑(LAS)與重加權方法在第二階段基于類平衡交叉熵(CB-CE)的測試準確率(%)/ ECE(%)的比較。兩個模型都基于 ResNet-32,并在 CIFAR-100-LT 上進行了訓練,不平衡因子(IF)為 100、50 和 10。
-
-
? 1 \epsilon_1 ?1? 和 ? K \epsilon_K ?K? 如何影響標簽感知平滑?
-
在我們的標簽感知平滑中,等式(3.a)、(3.b)和(3.c)中有兩個超參數。它們是 ? 1 \epsilon_1 ?1? 和 ? K \epsilon_K ?K?,它們控制類別的懲罰。
-
在一個識別系統中,如果類別 y y y 的預測概率大于 0.5,分類器會將輸入分類為類別 y y y。因此,為了使其合理,我們限制 0 ≤ ? 1 ≤ ? K ≤ 0.5 0\le\epsilon_1\le\epsilon_K\le0.5 0≤?1?≤?K?≤0.5。
-
在這里,我們在 CIFAR-10-LT 上進行了實驗,IF 為 100,并變化了 ? 1 \epsilon_1 ?1? 和 ? K \epsilon_K ?K? 都在 0.0 到 0.5 之間。我們繪制了所有可能變體的性能矩陣,以 ? 1 \epsilon_1 ?1? 和 ? K \epsilon_K ?K? 為橫縱坐標,如圖 5 所示。
- 圖片注解:標簽感知平滑中兩個超參數 ? 1 \epsilon_1 ?1? 和 ? K \epsilon_K ?K? 的消融研究。熱圖可視化在 CIFAR-10-LT(左)和 CIFAR100-LT(右)上,IF 為 100 的情況。
-
結果顯示,
- 當我們選擇 ? 1 = 0.3 \epsilon_1=0.3 ?1?=0.3 和 ? K = 0.0 \epsilon_K=0.0 ?K?=0.0 (橙色方塊)進行標簽感知平滑時,與傳統的交叉熵(綠色方塊, ? 1 = 0 \epsilon_1=0 ?1?=0 和 ? K = 0 \epsilon_K=0 ?K?=0 )相比,分類準確率提高了 3.3%。
- 當選擇 ? 1 = 0.4 \epsilon_1=0.4 ?1?=0.4 和 ? K = 0.1 \epsilon_K=0.1 ?K?=0.1 進行標簽感知平滑時,在 CIFAR-100-LT 上,IF 為 100,一致地提高了 0.9% 的準確率。
-
-
f ( ? ) f(\cdot) f(?) 如何影響標簽感知平滑?
-
正如第 3.2 節討論的,相關函數 f ( ? ) f(\cdot) f(?) 對于最終模型性能可能發揮重要作用。我們在圖 6 中繪制了等式(3.a)、(3.b)和(3.c)的說明。
- 圖片注解:函數說明以及等式(3.a)、(3.b)和(3.c)的測試性能。凹形式取得了最佳結果。
-
對于 CIFAR-100-LT,IF 為 100,我們設置 K = 100 K=100 K=100, N 1 = 500 N_1=500 N1?=500, N 100 = 5 N_{100}=5 N100?=5。基于上述關于 ? 1 \epsilon_1 ?1? 和 ? K \epsilon_K ?K? 的消融研究結果,我們在這里設置 ? 1 = 0.4 \epsilon_1=0.4 ?1?=0.4 和 ? 100 = 0.1 \epsilon_{100}=0.1 ?100?=0.1。
-
在第二階段的第 10 個周期調整后,凹模型(convex model)的準確率最佳。
-
我們還探索了其他形式,例如 f ( ? ) f(\cdot) f(?) 的指數形式,具體見附錄 B。與改變 ? 1 \epsilon_1 ?1? 和 ? K \epsilon_K ?K? 相比,改變形式帶來的收益非常有限。
-
-
標簽感知平滑(label-aware smoothing)如何影響預測分布?
- 為了可視化預測概率分布的變化,我們在 CIFAR-100-LT 上 IF 為 100 訓練了兩個 LWS 模型,一個使用交叉熵,另一個使用標簽感知平滑。
- 交叉熵基礎的頭部、中部和尾部類別的分布顯示在圖 3 上方的淺藍色部分。基于標簽感知平滑的分布顯示在下半部分的深藍色中。
- 我們觀察到,使用標簽感知平滑時,頭部和中部類別的過度自信大大減少,尾部類別的整個分布略有向右移動。這些經驗結果與我們在第 3.2 節的分析一致。
-
進一步分析移位學習(shift learning):
在這一部分,我們進行了實驗來展示在 BN 上進行移位學習的效果和適用性。
-
我們在 CIFAR100-LT 上 IF 為 100 訓練了 LWS 模型。
-
在第二階段的 10 個周期微調后,使用 BN 移位的模型達到了 45.3% 的準確率,比不使用 BN 移位的模型高出 1.1%。
-
我們還可視化了 BN 的變化。如圖 7 所示,使用不同采樣策略的數據集之間存在 μ \mu μ 和 σ 2 \sigma^2 σ2 的偏差。
- 圖片注解:展示了 BN 中運行均值 μ \mu μ 和方差 σ 2 \sigma^2 σ2 的變化的可視化。該圖基于在 CIFAR-100-LT 上 IF 為 100 訓練的 ResNet-32 模型。
- 左圖顯示了 ResNet-32 中的第一個 BN 層,該層包含 16 個通道的 μ \mu μ 和 σ 2 \sigma^2 σ2。
- 右圖顯示了 ResNet-32 中的最后一個 BN 層,該層包含 64 個通道的 μ \mu μ 和 σ 2 \sigma^2 σ2
- 圖片注解:展示了 BN 中運行均值 μ \mu μ 和方差 σ 2 \sigma^2 σ2 的變化的可視化。該圖基于在 CIFAR-100-LT 上 IF 為 100 訓練的 ResNet-32 模型。
-
由于頭部、中部和尾部類別的組成比例不同,統計均值 μ \mu μ 和方差 σ 2 \sigma^2 σ2 也會變化。我們還在圖 7 中注意到了一些有趣的現象:
- 方差 σ 2 \sigma^2 σ2 的變化大于均值 μ \mu μ 的變化。
- 深層 BN 層中的 μ \mu μ 和 σ 2 \sigma^2 σ2 的變化遠小于淺層 BN 層。
-
-
總結:
-
總體而言,表 3 展示了關于 mixup(在第一階段添加 mixup,MU)、批量歸一化上的移位學習(SL)和標簽感知平滑(LAS)的消融研究。
- 圖片注解:表 3 展示了所有提出的模塊在 CIFAR-100-LT 上的消融研究。頂部是準確率(%),底部是ECE(%)。
- MU:僅在第一階段應用 mixup。
- SL:在 BN 上進行移位學習。
- LAS:標簽感知平滑。
- 圖片注解:表 3 展示了所有提出的模塊在 CIFAR-100-LT 上的消融研究。頂部是準確率(%),底部是ECE(%)。
-
我們注意到,每個提出的模塊不僅提高了準確率(表 3 頂部),而且顯著減輕了在 CIFAR-100LT 上的過度自信問題(表 3 底部),對于所有常用的不平衡因子,即 100、50 和 10都是如此。這充分證明了它們的有效性。
-
4.3.Comparison with State-of-the-arts
與最先進技術的比較
-
為了驗證有效性,我們將所提出的方法與之前的一階段方法 Range Loss,LDAM Loss,FSLwF 和 OLTR 進行比較,并與之前的兩階段方法進行比較,包括 DRS-like、DRWlike,LFME,cRT 和 LWS。為了公平比較,我們在 LWS 和 cRT 模型上添加了 mixup。Remix 是一種最近提出的用于長尾識別的增強方法。由于 BBN具有雙重采樣器和以類似 mixup 的方式進行訓練,我們直接將我們的方法與它進行比較。
-
CIFAR-LT 的實驗結果
我們在 CIFAR-10-LT 和 CIFAR-100-LT 上進行了大量實驗,不平衡因子分別為 100、50 和 10,使用與之前工作[4, 39]相同的設置。結果總結在表 4 中。與之前的方法相比,我們的 MiSLAS 在 top-1 準確率和 ECE 方面都明顯優于所有之前的方法,并且這種優勢在所有不平衡因子(即 100、50 和 10)上都是成立的,無論是在 CIFAR-10-LT 還是 CIFAR-100-LT 上。
- 圖片注解:表 4 展示了基于 ResNet-32 的模型在 CIFAR-10-LT 和 CIFAR-100-LT 上的訓練結果,包括 Top-1 準確率(%)和ECE(%)。
-
大規模數據集的實驗結果
我們進一步在三個大規模不平衡數據集上驗證了我們方法的有效性,即 ImageNet-LT、iNaturalist2018和Places-LT。表 5 列出了在 ImageNet-LT(左)、iNaturalist 2018(中)和 Places-LT(右)上的實驗結果。值得注意的是,我們的 MiSLAS 超越了其他方法,并在幾乎所有三個大規模長尾基準數據集上都取得了更好的準確性和置信度校準,從而設定了新的最先進水平。關于這三個數據集上的拆分類別準確率和不同主干網絡的更多結果列在附錄 D 中。
- 圖片注解:表 5 展示了在 ImageNet-LT(左)、iNaturalist 2018(中)和 Places-LT(右)上的 Top-1 準確率(%)和 ECE(%)。