Mean teacher are better role models-論文筆記

論文筆記

資料

1.代碼地址

2.論文地址

https://arxiv.org/pdf/1703.01780

3.數據集地址

CIFAR-10
https://www.cs.utoronto.ca/~kriz/cifar.html

論文摘要的翻譯

最近提出的Temporal Ensembling方法在幾個半監督學習基準中取得了最先進的結果。它維護每個訓練樣本的標簽預測的指數移動平均，并懲罰與該目標不一致的預測。然而，由于每個目標只改變一次，所以在學習數據量較大數據集時，Temporal Ensembling變得很笨拙。為了克服這個問題，我們提出了Mean Teacher，一種平均模型權重而不是標簽預測的方法。作為一個額外的好處，Means Teacher提高了測試的準確性，并允許使用比Temporal Ensembling更少的標簽進行訓練。在不改變網絡結構的情況下，Means Teacher在具有250個標簽的SVHN上獲得了4.35%的錯誤率，性能優于使用1000個標簽訓練的Temporal Ensembling。我們還表明，良好的網絡架構對性能至關重要。結合Mean Teacher和殘差網絡，我們將CIFAR-10上的4000個標簽從10.55%提高到6.28%，在ImageNet 2012上將10%的標簽從35.24%提高到9.11%。

1背景介紹

深度學習在圖像和語音識別等領域取得了巨大的成功。為了學習有用的抽象概念，深度學習模型需要大量的參數，從而使它們容易過度擬合(圖1a)。此外，手動將高質量的標簽添加到訓練數據通常是昂貴的。因此，需要使用正則化方法來有效地利用未標記數據來減少半監督學習中的過擬合。
在這里插入圖片描述
當感知稍有變化時，人類通常仍會認為它是同一個物體。相應地，分類模型應該偏愛為相似數據點提供一致輸出的函數。實現這一點的一種方法是向模型的輸入添加噪聲。為了使模型能夠學習更抽象的不變性，可以將噪聲添加到中間表示，這一見解激勵了許多正則化技術，例如Dropout。正則化模型不是最小化輸入空間零維數據點的分類成本，而是最小化每個數據點周圍的流形上的成本，從而將決策邊界推離標記的數據點(圖1b)。
在這里插入圖片描述
由于未標記樣本的分類代價是未定義的，因此噪聲正則化本身并不有助于半監督學習。為了克服這一點，Γ模型[21]評估了有和沒有噪聲的每個數據點，然后在兩個預測之間應用一致性成本。在這種情況下，該模型承擔了教師和學生的雙重角色。作為學生，它像以前一樣學習；作為教師，它產生目標，然后作為學生使用這些目標進行學習。由于模型本身會產生目標，它們很可能是錯誤的。
如果對生成的目標賦予太多權重，則不一致的代價大于錯誤分類的代價，實際上，該模型遭受了確認偏差(圖1c)，這一危險可以通過提高目標的質量來減輕
在這里插入圖片描述
至少有兩種方法可以提高目標質量。一種方法是仔細選擇表示的擾動，而不是僅僅應用加性或乘性噪聲。另一種方法是仔細選擇教師模式，而不是勉強復制學生模式。與我們的研究同時進行的，Miyato等人。采取了第一種方法，并表明虛擬對抗性訓練可以產生令人印象深刻的結果。我們采取第二種方法，并將表明它也提供了顯著的好處。據我們了解，這兩種方法是兼容的，它們的結合可能會產生更好的結果。然而，對它們的綜合影響的分析超出了本文的范圍。
因此，我們的目標是在不進行額外培訓的情況下，從學生模型中形成更好的教師模型。作為第一步，考慮到模型的Softmax輸出通常不能在訓練數據之外提供準確的預測。這可以通過在推理時向模型添加噪聲來部分緩解，因此嘈雜的教師可以產生更準確的目標(圖1D)。這種方法被用在偽集協議中，并且最近被證明在半監督圖像分類上效果良好。Laine和Aila將該方法命名為 $\Pi$ 模型；我們將使用這個名稱和他們的版本作為我們實驗的基礎。
在這里插入圖片描述
$\Pi$ 模型可以通過Temporal Ensembling來進一步改進，它對每個訓練樣本保持指數移動平均預測。在每個訓練步驟中，基于新的預測來更新該小批量中的樣本的所有EMA預測。因此，每個實例的均線預測是由模型的當前版本和評估同一實例的早期版本的集合形成的。這種集合提高了預測的質量，并將它們用作教師預測來改善結果。然而，由于每個目標在每個時期只更新一次，因此學習到的信息以較慢的速度被納入訓練過程。數據集越大，更新的跨度就越長，在在線學習的情況下，根本不清楚如何使用時間整合。(每個歷元可以對所有目標進行一次以上的周期性評估，但保持評估跨度恒定將需要每個歷元進行O(N2)個評估，其中n是訓練實例的數量。)

2論文的創新點

他會說有那幾點，你總結一下

3 論文方法的概述

為了克服Temporal Ensembling方法的局限性，我們提出平均模型權重替代預測。由于教師模型是連續學生模型的平均值，我們將其稱為Mean Teacher方法。

在訓練步驟上平均模型權重往往會產生比直接使用最終權重更精確的模型。我們可以在訓練中利用這一點來構建更好的目標。教師模型使用學生模型的EMA權重，而不是與學生模型共享權重。現在，它可以在每一步而不是每一輪訓練之后收集信息。此外，由于權重平均值改善了所有層的輸出，而不僅僅是頂部輸出，因此目標模型具有更好的中間表示。這些方面導致了Temporal Ensembling的兩個實際優勢：第一，更準確的目標標簽導致學生和教師模型之間更快的反饋循環，從而產生更好的測試準確性。其次，該方法適用于大型數據集和在線學習。

更正式地，我們將一致性成本 $\text{J}$ 定義為學生模型的預測(權重 $\theta$ 和噪聲 $\eta$ )和教師模型的預測(權重 $\theta^\prime$ 和噪聲 $\eta^\prime$ )之間的預期距離。 $J(\theta)=\mathbb{E}_{x,\eta',\eta}\left[\left\|f(x,\theta',\eta')-f(x,\theta,\eta)\right\|^2\right]$
$\Pi$ 模型、Temporal Ensembling和Mean Teacher之間的區別在于教師預測是如何產生的。雖然 $\Pi$ 模型使用 $\theta^ {\prime}= \theta$ ，并且時間集成使用連續預測的加權平均來近似 $f(x，\theta^ {\prime}，\eta^ {\prime})$ ，但我們在訓練步長 $t$ 將 $θ^{\prime}_t$ 定義為連續 $\theta$ 權重的均方根： $\theta'_t=\alpha\theta'_{t-1}+(1-\alpha)\theta_t$ 其中 $\alpha$ 是平滑系數超參數。這三種算法之間的另一個區別是， $\Pi$ 模型將訓練應用于 $\theta^\prime$ ，而時間集成和均值教師將其視為優化方面的常量。
我們可以通過隨機梯度下降在每個訓練步驟上采樣噪聲 $\eta，\eta^{\prime}$ 來逼近一致性代價函數 $J$ 。

4 論文實驗

$\Pi$ 模型作為我們的基線。然后，我們修改了基線模型，以使用加權平均一致性目標。該模型結構是一個13層卷積神經網絡(ConvNet)，具有三種類型的噪聲：輸入圖像的隨機平移和水平翻轉、輸入層上的高斯噪聲和網絡內應用的丟棄噪聲。我們使用均方誤差作為一致性成本，并在前80輪訓練中中將其權重從0遞增到最終值。

4.1 在數據集SVHN和CIFAR-10與其他方法的比較

數據集
我們使用街景房屋編號(SVHN)和CIFAR-10基準進行了實驗。這兩個數據集都包含屬于十個不同類別的32x32像素RGB圖像。在SVHN中，每個示例都是門牌號的特寫，類表示圖像中心數字的標識。在CIFAR-10中，每個例子都是屬于一個類別的自然圖像，如馬、貓、汽車和飛機。SVHN包含73257個訓練樣本和26032個測試樣本。CIFAR-10由50000個訓練樣本和10000個測試樣本組成。

表1和表2將結果與最近最先進的方法進行了比較。比較中的所有方法都使用類似的13層ConvNet架構。Mean Teacher提高了Π模型和時間集成在半監督SVHN任務上的測試準確率。Mean Teacher也提高了CIFAR-10的成績，超過了我們的基線 $\Pi$ 模型。
在這里插入圖片描述

4.2 SVHN with extra unlabeled data

如上所述，我們提出的Mean Teacher能夠很好地適應大數據集和在線學習。另外，SVHN和CIFAR-10的實驗結果表明，該方法能夠有效地利用未標注的樣本。因此，我們想測試我們是否已經達到了我們方法的極限。除了原始訓練數據外，SVHN還包括531131個樣本的額外數據集。我們從原始訓練樣本中挑選了500個樣本作為我們的標注訓練樣本。我們使用主要訓練集的其余部分以及額外的訓練集作為未標記的示例。我們對Mean Teacher和我們的基線Π模型進行了實驗，并使用了0、100000或500000個額外的例子。表3顯示了結果。
在這里插入圖片描述

4.3訓練曲線分析

圖3中的培訓曲線幫助我們了解使用Mean Teacher的效果。正如預期的那樣，EMA加權模型(最下面一排的藍色和深灰色曲線)在初始階段之后比裸露的學生模型(橙色和淺灰色)給出了更準確的預測。
在這里插入圖片描述
使用EMA加權模型作為教師改善半監督環境下的結果。教師(藍色曲線)通過一致性成本改善學生(橙色)，學生通過指數移動平均改善教師，這似乎是一個良性反饋循環。如果脫離了這個反饋周期，學習速度就會變慢，模型就會更早地開始過度適應(深灰色和淺灰色)。
當標簽稀缺時，刻薄的老師會提供幫助。當使用500個標簽時(中間一欄)意味著教師學習得更快，并在Π模式停止改進后繼續培訓。另一方面，在所有標簽的情況下(左欄)，Mean Teacher和 $Π$ 模型的行為實際上是相同的。
平均而言，教師比 $Π$ 模型更有效地使用未標記的訓練數據，如中間一欄所示。另一方面，在增加500k未標記樣本的情況下(右欄)， $Π$ 模型在更長的時間內保持改進。平均而言，教師的學習速度更快，最終會收斂到更好的結果，但龐大的數據量似乎抵消了 $Π$ 模型更糟糕的預測。

4.4 消融實驗（Ablation experiments）

為了評估模型各個方面的重要性，我們對具有250個標簽的SVHN進行了實驗，每次改變一個或幾個超參數，而保持其他參數不變

消除噪音(圖4(A)和4(B))。
在引言和圖1中，我們提出了一個假設，即Π模型通過在模型兩側添加噪聲來產生更好的預測。但是，在加入了卑鄙的老師之后，還需要噪音嗎？是。我們可以看到，無論是增加輸入還是丟棄，都是可以通過的性能所必需的。另一方面，當使用增強時，輸入噪聲不起作用。教師方面的輟學只比學生方面提供了微不足道的好處，至少在使用輸入增強時是這樣。
對均線衰變和稠度重量的敏感性(圖4?和4(D))。
均值教師算法的基本超參數是一致性代價權重和均方根平均衰減α。算法對它們的值有多敏感？我們可以看到，在每種情況下，好的值大約跨越一個數量級，超出這些范圍，性能會迅速下降。請注意，EMA Decayα=0使該模型成為Π模型的變體，盡管該模型的效率較低，因為梯度僅通過學生路徑傳播。還請注意，在評估運行中，我們在提升階段使用了均線衰減α=0.99，在其余訓練階段使用了α=0.999。我們選擇這一策略是因為學生在訓練初期進步很快，因此老師應該很快忘記舊的、不準確的、學生的重量。后來，學生的進步變慢了，老師受益于更長的記憶力。

在這里插入圖片描述

分離分類和一致性(圖4(E))。
與教師預測的一致性不一定是分類任務的良好替代，特別是在培訓的早期。到目前為止，我們的模型通過對這兩個任務使用相同的輸出，將這兩個任務緊密地耦合在一起。將任務解耦將如何改變算法的性能？為了進行研究，我們將模型更改為具有兩個頂層并生成兩個輸出。然后，我們對其中一個輸出進行分類訓練，對另一個進行一致性訓練。我們還添加了輸出對數之間的均方誤差成本，然后改變該成本的權重，使我們能夠控制耦合的強度。看一下結果(使用分類輸出的EMA版本報告)，我們可以看到強耦合版本執行得很好，而過于松散耦合版本則不好。另一方面，適度的脫鉤似乎有讓一致性提升變得多余的好處。
Changing from MSE to KL-divergence
在Laine&Aila之后，我們使用均方誤差(MSE)作為一致性成本函數，但KL-散度似乎是更自然的選擇。哪一種效果更好？我們對從均方誤差(圖中的τ=0)到KL發散(τ=1)的成本函數族的實例進行了實驗，發現在這種設置下，均方誤差比其他成本函數執行得更好。

4.5 Mean Teacher with residual networks on CIFAR-10 and ImageNet

在上面的實驗中，我們使用了傳統的13層卷積結構(ConvNet)，這使得與早期工作的比較更容易。為了探索模型結構的影響，我們使用12塊(26層)殘差網絡(ResNet)和Shake-Shake正則化在CIFAR-10上進行了實驗。如表4所示，網絡架構越好，結果越好。為了測試這些方法是否適用于更自然的圖像，我們在Imagenet 2012數據集[22]上使用10%的標簽進行了實驗。我們使用了50塊(152層)的ResNeXt架構[33]，并且看到了相對于最先進水平的明顯改進。由于測試集不是公開可用的，我們使用驗證集測量結果。
在這里插入圖片描述

5 總結

Temporal Ensembling、Virtual Adversarial Training等一致性正則化方法在半監督學習中表現出了較強的優勢。在本文中，我們提出了均值教師，這是一種平均模型權重的方法，以形成一個目標生成教師模型。與時間整合不同的是，Means教師使用的是大型數據集和在線學習。實驗表明，該方法提高了訓練網絡的學習速度和分類精度。此外，它還可以很好地擴展到最先進的架構和大圖像尺寸。一致性正規化的成功取決于教師產生的目標的質量。如果目標可以改進，它們應該是。平均教師和虛擬對抗性訓練代表了利用這一原則的兩種方式。它們的結合可能會產生更好的目標。可能還有其他方法有待發現，以進一步改進目標和訓練的模型。