AWD-LSTM為什么這么棒？

摘要： AWD-LSTM為什么這么棒，看完你就明白啦！

AWD-LSTM是目前最優秀的語言模型之一。在眾多的頂會論文中，對字級模型的研究都采用了AWD-LSTMs，并且它在字符級模型中的表現也同樣出色。

本文回顧了論文——Regularizing and Optimizing LSTM Language Models ，在介紹AWD-LSTM模型的同時并解釋其中所涉及的各項策略。該論文提出了一系列基于詞的語言模型的正則化和優化策略。這些策略不僅行之有效，而且能夠在不改變現有LSTM模型的基礎上使用。

AWD-LSTM即ASGD Weight-Dropped LSTM。它使用了DropConnect及平均隨機梯度下降的方法，除此之外還有包含一些其它的正則化策略。我們將在后文詳細講解這些策略。本文將著重于介紹它們在語言模型中的成功應用。

實驗代碼獲取：awd-lstm-lm GitHub repository

LSTM中的數學公式：

it = σ(Wixt + Uiht-1)

ft = σ(Wfxt + Ufht-1)

ot = σ(Woxt + Uoht-1)

c’t = tanh(Wcxt + Ucht-1)

ct = it ⊙ c’t + ft ⊙ c’t-1

ht = ot ⊙ tanh(ct)

其中, Wi, Wf, Wo, Wc, Ui, Uf, Uo, Uc都是權重矩陣，xt表示輸入向量，ht表示隱藏單元向量，ct表示單元狀態向量， ⊙表示element-wise乘法。

接下來我們將逐一介紹作者提出的策略：

權重下降的LSTM

RNN的循環連接容易導致過擬合問題，如何解決這一問題也成了一個較為熱門的研究領域。Dropouts的引入在前饋神經網絡和卷積網絡中取得了巨大的成功。但將Dropouts引入到RNN中卻反響甚微，這是由于Dropouts的加入破壞了RNN長期依賴的能力。

研究學者們就此提出了許多解決方案，但是這些方法要么作用于隱藏狀態向量ht-1，要么是對單元狀態向量ct進行更新。上述操作能夠解決高度優化的“黑盒”RNN，例如NVIDIA’s cuDNN LSTM中的過擬合問題。

但僅如此是不夠的，為了更好的解決這個問題，研究學者們引入了DropConnect。DropConnect是在神經網絡中對全連接層進行規范化處理。Dropout是指在模型訓練時隨機的將隱層節點的權重變成0，暫時認為這些節點不是網絡結構的一部分，但是會把它們的權重保留下來。與Dropout不同的是DropConnect在訓練神經網絡模型過程中，并不隨機的將隱層節點的輸出變成0，而是將節點中的每個與其相連的輸入權值以1-p的概率變成0。

DropConnect作用在hidden-to-hidden權重矩陣(Ui、Uf、Uo、Uc)上。在前向和后向遍歷之前，只執行一次dropout操作，這對訓練速度的影響較小，可以用于任何標準優化的“黑盒”RNN中。通過對hidden-to-hidden權重矩陣進行dropout操作，可以避免LSTM循環連接中的過度擬合問題。

你可以在 awd-lstm-lm 中找到weight_drop.py 模塊用于實現。

作者表示，盡管DropConnect是通過作用在hidden-to-hidden權重矩陣以防止過擬合問題，但它也可以作用于LSTM的非循環權重。

使用非單調條件來確定平均觸發器

研究發現，對于特定的語言建模任務，傳統的不帶動量的SGD算法優于帶動量的SGD、Adam、Adagrad及RMSProp等算法。因此，作者基于傳統的SGD算法提出了ASGD（Average SGD）算法。

Average SGD

ASGD算法采用了與SGD算法相同的梯度更新步驟，不同的是，ASGD沒有返回當前迭代中計算出的權值，而是考慮的這一步和前一次迭代的平均值。

傳統的SGD梯度更新：

AGSD梯度更新：

其中，k是在加權平均開始之前運行的最小迭代次數。在k次迭代開始之前，ASGD與傳統的SGD類似。t是當前完成的迭代次數，sum(w_prevs)是迭代k到t的權重之和，lr_t是迭代次數t的學習效率，由學習率調度器決定。

你可以在這里找到AGSD的PyTorch實現。

但作者也強調，該方法有如下兩個缺點：

? 學習率調度器的調優方案不明確

? 如何選取合適的迭代次數k。值太小會對方法的有效性產生負面影響，值太大可能需要額外的迭代才能收斂。

基于此，作者在論文中提出了使用非單調條件來確定平均觸發器，即NT-ASGD，其中：

? 當驗證度量不能改善多個循環時，就會觸發平均值。這是由非單調區間的超參數n保證的。因此，每當驗證度量沒有在n個周期內得到改進時，就會使用到ASGD算法。通過實驗發現，當n=5的時候效果最好。

? 整個實驗中使用一個恒定的學習速率，不需要進一步的調整。

正則化方法

除了上述提及的兩種方法外，作者還使用了一些其它的正則化方法防止過擬合問題及提高數據效率。

長度可變的反向傳播序列

作者指出，使用固定長度的基于時間的反向傳播算法（BPTT）效率較低。試想，在一個時間窗口大小固定為10的BPTT算法中，有100個元素要進行反向傳播操作。在這種情況下，任何可以被10整除的元素都不會有可以反向支撐的元素。這導致了1/10的數據無法以循環的方式進行自我改進，8/10的數據只能使用到部分的BPTT窗口。

為了解決這個問題，作者提出了使用可變長度的反向傳播序列。首先選取長度為bptt的序列，概率為p以及長度為bptt/2的序列，概率為1-p。在PyTorch中，作者將p設為0.95。

其中，base_bptt用于獲取seq_len，即序列長度，在N(base_bptt, s)中，s表示標準差，N表示服從正態分布。代碼如下：

學習率會根據seq_length進行調整。由于當學習速率固定時，會更傾向于對段序列而非長序列進行采樣，所以需要進行縮放。

Variational Dropout

在標準的Dropout中，每次調用dropout連接時都會采樣到一個新的dropout mask。而在Variational Dropout中，dropout mask在第一次調用時只采樣一次，然后locked dropout mask將重復用于前向和后向傳播中的所有連接。

雖然使用了DropConnect而非Variational Dropout以規范RNN中hidden-to-hidden的轉換，但是對于其它的dropout操作均使用的Variational Dropout，特別是在特定的前向和后向傳播中，對LSTM的所有輸入和輸出使用相同的dropout mask。

點擊查看官方awd-lstm-lm GitHub存儲庫的Variational dropout實現。詳情請參閱原文。

Embedding Dropout

論文中所提到的Embedding Dropout首次出現在——《A Theoretically Grounded Application of Dropout in Recurrent Neural Networks》一文中。該方法是指將dropout作用于嵌入矩陣中，且貫穿整個前向和反向傳播過程。在該過程中出現的所有特定單詞均會消失。

Weight Tying（權重綁定）

權重綁定共享嵌入層和softmax層之間的權重，能夠減少模型中大量的參數。

Reduction in Embedding Size

對于語言模型來說，想要減少總參數的數量，最簡單的方法是降低詞向量的維數。即使這樣無法幫助緩解過擬合問題，但它能夠減少嵌入層的維度。對LSTM的第一層和最后一層進行修改，可以使得輸入和輸出的尺寸等于減小后的嵌入尺寸。

Activation Regularization（激活正則化）

L2正則化是對權重施加范數約束以減少過擬合問題，它同樣可以用于單個單元的激活，即激活正則化。激活正則化可作為一種調解網絡的方法。