RNN中遠距離時間步梯度消失問題及解決辦法

RNN 遠距離時間步梯度消失問題
LSTM如何解決遠距離時間步梯度消失問題

RNN 遠距離時間步梯度消失問題

經典的RNN結構如下圖所示：
在這里插入圖片描述
假設我們的時間序列只有三段， $S_{0}$ 為給定值，神經元沒有激活函數，則RNN最簡單的前向傳播過程如下：

$S_{1} = W_{x} X_{1} + W_{s}S_{0} + b_{1}，O_{1} = W_{0} S_{1} + b_{2}$

$S_{2} = W_{x} X_{2} + W_{s}S_{1} + b_{1}，O_{2} = W_{0} S_{2} + b_{2}$

$S_{3} = W_{x} X_{3} + W_{s}S_{2} + b_{1}，O_{3} = W_{0} S_{3} + b_{2}$

假設在 $t = 3$ 時刻，損失函數為 $L_3 = \frac{1}{2}(Y_3 - O_3)^2$ 。則對于一次訓練任務的損失函數為 $\sum_{t=0}^{T} L_t$ ，即每一時刻損失值的累加。

使用隨機梯度下降法訓練RNN其實就是對 $W_x$ 、 $W_s$ 、 $W_o$ 以及 $b_1 、 b_2$ 求偏導，并不斷調整它們以使 $L$ 盡可能達到最小的過程。

現在假設我們我們的時間序列只有三段：t1，t2，t3。我們只對 $t 3$ 時刻的 $W_x$ 、 $W_s$ 、 $W_o$ 求偏導（其他時刻類似）：

$\frac{\partial L_3}{\partial W_0} = \frac{\partial L_3}{\partial O_3} \frac{\partial O_3}{\partial W_o} = \frac{\partial L_3}{\partial O_3} S_3$

$\frac{\partial L_3}{\partial W_x} = \frac{\partial L_3}{\partial O_3} \frac{\partial O_3}{\partial S_3} \frac{\partial S_3}{\partial W_x} + \frac{\partial L_3}{\partial O_3} \frac{\partial O_3}{\partial S_3} \frac{\partial S_3}{\partial S_2} \frac{\partial S_2}{\partial W_x} + \frac{\partial L_3}{\partial O_3} \frac{\partial O_3}{\partial S_3} \frac{\partial S_3}{\partial S_2} \frac{\partial S_2}{\partial S_1} \frac{\partial S_1}{\partial W_x} = \frac{\partial L_3}{\partial O_3} W_0 (X_3 + S_2 W_s + S_1 W_s^2)$

$\frac{\partial L_3}{\partial W_s} = \frac{\partial L_3}{\partial O_3} \frac{\partial O_3}{\partial S_3} \frac{\partial S_3}{\partial W_s} + \frac{\partial L_3}{\partial O_3} \frac{\partial O_3}{\partial S_3} \frac{\partial S_3}{\partial S_2} \frac{\partial S_2}{\partial W_s} + \frac{\partial L_3}{\partial O_3} \frac{\partial O_3}{\partial S_3} \frac{\partial S_3}{\partial S_2} \frac{\partial S_2}{\partial S_1} \frac{\partial S_1}{\partial W_s} = \frac{\partial L_3}{\partial O_3} W_0 (S_2 + S_1 W_s + S_0 W_s^2)$

關于上面這個多元復合函數鏈式求導過程，通過如下對變量層級樹的遍歷可以更加直觀理解這一點:
在這里插入圖片描述
可以看出對于 $W_o$ 求偏導并沒有長期依賴，但是對于 $W_x$ 、 $W_s$ 求偏導，會隨著時間序列產生長期依賴。因為 $S_t$ 隨著時間序列向前傳播，而 $S_t$ 又是 $W_x$ 、 $W_s$ 的函數。

根據上述求偏導的過程，我們可以得出任意時刻對 $W_x$ 、 $W_s$ 求偏導的公式：

$\frac{\partial L_t}{\partial W_x} = \sum_{k=0}^{t} \frac{\partial L_t}{\partial O_t} \frac{\partial O_t}{\partial S_t} \left(\prod_{j=k+1}^{t} \frac{\partial S_j}{\partial S_{j-1}}\right) \frac{\partial S_k}{\partial W_x}$

任意時刻對 $W_s$ 求偏導的公式同上。

如果加上激活函數： $S_j = \tanh(W_x X_j + W_s S_{j-1} + b_1)$

則 $\prod_{j=k+1}^{t} \frac{\partial S_j}{\partial S_{j-1}} = \prod_{j=k+1}^{t} \tanh' W_s$

加上激活函數tanh復合后的多元鏈式求導過程如下圖所示:

在這里插入圖片描述

激活函數tanh和它的導數圖像如下。

在這里插入圖片描述

由上圖可以看出 $\tanh' \leq 1$ ，對于訓練過程大部分情況下tanh的導數是小于1的，因為很少情況下會出現 $W_x X_j + W_s S_{j-1} + b_1 = 0$ ，如果 $W_s$ 也是一個大于0小于1的值，則當t很大時 $\prod_{j=k+1}^{t} \tanh' W_s$ ，就會趨近于0，和 $0.01^{50}$ 趨近于0是一個道理。同理當 $W_s$ 很大時 $\prod_{j=k+1}^{t} \tanh' W_s$ 就會趨近于無窮，這就是RNN中梯度消失和爆炸的原因。

至于怎么避免這種現象，再看看 $\frac{\partial L_t}{\partial W_x} = \sum_{k=0}^{t} \frac{\partial L_t}{\partial O_t} \frac{\partial O_t}{\partial S_t} \left(\prod_{j=k+1}^{t} \frac{\partial S_j}{\partial S_{j-1}}\right) \frac{\partial S_k}{\partial W_x}$ 梯度消失和爆炸的根本原因就是 $\prod_{j=k+1}^{t} \frac{\partial S_j}{\partial S_{j-1}}$ 這一坨，要消除這種情況就需要把這一坨在求偏導的過程中去掉，至于怎么去掉，一種辦法就是使 $\frac{\partial S_j}{\partial S_{j-1}} \approx 1$ 另一種辦法就是使 $\frac{\partial S_j}{\partial S_{j-1}} \approx 0$ 。其實這就是LSTM做的事情。

總結:

RNN 的梯度計算涉及到對激活函數的導數以及權重矩陣的連乘
- 以 sigmoid 函數為例，其導數的值域在 0 到 0.25 之間，當進行多次連乘時，這些較小的值相乘會導致梯度迅速變小。
- 如果權重矩陣的特征值也小于 1，那么在多個時間步的傳遞過程中，梯度就會呈指數級下降，導致越靠前的時間步，梯度回傳的值越少。
由于梯度消失，靠前時間步的參數更新幅度會非常小，甚至幾乎不更新。這使得模型難以學習到序列數據中長距離的依賴關系，對于較早時間步的信息利用不足，從而影響模型的整體性能和對序列數據的建模能力。

$注意 :$

RNN梯度爆炸好理解，就是 $\frac{\partial L_t}{\partial W_x}$ 梯度數值發散，甚至慢慢就NaN了；

那梯度消失就是 $\frac{\partial L_t}{\partial W_x}$ 梯度變成零嗎？

并不是，我們剛剛說梯度消失是 $\left|\frac{\partial S_j}{\partial S_{j-1}}\right|$ 一直小于1，歷史梯度不斷衰減，但不意味著總的梯度就為0了。RNN中梯度消失的含義是：距離當前時間步越長，那么其反饋的梯度信號越不顯著，最后可能完全沒有起作用，這就意味著RNN對長距離語義的捕捉能力失效了。

說白了，你優化過程都跟長距離的反饋沒關系，怎么能保證學習出來的模型能有效捕捉長距離呢？

再次通俗解釋一下RNN梯度消失，其指的不是 $\frac{\partial L_t}{\partial W_x}$ 梯度值接近于0，而是靠前時間步的梯度 $\frac{\partial L_3}{\partial O_3} \frac{\partial O_3}{\partial S_3} \frac{\partial S_3}{\partial S_2} \frac{\partial S_2}{\partial S_1} \frac{\partial S_1}{\partial W_x}$ 值算出來很小，也就是靠前時間步計算出來的結果對序列最后一個預測詞的生成影響很小，也就是常說的RNN難以去建模長距離的依賴關系的原因；這并不是因為序列靠前的詞對最后一個詞的預測輸出不重要，而是由于損失函數在把有用的梯度更新信息反向回傳的過程中，被若干小于0的偏導連乘給一點點削減掉了。

LSTM如何解決遠距離時間步梯度消失問題

在這里插入圖片描述

LSTM的更新公式比較復雜，它是：

$f_t = \sigma (W_f x_t + U_f h_{t-1} + b_f)$
$i_t = \sigma (W_i x_t + U_i h_{t-1} + b_i)$
$o_t = \sigma (W_o x_t + U_o h_{t-1} + b_o)$
$\hat{c}_t = \tanh (W_c x_t + U_c h_{t-1} + b_c)$
$c_t = f_t \circ c_{t-1} + i_t \circ \hat{c}_t$
$h_t = o_t \circ \tanh(c_t) \qquad$

我們可以像上面一樣計算 $\frac{\partial h_t}{\partial h_{t-1}}$ ，但從 $h_t = o_t \circ \tanh(c_t)$ 可以看出分析 $c_t$ 就等價于分析 $h_t$ ，而計算 $\frac{\partial c_t}{\partial c_{t-1}}$ 顯得更加簡單一些，因此我們往這個方向走。

同樣地，我們先只關心1維的情形，這時候根據求導公式，我們有

$\frac{\partial c_t}{\partial c_{t-1}} = f_t + c_{t-1} \frac{\partial f_t}{\partial c_{t-1}} + \hat{c}_t \frac{\partial i_t}{\partial c_{t-1}} + i_t \frac{\partial \hat{c}_t}{\partial c_{t-1}} \qquad$

右端第一項 $f_t$ ，也就是我們所說的“遺忘門”，從下面的論述我們可以知道一般情況下其余三項都是次要項，因此 $f_t$ 是“主項”，由于 $f_t$ 在0～1之間，因此就意味著梯度爆炸的風險將會很小，至于會不會梯度消失，取決于 $f_t$ 是否接近于1。但非常碰巧的是，這里有個相當自洽的結論：如果我們的任務比較依賴于歷史信息，那么 $f_t$ 就會接近于1，這時候歷史的梯度信息也正好不容易消失；如果 $f_t$ 很接近于0，那么就說明我們的任務不依賴于歷史信息，這時候就算梯度消失也無妨了。

所以，現在的關鍵就是看“其余三項都是次要項”這個結論能否成立。后面的三項都是“一項乘以另一項的偏導”的形式，而且求偏導的項都是 $\sigma$ 或 $\tanh$ 激活， $\sigma$ 和 $\tanh$ 的偏導公式基本上是等價的，它們的導數均可以用它們自身來表示：

$\tanh x = 2\sigma(2x) - 1$
$\sigma(x) = \frac{1}{2} \left( \tanh \frac{x}{2} + 1 \right) \qquad$
$tanh x)' = 1 - \tanh^2 x$
$\sigma'(x) = \sigma(x) (1 - \sigma(x))$

其中 $\sigma(x) = 1/(1 + e^{-x})$ 是sigmoid函數。

因此后面三項是類似的，分析了其中一項就相當于分析了其余兩項。以第二項為例，代入 $h_{t-1} = o_{t-1} \tanh(c_{t-1})$ ，可以算得

$c_{t-1} \frac{\partial f_t}{\partial c_{t-1}} = f_t (1 - f_t) o_{t-1} (1 - \tanh^2 c_{t-1}) c_{t-1} U_f \qquad$

注意到 $f_t, 1 - f_t, o_{t-1}$ 都是在0～1之間，也可以證明 $1 - \tanh^2 c_{t-1}) c_{t-1}| < 0.45$ ，因此它也在-1～1之間。所以 $c_{t-1} \frac{\partial f_t}{\partial c_{t-1}}$ 就相當于1個 $U_f$ 乘上4個門，結果會變得更加小，所以只要初始化不是很糟糕，那么它都會被壓縮得相當小，因此占不到主導作用。

剩下兩項的結論也是類似的：

$\hat{c}_t \frac{\partial i_t}{\partial c_{t-1}} = i_t (1 - i_t) o_{t-1} (1 - \tanh^2 c_{t-1}) \hat{c}_t U_i \qquad$

$i_t \frac{\partial \hat{c}_t}{\partial c_{t-1}} = (1 - \hat{c}_t^2) o_{t-1} (1 - \tanh^2 c_{t-1}) i_t U_c$

所以，后面三項的梯度帶有更多的“門”，一般而言乘起來后會被壓縮的更厲害，因此占主導的項還是 $f_t$ ， $f_t$ 在0～1之間這個特性決定了它梯度爆炸的風險很小，同時 $f_t$ 表明了模型對歷史信息的依賴性，也正好是歷史梯度的保留程度，兩者相互自洽，所以LSTM也能較好地緩解梯度消失問題。因此，LSTM同時較好地緩解了梯度消失/爆炸問題，現在我們訓練LSTM時，多數情況下只需要直接調用Adam等自適應學習率優化器，不需要人為對梯度做什么調整了。