深度學習知識點：RNN

文章目錄

1.簡單介紹
2.網絡結構
3.應對梯度消失

1.簡單介紹

循環神經網絡（RNN，Recurrent Neural Network）是一類用于處理序列數據的神經網絡。與傳統網絡相比，變化不是特別大，不如CNN的變化那么大。
為什么要有循環神經網絡：
傳統神經網絡：輸入一個數據處理一個數據，互不干擾
但是有些數據是連貫性的，比如一個句子（我今天早上8點醒的），就不可能將每一個字或一些詞單獨處理，而是在處理這個字的同時還要考慮到與前面字的關系，因此循環神經網絡就可以解決這一問題。

圖1: 傳統神經網絡

2.網絡結構

RNN 不是剛性地記憶所有固定長度的序列，而是通過隱藏狀態來存儲之前時間步的信息。
也就是說在循環神經網絡的隱藏層中，輸入的數據走向有兩個：輸出和等待，等待是指等待第二個數據的到來并對第二個數據的隱藏特征產生影響。

圖2: 循環神經網絡

可以看出，典型的 RNN 是有環結構(圖3a)。一個典型的 RNN 網絡架構包含一個輸入，一個輸出和一個神經網絡單元。和普通的前饋神經網絡的區別在于：RNN 的神經網絡單元不但與輸入和輸出存在聯系，而且自身也存在一個循環 / 回路 / 環路 / 回環 (loop)。這種回路允許信息從網絡中的一步傳遞到下一步。同時，RNN 還能按時間序列展開循環 (unroll the loop) 為圖2b：

圖3: a)等號左：整體網絡；b)等號右：整體網絡的分解

由上圖可知，上一個時刻的網絡狀態將會作用于到下一個時刻的網絡狀態，還表明 RNN 和序列數據密切相關。同時，RNN 要求每一個時刻都有一個輸入，但是不一定每個時刻都需要有輸出。最終我們需要的只是h _t的結果，舉個例子：拿出手寫數據集中的一張照片，將其分割成784維的向量，我們只需要在最后一維向量輸入進去后看整體的結果是屬于0-9的哪種類別即可，最后的輸出結果隱含了前面的信息，所以中間隱藏層的結果我們并不需要知道。進一步地，公式化 RNN 的結構如下：

圖4: RNN結構推導式

在圖中有一條單向流動的信息流是從輸入單元到達隱藏單元的，與此同時另一條單向流動的信息流從隱藏單元到達輸出單元。在某些情況下，RNNs 會打破后者的限制，引導信息從輸出單元返回隱藏單元，這些被稱為 “Back Projections”，并且隱藏層的輸入還包括上一隱藏層的狀態，即隱藏層內的節點可以自連也可以互連（這實際上就是 LSTM）。

循環神經網絡的輸入是序列數據，每個訓練樣本是一個時間序列，包含多個相同維度的向量。網絡的參數如何通過訓練確定？這里就要使用解決 RNN 訓練問題的 BPTT（Back Propagation Through Time）算法。
右側為計算時便于理解記憶而產生的結構。簡單說，x 為輸入層，o 為輸出層，s 為隱含層，而 t 指第幾次的計算；V、W、U為權重（在 RNN 中，每一層都共享參數U、V、W，降低了網絡中需要學習的參數，提高學習效率。 x_t 表示 t 時刻的輸入， S_t表示 t 時刻的隱狀態， O_t表示 t 時刻的輸出。

輸入單元（input units）： $\{x_{0}, \cdot \cdot \cdot, x_{t-1}, x_{t}, x_{t+1}, \cdot \cdot \cdot\}$
隱藏單元（hidden units）： $\{s_{0}, \cdot \cdot \cdot, s_{t-1}, s_{t}, s_{t+1}, \cdot \cdot \cdot\}$
輸出單元（output units）： $\{o_{0}, \cdot \cdot \cdot, o_{t-1}, o_{t}, o_{t+1}, \cdot \cdot \cdot\}$
輸入層： $x_{t}$ 表示時刻 $t$ 的輸入。

第 t 次的中間的隱含層狀態為：

$s_{t} = f(U \cdot x_{t} + W \cdot s_{t-1})$

$f$ 是非線性激活函數，比如 $t anh$ 。

輸出層：

$o_{t} = softmax(V \cdot s_{t})$

softmax 函數是歸一化的指數函數，使每個元素的范圍都在 0 到 1 之間，并且所有元素的和為 1。

反向傳播
拿 $E_3$ 舉例，當反向傳播時，不僅會傳遞回隱層 $s_3$ ,還會向輸入層 $x_3$ 進行傳遞，只要是反向有參數的地方就會更新。

3.應對梯度消失

在進行反向傳播時，循環神經網絡也面臨梯度消失或者梯度爆炸問題，這種問題表現在時間軸上。如果輸入序列的長度很長，人們很難進行有效的參數更新。比如：我今天早上8點起床，中午吃了粘豆包，晚上開車去了電影院。我去電影院這個動作和早上中午的并沒有很大關系，但是RNN在計算時是沒有取舍的。

通常來說梯度爆炸更容易處理一些。梯度爆炸時我們可以設置一個梯度閾值，當梯度超過這個閾值的時候可以直接截取。

應對梯度消失問題的解決方案：

合理地初始化權重值。初始化權重，使每個神經元盡可能不要取極大或極小值，以躲開梯度消失的區域。
使用激活函數 ReLu，代替 sigmoid 和 tanh。
使用其他結構的 RNNs，比如長短時記憶網絡（LSTM）和門控循環單元（GRU），這是最流行的做法。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/65721.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/65721.shtml
英文地址，請注明出處：http://en.pswp.cn/web/65721.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！