RNN萬能逼近定理證明
- RNN原理圖和數學表達式
- RNN的萬能逼近定理及其證明
- 證明
RNN原理圖和數學表達式
-
s t = U h t ? 1 + W x t + b ∈ R D h s_t=Uh_{t-1}+Wx_t+b\in\mathbb{R}^{D_h} st?=Uht?1?+Wxt?+b∈RDh?
- s t ∈ R D h s_t\in\mathbb{R}^{D_h} st?∈RDh?
- U ∈ R D h × D h U\in\mathbb{R}^{D_h\times D_h} U∈RDh?×Dh?
- W ∈ R D h × D x W\in\mathbb{R}^{D_h\times D_x} W∈RDh?×Dx?
- b ∈ R D h b\in\mathbb{R}^{D_h} b∈RDh?
-
h t = f ( s t ) ∈ R D h h_t=f(s_t)\in\mathbb{R}^{D_h} ht?=f(st?)∈RDh?
- f f f 為sigmoid激活函數
- h t h_t ht? 為t時刻隱狀態
-
z t = V h t ∈ R D z z_t=Vh_t\in\mathbb{R}^{D_z} zt?=Vht?∈RDz?
- V ∈ R D z × D h V\in\mathbb{R}^{D_z\times D_h} V∈RDz?×Dh?
-
L t = l ( z t , y t ) ∈ R L_t=l(z_t,y_t)\in\mathbb{R} Lt?=l(zt?,yt?)∈R
- L = 1 T ∑ t = 1 T L t L=\frac{1}{T}\sum_{t=1}^TL_t L=T1?∑t=1T?Lt?
RNN的萬能逼近定理及其證明
證明
【引理】
深度受限的萬能逼近定理:任何函數可以被足夠寬的單隱層全連接神經網絡逼近。
對g使用單隱藏神經網絡逼近(f為激活函數,輸出層線性變換C)
s t = g ( s t ? 1 , x t ) ≈ C f ( A s t ? 1 + B x t + b ) = C s t ′ s_t=g(s_{t-1},x_t)\approx Cf(As_{t-1}+Bx_t+b)=Cs'_t st?=g(st?1?,xt?)≈Cf(Ast?1?+Bxt?+b)=Cst′?
對復合函數O·g使用單隱層網絡逼近(f為激活函數,輸出層線性變換D)
s t ′ = f ( A s t ? 1 + B x t + b ) = f ( A C s t ? 1 ′ + B x t + b ) s'_t=f(As_{t-1}+Bx_t+b)=f(ACs_{t-1}'+Bx_t+b) st′?=f(Ast?1?+Bxt?+b)=f(ACst?1′?+Bxt?+b)
y t = O ( s t ) = O ( g ( s t ? 1 , x t ) ) ≈ D f ( A ′ s t ? 1 + B ′ x t + b ′ ) = D y t ′ y_t=O(s_t)=O(g(s_{t-1},x_t))\approx Df(A's_{t-1}+B'x_t+b')=Dy'_t yt?=O(st?)=O(g(st?1?,xt?))≈Df(A′st?1?+B′xt?+b′)=Dyt′?
y t ′ = f ( A ′ s t ? 1 ′ + B ′ x t + b ′ ) = f ( A ′ C s t ? 1 ′ + B ′ x t + b ′ ) y'_t=f(A's_{t-1}'+B'x_t+b')=f(A'Cs_{t-1}'+B'x_t+b') yt′?=f(A′st?1′?+B′xt?+b′)=f(A′Cst?1′?+B′xt?+b′)
構建隱狀態,得到其遞推式
h t = [ s t ′ y t ′ ] = f ( [ A C 0 A ′ C 0 ] [ s t ? 1 ′ y t ? 1 ′ ] + [ b b ′ ] ) = f ( U h t + W x t + a ) h_t=\begin{bmatrix}s'_t\\y'_t\end{bmatrix}=f\left(\begin{bmatrix}AC&0\\A'C&0\end{bmatrix}\begin{bmatrix}s_{t-1}'\\y_{t-1}'\end{bmatrix}+\begin{bmatrix}b\\b'\end{bmatrix}\right)=f(Uh_t+Wx_t+a) ht?=[st′?yt′??]=f([ACA′C?00?][st?1′?yt?1′??]+[bb′?])=f(Uht?+Wxt?+a)
y t = [ 0 D ] [ s t ′ y t ′ ] = V h t y_t=\begin{bmatrix}0&D\end{bmatrix}\begin{bmatrix}s'_t\\y'_t\end{bmatrix}=Vh_t yt?=[0?D?][st′?yt′??]=Vht?
即全連接RNN的形式,通過訓練得到參數 U 、 W 、 V 、 a (即可得到 A 、 B 、 A ′ 、 B ′ 、 b 、 b ′ ) U、W、V、a(即可得到A、B、A'、B'、b、b') U、W、V、a(即可得到A、B、A′、B′、b、b′)
當RNN神經元數量足夠多時,單隱藏神經網絡能逼近函數g、O,此時RNN逼近任意非線性動力系統。