深度學習之 BP 算法

神經網絡的一種求解W的算法，分為信號“正向傳播(FP)”求損失，“反向傳播(BP)”回傳誤差；根據誤差值修改每層的權重，繼續迭代。

BP算法也叫做δ算法。以三層的感知器為例（假定現在隱層和輸出層均存在相同類型的激活函數）

隱層 y?= f(x * v)
輸出層 o = f(f(y) * w)
輸入層誤差: $E=\frac{1}{2}(d-O)^{2}=\frac{1}{2}\sum_{k=1}^{\iota }(d_k-O_k)^2$
隱層誤差:? ? $E=\frac{1}{2}\sum_{k=1}^{\iota }(d_k-f(net_k))^2=\frac{1}{2}\sum_{k=1}^{\iota }(d_k-f(\sum_{j=1}^{m}w_{jk}y_j)))^2$
輸入層誤差: $E=\frac{1}{2}\sum_{k=1}^{\iota }(d_k-f\left [ \sum_{j=1}^{m}w_{jk}f(net_j)\right ])^2=\frac{1}{2}\sum_{k=1}^{\iota }(d_k-f\left [ \sum_{j=1}^{m}w_{jk}f\left ( \sum_{i=1}^{n}v_{ij}x_i \right )\right ])^2$

誤差E有了，那么為了使誤差越來越小，可以采用隨機梯度下降的方式進行ω和υ的求解，即求得ω和υ使得誤差E最小

BP算法的例子

?¨è?é??￥????è?°

初始值：w(0.1,0.15,0.2,0.25,0.3,0.35,0.4,0.45,0.5,0.55,0.6,0.65)，? ?b(0.35,0.65)
輸出值：O=(0.01,0.99)
學習率：η=0.5?
假設隱層和輸出層都使用 sigmoid 激活函數

1、FP過程

先求out

$net_{h_1} = w_1 * l_1 + w_2 * l_2 + b_1 * 1 = 0.1 * 5 + 0.15*10+0.35*1=2.35$
$out_{h_1} = \frac{1}{1+e^{-h_1}} = \frac{1}{1+e^{-2.35}} = 0.912934$

同理可以得到：

$out_{h_2} =0.979164$
$out_{h_3} =0.995275$

$o_1 = w_7 * out_{h_1}+w_9 * out_{h_2}+w_{10} * out_{h_3}+b_2*1$

$out_{o1} = \frac{1}{1+e^{-o_1}} = \frac{1}{1+e^{-2.1019206}}=0.891090$

同理可以得到：

$out_{0_2} =0.904330$

輸出層誤差表示如下：

$E = \frac{1}{2}(d - O)^2 = \frac{1}{2}\sum_{k=1}^l(d_k - O_k)^2$
$E_{o_1} = \frac{1}{2}(target_{o_1} - out_{o_1})^2$

$E_{total} = E_{o_1}+E_{o_2}= \frac{1}{2}(0.01 - 0.891090)^2 + \frac{1}{2}(0.99 -0.904330 )^2 = 0.391829$

2、BP 過程

輸出層到第二層隱層，以求 $w_7$ ??為例：

$\frac{\partial E_{total}}{\partial w_7} =\frac{\partial E_{total}}{\partial out_{o_1}}*\frac{\partial out_{o_1}}{\partial o_1}*\frac{\partial o_1}{\partial w_7}$

下面我們分別求上式的三個部分，其中第一部分：

$E_{o_1} = \frac{1}{2}(target_{o_1} - out_{o_1})^2$

$E_{total} = E_{o_1}+E_{o_2}=\frac{1}{2}(target_{o_1} - out_{o_1})^2+\frac{1}{2}(target_{o_2} - out_{o_2})^2$

$\frac{\partial E_{total}}{\partial out_{o_1}} = 2 * \frac{1}{2}(target_{o_1}-out_{o_1}) * (-1) + 0 = -(0.01 - 0.891090) = 0.88109$

第二分部因為：

$out_{o1} = \frac{1}{1+e^{-o_1}}$

$\begin{align*} {out_{o_1}}'=\frac{e^{-o_1}}{(1+e^{-o_1})^2}=\frac{1+e^{-o_1}-1}{(1+e^{-o_1})^2}=\frac{1}{1+e^{-o_1}}-\frac{1}{(1+e^{-o_1})^2}=out_{o_1}(1- out_{o_1}) \end{align*}$

$\frac{\partial out_{o_1}}{\partial o_1} = out_{o_1}(1 - out_{o_1}) = 0.891090(1 - 0.891090) = 0.097049$

第三部分,因為：

$o_1 = w_7 * out_{h_1}+w_9 * out_{h_2}+w_{10} * out_{h_3}+b_2*1$

$\frac{\partial o_1}{\partial w_7} = out_{h_1} + 0 + 0+0=0.912934$

最終得到：

$\frac{\partial E_{total}}{\partial w_7} =0.88109*0.097049*0.912934=0.078064$

更新? $w_7$ ?的值：

$\hat{w_7} = w_7 + \Delta w_7 = w_7 - \eta \frac{\partial E_{total}}{\partial w_7} =0.4 - 0.5 * 0.078064=0.360968$

同理可以求出：

$\hat{w_8} = 0.453383$

$\hat{w_9} = 0.458137$

$\hat{w_{10}} = 0.553629$ ?

$\hat{w_{11}} = 0.557448$

$\hat{w_{12}} = 0.653688$

第二層隱層到第一層隱層，以求? $w_1$ ?為例：

$\frac{\partial E_{total}}{\partial w_1} = \frac{\partial E_{total}}{\partial out_{h_1}}* \frac{\partial out_{h_1}}{\partial h_1}* \frac{\partial h_1}{\partial w_1}$

$\frac{\partial E_{total}}{\partial w_1}=\Big(\frac{\partial E_{o_1}}{\partial out_{h_1}} + \frac{\partial E_{o_2}}{\partial out_{h_1}}\Big)* \frac{\partial out_{h_1}}{\partial h_1}* \frac{\partial h_1}{\partial w_1}$

$\frac{\partial E_{o_1}}{\partial out_{h_1}}=\frac{\partial E_{o_1}}{\partial out_{o_1}} * \frac{\partial out_{o_1}}{\partial o_1}*\frac{\partial o_1}{\partial out_{h_1}}$

下面我們分別計算，第一部分：

$\frac{\partial E_{o_1}}{\partial out_{h_1}}=\frac{\partial E_{o_1}}{\partial out_{o_1}} * \frac{\partial out_{o_1}}{\partial o_1}*\frac{\partial o_1}{\partial out_{h_1}}$

其中：

$E_{o_1} = \frac{1}{2}(target_{o_1} - out_{o_1})^2$

$out_{o1} = \frac{1}{1+e^{-o_1}}$

$o_1 = w_7 * out_{h_1}+w_9 * out_{h_2}+w_{10} * out_{h_3}+b_2*1$

$\frac{\partial E_{o_1}}{\partial out_{h_1}}=-(target_{o_1} - out_{o_1})*out_{o_1}*(1- out_{o_1})*\hat{w_7}$

注意：這里由于是反向傳播，此時要用到之前更新后的? $w_7$ ??的值

$\begin{align*}\frac{\partial E_{o_1}}{\partial out_{h_1}}=-(0.01 - 0.891090)*0.891090*(1-0.891090)*0.360968=0.030866 \end{align*}$

同理計算：

$\frac{\partial E_{o_2}}{\partial out_{h_1}} = \frac{\partial E_{o_2}}{\partial out_{o_2}} * \frac{\partial out_{o_2}}{\partial o_2}*\frac{\partial o_2}{\partial out_{h_1}}$

$\begin{align*} \frac{\partial E_{o_2}}{\partial out_{h_1}} &= -(target_{o_2} -out_{o_2})*out_{o_2}(1-out_{o_2})*w_8 \\ & =-(0.99-0.904330)*0.904330*(1-0.904330)*0.453383\\ &=-0.003360 \end{align*}$

接著計算第二部分：

$\frac{\partial out_{h_1}}{\partial h_1}=out_{h_1}*(1-out_{h_1}) =0.912934*(1-0.912934)=0.079486$

接著計算第三部分：

$\frac{\partial h_1}{\partial w_1} = l_1 = 5$

最終整合起來：

$\frac{\partial E_{total}}{\partial w_1} = (0.030866 + (-0.003360))*0.079486 *5=0.010932$

于是更新 $w_1$ ：

$\hat{w_1} = w_1 + \Delta w_1 = w_1 - \eta \frac{\partial E_{total}}{\partial w_1} = 0.1 - 0.5 *0.010932 =0.094534$

同理求出： $w_2, w_3,w_4,w_5,w_6$

以上是第一次迭代，經過多次迭代，最終的誤差會越來越小

上圖可以看出，當迭代1000次時，輸出為 O=(0.022971,0.977675) 和原本的 O=(0.01,0.99) 比較接近了。

python代碼

https://github.com/flepeng/code/blob/master/DL/bp_demo.py

import numpy as np# 初始值
w = [0.1, 0.15, 0.2, 0.25, 0.3, 0.35, 0.4, 0.45, 0.5, 0.55, 0.6, 0.65]
# 偏置項b不進行更新
b = [0.35, 0.65]l = [5, 10]# sigmoid函數
def sigmoid(z):return 1.0 / (1 + np.exp(-z))def f1(w, b, l):# 前向傳播，計算結果值h1 = sigmoid(w[0] * l[0] + w[1] * l[1] + b[0])h2 = sigmoid(w[2] * l[0] + w[3] * l[1] + b[0])h3 = sigmoid(w[4] * l[0] + w[5] * l[1] + b[0])o1 = sigmoid(w[6] * h1 + w[8] * h2 + w[10] * h3 + b[1])o2 = sigmoid(w[7] * h1 + w[9] * h2 + w[11] * h3 + b[1])# 后向傳播，更新w# 輸出層到第二層隱層，前兩項# 公式中的第一部分-(0.01 - o1)，第二部分o1 * (l - o1)t1 = -(0.01 - o1) * o1 * (l - o1)# 第二層隱層到第一層隱層，前兩項t2 = -(0.99 - o2) * o2 * (l - o2)# t1*第三部分，即輸出層到第二層隱層的參數梯度w[6] = w[6] - 0.5 * (t1 * h1)w[8] = w[8] - 0.5 * (t1 * h2)w[10] = w[10] - 0.5 * (t1 * h3)w[7] = w[7] - 0.5 * (t2 * h1)w[9] = w[9] - 0.5 * (t2 * h2)w[11] = w[11] - 0.5 * (t2 * h3)# (t1 * w[6] + t2 * w[7])對于公式()中的兩項，h1 * (1 - h1)對于第二項，l[0]對應第三項w[0] = w[0] - 0.5 * (t1 * w[6] + t2 * w[7]) * h1 * (1 - h1) * l[0]w[1] = w[1] - 0.5 * (t1 * w[6] + t2 * w[7]) * h1 * (1 - h1) * l[1]w[2] = w[2] - 0.5 * (t1 * w[8] + t2 * w[9]) * h2 * (1 - h2) * l[0]w[3] = w[3] - 0.5 * (t1 * w[6] + t2 * w[9]) * h2 * (1 - h2) * l[1]w[4] = w[4] - 0.5 * (t1 * w[10] + t2 * w[11]) * h3 * (1 - h3) * l[0]w[5] = w[5] - 0.5 * (t1 * w[10] + t2 * w[11]) * h3 * (1 - h3) * l[1]return o1, o2, wfor i in range(1000):r1, r2, w = f1(w, b, l)print("第{}次迭代后，結果值為:({},{}),權重更新為:{}".format(i+1, r1, r2, w))

?

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/454092.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/454092.shtml
英文地址，請注明出處：http://en.pswp.cn/news/454092.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！