BP神經網絡的反向傳播算法

BP神經網絡（Backpropagation Neural Network）是一種常用的多層前饋神經網絡，通過反向傳播算法進行訓練。反向傳播算法的核心思想是通過計算損失函數對每個權重的偏導數，從而調整權重，使得網絡的預測輸出與真實輸出之間的誤差最小。下面是反向傳播算法的公式推導過程：

1. 前向傳播（Forward Propagation）

假設我們有一個三層神經網絡（輸入層、隱藏層和輸出層），并且每層的激活函數為 sigmoid 函數。

- 輸入層： $\mathbf{x} = (x_1, x_2, \ldots, x_n)$
- 隱藏層： $\mathbf{h} = (h_1, h_2, \ldots, h_m)$
- 輸出層： $\mathbf{y} = (y_1, y_2, \ldots, y_k)$

各層之間的權重分別為：
- 輸入層到隱藏層的權重： $\mathbf{W}^{(1)}$
- 隱藏層到輸出層的權重： $\mathbf{W}^{(2)}$

對于第 j 個隱藏層神經元，其輸入為：

$z_j^{(1)} = \sum_{i=1}^n W_{ji}^{(1)} x_i + b_j^{(1)}$

其輸出為：

$h_j = \sigma(z_j^{(1)})$

對于第? $l$ 個輸出層神經元，其輸入為：

$z_l^{(2)} = \sum_{j=1}^m W_{lj}^{(2)} h_j + b_l^{(2)}$

其輸出為：

$y_l = \sigma(z_l^{(2)})$

其中， $\sigma(z)$ ?是激活函數（sigmoid 函數）：

$\sigma(z) = \frac{1}{1 + e^{-z}}$

2. 計算損失函數（Loss Function）

假設損失函數為均方誤差（MSE）：

$L = \frac{1}{2} \sum_{l=1}^k (y_l - \hat{y}_l)^2$

其中， $\hat{y}_l$ 是網絡的預測輸出， $y_l$ 是真實輸出。

?3. 反向傳播（Backpropagation）

反向傳播的目標是計算損失函數對每個權重的偏導數，并根據梯度下降法更新權重。

3.1 輸出層的誤差項

首先計算輸出層的誤差項：

$\delta_l^{(2)} = \frac{\partial L}{\partial z_l^{(2)}} = \frac{\partial L}{\partial \hat{y}_l} \cdot \frac{\partial \hat{y}_l}{\partial z_l^{(2)}}$

由于：

$\frac{\partial L}{\partial \hat{y}_l} = \hat{y}_l - y_l$
$\frac{\partial \hat{y}_l}{\partial z_l^{(2)}} = \hat{y}_l (1 - \hat{y}_l)$

所以：

$\delta_l^{(2)} = (\hat{y}_l - y_l) \hat{y}_l (1 - \hat{y}_l)$

3.2 隱藏層的誤差項

接下來計算隱藏層的誤差項：

$\delta_j^{(1)} = \frac{\partial L}{\partial z_j^{(1)}} = \sum_{l=1}^k \frac{\partial L}{\partial z_l^{(2)}} \cdot \frac{\partial z_l^{(2)}}{\partial h_j} \cdot \frac{\partial h_j}{\partial z_j^{(1)}}$

其中：

$\frac{\partial z_l^{(2)}}{\partial h_j} = W_{lj}^{(2)}$
$\frac{\partial h_j}{\partial z_j^{(1)}} = h_j (1 - h_j)$

所以：

$\delta_j^{(1)} = \left( \sum_{l=1}^k \delta_l^{(2)} W_{lj}^{(2)} \right) h_j (1 - h_j)$

3.3 更新權重

根據梯度下降法更新權重：

$W_{lj}^{(2)} \leftarrow W_{lj}^{(2)} - \eta \frac{\partial L}{\partial W_{lj}^{(2)}} = W_{lj}^{(2)} - \eta \delta_l^{(2)} h_j$
$W_{ji}^{(1)} \leftarrow W_{ji}^{(1)} - \eta \frac{\partial L}{\partial W_{ji}^{(1)}} = W_{ji}^{(1)} - \eta \delta_j^{(1)} x_i$

其中， $\eta$ ?是學習率。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/64996.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/64996.shtml
英文地址，請注明出處：http://en.pswp.cn/web/64996.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！