深度學習系統學習系列【4】之反向傳播（BP)四個基本公式推導

補充知識：? 和 ⊙ 運算符詳解
- ? (nabla) 運算符
- ⊙ (圓圈點) 運算符
反向傳播基本公式
計算圖和基本定義
BP1：輸出層誤差推導
- BP1公式的重要性
- 實際例子
- BP2第 $l$ 層誤差推導
- BP3 ：損失函數關于偏置(b)偏導的推導
- BP4：損失函數關于權值(w)偏導推導

補充知識：? 和 ⊙ 運算符詳解

在神經網絡的反向傳播算法中，我們經常會遇到像 $δ^{L} = ?_{a} L ⊙ f^{'} (z^{L})$ 這樣的表達式。讓我們來深入探討其中的 ? (nabla) 和 ⊙ (圓圈點) 運算符。

方程	含義
$\delta^{L} = \nabla_{a} L \odot f^{\prime}(z^{L})$	BP1 輸出層誤差
$\delta^{l} = ((w^{l})^{T} \delta^{l+1}) \odot f^{\prime}(z^{l})$	BP2 第 $l$ 層誤差
$\frac{\partial L}{\partial b_{i}^{l}} = \delta_{i}^{l}$	BP3 損失函數關于偏置(b)的偏導
$\frac{\partial L}{\partial w_{i,j}^{l}} = a_{j}^{l-1} \delta_{i}^{l}$	BP4 損失函數關于權值(w)的偏導

在這里插入圖片描述

損失函數： $L=\frac{1}{2}(y-a^l)^2$
通項： $a^l=\delta(z^l)=\delta(w^la^{l-1}+b^l)$
定義第 $l$ 層的第 $i$ 個神經元的誤差為 $\delta_i^l$
$\delta_i^l=\frac{\partial L}{\partial z_i^l}$

采用上圖中 $l ? 1$ 層 $z_1$ 節點為例
$\begin{align*} \delta &=\frac{\partial L}{\partial z_1^l} \\ &=\frac{\partial L}{\partial a_1^l} \times \frac{\partial a_1^l}{\partial z_1^l} \\ &=\frac{\partial [\frac{1}{2}(y_1-a_1^l)^2]}{\partial a_1^l}\times \frac{\partial a_1^l}{\partial z_1^l} \\ &=2\times \frac{1}{2} (a_1^l-y_1) \times \frac{\partial a_1^l}{\partial z_1^l} \\ &=(a_1^l-y_1) \delta^{'}(z_1^l) \\ &= \nabla_{a} L \odot f^{\prime}(z_1^{L}) \\ \end{align*}$
總結：輸出層誤差通用公式為： $\delta^{L} = \nabla_{a} L \odot f^{\prime}(z^{L})$
$f^{'} (z^{L})$ 是激活函數的導數在 $z^{L}$ 處的值
這個逐元素乘法將梯度信息與激活函數的局部變化率結合起來

假設我們有一個簡單的輸出層，使用 sigmoid 激活函數：
- 設 $a^{L} = [0.8, 0.3], y = [1, 0]$ (真實標簽)
- 使用平方誤差損失： $L = ?∣∣ y ? a^{L} ∣ ∣^{2}$
- 則 $?_{a} L = a^{L} ? y = [? 0.2, 0.3]$
- sigmoid 的導數 $f^{'} (z) = a (1 ? a)$ ，設 $f^{'} (z^{L}) = [0.16, 0.21]$
那么 $δ^{L} = [? 0.2, 0.3] ⊙ [0.16, 0.21] = [? 0.032, 0.063]$

前置公式：
- $z^{l+1}=w^{l+1}a^{l}+b^{l+1}$
- $a^{l+1}=\delta(z^l)$
  $\begin{align*} \delta^{l} &= \frac{\partial L}{\partial z^{l}}\\ &=\frac{\partial L}{\partial z_i^{l+1}} \times \frac{\partial z_i^{l+1}}{\partial z_i^{l}} \\ &=\delta_i^{l+1} \times \frac{\partial z_i^{l+1}}{a^l} \times \frac{\partial a^l}{\partial z^{l}}\\ &=\delta_i^{l+1} \times (w^l)^T \times \delta^{'}(z^l)\\ &=((w^l)^T \delta_i^{l+1}) \odot \delta^{'}(z^l) \end{align*}$
總結：BP2第 $l$ 層誤差公式為： $\delta^{l} = ((w^{l})^{T} \delta^{l+1}) \odot f^{\prime}(z^{l})$

前置公式
- $a_1^l=\delta(z_1^l)$ 和 $a_2^l=\delta(z_2^l)$
- $z^l=w^la^{l-1}+b^l$
求上圖中 $b_1$ 的偏導
$\begin{align*} \frac{\partial L}{\partial b_1} &=\frac{\partial L}{\partial z_1^l} \times \frac{\partial z_1^l}{\partial b_1^l} \\ &= \delta_1^l \times 1 \\ &= \delta_1^l \end{align*}$
求上圖中 $b_2$ 的偏導
$\begin{align*} \frac{\partial L}{\partial b_2} &=\frac{\partial L}{\partial z_2^l} \times \frac{\partial z_2^l}{\partial b_2^l} \\ &= \delta_2^l \times 1 \\ &= \delta_2^l \end{align*}$
總結：BP3 損失函數關于偏置(b)偏導為： $\frac{\partial L}{\partial b_{i}^{l}} = \delta_{i}^{l}$

前置公式
- $z^l=w^la^{l-1}+b^l$
- $\delta_i^l=\frac{\partial L}{\partial z_i^l}$
詳細推導過程：
$\begin{align*} \frac{\partial L}{\partial w_{i,j}^l} &=\frac{\partial L}{\partial z_i^l} \times \frac{\partial z_i^l}{\partial w_{i,j}^l} \\ &=\frac{\partial L}{\partial z_i^l} \times a_j^{l-1} \\ &= \delta_i^l \times a_j^{l-1} \\ &= a_j^{l-1} \times \delta_i^l \end{align*}$
總結：BP4：損失函數關于權值(w)偏導為： $\frac{\partial L}{\partial w_{i,j}^{l}} = a_{j}^{l-1} \delta_{i}^{l}$

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/79184.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/79184.shtml
英文地址，請注明出處：http://en.pswp.cn/web/79184.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！