反向傳播算法——矩陣形式遞推公式—

反向傳播算法——矩陣形式遞推公式——ReLU傳遞函數

總結反向傳播算法。

來源于https://udlbook.github.io/udlbook/，我不明白初始不從 $\boldsymbol{x}_0$ 開始，而是從 $\boldsymbol{z}_0$ 開始，不知道怎么想的。

考慮一個深度神經網絡 $g[\boldsymbol{x}_i, \boldsymbol{\phi}]$ ，它接受輸入 $\boldsymbol{x}_i$ ，具有 $N$ 個隱藏層和 ReLU 激活函數，并且有單獨的損失項 $L_i = {\rm loss}[g[\boldsymbol{x}_i, \boldsymbol{\phi}], \boldsymbol{y}_i]$ 。反向傳播的目標是計算關于偏差 $\boldsymbol{b}_\iota$ 和權重 $\boldsymbol{W}_\iota$ 的導數 $\frac{\partial L_i}{\partial \boldsymbol{b}_\iota}$ 和 $\frac{\partial L_i}{\partial \boldsymbol{W}_\iota}$ 。

前向傳遞： 計算并存儲以下量：

$\begin{aligned} \boldsymbol{z}_0 &= \boldsymbol{b}_0 + \boldsymbol{W}_0 \boldsymbol{x}_i \\ \boldsymbol{x}_\iota &=f[\boldsymbol{z}_{\iota-1}] & \iota \in \{1, 2, \ldots, M\} \\ \boldsymbol{z}_\iota &= \boldsymbol{b}_\iota + \boldsymbol{W}_\iota \boldsymbol{x}_\iota. & \iota \in \{1, 2, \ldots, M\} \end{aligned}$

反向傳遞： 從損失函數 $L_i$ 關于網絡輸出 $\boldsymbol{z}_M$ 的導數 $\frac{\partial L_i}{\partial \boldsymbol{z}_M}$ 開始，并在網絡中反向工作：

$\begin{aligned} \frac{\partial L_i}{\partial \boldsymbol{b}_\iota} &= \frac{\partial L_i}{\partial \boldsymbol{z}_\iota} & \iota \in \{M, M-1, \ldots, 1\} \\ \frac{\partial L_i}{\partial \boldsymbol{W}_\iota} &= \frac{\partial L_i}{\partial \boldsymbol{z}_\iota} \boldsymbol{x}_\iota^{\mathsf T} & \iota \in \{M, M-1, \ldots, 1\} \\ \frac{\partial L_i}{\partial \boldsymbol{z}_{\iota-1}} &= \mathbb{I}[\boldsymbol{z}_{\iota-1} > 0] \odot \left( \boldsymbol{W}_\iota^{\mathsf T} \frac{\partial L_i}{\partial \boldsymbol{z}_\iota} \right), & \iota \in \{M, M-1, \ldots, 1\} \end{aligned}$

其中 $\odot$ 表示逐點乘法，而 $\mathbb{I}[\boldsymbol{z}_{\iota-1} > 0]$ 是一個向量，其中在 $\boldsymbol{z}_{\iota-1}$ 大于零的位置包含一，在其他位置包含零。

最后，計算關于第一組偏差和權重的導數：

$\begin{aligned} \frac{\partial L_i}{\partial \boldsymbol{b}_0} &= \frac{\partial L_i}{\partial \boldsymbol{z}_0} \\ \frac{\partial L_i}{\partial \boldsymbol{W}_0} &= \frac{\partial L_i}{\partial \boldsymbol{z}_0} \boldsymbol{x}_i^{\mathsf T}. \end{aligned}$

為批次中的每個訓練樣本計算這些導數，并將它們相加以獲取用于 SGD 更新的梯度。

請注意，反向傳播算法非常高效；前向和反向傳遞中最耗計算的步驟是矩陣乘法（分別由 $\boldsymbol{W}$ 和 $\boldsymbol{W}^{\mathsf T}$ 進行），這只需要加法和乘法。然而，它不是內存高效的；前向傳遞中的中間值必須全部存儲，這可能會限制可以訓練的模型的大小。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/83851.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/83851.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/83851.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！