神經網絡之BP算法

一、

正向傳播（Forward Propagation）是神經網絡中數據從輸入層流向輸出層的過程。輸入數據通過各層的權重和激活函數逐層計算，最終得到預測輸出。

數學表示：
對于第 ( l ) 層的神經元，其輸出 $( a^{(l)} )$ 計算如下：
$[ z^{(l)} = W^{(l)} a^{(l-1)} + b^{(l)} ]$
$[ a^{(l)} = \sigma(z^{(l)}) ]$ 其中：

特點：

反向傳播（Backward Propagation）通過鏈式法則計算損失函數對各層參數的梯度，用于優化權重和偏置。

數學表示：

輸出層梯度：
計算損失 ( \mathcal{L} ) 對輸出層輸入的梯度 $( \delta^{(L)} )$ ：
$[ \delta^{(L)} = \nabla_a \mathcal{L} \odot \sigma'(z^{(L)}) ]$
其中 $( \odot )$ 為逐元素乘法。
隱藏層梯度：
第 ( l ) 層的梯度 $( \delta^{(l)} )$ 由后一層梯度反向傳遞：
$[ \delta^{(l)} = (W^{(l+1)})^T \delta^{(l+1)} \odot \sigma'(z^{(l)}) ]$
參數更新：
權重和偏置的梯度由梯度下降法更新：
$[ \frac{\partial \mathcal{L}}{\partial W^{(l)}} = \delta^{(l)} (a^{(l-1)})^T ]$
$[ \frac{\partial \mathcal{L}}{\partial b^{(l)}} = \delta^{(l)} ]$

特點：

二、梯度消失

????????梯度消失是指在深度神經網絡中，反向傳播過程中梯度逐漸減小，導致較早層的權重更新非常緩慢或幾乎不更新。這種現象使得深層網絡難以訓練，因為底層參數無法得到有效調整。

????????深度神經網絡通過鏈式法則計算梯度。在反向傳播時，梯度是各層梯度連乘的結果。如果激活函數的導數或權重本身較小（如使用Sigmoid或Tanh），連乘會導致梯度指數級衰減。

例如，Sigmoid函數的導數最大值為0.25，多層連乘后梯度會迅速趨近于0。

????????網絡底層參數更新停滯，模型無法學習到低層特征。例如在CNN中，淺層可能無法捕捉邊緣等基礎特征；在RNN中，遠距離依賴關系難以建模。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/88038.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/88038.shtml
英文地址，請注明出處：http://en.pswp.cn/web/88038.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！