一、
正向傳播
正向傳播(Forward Propagation)是神經網絡中數據從輸入層流向輸出層的過程。輸入數據通過各層的權重和激活函數逐層計算,最終得到預測輸出。
數學表示:
對于第 ( l ) 層的神經元,其輸出計算如下:
其中:
為第 ( l ) 層的權重矩陣;
為偏置項;
為激活函數(如 ReLU、Sigmoid);
為前一層輸出(輸入層
)。
特點:
- 逐層計算,無反饋;
- 最終輸出用于計算損失(如均方誤差、交叉熵)。
反向傳播
反向傳播(Backward Propagation)通過鏈式法則計算損失函數對各層參數的梯度,用于優化權重和偏置。
數學表示:
輸出層梯度:
計算損失 ( \mathcal{L} ) 對輸出層輸入的梯度:
其中為逐元素乘法。
隱藏層梯度:
第 ( l ) 層的梯度由后一層梯度反向傳遞:
參數更新:
權重和偏置的梯度由梯度下降法更新:
特點:
- 依賴鏈式法則逐層回溯;
- 梯度下降優化器(如 SGD、Adam)利用梯度更新參數。
關鍵區別
特性 | 正向傳播 | 反向傳播 |
---|---|---|
方向 | 輸入層→輸出層 | 輸出層→輸入層 |
目的 | 計算預測輸出 | 計算參數梯度 |
依賴關系 | 無反饋 | 依賴正向傳播的中間結果 |
計算復雜度 | 矩陣乘法 | 矩陣乘法與梯度鏈式求導 |
二、梯度消失
梯度消失的概念
????????梯度消失是指在深度神經網絡中,反向傳播過程中梯度逐漸減小,導致較早層的權重更新非常緩慢或幾乎不更新。這種現象使得深層網絡難以訓練,因為底層參數無法得到有效調整。
梯度消失的原因
????????深度神經網絡通過鏈式法則計算梯度。在反向傳播時,梯度是各層梯度連乘的結果。如果激活函數的導數或權重本身較小(如使用Sigmoid或Tanh),連乘會導致梯度指數級衰減。
例如,Sigmoid函數的導數最大值為0.25,多層連乘后梯度會迅速趨近于0。
梯度消失的影響
????????網絡底層參數更新停滯,模型無法學習到低層特征。例如在CNN中,淺層可能無法捕捉邊緣等基礎特征;在RNN中,遠距離依賴關系難以建模。