梯度消失
? ? ? ? 在某些神經網絡中,隨著網絡深度的增加,梯度在隱藏層反向傳播時傾向于變小,這就意味著,前面隱藏層中的神經元要比后面的學習起來更慢,這種現象就叫做“梯度消失”;
梯度爆炸
? ? ? ? 如果我們進行一些特殊的調整(比如初始權重很大),可以讓梯度反向傳播時不會明顯減小,從而解決梯度消失的問題;然而這樣一來,前面層的梯度又會變得非常大,引起網絡不穩定,無法再從訓練數據中學習,這種現象又叫做“梯度爆炸”。
? ? ? ? 為了讓深度神經網絡的學習更加穩定、高效,我們需要考慮進一步改進尋找最優參數的方法,以及如何設置參數初始值、如何設定超參數;此外還應該解決過擬合的問題。