目錄
RMSProp 算法
Adam算法
學習率衰減
RMSProp 算法
????????RMSProp(Root Mean Square Prop)算法是在對梯度進行指數加權平均的基礎上,引入平方和平方根。
????????其中e是一個非常小的數,防止分母太小導致不穩定,當 dw 或 db 較大時,(du)2,(db)2會較大,進而sdu也會較大,最終使得-m-等結果變得非常小。Vsdb+E最終RMSProp 有助于減少抵達最小值路徑上的擺動,并允許使用一個更大的學習率a,從而加快算法學習速度。
Adam算法
????????Adam 優化算法(Adaptive Moment Estimation,自適應矩估計)將Momentum 和 RMSProp 算法結合在一起。
參數更新
學習率衰減
????????如果設置一個固定的學習率 a在最小值點附近,由于不同的 batch 中存在一定的噪聲,因此不會精確收斂,而是始終在最小值周圍一個較大的范圍內波動。如果隨著時間慢慢減少學習率a的大小,在初期 a較大時,下降的步長較大,能以較快的速度進行梯度下降;而后期逐步減小 a的值,即減小步長,有助于算法的收斂,更容易接近最優解。
????????最常用的學習率衰減方法:
????????其中,decay_rate為衰減率(超參數),epoch_num為將所有的訓練樣本完整過一遍的次數。
還有一種指數衰減