大模型算法面試筆記——常用優化器SGD，Momentum，Adagrad，RMSProp，Adam

常用參數： $t$ -步數， $α\alpha$ -學習率， $θ\theta$ -參數， $f(θ)f(\theta)$ -目標函數， $g_t$ -梯度， $β1\beta_1$ -一階矩衰減系數，通常取0.9， $β2\beta_2$ -二階矩， $m_t$ -均值， $v_t$ -方差， $m^t\hat{m}_t$ - $m_t$ 偏置矯正， $v^t\hat{v}_t$ - $v_t$ 偏置矯正。

梯度下降（BGD）：最簡單的迭代求解算法，選取開始點 $θ0\theta_0$ ，對 $t = 1, ..., T$ ， $θt=θt?1?ηgt?1\theta_t=\theta_{t-1}-\eta g_{t-1}$ ，其中 $η\eta$ 是學習率。
隨機梯度下降（SGD）：由于有 $n$ 個樣本時，為了減少計算量，所以SGD在時間 $t$ 隨機選取一個樣本 $t_i$ 來近似 $f (x)$ ，SGD的下降方向是對真實梯度方向的無偏估計。
批量梯度下降（MBGD）：為了充分利用GPU多核，計算批量的梯度，也是一個無偏的近似，但降低了方差。
動量法（Momentum）：為增加收斂的穩定性，并緩解陷入局部最優，動量法使用平滑過的梯度對權重更新： $θt=θt?1?ηvt\theta_t=\theta_{t-1}-\eta v_t$ ，它用一個動量 $v_t$ 累加了過去的梯度，其中 $g_t$ 為當前梯度：
$vt=βvt?1+(1?β)?gtv_t=\beta v_{t-1}+(1-\beta)·g_t$
Adagrad：對于不同的參數，有時需要更新的幅度相差較大，此時不同參數就需要不同的學習率，Adagrad采用的方法是，將歷史梯度的平方和累加起來，為學習率添加一個分母項 $Gt+?\sqrt{G_t+\epsilon}$ ，其中 $G_t = G_{t-1}+g_t^2$ ，因此，參數更新公式就變成：
$θt=θt?1?ηGt+??gt\theta_t=\theta_{t-1}-\frac{\eta}{\sqrt{G_t+\epsilon}}·g_t$
如此可見，對于梯度一直很大的參數，其對應的學習率就會變小，而如果參數的梯度很大，學習率相對就更大一點，實現了一定程度上的自動調整。此方法比較適合處理悉數數據，因為稀疏特征的參數更新少，學習率會較大，實現更快收斂，而缺點是累積梯度會隨時間增大，導致學習率越來越小甚至接近0，可能導致后期收斂太慢。
RMSProp：和Adagrad類似，對累積平方梯度上做改進： $Gt=λGt?1+(1?λ)?gt2G_t=\lambda G_{t-1}+(1-\lambda)·g_t^2$ ，參數更新公式相同。
Adam：結合了動量法和Adagrad，動態調整每個參數的學習率，同時利用梯度的一階矩（動量）和二階矩（自適應學習率，也可以理解為轉動慣量）加速收斂。具體分為四步：
計算梯度的一階距估計：
$mt=β1?mt?1+(1?β1)?gtm_t=\beta_1·m_{t-1}+(1-\beta_1)·g_t$
計算梯度的二階矩估計：
$vt=β2?vt?1+(1?β2)?gt2v_t=\beta_2·v_{t-1}+(1-\beta_2)·g_t^2$
這樣設計的原因是，展開式中，當t為無窮大時，歷史梯度項權重系數和為1，此為數學依據：
$mt=(1?β1)(gt+β1gt?1+β12gt?2+β13gt?3+...)m_t=(1-\beta_1)(g_t+\beta_1g_{t-1}+\beta_1^2g_{t-2}+\beta_1^3g_{t-3}+...)$
$∑i=0∞β1i=11?β1\sum_{i=0}^{\infin}\beta^i_1=\frac{1}{1-\beta_1}$
由于初始項受初始值為0的影響較大，所以進行偏差修正，同理，這樣設計的原因是有限項等比數列和公式 $∑i=0tβ1i=1?β1t1?β1\sum_{i=0}^{t}\beta^i_1=\frac{1-\beta_1^t}{1-\beta_1}$ ：
$mt^=mt1?β1t,vt^=vt1?β2t\hat{m_t}=\frac{m_t}{1-\beta_1^t},\hat{v_t}=\frac{v_t}{1-\beta_2^t}$ 例如，當 $t = 1$ 時： $m^1=m11?β11=(1?β1)g11?β1=g1\hat{m}_1=\frac{m_1}{1-\beta_1^1}=\frac{(1-\beta_1)g_1}{1-\beta_1}=g_1$
最后進行參數更新：
$θ=θt?1?ηv^t+??m^t\theta=\theta_{t-1}-\frac{\eta}{\sqrt{\hat{v}_t}+\epsilon}·\hat{m}_t$ 最后貼一個論文原文算法部分：

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/90855.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/90855.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/90855.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！