神經網絡優化器-從SGD到AdamW

優化器準則

凸優化基本概念

先定義凸集，集合中的兩個點連接的線還在集合里面，就是凸集，用數學語言來表示就是：對于集合中的任意兩個元素x，y以及任意實數 $\lambda \in (0,1)$ ，有 $\lambda x + (1 - \lambda) y \in C$ ，則稱為凸集。
再定義凸函數： $f(\lambda x + (1 - \lambda) y) \leq \lambda f(x) + (1 - \lambda) f(y)$ 其中， $\lambda$ 是一個滿足 $\leq \lambda \leq 1$ 的實數參數。
可以看出，凸函數的定義域必須是凸集。直觀上，凸函數的圖像不會在任何地方凹陷，這使得凸函數的局部最小值也是全局最小值，這使得優化問題更容易解決。

現在再定義凸優化問題：
凸優化是數學優化理論中的一個重要分支，它研究的是凸函數的優化問題。用數學語言來表示就是：
$\begin{align*} \text{minimize} \quad & f(x) \\ \text{subject to} \quad & g_i(x) \leq 0, \quad i = 1, \ldots, m \\ \text{and} \quad & h_j(x) = 0, \quad j = 1, \ldots, p \\ \end{align*}$
其中， $f (x)$ 是目標函數， $g_i(x)$ 是不等式約束函數， $h_j(x)$ 是等式約束函數， $x$ 是決策變量。如果目標函數 $f (x)$ 和所有約束函數 $g_i(x)$ 和 $h_j(x)$ 都是凸函數，并且可行域（滿足所有約束的 $x$ 的集合）也是凸集，那么這個問題就是一個凸優化問題。

凸優化問題有以下特點：

局部最優即全局最優：如果一個點是局部最小點，那么它也是全局最小點。這使得尋找最優解變得更加容易。
對偶性：凸優化問題具有良好的對偶性質，即原問題的對偶問題也是一個凸優化問題。
存在性：如果目標函數和約束函數都是下閉的，并且可行域非空，那么凸優化問題總是有解的。
穩定性：凸優化問題的解對問題的微小變化是穩定的。

研究方法有：

梯度下降法：通過迭代地沿著目標函數的負梯度方向移動來找到最小點。
牛頓法：利用目標函數的二階導數（Hessian）來加速梯度下降法。
內點法：一種專門用于解決有約束凸優化問題的算法。
次梯度法：對于非光滑的凸函數，使用次梯度而不是梯度來優化。
對偶方法：通過解決對偶問題來找到原問題的解。

神經網絡優化問題定義

現在我們可以開始討論優化器了：
深度學習模型的訓練就是一個優化問題，模型權重就是我們上面提到的決策變量 $x$ ，目標函數就是我們所設計的損失函數(所以我們將損失函數設計成凸函數，以滿足凸優化的條件)，模型本身就是一個等式或者不等式約束，輸出結果必須滿足事先知道的label。優化器，就是解決這個凸優化問題的實現方案。
我們的優化問題用數學來表示就是：
$\min_{w} {\frac{1}{N}\sum_{i=1}^{N} L(y_i,F(x_i)) + \sum_{j=1 }^{n}\lambda \left \| w_{j} \right \| }$
$W$ 是模型的所有參數
前一項是損失，其中 $w$ 是參數， $N$ 是樣本總數， $y_i$ 是樣本標簽， $F(x_i)$ 是模型結果，L是損失函數，
后一項是正則損失，用于避免過擬合現象的， $\lambda$ 是正則化系數， $\left \| w_{j} \right \|$ 是參數的范數，常見有L1，L2等

這就是深度學習優化的數學定義，這樣我們就可以去使用數學方法來解決這個問題了。

使用梯度下降法就是： $W_t = W_{t-1}-\alpha *\bigtriangledown f(W_{t-1})$ 其中 $\bigtriangledown f(W_{t-1})$ 是函數的梯度向量。
使用牛頓法就是： $W_t = W_{t-1}-\alpha*H_{t-1}^{-1} *\bigtriangledown f(W_{t-1})$ 其中 $H_{t-1}^{-1}$ 為Hessian矩陣的逆矩陣即二階偏導矩陣的逆矩陣。

這也是深度學習中隨機梯度下降的由來，從最優化的梯度下降借鑒過來的。
優化器可以做的事情，就是對解決問題方法中的：梯度gt，學習率，參數正則項，參數初始化這幾個因素進行調整。
不同的優化器，他們的區別就是這四項的不同。

優化器分類與發展

隨機梯度

SGD：梯度計算的變種，主要區別在于gt的計算方式，原始梯度下降算法叫做GD，計算所有梯度然后更新，SGD叫做隨機梯度下降，因為它每次只采用一小批訓練樣本作為梯度更新參數，然后根據這個梯度更新模型參數。這種方法的優點是計算效率高，因為不需要計算整個訓練集上的梯度，這在數據量很大時尤其有用。
動量SGD：mSGD，gt不光包括計算出的梯度，還包括了部分過去的梯度信息，好處是會加速收斂，并且跳過一些局部最優
RMS等。

自適應梯度

算法的核心思想是根據參數的歷史更新信息來調整每個參數的學習率，從而提高收斂速度并減少訓練時間。

Adaptive Gradient：自適應梯度算法，它通過為每個參數維護一個累積的梯度平方和來調整學習率。AdaGrad 的更新規則如下：
$\theta_i = \theta_i - \frac{\eta}{\sqrt{G_{ii} + \epsilon}} \cdot \nabla_\theta L(\theta)_i$
其中， $G$ 是一個對角矩陣， $G_{ii}$ 是參數 $\theta_i$ 的累積梯度平方和， $\epsilon$ 是一個很小的常數，用來保證數值穩定性。這種算法的缺點是因為下面的累計梯度平方和越來越大，越往后訓練的效果越弱，如果有出現異常梯度值，那直接后面的訓練就約等于無效了。
RMSProp（均方根傳播）:
RMSProp 是一種指數加權的移動平均算法，用于計算梯度的平方的指數衰減平均。它與 AdaGrad 類似，但是使用了梯度平方的指數衰減平均而不是累積和，避免了學習率變得過小的問題。更新規則如下：
$G_{ii} = \gamma G_{ii} + (1 - \gamma) \cdot (\nabla_\theta L(\theta)_i)^2$
$\theta_i = \theta_i - \frac{\eta}{\sqrt{G_{ii} + \epsilon}} \cdot \nabla_\theta L(\theta)_i$ 。其中， $\gamma$ 是衰減率。

歷史的梯度只占一部分，避免了因為歷史梯度導致G不斷增大，進而出現無法更新的情況。

Adam & AdamW

Adam（自適應矩估計）:
14年提出，Adam 結合了 AdaGrad 和 RMSProp 的優點，同時計算了梯度的一階矩（均值）和二階矩（方差）的指數加權移動平均。Adam 的更新規則較為復雜，涉及兩個時刻的估計量：
$m_t = \beta_1 m_{t-1} + (1 - \beta_1) \cdot \nabla_\theta L(\theta)$

就是上面提到的一階動量部分，借鑒Momentum部分

$v_t = \beta_2 v_{t-1} + (1 - \beta_2) \cdot (\nabla_\theta L(\theta))^2$

二階動量部分，也就是借鑒RMSProp部分

這樣雖然避免了后期無法更新的問題，但是引入了一個新的問題，那就是因為有衰弱因數，導致在剛開始訓練的時候梯度信息積累太慢，因此在更新的時候設一個無偏估計，使用該無偏估計來進行更新
$\hat{m}_t = \frac{m_t}{1-\beta_1^t}$
$\hat{v}_t = \frac{v_t}{1-\beta_1^t}$
$\theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \cdot \hat{m}_t$
其中， $m_t$ 和 $v_t$ 分別是梯度的一階矩和二階矩的估計， $\hat{m}_t$ 和 $\hat{v}_t$ 是它們的無偏估計量，( \beta_1 ) 和 ( \beta_2 ) 是超參數。

無偏估計的意思是：在大量數據的時候，估計量（estimator）的期望值（或平均值）等于被估計的參數的真實值。

在transformer模型中常用，因為transformer的Lipschitz常量很大，每一層的Lipschitz常量差異又很大，學習率很難估計，而且學習完表現也比較差。所以mSGD基本不用，都是用Adam。

mSGD在卷積網絡的時候效果還是不錯的，能夠和Adam打個平手
Lipschitz常量是指在Lipschitz連續中的一個量，能夠體現凸函數的變化率。Lipschitz常量差異大就表示不同函數間相同的自變量變化導致的因變量變化差異大，簡而言之也就是學習率需要設置的不同。

AdamW

AdamW和Adam基本一致，只有對正則項的處理不一致。Adam和前面是其他的一樣，都是在損失函數里面加一個正則項，但是當訓練時，前期梯度太大，會把正則項淹沒掉，后期梯度太小，正則項又會把梯度信息淹沒掉，AdamW的目的是為了平衡這兩項。
AdamW中W 代表權重衰減（Weight Decay），將原本的正則項改為weight decay，將原本在損失函數中的項，放到了權重更新公式中:
$\theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \cdot \hat{m}_t - \lambda \theta_{t}$
在 AdamW 中，權重衰減不是直接從參數更新中減去，而是作為參數更新的一部分。這樣做的好處是：

保持自適應學習率的一致性：權重衰減與自適應學習率相結合，確保了不同參數的學習率保持一致。
提高收斂性和穩定性：調整后的權重衰減有助于算法更快地收斂，并提高了訓練過程的穩定性。

優化器內存占用

在進行小模型訓練時，對于優化器的內存占用不是很關注，但是在進行大模型訓練時，優化器的內存占用非常大，就需要專門考慮了，大模型常用的優化器為AdamW。
AdamW算法的內存占用相對較高，因為它需要同時保存一階和二階矩。具體來說，AdamW算法在優化過程中需要存儲以下內容：

參數的當前值 $\theta$ 。
梯度的一階矩估計（即一階動量） $\mathbf{m}$ 。
梯度的二階矩估計（即二階動量） $\mathbf{v}$ 。

每個參數 $\theta$ 都需要額外存儲兩個與其尺寸相同的向量 $\mathbf{m}$ 和 $\mathbf{v}$ ，這導致內存占用大約是原始參數內存的兩倍。此外，還需要存儲超參數。在大規模訓練或參數量非常大的模型中，這種內存占用可能會成為一個問題。例如，在訓練具有數百萬參數的模型時，使用AdamW可能會導致顯著的內存需求增加，這可能限制了模型的大小或訓練并行度。
對于參數量為 $\Phi$ 的模型，使用混合精度進行訓練，模型參數本身使用fp16存儲，占用 $2\Phi$ 個字節，同樣模型梯度占用 $2\Phi$ 個字節，Adam狀態（fp32的模型參數備份，fp32的momentum和fp32的variance）一共要占用 $12\Phi$ 個字節，這兩個統稱模型狀態，共占用 $16\Phi$ 個字節