Relooking：損失權重λ 、梯度權重α、學習率η

一般多任務，大家都喜歡疊加很多損失，由此產生很多損失權重系數。此外，有的學者直接對梯度進行操作。咋一看，上面三個系數貌似重復多余，直接用其中一個系數代替不行嗎？為此，回顧了下神經網絡的前向傳播和反向求導公式，感覺有點拉大旗作虎皮的意味。標題本來是“Rethinking”，想著會有一些新發現，但隨后就改成了“Relooking”蒜鳥。

形式化

直觀來說，損失權重 $λ$ 、梯度權重 $α$ 、學習率 $η$ 可以看做是三個標量系數，即trade-off parameter 或 weighting coefficient。
$\begin{aligned} L &=\lambda_1 L_1+\lambda_2 L_2\\ \nabla_\theta L &=\alpha_1 \nabla L_1+\alpha_2 \nabla L_2\\ \theta :&= \theta-\eta \cdot \nabla_\theta L \end{aligned}$

作用：

損失權重 $λ$ ：對相應任務的損失值進行縮放。 $λ$ 越大，表明該項貢獻越大（越重要），則要放大其損失值，促使模型對該項的優化。反之，越小，則是該項損失趨近0，貢獻被忽略。
梯度權重 $α$ ：在反向傳播中，直接對梯度值進行縮放。
學習率 $η$ ：對所有梯度統一縮放，以控制模型參數的更新步長。 $η$ 越大，則模型參數的步長越大。

案例講解

下面以一個神經網絡的為例，從底層原理來看它們的作用。

1. 網絡結構定義

考慮一個雙層網絡：

輸入： $x$
參數： $W_1, b_1, W_2, b_2$
激活函數： $g(\cdot)$ (如ReLU)
輸出層未激活

2. 前向傳播

流程：Fc1 --> Activation --> Fc2。
$\begin{align} z_1 &= W_1 x + b_1 \\ a_1 &= g(z_1) \\ z_2 &= W_2 a_1 + b_2 \\ \end{align}$

3. 多任務損失計算

為了方便展示損失任務的權重系數，這里假設兩個損失函數。其中，主任務交叉熵損失，輔助任務均方誤差損失。
$\begin{align} L &= \lambda_1 \cdot \text{CE}(z_2, y_{\text{ce}}) + \lambda_2 \cdot \text{MSE}(a_1, y_{\text{mse}}) \\ &= \lambda_1 \cdot loss_1 + \lambda_2 \cdot loss_2 \end{align}$

4. 反向傳播梯度計算

$\begin{align} \frac{\partial L}{\partial W_1} &= \frac{\partial (\lambda_1 loss_1 + \lambda_2 loss_2)}{\partial W_1} \\ &= \alpha_1 \left( \lambda_1 \frac{\partial loss_1}{\partial W_1}\right) + \alpha_2 \left( \lambda_2 \frac{\partial loss_2}{\partial W_1}\right) \\ &= \alpha_1 \lambda_1 \frac{\partial loss_1}{\partial W_1} + \alpha_2 \lambda_2 \frac{\partial loss_2}{\partial W_1} \\ \end{align}$

5. 參數更新

$W_1 \leftarrow W_1 - \eta \cdot \frac{\partial L}{\partial W_1}$

即：

$\Delta W_1 = -\eta \left[ \overbrace{\alpha_1}^{\text{梯度權重}} \left( \overbrace{\lambda_1}^{\text{損失權重}} \frac{\partial loss_1}{\partial W_1} \right) + \overbrace{\alpha_2}^{\text{梯度權重}} \left( \overbrace{\lambda_2}^{\text{損失權重}} \frac{\partial loss_2}{\partial W_1} \right) \right]$

總結

根據step4可知，一般不需要對梯度進行懲罰操作，且過于復雜，直接對損失函數施加權重具有同樣的功能。
根據step5可知，學習率全局縮放梯度向量，即調整整體的步長。
如梯度裁剪或者梯度歸一化等特殊情況才在內部對梯度操作，非必須，一般不作用于梯度。

注：上述情況與GPT 4O交流的結果。以當前本人的水平，還無法體會到更深層次的含義。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/907431.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/907431.shtml
英文地址，請注明出處：http://en.pswp.cn/news/907431.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！