為什么 LoRA 梯度是建立在全量參數 W 的梯度之上

🧠 首先搞清楚 LoRA 是怎么做微調的

我們原來要訓練的參數矩陣是 $W$ ，但 LoRA 說：

別動 W，我在它旁邊加一個低秩矩陣 $\Delta W = UV$ ，只訓練這個部分！

也就是說，LoRA 用一個新的權重矩陣：

$W^{'} = W + U V$

只訓練 $U$ 和 $V$ ， $W$ 不動。

📦 所以前向傳播其實用的是：

$\text{模型輸入}x \longrightarrow W'x = Wx + UVx \longrightarrow \text{輸出} \longrightarrow \mathcal{L}$

在這個過程中，損失函數 $\mathcal{L}$ 是基于 $W + U V$ 來計算的。

🔁 反向傳播的時候怎么求梯度？

LoRA 要訓練的是 $U$ 和 $V$ ，所以我們要算：

$\frac{\partial \mathcal{L}}{\partial U} \quad \text{和} \quad \frac{\partial \mathcal{L}}{\partial V}$

但問題是：損失函數 $\mathcal{L}$ 不是直接依賴 $U$ 和 $V$ ，而是依賴 $U V$

所以要用鏈式法則，先對 $U V$ 求導，然后傳播回 $U$ 、 $V$ 。而對UV求導等價于對 $W$ 求導

? 關鍵點來了

我們記：

$\frac{\partial \mathcal{L}}{\partial W} = G$

這個 $G$ 就是“如果我們在做全量微調，該怎么更新 $W$ 的梯度”。

LoRA 說：

“雖然我不更新 $W$ ，但我要更新的是 $U V$ 。所以我也可以用這個 $G$ 來指導我怎么更新 $U$ 和 $V$ 。”

于是我們得到：

$\frac{\partial \mathcal{L}}{\partial U} = G V^\top, \quad \frac{\partial \mathcal{L}}{\partial V} = U^\top G$

LoRA 的梯度建立在 $\frac{\partial \mathcal{L}}{\partial W}$ 上，是因為它相當于“用低秩矩陣 $U V$ 來代替全量的參數更新”，所以梯度傳播也必須從 $\frac{\partial \mathcal{L}}{\partial W}$ 開始。
LoRA 往往只是顯存不足的無奈之選，因為一般情況下全量微調的效果都會優于 LoRA，所以如果算力足夠并且要追求效果最佳時，請優先選擇全量微調。
使用 LoRA 的另一個場景是有大量的微型定制化需求，要存下非常多的微調結果，此時使用 LoRA 能減少儲存成本。

🔍 為什么

為什么 $\frac{\partial \mathcal{L}}{\partial W}$ ，就是對 $U V$ 的梯度？

換句話說：LoRA 中的 $W^{'} = W + U V$ ，那我們訓練時不是更新 $W$ ，只更新 $U V$ ，那為什么還能用 $\frac{\partial \mathcal{L}}{\partial W}$ 來指導 $U$ 和 $V$ 的更新呢？

? 答案是：因為前向傳播中 $W + U V$ 是一起作為整體參與運算的

所以：

$\frac{\partial \mathcal{L}}{\partial W} = \frac{\partial \mathcal{L}}{\partial (W + UV)} = \frac{\partial \mathcal{L}}{\partial (UV)}$

這是因為：

我們的模型使用的是 $W + U V$
所以損失函數 $\mathcal{L}$ 是以 $W + U V$ 為輸入計算出來的
那么對 $W$ 求導，其實是對這個整體求導
而因為 $W$ 是固定的（不訓練，看作常數），所以梯度全部由 $U V$ 來承接

本來我們應該更新 $W$ ：
$\leftarrow W - \eta \frac{\partial \mathcal{L}}{\partial W}$
現在我們不動 $W$ ，讓 $U V$ 來“做這個事情”：
$\leftarrow W + UV - \eta \cdot \left(\text{LoRA方向上的梯度}\right)$

所以如果要算 $U V$ 的導數，就是算 $\frac{\partial \mathcal{L}}{\partial W}$

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/76929.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/76929.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/76929.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！