LORA的AB矩陣是針對Transformer的多頭還是MLP
Transformer中的矩陣是一個整體還是分開的每個小矩陣
在LORA(Low-Rank Adaptation)中,AB矩陣的應用位置和Transformer中的矩陣拆分方式如下:
1. LORA的AB矩陣作用對象
LORA的AB矩陣主要作用于Transformer的多頭注意力模塊和MLP模塊的線性層。具體來說:
- 多頭注意力部分:AB矩陣通常注入到查詢(Q)、鍵(K)、值(V)的線性變換層中,以低秩分解的形式近似原始權重矩陣。
- MLP部分:AB矩陣也可注入到MLP的**輸入層(將隱層維度映射到中間維度)和輸出層(映射回隱層維度)**中。