1 prefix Tunning
鏈接:https://blog.csdn.net/m0_66890670/article/details/142942034 這里有基礎的細節介紹。我下面直接總結。
?連接2 :https://zhuanlan.zhihu.com/p/1899112824342577371,簡單明了
prefix Tunning改變了什么呢?
? Prefix-Tuning 顯式擴展了 K/V 投影的尺寸;
? Prefix-Tuning 會初始化一個可訓練的參數矩陣(Pθ
),其維度為 [prefix_length, hidden_dim]
。在輸入階段,該前綴矩陣會與原始輸入的嵌入向量 直接拼接,形成 [PREFIX; X]
的結構。
-
inputs = torch.cat([prefix, input_ids], dim=1) # 拼接前綴與原始輸入
計算流程:
- 參數高效性:僅需訓練前綴參數(
5×768
),凍結原始模型權重7。 - 注意力機制擴展:前綴通過修改K/V間接影響注意力分布,無需調整模型結構;
對于前綴 于 X分別進行計算然后拼接。?
注意:
鏈接:https://blog.csdn.net/m0_66890670/article/details/142942034
2?Prompt Tuning
Prefix 與 prompt tunning 在注意力矩陣計算的二者的區別: