隨著大型語言模型的廣泛應用,如何高效地將這些模型適配到特定任務中,成為了研究和工程實踐中的重要課題。IA3(Infused Adapter by Adding and Adjusting)微調技術,作為參數高效微調的一種新穎方法,提供了在保持模型性能的同時,顯著減少可訓練參數數量的解決方案。
IA3 微調的基本原理
IA3 的核心思想是在 Transformer 模型的特定位置引入可訓練的縮放向量,通過對模型內部的激活值進行抑制或放大,實現對模型行為的細粒度控制。這些縮放向量主要注入到以下三個模塊中:
- 鍵(Key)縮放向量:與自注意力機制中的鍵相乘,調整注意力的關注焦點。
- 值(Value)縮放向量:與自注意力機制中的值相乘,影響信息的傳遞強度。
- 中間激活縮放向量:與前饋網絡中的中間激活值相乘,調節非線性變換的輸出。
通過這種方式,IA3 僅需引入少量的可訓練參數,便可在凍結原始模型權重的情況下,實現對模型行為的有效調整 。
IA3 的優勢
- 參數高效:相比于全參數微