📖標題:How to Complete Domain Tuning while Keeping General Ability in LLM: Adaptive Layer-wise and Element-wise Regularization
🌐來源:arXiv, 2501.13669
🌟摘要
🔸大型語言模型(LLM)展現出強大的通用語言能力。然而,在特定領域的任務上對這些模型進行微調通常會導致災難性的遺忘,即模型覆蓋或丟失在預訓練期間獲得的基本知識。這種現象極大地限制了LLM的廣泛適用性。
🔸為了應對這一挑戰,我們提出了一種新的方法來計算模型參數的元素重要性,這些參數對于在微調過程中保留一般知識至關重要。我們的方法采用了一種雙目標優化策略:(1)正則化損失,以保留對一般知識至關重要的參數;(2) 交叉熵損失,以適應特定領域的任務。此外,我們引入逐層系數來解釋不同層的不同貢獻,動態平衡雙射優化。
🔸使用GPTJ和LLaMA-3對科學、醫學和物理任務進行的廣泛實驗表明,我們的方法在增強模型適應性的同時減輕了災難性遺忘。與以前的方法相比,我們的解決方案大約快20倍,只需要10%-15%的存儲空間,突出了實際效率。代碼將被發布。
🛎?文章簡介
🔸研究問題:大語言模型(LLM)進行領域特定微調時出現災難性遺忘,即在適應新領域的同時難以保持模型的通用能力。
🔸主要貢獻:論文提出了一種新的微調框架,通過自適應層和元素正則化,有效減少了災難性遺忘,同時顯著降低了計算時間和存儲需求,提升了模型的效率和可擴展性。
📝重點思路
🔸雙目標優化策略:結合正則化損失和交叉熵損失,前者減少對通用知識關鍵參數的更新,后者增強領域特定學習。
🔸元素級重要性記錄:通過計算每個參數對損失函數減少的貢獻,記錄其在通用任務中的重要性,指導新任務的微調過程。
🔸層間加權正則化:根據不同層對通用能力和領域特定能力的貢獻,動態調整正則化權重,確保某些層優先學習任務,而其他層保留通用知識。
🔸低秩矩陣更新:使用LoRA(低秩適應)方法,僅更新低秩矩陣,減少計算成本和存儲需求。
🔎分析總結
🔸性能提升:在多個數據集上,使用主流LLMs(如GPT-J和LLaMA-3)進行實驗,證明了該方法在保持通用能力的同時,顯著提升了領域特定任務的性能。
🔸計算效率:與之前的方法相比,計算時間減少了近20倍,存儲需求僅為10%~15%,顯著提高了方法的實用性和可擴展性。
🔸正則化系數分析:通過調整正則化系數,找到了在任務性能和通用能力之間取得平衡的最優值。
🔸層間重要性分析:發現不同層對通用知識的保留和領域特定學習的影響不同,驗證了層間加權正則化的有效性。
💡個人觀點
論文的核心在于識別不同參數和層對新任務的貢獻,針對性優化貢獻多的部分,而貢獻少的則減少訓練以維持通用能力。
🧩附錄