國防科大：雙目標優化防止LLM災難性遺忘

在這里插入圖片描述

📖標題：How to Complete Domain Tuning while Keeping General Ability in LLM: Adaptive Layer-wise and Element-wise Regularization
🌐來源：arXiv, 2501.13669

🌟摘要

🔸大型語言模型（LLM）展現出強大的通用語言能力。然而，在特定領域的任務上對這些模型進行微調通常會導致災難性的遺忘，即模型覆蓋或丟失在預訓練期間獲得的基本知識。這種現象極大地限制了LLM的廣泛適用性。
🔸為了應對這一挑戰，我們提出了一種新的方法來計算模型參數的元素重要性，這些參數對于在微調過程中保留一般知識至關重要。我們的方法采用了一種雙目標優化策略：（1）正則化損失，以保留對一般知識至關重要的參數；（2）交叉熵損失，以適應特定領域的任務。此外，我們引入逐層系數來解釋不同層的不同貢獻，動態平衡雙射優化。
🔸使用GPTJ和LLaMA-3對科學、醫學和物理任務進行的廣泛實驗表明，我們的方法在增強模型適應性的同時減輕了災難性遺忘。與以前的方法相比，我們的解決方案大約快20倍，只需要10%-15%的存儲空間，突出了實際效率。代碼將被發布。

🛎?文章簡介

🔸研究問題：大語言模型（LLM）進行領域特定微調時出現災難性遺忘，即在適應新領域的同時難以保持模型的通用能力。
🔸主要貢獻：論文提出了一種新的微調框架，通過自適應層和元素正則化，有效減少了災難性遺忘，同時顯著降低了計算時間和存儲需求，提升了模型的效率和可擴展性。

📝重點思路

🔸雙目標優化策略：結合正則化損失和交叉熵損失，前者減少對通用知識關鍵參數的更新，后者增強領域特定學習。
🔸元素級重要性記錄：通過計算每個參數對損失函數減少的貢獻，記錄其在通用任務中的重要性，指導新任務的微調過程。
🔸層間加權正則化：根據不同層對通用能力和領域特定能力的貢獻，動態調整正則化權重，確保某些層優先學習任務，而其他層保留通用知識。
🔸低秩矩陣更新：使用LoRA（低秩適應）方法，僅更新低秩矩陣，減少計算成本和存儲需求。

🔎分析總結

🔸性能提升：在多個數據集上，使用主流LLMs（如GPT-J和LLaMA-3）進行實驗，證明了該方法在保持通用能力的同時，顯著提升了領域特定任務的性能。
🔸計算效率：與之前的方法相比，計算時間減少了近20倍，存儲需求僅為10%～15%，顯著提高了方法的實用性和可擴展性。
🔸正則化系數分析：通過調整正則化系數，找到了在任務性能和通用能力之間取得平衡的最優值。
🔸層間重要性分析：發現不同層對通用知識的保留和領域特定學習的影響不同，驗證了層間加權正則化的有效性。

💡個人觀點

論文的核心在于識別不同參數和層對新任務的貢獻，針對性優化貢獻多的部分，而貢獻少的則減少訓練以維持通用能力。

🧩附錄

在這里插入圖片描述

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/894752.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/894752.shtml
英文地址，請注明出處：http://en.pswp.cn/news/894752.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！