emnlp 2024
- 在過去的一年里,開源大型語言模型(LLMs)迅速發展,并已可通過 Hugging Face 模型庫獲取。
- 這些模型的訓練規模可達數萬億個 token,參數量通常在 1 億至 700 億以上不等
- 開源模型檢查點涵蓋了多種任務,既包括預訓練模型,也包括指令微調模型
然而,為每項任務分別微調一個模型面臨諸多挑戰:
需要分別存儲和部署多個模型;
各模型無法共享任務間的有用知識
從零開始訓練這些模型需要極大的投入。
而進一步微調則容易引發災難性遺忘(catastrophic forgetting)問題,這會破壞模型原有的通用能力和多任務表現
將模型調整為符合用戶偏好的響應行為通常需要大量人類偏好數據,這對于大多數團隊來說是難以獲得的
這引出了一個關鍵問題:如何有效利用現有的預訓練模型檢查點?
模型融合(model merging)因此成為一個變革性策略——通過將多個模型的參數融合為一個單一模型,不僅實現了多任務學習和持續學習,還有效緩解了災難性遺忘的問題
在本文中,我們提出了 MergeKit ——一個用于執行社區提出的模型融合策略的統一庫。MergeKit 兼容 內存受限的 CPU 以及 加速的 GPU 設備。