摘要:對預訓練大型語言模型(LLMs)進行微調以適應特定任務,會帶來巨大的計算和數據成本。雖然模型合并提供了一種無需訓練的解決方案,用于整合多個特定任務的模型,但現有方法存在安全性與效用性之間的沖突,即增強通用能力會降低安全防護。我們發現了兩個根本原因:由于簡單的基于參數大小的選擇,導致神經元誤識別,以及在合并過程中不同任務的神經元相互干擾。為了解決這些挑戰,我們提出了LEDMerging,這是一個三階段框架,通過基于梯度的歸因來定位特定任務的神經元,通過多模型重要性融合動態選擇關鍵神經元,并通過參數隔離來分離沖突的更新。在Llama-3-8B、Mistral-7B和Llama2-13B上的廣泛實驗表明,LEDMerging降低了有害響應率(例如,在HarmBench上Llama-3-8BInstruct降低了31.4%),同時保持了95%的效用性能(例如,在GSM8K上準確率為52.39%)。LEDMerging解決了安全性與效用性之間的沖突,并為構建可靠的多任務LLMs提供了一種輕量級、無需訓練的范式。
一、背景動機
論文題目:LED-Merging: Mitigating Safety-Utility Conflicts in Model Merging with Location-Election-Disjoint
論文地址:https://arxiv.org/pdf/2502.16770
現有的模型合并方法存在安全性和功能性之間的沖突,即在提升模型的通用能力(如數學推理)時,可能會降低模型的安全保障能力。將安全對齊和數學特定的微調模型合并后,可能會得到一個在數學方面表現出色但安全性降低的模型。這種沖突的根源在于現有方法在選擇神經元時存在缺陷,以及在合并過程中不同任務的神經元之間存在干擾。
基于上述問題,文章提出了LEDMerging,這是一個三階段框架,通過基于梯度的歸因來定位特定任務的神經元,通過多模型重要性融合動態選擇關鍵神經元,并通過參數隔離來分離沖突的更新。
二、核心貢獻
- 提出LED-Merging框架:LED-Merging?是一個三階段的框架,包括定位(Location)、選舉(Election)和分離(Disjoint)。該框架通過梯度歸因來定位任務特定的神經元,通過多模型重要性融合動態選舉關鍵神經元,并通過參數隔離來分離沖突的更新,從而解決了神經元誤識別和干擾的問題。
- 無需訓練的合并方法:LED-Merging無需對合并后的模型進行額外的訓練,就能夠緩解安全性和功能性之間的沖突,這在隱私敏感或資源受限的場景中具有重要意義。
三、實現方法
- 定位(Location):通過計算每個神經元的重要性分數來識別基礎模型和微調模型中的關鍵神經元。使用梯度歸因分數來避免神經元誤識別,選擇重要性分數最高的神經元作為關鍵神經元子集。
- 選舉(Election):基于基礎模型和微調模型的重要性分數,動態選擇在兩個模型中都具有高分數的神經元作為任務向量中的關鍵神經元。這確保了安全性和功能性在合并過程中的平衡表示。
- 分離(Disjoint):通過集合差操作隔離沖突的權重更新,防止安全性和任務特定神經元之間的干擾,避免跨任務干擾。
- 合并:最終將經過定位、選舉和分離處理后的任務向量合并到基礎模型中,形成合并后的模型。
四、實驗結論
- 安全性提升:LED-Merging在多個安全基準測試中表現出色,顯著降低了有害響應率,例如在HarmBench上,與單獨的代碼模型相比,LED-Merging將Llama3-8B的有害響應率降低了75.9%。
- 功能性保持:在數學推理和代碼生成等任務上,LED-Merging能夠保持與專門模型相當的功能性性能。例如,在GSM8K上,LED-Merging保持了52.39%的準確率,與Ties-Merging相當,遠高于Task Arithmetic。
- 跨架構魯棒性:LED-Merging在不同模型架構(如Llama-2、Llama-3和Mistral)上均表現出一致的有效性,證明了其與不同架構設計的兼容性。
- 模型規模無關性:LED-Merging在不同規模的模型(從7B到13B參數)上均表現出穩定的性能,證明了其對模型規模的魯棒性。
五、總結
文章提出了一種名為LED-Merging的模型合并框架,通過定位、選舉和分離三個階段,有效地解決了模型合并過程中出現的安全性和功能性之間的沖突問題。該方法無需額外訓練,具有跨架構魯棒性和模型規模無關性,能夠在保持模型功能性的同時顯著提升模型的安全性。