LED-Merging: 無需訓練的模型合并框架,兼顧LLM安全和性能!!

摘要:對預訓練大型語言模型(LLMs)進行微調以適應特定任務,會帶來巨大的計算和數據成本。雖然模型合并提供了一種無需訓練的解決方案,用于整合多個特定任務的模型,但現有方法存在安全性與效用性之間的沖突,即增強通用能力會降低安全防護。我們發現了兩個根本原因:由于簡單的基于參數大小的選擇,導致神經元誤識別,以及在合并過程中不同任務的神經元相互干擾。為了解決這些挑戰,我們提出了LEDMerging,這是一個三階段框架,通過基于梯度的歸因來定位特定任務的神經元,通過多模型重要性融合動態選擇關鍵神經元,并通過參數隔離來分離沖突的更新。在Llama-3-8B、Mistral-7B和Llama2-13B上的廣泛實驗表明,LEDMerging降低了有害響應率(例如,在HarmBench上Llama-3-8BInstruct降低了31.4%),同時保持了95%的效用性能(例如,在GSM8K上準確率為52.39%)。LEDMerging解決了安全性與效用性之間的沖突,并為構建可靠的多任務LLMs提供了一種輕量級、無需訓練的范式。

一、背景動機

論文題目:LED-Merging: Mitigating Safety-Utility Conflicts in Model Merging with Location-Election-Disjoint

論文地址:https://arxiv.org/pdf/2502.16770

現有的模型合并方法存在安全性和功能性之間的沖突,即在提升模型的通用能力(如數學推理)時,可能會降低模型的安全保障能力。將安全對齊和數學特定的微調模型合并后,可能會得到一個在數學方面表現出色但安全性降低的模型。這種沖突的根源在于現有方法在選擇神經元時存在缺陷,以及在合并過程中不同任務的神經元之間存在干擾。

基于上述問題,文章提出了LEDMerging,這是一個三階段框架,通過基于梯度的歸因來定位特定任務的神經元,通過多模型重要性融合動態選擇關鍵神經元,并通過參數隔離來分離沖突的更新。

二、核心貢獻

  • 提出LED-Merging框架:LED-Merging?是一個三階段的框架,包括定位(Location)、選舉(Election)和分離(Disjoint)。該框架通過梯度歸因來定位任務特定的神經元,通過多模型重要性融合動態選舉關鍵神經元,并通過參數隔離來分離沖突的更新,從而解決了神經元誤識別和干擾的問題。
  • 無需訓練的合并方法:LED-Merging無需對合并后的模型進行額外的訓練,就能夠緩解安全性和功能性之間的沖突,這在隱私敏感或資源受限的場景中具有重要意義。

三、實現方法

  • 定位(Location):通過計算每個神經元的重要性分數來識別基礎模型和微調模型中的關鍵神經元。使用梯度歸因分數來避免神經元誤識別,選擇重要性分數最高的神經元作為關鍵神經元子集。

  • 選舉(Election):基于基礎模型和微調模型的重要性分數,動態選擇在兩個模型中都具有高分數的神經元作為任務向量中的關鍵神經元。這確保了安全性和功能性在合并過程中的平衡表示。

  • 分離(Disjoint):通過集合差操作隔離沖突的權重更新,防止安全性和任務特定神經元之間的干擾,避免跨任務干擾。

  • 合并:最終將經過定位、選舉和分離處理后的任務向量合并到基礎模型中,形成合并后的模型。

四、實驗結論

  • 安全性提升:LED-Merging在多個安全基準測試中表現出色,顯著降低了有害響應率,例如在HarmBench上,與單獨的代碼模型相比,LED-Merging將Llama3-8B的有害響應率降低了75.9%。
  • 功能性保持:在數學推理和代碼生成等任務上,LED-Merging能夠保持與專門模型相當的功能性性能。例如,在GSM8K上,LED-Merging保持了52.39%的準確率,與Ties-Merging相當,遠高于Task Arithmetic。

  • 跨架構魯棒性:LED-Merging在不同模型架構(如Llama-2、Llama-3和Mistral)上均表現出一致的有效性,證明了其與不同架構設計的兼容性。
  • 模型規模無關性:LED-Merging在不同規模的模型(從7B到13B參數)上均表現出穩定的性能,證明了其對模型規模的魯棒性。

五、總結

文章提出了一種名為LED-Merging的模型合并框架,通過定位、選舉和分離三個階段,有效地解決了模型合并過程中出現的安全性和功能性之間的沖突問題。該方法無需額外訓練,具有跨架構魯棒性和模型規模無關性,能夠在保持模型功能性的同時顯著提升模型的安全性。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/86363.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/86363.shtml
英文地址,請注明出處:http://en.pswp.cn/web/86363.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

火山引擎向量數據庫 Milvus 版正式開放

資料來源:火山引擎-開發者社區 隨著AI技術的不斷演進發展,非結構化數據也迎來了爆發式的增長。Milvus作為一款為大規模向量相似度搜索和 AI 應用開發設計的開源向量數據庫系統,目前已在業界占據領導地位。當前 Milvus 已經被 5,000 家企業所…

SQL SERVER存儲過程

什么是存儲過程 SQL 存儲過程(Stored Procedure)是一個在數據庫中預編譯并存儲的一組 SQL 語句。它們可以包含查詢、插入、更新、刪除等數據庫操作,甚至包括控制流語句(如條件判斷、循環等)。存儲過程可以通過調用來執…

Lombok注解 - 提高Java開發效率

01 繁瑣編碼 初入 Java 開發領域時,編寫實體類的瑣碎經歷想必各位都深有感觸。 每當創建一個實體類,鋪天蓋地的 getter、setter、toString 方法接踵而至,手指在鍵盤上頻繁敲擊,酸痛不已。 而 Lombok 這一神器的出現&#xff0c…

Linux修改uboot啟動延時方法詳細攻略,觸覺智能RK3568開發板演示

修改uboot延時 首先查找defconfig文件 ./build.sh uboot #通過編譯日志查看使用的defconfig文件ls u-boot/configs/*3568* #在SDK根目錄下執行該操作 如圖標注處就是所使用的u-boot配置文件。 然后修改延時數: vim u-boot/configs/rk3568_defconfig 將CONFIG_BOO…

dockers virbox 安裝

sudo apt remove docker docker-engine docker.io containerd runc 更新包索引并安裝依賴 sudo apt update sudo apt install ca-certificates curl gnupg 添加Docker官方GPG密鑰 sudo install -m 0755 -d /etc/apt/keyrings curl -fsSL https://download.docker.com/linux…

Restormer: Efficient Transformer for High-Resolution Image Restoration 論文閱讀

題目 (Title): Restormer:用于高分辨率圖像恢復的高效Transformer 摘要 (Abstract): 由于卷積神經網絡(CNN)在從大規模數據中學習可泛化的圖像先驗方面表現出色,這些模型已被廣泛應用于圖像恢復及相關任務。最近,另一…

音視頻開發協議棧全景解析

音視頻開發協議棧全景解析 引言:協議棧的重要性與演進 在當今數字化時代,音視頻技術已成為互聯網基礎設施的核心組成部分。從視頻會議、直播到智能安防、元宇宙應用,音視頻協議棧的設計直接影響著用戶體驗質量(QoE)。作為開發者&#xff0c…

Java面試題025:一文深入了解數據庫Redis(1)

歡迎大家關注我的JAVA面試題專欄,該專欄會持續更新,從原理角度覆蓋Java知識體系的方方面面。 一文吃透JAVA知識體系(面試題)https://bl

Python:調用json.dumps處理datetime對象數據

文章目錄 前言一、查詢SQL語句中數據轉換1、思路2、示例3、常用格式化模式4、注意事項 二、自定義JSONEncoder處理1、思路2、示例3、使用方法 寫在結尾 前言 使用Python開發查詢PostgreSQL數據庫,返回數據中有timestamp類型數據字段。如果使用json.dumps轉換成json對…

QT6 源(130)視圖模型架構中的字符串列表模型 QStringListModel:成員函數,本類的繼承關系圖以及源碼注釋

(1)字符串列表型的 model ,可以交給視圖 view 來顯示,也可以由組合框 comboBox 讀取其中的內容 : (2)以下開始學習本字符串 model 里的成員函數,本類沒有再定義信號與槽函數 &#x…

dockerfile命令及構建+docker-compose安裝構建

一,dockerfile常用命令 命令介紹FROM–指定基礎鏡像LABEL作者信息USER切換運行屬主身份WORKDUR切換工作目錄ENV用于docker容器設置環境變量RUN用來執行命令行的命令COPY把宿主機文件復制到鏡像中去ADD將文件路徑復制添加到容器內部路徑EXPOSE為容器打開指定要監聽的…

數學:逆元,同余

逆元,同余 0.引言1.同余1.1 同余的基本性質1.2 解同余線性方程 2.逆元費馬小定理求逆元(m必需為質數)擴展歐幾里得求逆元(使用任意互質的a和m) 0.引言 本文講述什么是逆元,如何求逆元。求逆元的兩種常規方法。然后知道…

廣州華銳互動:技術與創意雙驅動的 VR 先鋒?

廣州華銳互動能夠在眾多 VR 公司中嶄露頭角,離不開其強大的技術實力和源源不斷的創意靈感 。在技術研發方面,廣州華銳互動組建了一支專業的技術團隊,團隊成員均具備扎實的技術功底和豐富的行業經驗,他們專注于 VR、AR、3D 等核心技…

教育培訓教學通用PPT模版

教育培訓通用PPT模版,兒童教育PPT模版,公開課件教學PPT模版,讀書筆記PPT模版,古風PPT模版,教育教學通用PPT模版 教育培訓教學通用PPT模版:https://pan.quark.cn/s/6c2ed020e398

Data Vault 初探(五) —— 定期裝載_SQL

說明: 1. 定期裝載的周期為每天一次。 2. 每天裝載自上次裝載后的變化數據 3. 建立源數據庫的過渡表用于CDC 4. 建立cdc_time表用于基于時間戳的CDC 5. 因為源庫上只有訂單銷售表有時間屬性,所以除了sales_order和sales_order_item拉取變化數據外&#x…

Java虛擬機棧(JVM Stack)詳解與工作流程分析

Java虛擬機棧(JVM Stack)詳解與工作流程分析 1. 虛擬機棧核心概念 基本特性 線程私有:每個線程在創建時都會分配一個獨立的棧存儲內容: 棧幀(Stack Frame):每個方法調用對應一個棧幀 生命周期…

Sonarqube:Jenkins觸發sonar掃描出現UnsupportedClassVersionError錯誤處理

文章目錄 1、問題現象2、問題根因3、解決思路3.1 解決思路13.2 解決思路23.3 解決思路3 1、問題現象 問題現象:在每次Jenkins觸發sonar掃描時,Sonar-scanner掃描器執行都會出現UnsupportedClassVersionError異常,如下: ERROR: …

Spark SQL to_json 函數介紹

目錄 前言函數介紹參數說明示例 前言 在Apache Hive中,并沒有內置的to_json函數。在Apache Spark SQL中確實有to_json函數,它可以用來將結構化數據(如結構化類型或MAP類型)轉換為JSON字符串。這個功能對于需要將表格數據輸出為JSON格式的場景…

《解鎖前端潛力:自動化流程搭建秘籍》

當項目逐漸從萌芽走向繁茂,中期階段對流程優化與效率提升的需求便愈發迫切。搭建一套自動化測試、持續集成與部署的完整流程,已然成為突破瓶頸、保障代碼質量與上線效率的關鍵密鑰。這不僅是技術的進階,更是思維與協作模式的革新。在踏上構建…

計算機體系結構中的片上系統SoC是什么?

計算機體系結構中的片上系統SoC是什么? 片上系統(SoC,System on Chip) 是一種將計算機或其他電子系統的多個關鍵組件集成到單一芯片上的集成電路設計。它不僅僅是處理器(CPU),而是將處理器、內…