ACL 2024 | 如何避免LLM生成有毒回復?基于知識編輯的大模型祛毒初探

63b517c7c31ebfd78e336b7fb9fbf4fe.gif

4a07a5b90cf4d266ba37e5112b868640.png

論文鏈接:

https://arxiv.org/abs/2403.14472

代碼鏈接:

https://github.com/zjunlp/EasyEdit

Benchmark:

https://huggingface.co/datasets/zjunlp/SafeEdit

bbac2bb8285ebd76cca5871fe639f5ef.png

摘要

當下大模型(LLMs)雖然取得了顯著的成功,但在實際應用中依然面臨著泄露隱私、偏見、以及惡意濫用等安全問題 [1]。常用的 SFT、DPO 等對齊方法可以使 LLMs 拒絕回復明顯的有害請求(如 Where can I sell stolen art pieces?),但仍較難防御惡意的越獄攻擊 [2],如圖 1 所示。

那么我們能否換一個角度,通過精準地修改 LLMs 的毒性區域以避免 LLMs 生成有毒回復?知識編輯致力于通過少量數據精準地修改 LLMs 的特定行為 [3],直覺上知識編輯在 LLMs 祛毒場景存在一定的潛力。

鑒于此,本文構建了一個包含 9 類不安全場景,涵蓋多種越獄攻擊的數據集 SafeEdit,并嘗試探索知識編輯方法在大模型祛毒場景的有效性。隨后,本文提出了一個簡單有效的祛毒基線方法 DINM,該方法首先識別 LLMs 的毒性區域,隨后僅基于一條典型數據樣例擦除該毒性區域。

有趣的是,通過分析 SFT,DPO 以及 DINM 的祛毒機理發現:SFT 和 DPO 可能僅抑制了 LLM 毒性區域的激活;而 DINM 在一定程度上減輕了毒性區域參數的毒性并進行了永久性的削弱,還具備一定程度的泛化性。

d102fe7cabdb1b5e48713eccce7af1e4.png

▲ 圖1 通過知識編輯祛毒

9b1026de57321eab58b6309d01bfad0c.png

祛毒基準

本文構建了一個涵蓋 9 類不安全場景,包含 48 個越獄模板的數據集 SafeEdit,如圖 2 所示。SafeEdit 可廣泛應用于微調、對齊(如 DPO)以及知識編輯等多種方法。

此外,本文將評價指標擴展為祛毒效果和通用能力兩個方面。具體來說祛毒效果包括當前的祛毒成功率(DS)和在 OOD 數據上的泛化性(DG)。通用能力衡量祛毒方法可能帶來的副作用,比如拒絕用戶的無害請求,具體包括回復內容的流暢性(Fluency)、問答能力(KQA)以及總結能力(Csum)。

1b5f93ec067c94ccdfb84868717a4bc4.png

▲ 圖2 SafeEdit 數據集構建流程

d2416ca4824b72f5b40f07522340aaf4.png

方法動機

以往的知識編輯方法主要針對事實知識,需要借助明確的實體才能編輯成功。然而,LLMs 的祛毒任務中的輸入通常含有多個句子,無法確定明確的實體字符。受術中神經電生理監測(Intraoperative Neurophysiological Monitoring)對手術操作過程中可能影響到的神經組織進行監測以達到避免或減小損傷的啟發,本文首先定位 LLMs 的毒性區域,然后基于一條數據精確地修改該毒性區域的參數,如圖 3 所示。

具體來說,毒性區域的定位如下:對于一個惡意輸入 ,對應著一個安全回復 和一個不安全回復 ,分別把 、 輸入最初的基座 LLM,追蹤他們前向傳播過程中在各層的 Hidden State。本文認為二者語義差距最大的層即為毒性層,并把毒性層 MLP 的第二層作為毒性區域(該定位方式僅為毒性區域假說,嚴格的講存在更優的毒性區域定位方法)。

56732f6ade9d16f055149ca43c7dc26e.png

▲ 圖3 DINM 方法流程

072be531cbb1604260656366b3712f0a.png

實驗結果

在知識編輯設定下的實驗結果如下表所示,可以初步得出如下結論:

86e1606a3e4c723b9e6c5aeb368bff2b.png

  • 知識編輯方法在 LLMs 祛毒領域展現出一定程度的潛力。

  • DINM 取得了較好的祛毒能力和泛化性。

  • 知識編輯雖然會損害模型的通用能力,但在相對較小的范圍內。

  • 精準定位可能是知識編輯在祛毒領域取得成功的關鍵。

8ed06422daa6b0f69738947dcf74bff4.png

機理分析

進一步探究了知識編輯方法 DINM 和常用的 SFT、DPO [4] 等方法的內部祛毒機理。

(1)首先評估了 DINM、SFT、DPO、Self-Reminder [5] 等方法的性能,如下表所示。DINM 雖然僅使用了一條數據(注意不同數據樣例的祛毒和通用能力影響存在顯著差異,因此本文匯報了標準差)進行祛毒過程,但仍可以媲美甚至超過 DPO。

384e9ffc4cc8a41d2ff0fe91706749e2.png

(2)量化了經過 DINM、SFT、DPO 這三種方法祛毒后模型毒性區域的毒性大小,以及進入該毒性區域的信息流。如圖 4 所示,SFT 和 DPO 幾乎沒有改變(0.49% 和 0.6%)毒性區域的毒性大小,反而是流入該毒性區域的信息流發生了較大的偏移。與之相反,DINM 沒有改變流入該毒性區域的信息流,而是使毒性區域的毒性降低了 2.72%。

5cfb8123d123c126d7656b0ebc6ab068.png

▲ 圖4 DINM、SFT、DPO 的祛毒量化

因此如圖 5 所示,本文猜測 SFT 和 DPO 可能只是抑制了 LLM 毒性區域的激活;而 DINM 在一定程度上減輕了毒性參數的毒性并進行了永久性的削弱。

865279a0c77ece6062e6e38e09660513.png

▲ 圖5 DINM、SFT、DPO 的祛毒機理

36f58f86ba6b934a565f0daa300c8fe1.png

總結

總的來說,本文構建了 SafeEdit,一個通過知識編輯為 LLMs 祛毒的新基準,并提出了一種簡單的大模型祛毒基線 DINM。此外,還分析不同祛毒模型背后可能的機制,并觀察到知識編輯技術展現出通過擦除有毒區域從而可能獲得永久解毒的潛力。

98abb8c1bebfc58464c622b539b19629.png

不足與未來的方向

本文所提的方法因定位的局限性,僅能擦除部分有毒區域(且為了平衡通用能力不可能徹底擦除干凈),因此模型仍存在有毒的風險,未來可以研究更加精準的定位方法,以及更加有效的參數修改方法。特別地,本文的知識編輯方法可以和對齊方法進行互補以更好地實現大模型祛毒。

本文提出 DINM 面臨的一個缺點是不同樣本的選擇導致的編輯效果差異較大(有一些樣本對模型通用性能影響較大,需篩選合適的樣),且編輯后的模型經常會重復一段話(部分通用能力損失),這些都是未來改進的方向。

outside_default.png

參考文獻

outside_default.png

[1] A survey of safety and trustworthiness of large language models through the lens of verification and validation.

[2] Defending large language models against jailbreaking attacks through goal prioritization, ACL, 2024

[3] Editing large language models: Problems, methods, and opportunities. EMNLP, 2023

[4] Direct preference optimization: Your language model is secretly a reward model. NIPS, 2023

[5] Defending chatgpt against jailbreak attack via self-reminders. Nature Machine Intelliegence, 2023

更多閱讀

041df6374f64bd04b516cc860e574d8f.png

2d55abc9141d54ac38cbd068bcbdc3b8.png

d8ab2a032bbdc32edad882f777075e8b.png

3ace0d2e53705ec534ad5476b011faf9.gif

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝?稿件基本要求:

? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題

? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

aac7b4a11532d427656542ccceffc792.png

△長按添加PaperWeekly小編

🔍

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

·

·

·

1de721097f89b23dda4b5f42c01fe102.jpeg

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/20074.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/20074.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/20074.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

k8s kubeadm在安裝 基于arm架構

目錄 k8s kubeadm在安裝 基于arm架構 第一章 k8s及中間件安裝 1.主機名解析2.主機名設置3.禁用iptables和firewalld4. 禁用selinux(linux下的一個安全服務,必須禁用)5.禁用swap分區(主要是注釋最后一行)6.修改系統的內核參數7.配置ipvs功能8.安裝docker9.安裝kubern…

Django企業招聘后臺管理系統開發實戰四

前言 首先我們看一下產品的需求背景,這個產品為了解決招聘面試的過程中,線下面試管理效率低,面試過程和結果不方便跟蹤的痛點 招聘管理的系統幾乎是每一家中小公司都需要的產品 我們以校園招聘的面試為例子來做 MVP 產品迭代 首先我們來看一下…

uniapp 嵌套H5頁面會看到插值表達式的問題

項目背景應用中需要用到地圖不使用高德地圖 直接使用leaflet的方式加載地圖故使用H5的方式 H5中引入Vue 發現能看如<div>{{data}}</div>這樣的數據節點 給用戶體驗不好需優化 可使用以下方式處理 v-cloak指令&#xff08;用于在 Vue 實例加載和編譯之前隱藏元素…

推薦的Pytest插件

推薦的Pytest插件 Pytest的插件生態系統非常豐富&#xff0c;以下是一些特別推薦的Pytest插件&#xff1a; pytest-sugar 這個插件改進了Pytest的默認輸出&#xff0c;添加了進度條&#xff0c;并立即顯示失敗的測試。它不需要額外配置&#xff0c;只需安裝即可享受更漂亮、更…

Linux-在centos7中為普通用戶配置sudo認證

目錄 前言一、sudo是什么&#xff1f;二、配置sudo三、測試 前言 本篇文章介紹如何在centos7中為普通用戶配置sudo認證 一、sudo是什么&#xff1f; sudo是一個命令&#xff0c;其作用是為普通用戶以臨時管理員&#xff08;root&#xff09;的身份去執行一條命令。 例如&…

Ehcache 筆記

前言 說道緩存&#xff0c;大家想到的是一定是Redis&#xff0c;確實在國內Redis被大量應用&#xff0c;推上了新的高度&#xff01;但是不一定所有的場合都要使用Redis&#xff0c;例如服務器資源緊缺&#xff0c;集成不方便的時候就可以考慮使用本地緩存。 簡介 緩存應該是每…

禪道的原理及應用詳解(三)

本系列文章簡介&#xff1a; 在快速發展的軟件開發和項目管理領域中&#xff0c;尋找一款高效、實用且易于上手的項目管理工具是每個團隊都面臨的挑戰。禪道&#xff0c;作為一款國產開源的項目管理軟件&#xff0c;憑借其獨特的管理理念、豐富的功能和友好的用戶體驗&#xff…

翻譯《The Old New Thing》- What a drag: Dragging a virtual file (HGLOBAL edition)

What a drag: Dragging a virtual file (HGLOBAL edition) - The Old New Thing (microsoft.com)https://devblogs.microsoft.com/oldnewthing/20080318-00/?p23083 Raymond Chen 2008年03月18日 拖拽虛擬文件&#xff08;HGLOBAL 版本&#xff09; 現在我們已經對簡單的數據…

數據庫(13)——DQL分組查詢

語法 SELECT 字段列表 FROM 表名 [WHERE 條件] GROUP BY 分組字段名 [HAVING 分組后過濾條件] 示例 原始表&#xff1a; 根據性別分組并統計人數 select sex,count(*) from information group by sex; 根據性別分組&#xff0c;并求年齡的平均值&#xff1a;

vue iframe src規則

iframe 元素的 src 屬性規則與常規的網頁鏈接規則相似&#xff0c;可以是以下幾種形式&#xff1a; 1、相對路徑&#xff1a;相對于當前頁面的路徑。例如&#xff0c;如果你想加載當前域名下的一個頁面&#xff0c;可以簡單地指定其相對路徑&#xff1a; <iframe src"…

工廠數字化!數據治理是基礎

數據治理是基礎 在當今的工業生產中&#xff0c;數字化轉型已成為企業提升競爭力的必由之路。然而&#xff0c;數字化轉型并非一蹴而就&#xff0c;它需要戰略驅動、數據治理和數據智能的協同發展。本文將圍繞如何進行數字化、數據治理的內涵以及數據治理作為數字化轉型基礎的原…

QT系列教程(7) QLineEdit介紹

簡介 QLineEdit屬于輸入插件&#xff0c;用來實現單行錄入。支持幾種錄入模式。 Normal表示正常錄入,錄入的信息會顯示在QLineEdit上。 Password表示密碼錄入的方式&#xff0c;錄入的信息不顯示QLineEdit&#xff0c;只是通過黑色圓點顯示。 NoEcho 表示不顯示錄入信息&am…

通過SpringCloudGateway中的GlobalFilter實現鑒權過濾

1.pom.xml中加入gateway jar包 <dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-gateway</artifactId></dependency> 2.創建權限過濾器 SecurityFilter /*** 鑒權過濾***/ Slf4j Component …

第 11 章 排序

第 11 章 排序 Abstract 排序猶如一把將混亂變為秩序的魔法鑰匙&#xff0c;使我們能以更高效的方式理解與處理數據。 無論是簡單的升序&#xff0c;還是復雜的分類排列&#xff0c;排序都向我們展示了數據的和諧美感。 本章內容 11.1 排序算法11.2 選擇排序11.3 冒…

Ps:調整畫筆工具

調整畫筆工具 Adjustment Brush Tool可以將選區、創建蒙版和應用調整的傳統工作流程合并為一個步驟&#xff0c;簡化了對圖像進行非破壞性局部調整的操作。 快捷鍵&#xff1a;B 調整畫筆工具是 Photoshop 2024 年 5 月版&#xff08;25.9 版&#xff09;新增的工具。 ◆ ◆ …

【STM32】定時器與PWM的LED控制

目錄 一、定時器控制LED周期性亮滅&#xff08;一&#xff09;定時器1.STM32F103定時器分類及區別2.通用定時器主要功能3.通用定時器工作過程 &#xff08;二&#xff09;STM32CubeMX創建工程&#xff08;三&#xff09;代碼實現&#xff08;四&#xff09;實驗結果 二、PWM模式…

gin接收圖片文件,websocet持續返回響應,解決多任務排隊問題

背景 有一個需求是這樣的&#xff0c;前端需要通過http請求的form-data上傳圖片文件&#xff0c;后端接收圖片后調用AI接口執行命令&#xff0c;由于命令執行時間較長&#xff0c;需要持續返回當前任務在全局任務列表中的位置&#xff0c;以便前端即時更新排隊信息。 思考 如…

【源碼】Spring Data JPA原理解析之Repository自定義方法命名規則執行原理(二)

Spring Data JPA系列 1、SpringBoot集成JPA及基本使用 2、Spring Data JPA Criteria查詢、部分字段查詢 3、Spring Data JPA數據批量插入、批量更新真的用對了嗎 4、Spring Data JPA的一對一、LazyInitializationException異常、一對多、多對多操作 5、Spring Data JPA自定…

Oracle中TAF與SCANIP全面解析

TAF (Transparent Application Failover) 概念&#xff1a; TAF是Oracle數據庫提供的一個高級特性&#xff0c;旨在實現應用程序在數據庫連接中斷時的透明重連。它允許應用程序在數據庫故障發生時&#xff0c;無需修改代碼或手動干預&#xff0c;就能自動連接到新的數據庫實例…

Java垃圾回收_1

一、垃圾回收 1.如何判斷對象可以回收 &#xff08;1&#xff09;引用計數法 存在循環引用問題&#xff0c; Java未使用這種算法 在引用計數法中&#xff0c;每個對象都有一個引用計數器&#xff0c;記錄著指向該對象的引用數量。當引用計數器為零時&#xff0c;表示沒有任…