ACL 2024 | 如何避免LLM生成有毒回復？基于知識編輯的大模型祛毒初探

論文鏈接：

https://arxiv.org/abs/2403.14472

代碼鏈接：

https://github.com/zjunlp/EasyEdit

Benchmark:

https://huggingface.co/datasets/zjunlp/SafeEdit

摘要

當下大模型（LLMs）雖然取得了顯著的成功，但在實際應用中依然面臨著泄露隱私、偏見、以及惡意濫用等安全問題 [1]。常用的 SFT、DPO 等對齊方法可以使 LLMs 拒絕回復明顯的有害請求（如 Where can I sell stolen art pieces？），但仍較難防御惡意的越獄攻擊 [2]，如圖 1 所示。

那么我們能否換一個角度，通過精準地修改 LLMs 的毒性區域以避免 LLMs 生成有毒回復？知識編輯致力于通過少量數據精準地修改 LLMs 的特定行為 [3]，直覺上知識編輯在 LLMs 祛毒場景存在一定的潛力。

鑒于此，本文構建了一個包含 9 類不安全場景，涵蓋多種越獄攻擊的數據集 SafeEdit，并嘗試探索知識編輯方法在大模型祛毒場景的有效性。隨后，本文提出了一個簡單有效的祛毒基線方法 DINM，該方法首先識別 LLMs 的毒性區域，隨后僅基于一條典型數據樣例擦除該毒性區域。

有趣的是，通過分析 SFT，DPO 以及 DINM 的祛毒機理發現：SFT 和 DPO 可能僅抑制了 LLM 毒性區域的激活；而 DINM 在一定程度上減輕了毒性區域參數的毒性并進行了永久性的削弱，還具備一定程度的泛化性。

▲ 圖1 通過知識編輯祛毒

祛毒基準

本文構建了一個涵蓋 9 類不安全場景，包含 48 個越獄模板的數據集 SafeEdit，如圖 2 所示。SafeEdit 可廣泛應用于微調、對齊（如 DPO）以及知識編輯等多種方法。

此外，本文將評價指標擴展為祛毒效果和通用能力兩個方面。具體來說祛毒效果包括當前的祛毒成功率（DS）和在 OOD 數據上的泛化性（DG）。通用能力衡量祛毒方法可能帶來的副作用，比如拒絕用戶的無害請求，具體包括回復內容的流暢性（Fluency）、問答能力（KQA）以及總結能力（Csum）。

▲ 圖2 SafeEdit 數據集構建流程

方法動機

以往的知識編輯方法主要針對事實知識，需要借助明確的實體才能編輯成功。然而，LLMs 的祛毒任務中的輸入通常含有多個句子，無法確定明確的實體字符。受術中神經電生理監測（Intraoperative Neurophysiological Monitoring）對手術操作過程中可能影響到的神經組織進行監測以達到避免或減小損傷的啟發，本文首先定位 LLMs 的毒性區域，然后基于一條數據精確地修改該毒性區域的參數，如圖 3 所示。

具體來說，毒性區域的定位如下：對于一個惡意輸入，對應著一個安全回復和一個不安全回復，分別把、輸入最初的基座 LLM，追蹤他們前向傳播過程中在各層的 Hidden State。本文認為二者語義差距最大的層即為毒性層，并把毒性層 MLP 的第二層作為毒性區域（該定位方式僅為毒性區域假說，嚴格的講存在更優的毒性區域定位方法）。

▲ 圖3 DINM 方法流程

實驗結果

在知識編輯設定下的實驗結果如下表所示，可以初步得出如下結論：

知識編輯方法在 LLMs 祛毒領域展現出一定程度的潛力。
DINM 取得了較好的祛毒能力和泛化性。
知識編輯雖然會損害模型的通用能力，但在相對較小的范圍內。
精準定位可能是知識編輯在祛毒領域取得成功的關鍵。

機理分析

進一步探究了知識編輯方法 DINM 和常用的 SFT、DPO [4] 等方法的內部祛毒機理。

（1）首先評估了 DINM、SFT、DPO、Self-Reminder [5] 等方法的性能，如下表所示。DINM 雖然僅使用了一條數據（注意不同數據樣例的祛毒和通用能力影響存在顯著差異，因此本文匯報了標準差）進行祛毒過程，但仍可以媲美甚至超過 DPO。

（2）量化了經過 DINM、SFT、DPO 這三種方法祛毒后模型毒性區域的毒性大小，以及進入該毒性區域的信息流。如圖 4 所示，SFT 和 DPO 幾乎沒有改變（0.49% 和 0.6%）毒性區域的毒性大小，反而是流入該毒性區域的信息流發生了較大的偏移。與之相反，DINM 沒有改變流入該毒性區域的信息流，而是使毒性區域的毒性降低了 2.72%。

▲ 圖4 DINM、SFT、DPO 的祛毒量化

因此如圖 5 所示，本文猜測 SFT 和 DPO 可能只是抑制了 LLM 毒性區域的激活；而 DINM 在一定程度上減輕了毒性參數的毒性并進行了永久性的削弱。

▲ 圖5 DINM、SFT、DPO 的祛毒機理

總結

總的來說，本文構建了 SafeEdit，一個通過知識編輯為 LLMs 祛毒的新基準，并提出了一種簡單的大模型祛毒基線 DINM。此外，還分析不同祛毒模型背后可能的機制，并觀察到知識編輯技術展現出通過擦除有毒區域從而可能獲得永久解毒的潛力。

不足與未來的方向

本文所提的方法因定位的局限性，僅能擦除部分有毒區域（且為了平衡通用能力不可能徹底擦除干凈），因此模型仍存在有毒的風險，未來可以研究更加精準的定位方法，以及更加有效的參數修改方法。特別地，本文的知識編輯方法可以和對齊方法進行互補以更好地實現大模型祛毒。

本文提出 DINM 面臨的一個缺點是不同樣本的選擇導致的編輯效果差異較大（有一些樣本對模型通用性能影響較大，需篩選合適的樣本），且編輯后的模型經常會重復一段話（部分通用能力損失），這些都是未來改進的方向。

參考文獻

[1] A survey of safety and trustworthiness of large language models through the lens of verification and validation.

[2] Defending large language models against jailbreaking attacks through goal prioritization, ACL, 2024

[3] Editing large language models: Problems, methods, and opportunities. EMNLP, 2023

[4] Direct preference optimization: Your language model is secretly a reward model. NIPS, 2023

[5] Defending chatgpt against jailbreak attack via self-reminders. Nature Machine Intelliegence, 2023

更多閱讀

#投稿?通道#

?讓你的文字被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝?稿件基本要求：

? 文章確系個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標注?

? 稿件建議以?markdown?格式撰寫，文中配圖以附件形式發送，要求圖片清晰，無版權問題

? PaperWeekly 尊重原作者署名權，并將為每篇被采納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬?投稿通道：

? 投稿郵箱：hr@paperweekly.site?

? 來稿請備注即時聯系方式（微信），以便我們在稿件選用的第一時間聯系作者

? 您也可以直接添加小編微信（pwbot02）快速投稿，備注：姓名-投稿

△長按添加PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/20074.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/20074.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/20074.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！