論文閱讀:2024 arxiv AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks

總目錄 大模型安全相關研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks

https://arxiv.org/pdf/2403.04783#page=9.14

https://www.doubao.com/chat/14064782214316034

在這里插入圖片描述

文章目錄

  • 速覽
  • 論文翻譯
    • AutoDefense:多智能體大語言模型抵御越獄攻擊
    • 摘要
    • 1 引言
    • 2 相關工作
    • 6 結論

速覽

這篇文檔介紹了一種叫“AutoDefense”的新方法,專門用來保護大語言模型(比如GPT-3.5)不被“越獄攻擊”誤導而產生有害內容。

簡單說,“越獄攻擊”就是有人故意設計特殊提問,繞過大語言模型的安全機制,讓它說出違法、有害的信息(比如教人造假證、做危險物品)。而AutoDefense就像一個“安全過濾器”,在模型給出回答后,先檢查這個回答是否有害,再決定要不要展示給用戶。

它的核心是“多智能體協作”:把檢查工作拆成幾個小任務,讓不同的AI角色分工完成。比如:

  • 一個角色負責分析回答的真實意圖(比如“教造炸彈”的意圖是有害的);
  • 一個角色負責推測用戶最初可能的提問(比如從“怎么獲取炸藥”推測用戶想做危險事);
  • 最后一個角色綜合前兩者的結果,判斷這個回答能不能給用戶看。

實驗顯示,這種方法效果很好:用LLaMA-2-13b(一個開源模型)組成3個智能體,能把GPT-3.5的被攻擊成功率從55.74%降到7.95%,同時不影響正常提問的回答質量(比如問“怎么安全旅行”不會被誤判)。

另外,它還很靈活:可以加入其他安全工具(比如Llama Guard)當第四個角色,進一步降低誤判率;而且不管保護哪個大模型(比如GPT-3.5、Vicuna),都能用同一套AutoDefense系統。

簡單說,AutoDefense就像給大語言模型加了一道“智能安檢”,既能擋住壞心思,又不耽誤正常使用。

論文翻譯

AutoDefense:多智能體大語言模型抵御越獄攻擊

摘要

盡管大型語言模型(LLMs)經過了大量的道德對齊預訓練以防止生成有害信息,但它們仍然容易受到越獄攻擊。在本文中,我們提出了AutoDefense,這是一種多智能體防御框架,用于過濾大型語言模型產生的有害響應。憑借響應過濾機制,我們的框架能有效抵御各種越獄攻擊提示,并且可用于保護不同的目標模型。AutoDefense為大語言模型智能體分配不同角色,讓它們協作完成防御任務。任務分工提高了大語言模型整體遵循指令的能力,并使其他防御組件能作為工具融入其中。借助AutoDefense,小型開源語言模型可以作為智能體,保護更大的模型免受越獄攻擊。我們的實驗表明,AutoDefense能有效抵御各種越獄攻擊,同時不影響對正常用戶請求的響應表現。例如,我們使用由LLaMA-2-13b(一個開源模型)組成的3智能體系統,將GPT-3.5的被攻擊成功率從55.74%降至7.95%。我們的代碼和數據可在https://github.com/XHMY/AutoDefense公開獲取。

1 引言

大型語言模型(LLMs)在解決各類任務方面展現出了卓越的能力[1,48]。然而,大型語言模型的快速發展引發了嚴重的倫理擔憂,因為它們很容易應用戶要求生成有害響應[44,33,27]。為了與人類價值觀保持一致,大型語言模型經過訓練,會遵守相關政策,拒絕潛在的有害請求[49]。盡管在預訓練和微調大型語言模型以提高其安全性方面付出了大量努力,但最近出現了對大型語言模型的惡意濫用,即所謂的越獄攻擊[46,38,6,28,8,52]。在這種攻擊中,人們設計特定的越獄提示,旨在讓經過安全訓練的大型語言模型產生不期望的有害行為。

人們已經做出了各種嘗試來緩解越獄攻擊。像Llama Guard[16]這樣的有監督防御方法,會產生高昂的訓練成本。其他方法會干擾響應生成[51,49,37,13,35],這可能難以應對攻擊方法的變化,同時由于修改了正常用戶的提示,還會影響響應質量。盡管大型語言模型在適當的指導和多步推理下能夠識別風險[49,19,14],但這些方法在很大程度上依賴于大型語言模型遵循指令的能力,這使得利用更高效、能力較弱的開源大型語言模型來完成防御任務變得具有挑戰性。

迫切需要開發既能抵御各種越獄攻擊變體,又與模型無關的防御方法。AutoDefense采用響應過濾機制來識別并過濾有害響應,這種機制不會影響用戶輸入,同時能有效應對各種越獄攻擊。該框架將防御任務分解為多個子任務,并分配給不同的大語言模型智能體,充分利用了大型語言模型固有的對齊能力。周等人[55]、霍特等人[21]的研究也證明了類似的任務分解思路是有用的。這使得每個智能體能夠專注于防御策略的特定部分,從分析響應背后的意圖到最終做出判斷,這有助于激發發散性思維,并通過提供不同的視角提高大型語言模型對內容的理解[26,12,48,23]。這種集體努力確保防御系統能夠對內容是否符合規范以及是否適合呈現給用戶做出公正判斷。AutoDefense作為一個通用框架,可以靈活地將其他防御方法作為智能體整合進來,從而便于利用現有的防御手段。

我們通過大量的有害提示和正常提示對AutoDefense進行了評估,展示了它相對于現有方法的優越性。我們的實驗表明,我們的多智能體框架顯著降低了越獄嘗試的攻擊成功率(ASR),同時對安全內容保持較低的誤報率。這種平衡凸顯了該框架在識別和防范惡意意圖的同時,不會削弱大型語言模型對常規用戶請求的實用性。

為了驗證多智能體系統的優勢,我們使用不同的大型語言模型在不同的智能體配置下進行了實驗。我們還在A.6節中展示了AutoDefense在各種攻擊設置下具有更強的穩健性。我們發現,使用LLaMA-2-13b(一種成本低、推理速度快的小型模型)的AutoDefense能夠持續實現具有競爭力的防御性能。我們使用由LLaMA-2-13b組成的三智能體防御系統,將GPT-3.5的攻擊成功率從55.74%降至7.95%。防御過濾的整體準確率為92.91%,這確保了對正常用戶請求的影響最小。我們還表明,AutoDefense可以擴展納入Llama Guard[16]作為第四個智能體。它將使用LLaMA-2-7b的防御系統的誤報率從37.32%顯著降至6.80%,同時保持攻擊成功率處于有競爭力的水平。我們的研究結果表明,多智能體方法有望提高大型語言模型抵御越獄攻擊的穩健性,并且能夠靈活地適用于各種大型語言模型,還能整合其他防御組件。

在這里插入圖片描述
圖1:AutoDefense抵御越獄攻擊的示例。在這個示例中,為了從大語言模型助手那里得到目標答案而不被拒絕,用戶通過抑制拒絕機制構建了一個越獄提示。在生成的響應呈現給用戶之前,它會先被發送到AutoDefense。只要我們的防御系統判定該響應無效,就會將其替換為明確的拒絕信息。

2 相關工作

越獄攻擊。最近的研究讓我們對經過安全訓練的大型語言模型(LLMs)在越獄攻擊面前的脆弱性有了更深入的認識[46,27,38,9,50]。越獄攻擊通過精心設計的提示來繞過安全機制,操縱大型語言模型生成不當內容。特別是,Wei等人[46]假設競爭目標和不匹配的泛化是越獄攻擊下的兩種失效模式[4,32,3,33]。Zou等人[56]提出結合貪婪搜索和基于梯度的搜索技術來自動生成通用的對抗性后綴。這種攻擊方法也被稱為令牌級越獄,其中注入的對抗性字符串通常對提示缺乏語義意義[6,20,30,39]。還存在其他自動越獄攻擊[31,6,34],例如提示自動迭代優化(PAIR),它利用大型語言模型來構建越獄提示。AutoDefense僅使用響應進行防御,這使得它對主要影響提示的攻擊方法不敏感。

防御方法。基于提示的防御通過修改原始提示來控制響應生成過程。例如,Xie等人[49]使用專門設計的提示來提醒大型語言模型不要生成有害或誤導性的內容。Liu等人[29]使用大型語言模型壓縮提示以緩解越獄攻擊。Zhang等人[51]利用大型語言模型分析給定提示的意圖。為了抵御令牌級越獄,Robey等人[37]對任何輸入提示構建多個隨機擾動,然后匯總它們的響應。困惑度過濾[2]、釋義[17]和重新令牌化[5]也是基于提示的防御方法,其目的是使對抗性提示失效。相比之下,基于響應的防御首先生成響應,然后評估該響應是否有害。例如,Helbling等人[14]利用大型語言模型的內在能力來評估響應。Wang等人[43]根據響應推斷潛在的惡意輸入提示。Zhang等人[53]通過讓大型語言模型重復其響應,使其意識到潛在的危害。內容過濾方法[10,22,11]也可以用作基于響應的防御方法。Llama Guard[16]和Self-Guard[45]是有監督模型,能夠將提示-響應對分類為安全和不安全。在這些方法中,防御用的大型語言模型和被保護的大型語言模型是分離的,這意味著一個經過充分測試的防御用大型語言模型可以用來保護任何大型語言模型。AutoDefense框架利用大型語言模型的響應過濾能力來識別由越獄提示引發的不安全響應。其他方法,如Zhang等人[52]、Wallace等人[42],利用目標或指令優先級的思想,使大型語言模型對惡意提示更具穩健性。

多智能體大語言模型系統。以大語言模型作為自主智能體的核心控制器是一個快速發展的研究領域。為了增強大型語言模型的問題解決和決策能力,人們提出了由大語言模型驅動的智能體組成的多智能體系統[48]。最近的研究表明,多智能體辯論是鼓勵發散性思維并提高真實性和推理能力的有效方法[26,12]。例如,CAMEL展示了角色扮演如何用于讓聊天智能體相互交流以完成任務[23],而MetaGPT則表明多智能體對話框架可以幫助實現自動軟件開發[15]。我們的多智能體防御框架是使用AutoGen[48]實現的,AutoGen是一個用于構建大語言模型應用程序的通用多智能體框架。

6 結論

在這項研究中,我們提出了AutoDefense,這是一種用于緩解大語言模型越獄攻擊的多智能體防御框架。基于響應過濾機制,我們的防御系統采用多個大語言模型智能體,每個智能體都承擔專門角色,共同分析有害響應。我們發現,思維鏈指令在很大程度上依賴于大語言模型遵循指令的能力,而我們的目標是那些效率較高但遵循指令能力較弱的大語言模型。為解決這一問題,我們發現多智能體方法是一種自然的方式,它能讓每個具有特定角色的大語言模型智能體專注于特定的子任務。因此,我們提出使用多個智能體來解決子任務。我們的研究表明,由LLaMA-2-13B模型支持的三智能體防御系統能夠有效降低最先進的大語言模型越獄攻擊的成功率。我們的多智能體框架在設計上還具有靈活性,能夠整合各種類型的大語言模型作為智能體來完成防御任務。特別是,我們證明了如果將其他經過安全訓練的大語言模型(如Llama Guard)整合到我們的框架中,誤報率可以進一步降低,這表明AutoDefense作為一種有前景的抵御越獄攻擊的防御方法,在不犧牲模型對正常用戶請求的響應性能的前提下具有優越性。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/91053.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/91053.shtml
英文地址,請注明出處:http://en.pswp.cn/web/91053.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Spring Boot 請求限流實戰:基于 IP 的高效防刷策略

前言 互聯網流量就像洪水猛獸,來得快去得也快。如果不給接口裝個“限速閥”,服務器瞬間被刷爆,宕機成真,根本不稀奇。沒有限流機制,系統就像沒有剎車的賽車,跑得太快反而翻車。為了保證服務穩定、響應迅速,保護后端資源不被惡意請求掏空,限流成必備武器。 本篇文章將…

機器學習第二課之線性回歸的實戰技巧

1 線性回歸簡介 1 線性回歸應用場景 線性回歸是一種用于分析自變量與連續型因變量之間線性關系的模型,其核心是通過擬合線性方程(y w_1x_1 w_2x_2 ... w_nx_n b)來預測因變量或解釋自變量的影響。由于其簡單、可解釋性強的特點,線性回歸…

【時時三省】(C語言基礎)指向指針數據的指針變量

山不在高,有仙則名。水不在深,有龍則靈。 ----CSDN 時時三省在了解了指針數組的基礎上,需要了解指向指針數據的指針變量,簡稱為指向指針的指針。怎樣定義一個指向指針數據的指針變量呢?下面定義一個指向指針數據的指針變量&#…

前端css 的固定布局,流式布局,彈性布局,自適應布局,響應式布局

1. 固定布局容器的寬高是固定的,單位一般是px,不會隨著屏幕大小變化2.流式布局(百分比布局/vw)vw: 視圖寬度的百分比,1vw代表視窗寬度的1% vh: 視圖高度的百分比,1vh代表視窗高度的1%特點: 寬度隨屏幕大小變化單位用%或vw 高度通常…

python學習DAY26打卡

DAY 26 函數專題1:函數定義與參數 內容: 函數的定義 變量作用域:局部變量和全局變量 函數的參數類型:位置參數、默認參數、不定參數 傳遞參數的手段:關鍵詞參數 傳遞參數的順序:同時出現三種參數類型時…

echarts圖表點擊legend報錯問題(折線圖)

原因是&#xff1a;echats 實例&#xff0c;不能夠用響應式變量去接收。<template><div class"attendance-chart"><div v-if"loading" class"loading">加載中...</div><div v-else-if"error" class"e…

Django模型開發:模型字段、元數據與繼承全方位講解

文章目錄一、模型字段類型詳解Django 與 MySQL 字段類型映射整數類型深度對比二、常用字段選項null 與 blank 的區別注釋與幫助文本默認值設置日期時間特殊選項選項列表&#xff08;choices&#xff09;三、模型元數據與方法模型 Meta 類模型管理器&#xff08;Manager&#xf…

墨者:SQL注入實戰-MySQL

1. 墨者學院&#xff1a;SQL注入實戰-MySQL&#x1f680; 2. 實訓重點目標? 目標一&#xff1a; 了解sqlmap的使用及其tamper插件的使用&#xff1b; 目標二&#xff1a; 了解base64編碼及解碼。 3. 解題方向&#x1f50d; 目標網站的id參數通過Base64編碼傳輸&#xff0c;…

Milvus 實戰全流程

&#x1f4da; 學習路徑總覽1. Milvus 基礎知識什么是向量數據庫&#xff1f;Milvus 的核心概念&#xff08;collection、field、index、partition、segment&#xff09;Milvus 和 Faiss、Annoy、HNSW 的區別2. 安裝與部署Docker 快速部署 Milvus&#xff08;推薦&#xff09;本…

Mysql數據庫基礎(入門)

目錄 一.認識Sql 1.什么是Sql 2.Sql的作用 3.Sql通用語法 4.Sql分類 二.數據庫的操作&#xff08;DDL&#xff09; 1.創建數據庫 2.顯示/使用數據庫 3.修改數據庫 4.刪除數據庫 三.常用數據類型 1.數值類型 2.字符串類型 3.日期類型 4.詳細的數據類型 四.表的操…

MySQL 鎖機制 15 連問 · 面試速答版

一、腦圖&#xff1a;鎖全景&#xff08;先記結構&#xff0c;再填細節&#xff09; 鎖層級 ├─ 表鎖 │ ├─ 意向鎖 IS / IX │ └─ 表鎖 READ / WRITE └─ 行鎖├─ 記錄鎖 Record├─ 間隙鎖 Gap└─ 臨鍵鎖 Next-Key二、15 問 15 答&#xff08;面試官一問一…

【Linux】發展歷程

很高興為您詳細介紹Linux操作系統的詳細發展歷程。Linux是一個自由和開放源代碼的操作系統內核&#xff0c;由林納斯托瓦茲&#xff08;Linus Torvalds&#xff09;于1991年首次發布。以下是Linux操作系統的主要發展里程碑&#xff1a;1. Linux 0.01 (1991)發布日期&#xff1a…

LNMP架構+wordpress實現動靜分離

WordPress簡稱WP&#xff0c;最初是一款博客系統&#xff0c;后逐步演化成一款免費的CMS&#xff08;內容管理系統/建站系統&#xff09;。 WordPress網站的適用場景&#xff1a; 博客 企業官網 作品集網站 電商平臺 線上教育系統 論壇和社群網站 甚至會員系統、訂閱內容…

智慧燈桿:不止于照明,塔能科技的城市感知網絡野心

當夜幕悄然降臨&#xff0c;城市里的路燈便依次亮了起來&#xff0c;它們可不單單照亮了行人前行的路以及車輛行駛的道路&#xff0c;實際上還在悄無聲息地經歷著一場變革。現如今的路燈&#xff0c;早已不再僅僅充當單純的照明工具這么一個角色了&#xff0c;而是逐漸轉變成了…

【Linux內核模塊】調試技巧

內核模塊開發最讓人頭疼的不是寫代碼&#xff0c;而是調試 —— 代碼編譯通過了&#xff0c;加載后卻要么沒反應&#xff0c;要么直接讓系統崩潰。這就像在黑屋子里修機器&#xff0c;看不見摸不著。其實內核調試有一套成熟的工具箱&#xff0c;掌握這些工具和技巧&#xff0c;…

RK3568筆記九十一:QT環境搭建

若該文為原創文章,轉載請注明原文出處。 記錄按照正點原子給的手冊搭建QT環境 參考《09【正點原子】ATK-DLRK3568_Qt開發環境搭建V1.2.pdf》 一、安裝 1、下載 https://mirrors.sau.edu.cn/qt/archive/online_installers/4.6/qt-unified-linux-x64-4.6.0-online.run 2、賦…

面試實戰,問題十六,Java面試,消息隊列,如何避免消息重復消費,怎么回答

在Java面試中&#xff0c;關于消息隊列如何防止消息被重復消費的問題&#xff0c;可以從以下幾個方面進行回答&#xff0c;結合系統架構設計、消息隊列機制和業務邏輯處理&#xff0c;確保在不同場景下實現消息的冪等性。 1. 消息隊列重復消費的根本原因 消息重復消費的根本原因…

PDF轉圖片實用指南:如何批量高效轉換?

將PDF轉換為圖片后&#xff0c;可以更方便地在演示文稿、網頁或電子相冊中使用這些資料&#xff0c;以便更好地展示信息。它 是一款支持多文件批量轉換的工具&#xff0c;可將多個 PDF 文檔一鍵轉換為圖片格式。雖然界面為英文&#xff0c;但操作簡單&#xff0c;不影響使用。你…

走入Linux的世界:編輯器Vim

嘿&#xff0c;各位技術潮人&#xff01;好久不見甚是想念。生活就像一場奇妙冒險&#xff0c;而編程就是那把超酷的萬能鑰匙。此刻&#xff0c;陽光灑在鍵盤上&#xff0c;靈感在指尖跳躍&#xff0c;讓我們拋開一切束縛&#xff0c;給平淡日子加點料&#xff0c;注入滿滿的pa…

PyTorch中神經網絡的模型構建

要構建自定義模型&#xff0c;需完成兩個核心步驟&#xff1a;繼承 nn.Module 類&#xff1b;重載 __init__ 方法&#xff08;初始化&#xff09;和 forward 方法&#xff08;前向計算&#xff09; 神經網絡的構造 初始化方法&#xff08;__init__&#xff09; def __init__…