論文閱讀:2024 arxiv Jailbreaking Black Box Large Language Models in Twenty Queries

總目錄 大模型安全相關研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

Jailbreaking Black Box Large Language Models in Twenty Queries

https://www.doubao.com/chat/4008882391220226

https://arxiv.org/pdf/2310.08419

速覽

這篇論文是來自賓夕法尼亞大學的研究人員撰寫的,主要探討大語言模型(LLMs)的安全漏洞問題,提出了一種叫PAIR的算法來進行攻擊測試,相關成果有助于提升大語言模型的安全性。

  1. 研究背景:大語言模型發展迅速,但訓練數據中的不良內容會帶來危害,所以人們會采取措施讓模型生成的內容符合人類價值觀。不過,當前存在兩類越獄攻擊能繞過模型的安全防護機制。prompt - level越獄需要大量人力,token - level越獄需要大量查詢且難以解釋,因此需要新的測試方法。
  2. PAIR算法:PAIR算法旨在平衡現有攻擊方法的弊端,它通過讓兩個黑盒大語言模型(攻擊者模型A和目標模型T)相互對抗來自動生成語義越獄攻擊。具體有四個步驟:攻擊者生成候選提示,目標模型給出響應,對提示和響應進行評分判斷是否越獄,若未越獄則將相關信息反饋給攻擊者進行提示優化。在實現攻擊者模型時,要精心設計系統提示、合理利用聊天歷史和評估改進情況。
  3. 實驗:使用JBB - Behaviors數據集,以Mixtral等模型作為攻擊者,對Vicuna、Llama - 2、GPT - 3.5等多個模型進行攻擊測試。結果顯示,PAIR比現有方法查詢效率高很多,在多個模型上能達到較高的越獄成功率,并且生成的攻擊提示可轉移性強,難以被防御。通過消融實驗發現,Mixtral作為攻擊者性能較好,角色扮演的系統提示最有效。
  4. 局限性和未來工作:PAIR在攻擊經過強安全微調的模型時效果不佳,并且相比基于優化的方案,其可解釋性可能不足。未來可利用該框架生成數據集來微調模型以提高安全性,還可擴展到多輪對話場景。

論文閱讀

在這里插入圖片描述
在這里插入圖片描述

這兩個圖來自論文Jailbreaking Black Box Large Language Models in Twenty Queries,主要展示了大語言模型越獄攻擊的兩種類型,以及PAIR算法的運行機制。通過直觀的圖示,有助于理解不同越獄攻擊的特點和PAIR算法的工作流程。

  • Figure 1:Prompt- vs. token-level jailbreaks:該圖對比了兩種針對大語言模型的越獄攻擊方式。
    • 令牌級越獄(Token - Level Jailbreak):位于圖的上半部分,以生成一篇關于如何進行內幕交易并避免被抓的教程為例。在這種攻擊中,會在輸入里使用一些類似LaTeX語法符號等奇怪字符組合,通過優化輸入的令牌集來嘗試突破模型的安全限制,但這種方式需要向目標模型進行大量查詢,而且對于人類來說很難理解其原理。
    • 提示級越獄(Prompt - Level Jailbreak):位于圖的下半部分,同樣以生成如何進行內幕交易并避免被抓的教程為例。PAIR生成的提示級越獄攻擊是通過精心設計語義上有意義的提示,利用社會工程學的思路,誘使大語言模型輸出不良內容。這種方式更注重提示的語義和邏輯,相對令牌級越獄更容易理解。
  • Figure 2:PAIR schematic:該圖展示了PAIR算法的基本原理。
    • 攻擊者與目標模型對抗:PAIR算法讓兩個大語言模型相互對抗,一個作為攻擊者(Attacker),另一個作為目標模型(Target)。攻擊者的任務是生成能夠讓目標模型越獄的對抗性提示(adversarial prompts) 。
    • 迭代優化提示:攻擊者不斷嘗試生成不同的提示給目標模型,目標模型根據收到的提示給出相應的回應。然后,對提示和回應進行評估打分,如果沒有成功讓目標模型越獄(即分數未達到越獄標準),就把相關信息反饋給攻擊者。攻擊者根據這些反饋,優化生成新的提示,再次發送給目標模型,如此反復迭代,直到找到能讓目標模型越獄的提示為止。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/79064.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/79064.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/79064.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

零基礎學指針2

零基礎學指針---大端和小端 零基礎學指針---什么是指針 零基礎學指針---取值運算符*和地址運算符& 零基礎學指針---結構體大小 零基礎學指針5---數據類型轉換 零基礎學指針6---指針數組和數組指針 零基礎學指針7---指針函數和函數指針 零基礎學指針8---函數指針數組…

《Python實戰進階》 No46:CPython的GIL與多線程優化

Python實戰進階 No46:CPython的GIL與多線程優化 摘要 全局解釋器鎖(GIL)是CPython的核心機制,它保證了線程安全卻限制了多核性能。本節通過concurrent.futures、C擴展優化和多進程架構,實戰演示如何突破GIL限制&#…

Golang實現函數默認參數

golang原生不支持默認參數 在日常開發中,我們有時候需要使用默認設置,但有時候需要提供自定義設置 結構體/類,在Java我們可以使用無參、有參構造函數來實現,在PHP中我們也可以實現(如 public function xxx($isCName false, $sec…

Chrome 136 H265 WebRTC 支持 正式版本已包含

時間過的真快,去年8月份寫過一篇文章介紹如何加參數方式啟動Chrome H265 硬件解碼器, 現在的136版本已經包含在內,至此WebRTC已經完整包含了H264和H265解碼器,這個事情應該從2015年開始,Google強推VP9 AV1&#xff0c…

12.SpringDoc OpenAPI 功能介紹(用于生成API接口文檔)

12.SpringDoc OpenAPI 功能介紹(用于生成API接口文檔) SpringDoc OpenAPI 是一個基于 OpenAPI 3.0/3.1 規范的工具,用于為 Spring Boot 應用生成 API 文檔。它是 springfox(Swagger 2.x)的現代替代方案,完全支持 Spring Boot 3.x…

CentOS Linux 環境二進制方式安裝 MySQL 5.7.32

文章目錄 安裝依賴包新建用戶解壓初始化配置文件啟動服務登錄MySQL修改密碼停止數據庫 安裝依賴包 yum -y install libaio perl perl-devel libncurses* autoconf numactl新建用戶 useradd mysql解壓 tar xf mysql-5.7.32-linux-glibc2.12-x86_64.tar.gz mv mysql-5.7.32-l…

Webug4.0通關筆記06- 第8關CSV注入

目錄 CSV注入漏洞 1.CSV漏洞簡介 2.漏洞原理 (1)公式執行 (2)DDE機制 (3)OS命令執行 3.漏洞防御 第08關 CSV注入 1.打開靶場 2.修改源碼 3.注入命令 4.導出excel表 5.打開excel表 CSV注入漏洞…

Windows和 macOS 上安裝 `nvm` 和 Node.js 16.16.0 的詳細教程。

Windows和 macOS 上安裝 nvm 和 Node.js 16.16.0 的詳細教程。 --- ### 1. 安裝 nvm(Node Version Manager) nvm 是一個 Node.js 版本管理工具,可以輕松安裝和切換不同版本的 Node.js。 #### Windows 安裝 nvm 1. **下載 nvm 安裝包**&#x…

[特殊字符] 藍橋杯省賽全解析:含金量、獲獎難度、參賽意義與發展價值全面剖析

藍橋杯省賽剛剛落幕,不論你是剛參加完比賽的同學,還是還在觀望是否值得投入時間去準備藍橋杯的學生,相信你都關心: 藍橋杯到底值不值得參加? 獲獎難不難?含金量如何? 和其它算法競賽相比有什么…

ASP.NET MVC后端控制器用模型 接收前端ajax數據為空

1、前端js代碼 如下: const formData {DeptName: D001,Phone: 12345678900 };$.ajax({url: "/Phone/SavePhone1",type: "POST",contentType: "application/json",data: JSON.stringify(formData), //必須要JSON.stringifysuccess:…

擁抱 Kotlin Flow

1. 引言 Kotlin Flow 是 Kotlin 協程生態中處理異步數據流的核心工具,它提供了一種聲明式、輕量級且與協程深度集成的響應式編程模型。與傳統的 RxJava 相比,Flow 更簡潔、更易于維護,尤其在 Android 開發中已成為主流選擇。本文將從基礎概念…

精益數據分析(34/126):深挖電商運營關鍵要點與指標

精益數據分析(34/126):深挖電商運營關鍵要點與指標 在創業和數據分析的學習之旅中,我們都在不斷探尋如何讓業務更上一層樓。今天,我依舊帶著和大家共同進步的想法,深入解讀《精益數據分析》中電商運營的關…

Learning vtkjs之ImageCropFilter

過濾器 圖片數據體積裁剪 介紹 vtkImageCropFilter可以裁剪vtkImageData。這只適用于IJK對齊的平面。 請注意,由于CPU限制的裁剪,這在大型數據集上會很慢。 效果 核心代碼 需要實現這個代碼主要邏輯 1、設定的crop的包圍盒 其實主要是IMax IMin JM…

深入理解 C++11 delete 關鍵字:禁用函數的藝術

一、什么是 delete 關鍵字 C11 引入的 delete 關鍵字是一種??顯式禁用函數??的語法機制。它允許開發者主動阻止特定函數的使用,比傳統的私有化聲明更直觀、更安全,且能在編譯期捕獲更多潛在錯誤。 二、為什么需要 delete? 1. 傳統方式…

深度剖析!GPT-image-1 API 開放對 AI 繪畫技術生態的沖擊!

4月24日凌晨,OpenAI正式發布了全新的圖像生成模型“gpt-image-1”,并通過API向全球開發者開放使用,這意味著其GPT-4o的圖像生成能力正式向開發者開放! 在這之前,GPT-4o的圖像生成功能于今年3月25日由 OpenAI 創始人兼 …

扣子流程圖批量導入飛書多維表格

文章目錄 整體結構分步驟進行處理1. 程序代碼處理2. 多維表格配置 整體結構 整個代碼塊結構如下: 首先,我們從其他流程中拿到一個數據列表,通過一個循環體,將每一個部分的內容都通過python代碼整理后,使用【插件】的…

【安全掃描器原理】端口掃描

【安全掃描器原理】端口掃描 1.端口掃描基本原理2.TCP掃描3.UDP掃描4.手工掃描1.端口掃描基本原理 以TCP端口為例,其原理是當一個主機向遠端一個服務器的某一個端口提出建立連接的請求,如果對方有此項服務,就會同意建立連接,如果對方未安裝此項服務時,則不會同意建立連接…

FastGPT部署的一些問題整理

在B站學習 圖靈程序員-諸葛 的LangChain快速入門課程之《部署FastGPT構建本地應用》。在我學習課程跟著老師實踐的過程中,踩了一些坑。這篇文章以問答的形式記錄一下學習中的一些問題,主要面向的讀者是,在學習同樣的課程的和部署FastGPT遇到各…

如何查看k8s獲取系統是否清理過docker鏡像

k8s集群某個節點down掉后,pod就會漂移到其他節點,但是在該節點卻又執行了拉取鏡像操作,明明該節點之前部署過該容器的,不知為什么又拉取了一次鏡像(鏡像拉取配置的優先使用本地),所以懷疑是觸發…

聚焦智能體未來,領馭科技在微軟創想未來峰會大放異彩

2025年4月23日,微軟創想未來峰會在北京中關村國際創新中心盛大舉行。作為微軟中國南區核心合作伙伴及HKCSP 1T首批授權云服務商,深圳領馭科技有限公司受邀參會,攜瀚鵬工業AI應用解決方案亮相峰會,與全球AI領袖及行業精英共話智能體…