論文閱讀：2024 arxiv Jailbreaking Black Box Large Language Models in Twenty Queries

總目錄大模型安全相關研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

Jailbreaking Black Box Large Language Models in Twenty Queries

https://www.doubao.com/chat/4008882391220226

https://arxiv.org/pdf/2310.08419

速覽

這篇論文是來自賓夕法尼亞大學的研究人員撰寫的，主要探討大語言模型（LLMs）的安全漏洞問題，提出了一種叫PAIR的算法來進行攻擊測試，相關成果有助于提升大語言模型的安全性。

研究背景：大語言模型發展迅速，但訓練數據中的不良內容會帶來危害，所以人們會采取措施讓模型生成的內容符合人類價值觀。不過，當前存在兩類越獄攻擊能繞過模型的安全防護機制。prompt - level越獄需要大量人力，token - level越獄需要大量查詢且難以解釋，因此需要新的測試方法。
PAIR算法：PAIR算法旨在平衡現有攻擊方法的弊端，它通過讓兩個黑盒大語言模型（攻擊者模型A和目標模型T）相互對抗來自動生成語義越獄攻擊。具體有四個步驟：攻擊者生成候選提示，目標模型給出響應，對提示和響應進行評分判斷是否越獄，若未越獄則將相關信息反饋給攻擊者進行提示優化。在實現攻擊者模型時，要精心設計系統提示、合理利用聊天歷史和評估改進情況。
實驗：使用JBB - Behaviors數據集，以Mixtral等模型作為攻擊者，對Vicuna、Llama - 2、GPT - 3.5等多個模型進行攻擊測試。結果顯示，PAIR比現有方法查詢效率高很多，在多個模型上能達到較高的越獄成功率，并且生成的攻擊提示可轉移性強，難以被防御。通過消融實驗發現，Mixtral作為攻擊者性能較好，角色扮演的系統提示最有效。
局限性和未來工作：PAIR在攻擊經過強安全微調的模型時效果不佳，并且相比基于優化的方案，其可解釋性可能不足。未來可利用該框架生成數據集來微調模型以提高安全性，還可擴展到多輪對話場景。

論文閱讀

在這里插入圖片描述

這兩個圖來自論文Jailbreaking Black Box Large Language Models in Twenty Queries，主要展示了大語言模型越獄攻擊的兩種類型，以及PAIR算法的運行機制。通過直觀的圖示，有助于理解不同越獄攻擊的特點和PAIR算法的工作流程。

Figure 1：Prompt- vs. token-level jailbreaks：該圖對比了兩種針對大語言模型的越獄攻擊方式。
- 令牌級越獄（Token - Level Jailbreak）：位于圖的上半部分，以生成一篇關于如何進行內幕交易并避免被抓的教程為例。在這種攻擊中，會在輸入里使用一些類似LaTeX語法符號等奇怪字符組合，通過優化輸入的令牌集來嘗試突破模型的安全限制，但這種方式需要向目標模型進行大量查詢，而且對于人類來說很難理解其原理。
- 提示級越獄（Prompt - Level Jailbreak）：位于圖的下半部分，同樣以生成如何進行內幕交易并避免被抓的教程為例。PAIR生成的提示級越獄攻擊是通過精心設計語義上有意義的提示，利用社會工程學的思路，誘使大語言模型輸出不良內容。這種方式更注重提示的語義和邏輯，相對令牌級越獄更容易理解。
Figure 2：PAIR schematic：該圖展示了PAIR算法的基本原理。
- 攻擊者與目標模型對抗：PAIR算法讓兩個大語言模型相互對抗，一個作為攻擊者（Attacker），另一個作為目標模型（Target）。攻擊者的任務是生成能夠讓目標模型越獄的對抗性提示（adversarial prompts）。
- 迭代優化提示：攻擊者不斷嘗試生成不同的提示給目標模型，目標模型根據收到的提示給出相應的回應。然后，對提示和回應進行評估打分，如果沒有成功讓目標模型越獄（即分數未達到越獄標準），就把相關信息反饋給攻擊者。攻擊者根據這些反饋，優化生成新的提示，再次發送給目標模型，如此反復迭代，直到找到能讓目標模型越獄的提示為止。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/79064.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/79064.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/79064.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！