總目錄 大模型安全相關研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
Jailbreaking Black Box Large Language Models in Twenty Queries
https://www.doubao.com/chat/4008882391220226
https://arxiv.org/pdf/2310.08419
速覽
這篇論文是來自賓夕法尼亞大學的研究人員撰寫的,主要探討大語言模型(LLMs)的安全漏洞問題,提出了一種叫PAIR的算法來進行攻擊測試,相關成果有助于提升大語言模型的安全性。
- 研究背景:大語言模型發展迅速,但訓練數據中的不良內容會帶來危害,所以人們會采取措施讓模型生成的內容符合人類價值觀。不過,當前存在兩類越獄攻擊能繞過模型的安全防護機制。prompt - level越獄需要大量人力,token - level越獄需要大量查詢且難以解釋,因此需要新的測試方法。
- PAIR算法:PAIR算法旨在平衡現有攻擊方法的弊端,它通過讓兩個黑盒大語言模型(攻擊者模型A和目標模型T)相互對抗來自動生成語義越獄攻擊。具體有四個步驟:攻擊者生成候選提示,目標模型給出響應,對提示和響應進行評分判斷是否越獄,若未越獄則將相關信息反饋給攻擊者進行提示優化。在實現攻擊者模型時,要精心設計系統提示、合理利用聊天歷史和評估改進情況。
- 實驗:使用JBB - Behaviors數據集,以Mixtral等模型作為攻擊者,對Vicuna、Llama - 2、GPT - 3.5等多個模型進行攻擊測試。結果顯示,PAIR比現有方法查詢效率高很多,在多個模型上能達到較高的越獄成功率,并且生成的攻擊提示可轉移性強,難以被防御。通過消融實驗發現,Mixtral作為攻擊者性能較好,角色扮演的系統提示最有效。
- 局限性和未來工作:PAIR在攻擊經過強安全微調的模型時效果不佳,并且相比基于優化的方案,其可解釋性可能不足。未來可利用該框架生成數據集來微調模型以提高安全性,還可擴展到多輪對話場景。
論文閱讀
這兩個圖來自論文Jailbreaking Black Box Large Language Models in Twenty Queries,主要展示了大語言模型越獄攻擊的兩種類型,以及PAIR算法的運行機制。通過直觀的圖示,有助于理解不同越獄攻擊的特點和PAIR算法的工作流程。
- Figure 1:Prompt- vs. token-level jailbreaks:該圖對比了兩種針對大語言模型的越獄攻擊方式。
- 令牌級越獄(Token - Level Jailbreak):位于圖的上半部分,以生成一篇關于如何進行內幕交易并避免被抓的教程為例。在這種攻擊中,會在輸入里使用一些類似LaTeX語法符號等奇怪字符組合,通過優化輸入的令牌集來嘗試突破模型的安全限制,但這種方式需要向目標模型進行大量查詢,而且對于人類來說很難理解其原理。
- 提示級越獄(Prompt - Level Jailbreak):位于圖的下半部分,同樣以生成如何進行內幕交易并避免被抓的教程為例。PAIR生成的提示級越獄攻擊是通過精心設計語義上有意義的提示,利用社會工程學的思路,誘使大語言模型輸出不良內容。這種方式更注重提示的語義和邏輯,相對令牌級越獄更容易理解。
- Figure 2:PAIR schematic:該圖展示了PAIR算法的基本原理。
- 攻擊者與目標模型對抗:PAIR算法讓兩個大語言模型相互對抗,一個作為攻擊者(Attacker),另一個作為目標模型(Target)。攻擊者的任務是生成能夠讓目標模型越獄的對抗性提示(adversarial prompts) 。
- 迭代優化提示:攻擊者不斷嘗試生成不同的提示給目標模型,目標模型根據收到的提示給出相應的回應。然后,對提示和回應進行評估打分,如果沒有成功讓目標模型越獄(即分數未達到越獄標準),就把相關信息反饋給攻擊者。攻擊者根據這些反饋,優化生成新的提示,再次發送給目標模型,如此反復迭代,直到找到能讓目標模型越獄的提示為止。