總目錄 大模型安全相關研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
Membership inference attacks against in-context learning
https://arxiv.org/pdf/2409.01380
https://www.doubao.com/chat/4030440311895554
速覽
這篇論文主要研究了大語言模型中上下文學習(ICL)的隱私安全問題,提出針對ICL的成員推理攻擊方法,并探索了相應的防御策略。
- 研究背景:大語言模型發展迅速,但定制模型時計算效率低,ICL作為新方法,通過在輸入中添加提示(prompt)來讓模型學習,無需更新參數。然而,ICL存在隱私風險,成員推理攻擊(MIA)可判斷數據樣本是否用于模型訓練,現有基于概率的攻擊在模型只返回生成文本時效果不佳,而本文聚焦于僅基于生成文本的成員推理攻擊。
- 攻擊方法
- GAP攻擊:基于模型對訓練數據可能的過擬合現象,將模型正確識別的樣本歸為“成員”,錯誤識別的歸為“非成員”,但該方法效果不理想。
- Inquiry攻擊:直接詢問語言模型是否見過特定樣本,根據模型回答判斷樣本成員身份。
- Repeat攻擊:利用模型的記憶能力,給模型輸入目標樣本的前幾個單詞,通過比較模型生成文本與目標樣本的語義相似度判斷成員身份。
- Brainwash攻擊:在模型輸出受限的場景下,通過持續給模型輸入錯誤答案,根據模型接受錯誤答案所需的查詢次數判斷樣本成員身份。
- 實驗評估
- 實驗設置:在4種語言模型(GPT2-XL、LLaMA、Vicuna、GPT-3.5 )和3個基準數據集(AGNews、TREC、DBPedia)上進行實驗,重復實驗500次,用優勢值(Advantage)和對數尺度ROC分析評估攻擊性能。
- 實驗結果:Brainwash和Repeat攻擊在大多數情況下表現出色;演示示例數量增加會降低Repeat和Brainwash攻擊性能;演示示例在提示中的位置也會影響攻擊性能,中間位置的示例對攻擊更具抗性;不同版本的GPT-3.5對攻擊的抗性不同,沒有一個版本能抵御所有攻擊。
- 混合攻擊:結合Brainwash和Repeat攻擊的優點,訓練一個兩層神經網絡作為攻擊模型,該混合攻擊在不同場景下都表現良好,優于單個攻擊方法。
- 防御策略
- 基于指令的防御:讓模型設計防止泄露提示相關信息的指令,但該指令對不同攻擊和數據集的防御效果不同。
- 基于過濾的防御:根據Repeat攻擊原理,修改模型輸出以降低其性能,但對其他攻擊無效。
- 基于差分隱私(DP)的防御:用DP生成合成演示示例,可降低Repeat攻擊效果,但對Brainwash攻擊效果有限。多種防御策略結合能更有效地減少隱私泄露。
- 研究結論:提出了首個針對ICL的純文本成員推理攻擊,分析了影響攻擊效果的因素,探索的防御策略為提示設計和防御機制提供了參考,但仍需更全面通用的防御策略。
論文閱讀
-
內容:展示了上下文學習(ICL)的一個示例。在這個示例中,語言模型要完成的任務是根據問題的答案類型進行分類,比如答案類型可能是數字(Number)、地點(Location)、人物(Person)、描述(Description)、實體(Entity)或縮寫(Abbreviation) 。粉色部分是任務指令,告訴模型要做什么;綠色部分是兩個示例,也就是演示(demonstration)。模型會根據這些指令和示例來學習如何回答問題。當遇到新問題“Where was Ozzy Osbourne born?”時,模型會按照之前示例的格式和學到的知識來判斷答案類型。
-
作用:幫助理解ICL的工作方式,它通過在輸入中添加提示(包含指令和演示示例),讓語言模型在不更新自身參數的情況下,通過類比示例來完成特定任務。這種方式和傳統的模型訓練不同,不是通過大量更新參數來學習,而是利用這些額外的上下文信息進行學習。
-
內容:介紹了GAP攻擊的具體過程。假設現在有一個要判斷的目標樣本,把這個樣本輸入到模型中,然后觀察模型的回答。如果模型給出的答案是正確的,就認為這個樣本是模型訓練數據(這里指用于構建提示的樣本集合)中的成員;如果答案錯誤,就認為它不是成員。比如問題“How did serfdom develop in and then leave Russia?”,模型回答“Description”,答案正確,該樣本可能被判定為成員;而對于問題“Where was Ozzy Osbourne born?”,如果模型回答“Person”(錯誤答案),則該樣本被判定為非成員。
-
作用:作為一種成員推理攻擊(MIA)的基線方法,展示了一種簡單直接的判斷樣本是否屬于模型訓練數據的思路。雖然這種方法在實際應用中效果不太好,尤其是對于像GPT-3.5這樣性能較好的模型,但它為后續更復雜有效的攻擊方法提供了對比和參考。