論文閱讀:2024 ACM SIGSAC Membership inference attacks against in-context learning

總目錄 大模型安全相關研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

Membership inference attacks against in-context learning

https://arxiv.org/pdf/2409.01380

https://www.doubao.com/chat/4030440311895554

速覽

這篇論文主要研究了大語言模型中上下文學習(ICL)的隱私安全問題,提出針對ICL的成員推理攻擊方法,并探索了相應的防御策略。

  1. 研究背景:大語言模型發展迅速,但定制模型時計算效率低,ICL作為新方法,通過在輸入中添加提示(prompt)來讓模型學習,無需更新參數。然而,ICL存在隱私風險,成員推理攻擊(MIA)可判斷數據樣本是否用于模型訓練,現有基于概率的攻擊在模型只返回生成文本時效果不佳,而本文聚焦于僅基于生成文本的成員推理攻擊。
  2. 攻擊方法
    • GAP攻擊:基于模型對訓練數據可能的過擬合現象,將模型正確識別的樣本歸為“成員”,錯誤識別的歸為“非成員”,但該方法效果不理想。
    • Inquiry攻擊:直接詢問語言模型是否見過特定樣本,根據模型回答判斷樣本成員身份。
    • Repeat攻擊:利用模型的記憶能力,給模型輸入目標樣本的前幾個單詞,通過比較模型生成文本與目標樣本的語義相似度判斷成員身份。
    • Brainwash攻擊:在模型輸出受限的場景下,通過持續給模型輸入錯誤答案,根據模型接受錯誤答案所需的查詢次數判斷樣本成員身份。
  3. 實驗評估
    • 實驗設置:在4種語言模型(GPT2-XL、LLaMA、Vicuna、GPT-3.5 )和3個基準數據集(AGNews、TREC、DBPedia)上進行實驗,重復實驗500次,用優勢值(Advantage)和對數尺度ROC分析評估攻擊性能。
    • 實驗結果:Brainwash和Repeat攻擊在大多數情況下表現出色;演示示例數量增加會降低Repeat和Brainwash攻擊性能;演示示例在提示中的位置也會影響攻擊性能,中間位置的示例對攻擊更具抗性;不同版本的GPT-3.5對攻擊的抗性不同,沒有一個版本能抵御所有攻擊。
  4. 混合攻擊:結合Brainwash和Repeat攻擊的優點,訓練一個兩層神經網絡作為攻擊模型,該混合攻擊在不同場景下都表現良好,優于單個攻擊方法。
  5. 防御策略
    • 基于指令的防御:讓模型設計防止泄露提示相關信息的指令,但該指令對不同攻擊和數據集的防御效果不同。
    • 基于過濾的防御:根據Repeat攻擊原理,修改模型輸出以降低其性能,但對其他攻擊無效。
    • 基于差分隱私(DP)的防御:用DP生成合成演示示例,可降低Repeat攻擊效果,但對Brainwash攻擊效果有限。多種防御策略結合能更有效地減少隱私泄露。
  6. 研究結論:提出了首個針對ICL的純文本成員推理攻擊,分析了影響攻擊效果的因素,探索的防御策略為提示設計和防御機制提供了參考,但仍需更全面通用的防御策略。

論文閱讀

在這里插入圖片描述
在這里插入圖片描述

  • 內容:展示了上下文學習(ICL)的一個示例。在這個示例中,語言模型要完成的任務是根據問題的答案類型進行分類,比如答案類型可能是數字(Number)、地點(Location)、人物(Person)、描述(Description)、實體(Entity)或縮寫(Abbreviation) 。粉色部分是任務指令,告訴模型要做什么;綠色部分是兩個示例,也就是演示(demonstration)。模型會根據這些指令和示例來學習如何回答問題。當遇到新問題“Where was Ozzy Osbourne born?”時,模型會按照之前示例的格式和學到的知識來判斷答案類型。

  • 作用:幫助理解ICL的工作方式,它通過在輸入中添加提示(包含指令和演示示例),讓語言模型在不更新自身參數的情況下,通過類比示例來完成特定任務。這種方式和傳統的模型訓練不同,不是通過大量更新參數來學習,而是利用這些額外的上下文信息進行學習。
    在這里插入圖片描述
    在這里插入圖片描述

  • 內容:介紹了GAP攻擊的具體過程。假設現在有一個要判斷的目標樣本,把這個樣本輸入到模型中,然后觀察模型的回答。如果模型給出的答案是正確的,就認為這個樣本是模型訓練數據(這里指用于構建提示的樣本集合)中的成員;如果答案錯誤,就認為它不是成員。比如問題“How did serfdom develop in and then leave Russia?”,模型回答“Description”,答案正確,該樣本可能被判定為成員;而對于問題“Where was Ozzy Osbourne born?”,如果模型回答“Person”(錯誤答案),則該樣本被判定為非成員。

  • 作用:作為一種成員推理攻擊(MIA)的基線方法,展示了一種簡單直接的判斷樣本是否屬于模型訓練數據的思路。雖然這種方法在實際應用中效果不太好,尤其是對于像GPT-3.5這樣性能較好的模型,但它為后續更復雜有效的攻擊方法提供了對比和參考。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/78428.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/78428.shtml
英文地址,請注明出處:http://en.pswp.cn/web/78428.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

從 Python 基礎到 Django 實戰 —— 數據類型驅動的 Web 開發之旅

主題簡介: 本主題以 Python 基礎數據類型為核心,結合 Django 框架的開發流程,系統講解如何通過掌握數字、字符串、列表、元組、字典等基礎類型,快速構建功能完善的 Web 應用。通過理論與實踐結合,幫助學員從零基礎 Py…

軟考 系統架構設計師系列知識點之雜項集萃(53)

接前一篇文章:軟考 系統架構設計師系列知識點之雜項集萃(52) 第85題 在靜態測試中,主要是對程序代碼進行靜態分析。“數據初始化、賦值或引用過程中的異常”屬于靜態分析中的()。 A. 控制流分析 B. 數據…

Raycaster光線投射

Raycaster光線投射 3D虛擬工廠在線體驗 描述 光線投射Raycaster,用于進行raycasting(光線投射)。 光線投射用于進行鼠標拾取(在三維空間中計算出鼠標移過了什么物體)。 構造器 Raycaster( origin : Vector3, dire…

初識Linux —— git三板斧

版本控制器git 為了我們方便管理不同版本的文件,就有了版本控制器; 所謂的版本控制器,就是能夠了解到一個文件的歷史記錄(修改記錄);簡單來說就是記錄每一次的改動和版本迭代的一個管理系統,同…

用哈希表封裝出unordered_set/_map

前提: ①:本博客是對哈希表(開散列)進行封裝,因為閉散列不優秀(與庫保持一致) ②:哈希表封裝出unordered_set/_map和紅黑樹封裝出ste/map是大同小異的,可以先看下:用紅黑樹封裝出set和map -CSDN博客 ③&…

情緒ABC——AI與思維模型【93】

一、定義 情緒ABC思維模型是一種心理學上的理論,它認為人們的情緒和行為反應(C,Consequence)并非直接由激發事件(A,Activating event)引起,而是由個體對激發事件的認知和評價所產生…

Unity URP RenderTexture優化(二):深度圖優化

目錄 前言: 一、定位深度信息 1.1:k_DepthStencilFormat 1.2:k_DepthBufferBits 1.3:_CameraDepthTexture精度與大小 1.4:_CameraDepthAttachment數量 二、全代碼 前言: 在上一篇文章:Un…

【力扣刷題記錄】hot100錯題本(一)

1. 簡單題 我的答案:時間復雜度過高:O(N^3) class Solution:def twoSum(self, nums: List[int], target: int) -> List[int]:for num in nums:if (target - num) in nums:#多余for i in range(len(nums)):if nums[i] num :for j in range(i1,len(nu…

線程池的線程數配置策略

目錄 1. CPU密集型任務 2. IO密集型任務 3. 混合型任務 1. CPU密集型任務 特點:任務主要消耗CPU資源(如計算、加密、壓縮)。 推薦線程數: 線程數 ≈ 物理核心數 1 / CPU - 1(不知道哪個√) 例如&#…

基于開源鏈動2+1模式AI智能名片S2B2C商城小程序的爆品力構建研究

摘要:在興趣電商生態中,爆品力已成為品牌實現指數級增長的核心競爭力。本文以開源鏈動21模式AI智能名片S2B2C商城小程序為技術載體,結合抖音平臺的內容傳播特性,提出“需求挖掘-技術賦能-內容轉化”三位一體的爆品力構建模型。通過…

photoshop學習筆記2

第一章 第01節-界面的重要性(學習方法) 第02節-文件的打開新建及儲存 第03節-移動工具(圖層概念) 學習目標: 1.了解圖層概念 2.認識工具屬性 3.掌握工具使用 圖層的概念 移動工具 移動工具就是用來移動圖層內容的。是否可以用來移動組…

operator 可以根據需要重載 == 運算符進行比較

要將 vector<AppInfo> 類型的 A 和 B 兩個容器進行比較&#xff0c;并且當 B 中有 A 中沒有的元素時&#xff0c;插入到數據庫中&#xff0c;你可以通過以下步驟實現&#xff1a; 比較元素&#xff1a;遍歷 vector<B>&#xff0c;檢查每個元素是否在 vector<A&…

Three.js在vue中的使用(二)-加載、控制

在 Vue 中使用 Three.js 加載模型、控制視角、添加點擊事件是構建 3D 場景的常見需求。下面是一個完整的示例&#xff0c;演示如何在 Vue 單文件組件中實現以下功能&#xff1a; 使用 GLTFLoader 加載 .glb/.gltf 模型添加 OrbitControls 控制視角&#xff08;旋轉、縮放、平移…

軟件架構之旅(6):淺析ATAM 在軟件技術架構評估中的應用

文章目錄 一、引言1.1 研究背景1.2 研究目的與意義 二、ATAM 的理論基礎2.1 ATAM 的定義與核心思想2.2 ATAM 涉及的質量屬性2.3 ATAM 與其他架構評估方法的關系 三、ATAM 的評估流程3.1 準備階段3.2 場景和需求收集階段3.3 架構描述階段3.4 評估階段3.5 結果報告階段 四、ATAM …

vue-chat 開源即時聊天系統web本地運行方法

官方文檔 https://gitcode.com/gh_mirrors/vuechat7/vue-chat.git npm install 可能需要用 npm 下載兩個包 "viewerjs": "^1.9.0", "vue-hot-reload-api": "^2.3.4", src\constant\index.js 改下面兩行 export const LOGIN_API …

Rust與C/C++互操作實戰指南

目錄 1.前言2.動態庫調用2.1 動態加載2.2 靜態加載3.代碼調用4.靜態庫調用1.前言 本文原文為:Rust與C/C++互操作實戰指南 由于rust誕生時間太短,目前生態不夠完善,因此大量的功能庫都需要依賴于C、C++語言的歷史積累。 而本文將要介紹的便是如何實現rust與c乃至c++之間實…

ppt設計美化公司_杰青_長江學者_優青_青年長江學者_萬人計劃青年拔尖人才答辯ppt模板

WordinPPT / 持續為雙一流高校、科研院所、企業等提供PPT制作系統服務。 / 近期PPT美化案例 - 院士增選、科學技術獎、杰青、長江學者特聘教授、校企聯聘長江、重點研發、優青、青長、青拔.. 杰青&#xff08;杰出青年科學基金&#xff09; 支持已取得突出成果的45歲以下學…

修復筆記:SkyReels-V2 項目中的 torch.load 警告

#工作記錄 一、問題描述 在運行項目時&#xff0c;出現以下警告&#xff1a; FutureWarning: You are using torch.load with weights_onlyFalse (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pic…

GNOME擴展:Bing壁紙

難點 網絡請求(Soup) 下載文件(Soup) 讀寫設置(Gio.Settings) 源碼 import GLib from "gi://GLib"; import Gio from gi://Gio; import St from gi://St; import Soup from gi://Soup;import { Extension } from resource:///org/gnome/shell/extensions/extens…