Private Set Generation with Discriminative Information(2211.04446v1)

1. 遇到什么問題,解決了什么

遇到的問題
  • 現有差分隱私生成模型受限于高維數據分布建模的復雜性,合成樣本實用性不足。

  • 深度生成模型訓練依賴大量數據,加入隱私約束后更難優化,且不保證下游任務(如分類)的最優解。

  • 現有方法在 MNIST 等數據集上的分類準確率遠低于非隱私基線(如 DP-CGAN 在 MNIST 上準確率 <85%,而非隱私基線> 98%)。

解決的問題
  • 提出直接優化小樣本集而非深度生成模型,利用下游任務的判別信息指導樣本生成,提升樣本實用性。

    差分隱私生成模型:采用DP-SGD或PATE訓練深度生成網絡/核心集選擇與生成

差分隱私

DP保證了通過觀察所生成的樣本集M(D)來推斷個體在私有數據集中的存在的難度,通過數學公式將問題轉化為最小化合成樣本與真實數據的梯度差異,聚焦關鍵指標實現精準優化。

高斯機制

訓練流程示意圖

訓練流程示意圖

  1. xy~Pd:真實數據

  2. S:待優化的小樣本集(目標:讓 S 替代真實數據訓練模型)。

  3. F:下游任務模型L:損失函數(如分類交叉熵,衡量模型預測與標簽的誤差)。

  4. M_{s.c.}:隱私保護機制(如高斯噪聲,實現

    $$
    (\varepsilon,\delta)- 差分隱私)。
    $$

  5. 橙色:小樣本更新 藍綠:真實數據 紅色:敏感部分

核心公式

  1. 隱私層:通過梯度裁剪 + 高斯噪聲,保護真實數據的隱私,只暴露 “帶噪聲的梯度方向”。

  2. 優化層:用隱私梯度優化小樣本集 S,讓 S 生成的梯度逼近真實梯度(外層循環)。

  3. 驗證層:用 S 實際訓練模型(內層循環),確保 S 能有效指導模型學習,替代真實數據。

  • 方法在 MNIST 和 FashionMNIST 上實現了 5-10% 的準確率提升,同時減少內存和計算消耗。

2. 背景

  • 數據共享與隱私挑戰:數據共享對機器學習發展至關重要,但隱私法規(如醫療、金融數據)限制了數據公開,差分隱私(DP)提供了數據發布的解決方案。

  • 高維數據生成難點:傳統 DP 算法不適用于高維數據,現有研究采用深度生成模型結合隱私約束,但訓練困難且樣本實用性不足。

  • 現有方法缺陷:深度生成模型依賴大量數據,隱私訓練不穩定,且生成樣本對下游任務(如分類)的實用性差。

3. 問題

  • 如何在差分隱私約束下生成高維數據,同時保證樣本對下游任務(如神經網絡訓練)的實用性?

  • 現有方法試圖擬合完整數據分布,導致模型復雜且訓練困難,能否通過更直接的優化目標提升實用性?

4. 動機

  • 現有方法的低效性:深度生成模型在隱私訓練中難以收斂,且樣本實用性不足,需要更高效的解決方案。

  • 下游任務導向:直接優化樣本以匹配下游任務的需求(如梯度匹配),比擬合完整分布更簡單且實用。

  • 資源優化:將原始數據知識蒸餾到小樣本集,節省下游分析的內存和計算成本。

5. 貢獻和結果

貢獻
  • 新視角:提出直接優化樣本而非生成模型,利用下游任務判別信息指導生成,彌合隱私生成與判別模型的實用性差距。

  • 方法創新:引入簡單有效的私有集合生成(PSG)方法,通過梯度匹配和迭代優化提升樣本實用性。

  • 通用性:方法適用于多種下游任務和網絡架構,且自然減少計算資源消耗。

結果
  • 性能提升:在 MNIST 和 FashionMNIST 上,PSG 比現有方法(如 DP-CGAN、GS-WGAN)提升 5-10% 的分類準確率。

  • 效率優勢:使用小樣本集(如每類 10-20 個樣本)即可達到接近完整數據集的性能,節省內存和計算成本。

  • 泛化能力:在不同網絡架構(ConvNet、LeNet、ResNet 等)上表現優于基線方法。

6. 局限性

  • 視覺質量與實用性權衡:方法優化下游任務實用性,不保證樣本視覺質量,合成樣本可能偏離數據流形。

  • 可擴展性挑戰:標簽類增多或樣本量增大時,訓練難度增加,收斂速度下降。

  • 架構依賴性:對 MLP 等架構實用性提升有限,可能因梯度信號差異導致性能下降。

  • 生成模型局限性:引入生成器先驗雖改善視覺質量,但降低實用性且收斂更慢。

7. 文章結構

  • 摘要:介紹研究背景、方法、貢獻及代碼鏈接。

  • 引言:數據共享與隱私挑戰,現有方法不足,本文思路與貢獻。

  • 相關工作:差分隱私生成模型、核心集選擇與生成。

  • 背景:差分隱私定義、高斯機制、后處理定理。

  • 方法:問題建模、梯度匹配、隱私整合及算法流程。

  • 實驗:分類任務、內存計算成本、泛化能力、收斂速度及持續學習應用。

  • 討論:視覺質量與實用性、可擴展性、通用性等。

  • 結論:研究總結與未來方向。

  • 其他: broader impact、致謝、參考文獻、附錄等。

8. 專有名詞解釋

  • 差分隱私(DP):一種嚴格的隱私定義,確保單個數據點的加入或刪除不會顯著影響輸出結果的概率分布。

  • 高斯機制:DP 的一種實現方式,通過添加高斯噪聲保護數據查詢結果,噪聲規模由敏感度和隱私參數決定。

  • Rényi 差分隱私(RDP):基于 Rényi 散度的隱私度量,允許更高效的隱私成本計算,適用于迭代算法。

  • 梯度匹配:通過最小化合成樣本與真實數據的梯度差異,確保合成樣本對下游模型訓練的有效性。

  • 私有集合生成(PSG):本文提出的方法,直接優化小樣本集以匹配下游任務需求,同時滿足 DP 約束

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/87855.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/87855.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/87855.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

C++編程語言入門指南

一、C語言概述 C是由丹麥計算機科學家Bjarne Stroustrup于1979年在貝爾實驗室開發的一種靜態類型、編譯式、通用型編程語言。最初被稱為"C with Classes"(帶類的C)&#xff0c;1983年更名為C。它既具有高級語言的抽象特性&#xff0c;又保留了底層硬件操作能力&…

ZED相機與Foxglove集成:加速機器人視覺調試效率的實用方案

隨著機器人技術的發展&#xff0c;實時視覺數據流的高效傳輸和可視化成為提升系統性能的重要因素。通過ZED相機&#xff08;包括ZED 2i和ZED X&#xff09;與Foxglove Studio平臺的結合&#xff0c;開發者能夠輕松訪問高質量的2D圖像、深度圖和點云數據&#xff0c;從而顯著提高…

目標檢測新紀元:DETR到Mamba實戰解析

&#x1f680;【實戰分享】目標檢測的“后 DE?”時代&#xff1a;DETR/DINO/RT-DETR及新型骨干網絡探索&#xff08;含示例代碼&#xff09; 目標檢測從 YOLO、Faster R-CNN 到 Transformer 結構的 DETR&#xff0c;再到 DINO、RT-DETR&#xff0c;近兩年出現了許多新趨勢&am…

【IOS】XCode創建firstapp并運行(成為IOS開發者)

&#x1f60f;★,:.☆(&#xffe3;▽&#xffe3;)/$:.★ &#x1f60f; 這篇文章主要介紹XCode創建firstapp并運行 學其所用&#xff0c;用其所學。——梁啟超 歡迎來到我的博客&#xff0c;一起學習&#xff0c;共同進步。 喜歡的朋友可以關注一下&#xff0c;下次更新不迷路…

class類和style內聯樣式的綁定 + 事件處理 + uniapp創建自定義頁面模板

目錄 一.class類的綁定 1.靜態編寫 2.動態編寫 二.style內聯樣式的綁定 三.事件處理 1.案例1 2.案例2 四.uniapp創建自定義頁面模板 1.為什么要這么做&#xff1f; 2.步驟 ①打開新建頁面的界面 ②在彈出的目錄下&#xff0c;新建模板文件 ③用HBuilderX打開該模板…

android 卡頓和丟幀區別

Android 卡頓&#xff08;Jank&#xff09;與丟幀&#xff08;Frame Drop&#xff09;的核心區別在于問題本質與用戶感知&#xff0c;以下是分層解析&#xff1a; ? 一、本質差異 維度卡頓&#xff08;Jank&#xff09;丟幀&#xff08;Frame Drop&#xff09;定義用戶可感知…

【python實用小腳本-125】基于 Python 的 Gmail 郵件發送工具:實現高效郵件自動化

引言 在現代辦公和開發環境中&#xff0c;郵件通信是一種重要的溝通方式。自動化發送郵件可以大大提高工作效率&#xff0c;例如發送通知、報告或文件。本文將介紹一個基于 Python 的 Gmail 郵件發送工具&#xff0c;它能夠通過 Gmail 的 SMTP 服務器發送郵件&#xff0c;并支持…

gateway斷言配置詳解

一、Predicate - 斷? 1、簡單用法 spring:cloud:gateway:routes:- id: after_routeuri: https://example.orgpredicates:- After2017-01-20T17:42:47.789-07:00[America/Denver] 2、自定義斷言 新建類VipRoutePredicateFactory&#xff0c;注意VipRoutePredicateFactory名字…

基于大模型的尿毒癥全流程預測與診療方案研究報告

目錄 一、引言 1.1 研究背景與意義 1.2 研究目的與方法 1.3 國內外研究現狀 二、尿毒癥相關理論基礎 2.1 尿毒癥的定義、病因與發病機制 2.2 尿毒癥的癥狀與診斷標準 2.3 尿毒癥的治療方法概述 三、大模型技術原理與應用 3.1 大模型的基本概念與發展歷程 3.2 大模型…

裸金屬服務器租用平臺-青蛙云

企業對服務器性能與靈活性的要求與日俱增。青蛙云M-啟強裸金屬服務器租用平臺應運而生&#xff0c;為企業提供了一種兼具物理機性能和云計算彈性的解決方案。裸金屬服務器租用平臺的優勢?(一)高配性能&#xff0c;無虛擬化開銷?裸金屬服務器直接運行在物理硬件之上&#xff0…

[Terence Tao訪談] AlphaProof系統 | AI嗅覺 | 研究生學習 | 龐加萊猜想(高維) | 復雜問題簡單化

玩這些有趣的東西。通常情況下什么也得不到&#xff0c;你必須學會說&#xff1a;“好吧&#xff0c;再試一次&#xff0c;什么都沒發生&#xff0c;我會繼續前進。” DeepMind的AlphaProof系統 Q&#xff1a;DeepMind的AlphaProof系統是通過強化學習訓練的&#xff0c;使用的…

Aseprite工具入門教程4之動畫導入Unity

1、時間軸功能 &#xff08;1&#xff09;眼睛圖標 顯示/隱藏圖層圖層隱藏時無法繪制 &#xff08;2&#xff09;鎖定圖標 鎖定后無法移動或編輯圖層防止意外在錯誤圖層上繪制 &#xff08;3&#xff09;單元格圖標 兩個點代表幀分開&#xff0c;一個橢圓代表幀統一。分開就…

移動硬盤頻繁提示格式化?解決異常故障的正確方法

移動硬盤作為數據存儲的重要工具&#xff0c;不少人都習慣將照片、文檔、項目資料甚至整臺電腦的備份都放在里面。但有時&#xff0c;一件令人頭疼的事悄然發生&#xff1a; 插上硬盤&#xff0c;系統卻突然提示&#xff1a;“使用驅動器中的光盤之前需要將其格式化。是否要將…

Java泛型筆記

1 為什么需要泛型 Java5之前&#xff0c;是沒有泛型的。通過兩段代碼我們就可以知道為何我們需要泛型 public int addInt(int a, int b) {return a b; }public double addDouble(double a, double b) {return a b; } 實際開發中&#xff0c;經常有數值類型求和的需求&…

mysql 圖形化界面工具 DataGrip 安裝與配置

安裝地址&#xff1a; Download DataGrip: Cross-Platform IDE for Databases & SQLhttps://www.jetbrains.com/datagrip/download/?sectionwindows 添加數據源&#xff1a; 下載驅動文件&#xff1a;直接點擊下載即可 點擊測試連接&#xff1a;成功后點擊確定 顯示所有數…

linux下進程之間socket通信c程序例程

以下是一個基于 Linux 的 C 程序示例&#xff0c;展示了如何使用 Unix 域套接字&#xff08;Unix domain socket&#xff09;在不同進程之間互傳 JSON 消息。我們將實現一個簡單的客戶端 - 服務器模型&#xff0c;服務器監聽連接&#xff0c;客戶端連接到服務器并發送 JSON 消息…

高云GW5AT-LV60 FPGA圖像處理板|MIPI攝像頭幀率測試

高云GW5AT-LV60 FPGA圖像處理板套件中附帶了三個攝像頭模組&#xff0c;這三個模組真是各有千秋&#xff0c;接下來我通過簡單的一些測試來看看這幾個攝像頭的差異。 VS-SC130GS 、 VS-SC2210 這兩個模組是手動對焦&#xff0c;在使用時需要手動轉動鏡頭調整焦距&#xff0c;這…

機器學習在智能能源管理中的應用:需求響應與可再生能源整合

隨著全球能源需求的不斷增長和環境問題的日益突出&#xff0c;智能能源管理成為實現可持續發展的關鍵。智能能源管理系統通過整合先進的信息技術&#xff0c;如物聯網&#xff08;IoT&#xff09;、大數據和機器學習&#xff0c;能夠優化能源的分配和使用&#xff0c;提高能源效…

【網絡】Linux 內核優化實戰 - net.ipv4.tcp_timestamps

目錄 net.ipv4.tcp_timestamps 詳解1. 功能與作用2. 參數取值與含義3. 啟用/禁用的影響4. 配置方法5. 適用場景建議6. 注意事項總結 net.ipv4.tcp_timestamps 詳解 net.ipv4.tcp_timestamps 是 Linux 內核中一個與 TCP 協議相關的網絡參數&#xff0c;用于控制是否啟用 TCP 時…

第一個Flink 程序:詞頻統計 WordCount(流處理)

本文重點 本文將通過一個統計詞頻的小程序來看一下flink是如何對數據進行批處理的,需要聲明的是,一般我們使用Flink常常用于流式處理,即使是有界的數據,我們也將其看成是無界數據進行流式處理,所以批量處理并不是很常用,這里只是為了了解一下Flink是如何進行批處理的。 …