【中文翻譯】第1章-The Algorithmic Foundations of Differential Privacy

為方便閱讀,故將《The Algorithmic Foundations of Differential Privacy》翻譯項目內容搬運至此;

教材原文地址:https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf

中文翻譯版 Github 項目地址1:https://github.com/guoJohnny/algorithmic-foundation-of-dp-zh-cn

中文翻譯版 Github 項目地址2:https://github.com/doubleheiker/algorithmic-foundation-of-dp-zh-cn

感謝前輩的翻譯工作!

在這里插入圖片描述

前言

隱私保護數據分析的問題由來已久,涉及多個學科。隨著有關個人的電子數據變得越來越詳細,并且隨著技術能夠更強大地收集和管理這些數據,對隱私的魯棒性、隱私的意義和隱私在數學上嚴格的定義需求不斷增長,對滿足隱私定義的算法需求也在不斷增長。差分隱私就是這樣的定義。

在討論了差分隱私的含義之后,本書主要介紹了實現差分隱私的基本技術,并將這些技術應用于創造性的結合中(第3-7節),其中使用了’查詢發布問題’作為示例。其中最重要的是:對比單純用差分隱私計算替換非隱私的每個計算步驟這種實現方法,通過重新思考計算目標能有更好的結果。

盡管有一些驚人的強大的計算結果,但仍然存在根本的局限性——不僅局限于使用差分隱私可以實現什么目標,而且還局限于什么方法可以防止隱私被完全破壞(泄露)(第8節)。

實際上,本書中討論的所有算法都針對不同計算能力的對手保持著不同的隱私。某些算法是計算密集型的,其他算法則為高效率的。攻擊者和算法的計算復雜度均在第9節中討論。

在第10節和第11節中,我們從基礎知識轉向查詢發布以外的應用程序,討論了用于機制設計和機器學習的差分私有方法。關于差分私有算法的絕大多數文獻都考慮了要進行大量分析的單個靜態數據庫。在第12節中討論了其他模型中的差分隱私,包括分布式數據庫和數據流計算。

最后,這本書是對差分隱私問題和技術的全面介紹,但并不是要進行詳盡的調查,因為到目前為止,在差分隱私方面有大量研究,我們可以只覆蓋一小部分。

一、差分隱私的承諾

差分隱私 描述了數據持有者對數據主體的承諾:“無論您將數據用于任何研究或分析,都不會受到不利影響或其他影響。” 差分數據庫機制可以使機密數據廣泛用于準確的數據分析,而無需訴諸數據清洗,數據使用協議,數據保護計劃,或其他受限方面。但是,保證隱私性的同時,將消耗數據實用性:《信息恢復基本法》指出,對太多問題的過于準確的回答將以一種驚人的方式破壞隱私。關于差分隱私的算法研究的目標是將這種不可避免性推遲盡可能長的時間。

差分隱私解決了一個問題,即分析人員通過數據集學習整體信息的同時(趨勢、統計信息),無法獲取個人的詳細信息。

醫學數據庫可能會告訴我們,吸煙會導致癌癥,影響保險公司對吸煙者長期醫療費用的看法。吸煙者受到分析的傷害了嗎?如果保險公司知道他吸煙,他的保險費可能會上漲。他可能也會得到幫助。但保險公司學習他的健康風險,使他進入戒煙計劃。吸煙者的隱私被侵犯了嗎?當然,研究結束后對他的了解比以前更多,但他的信息是不是“泄露”了?差分隱私將認為它不是,理由是對吸煙者的影響是相同的獨立于他是否在研究中。是這項研究得出的結論影響了吸煙者,而不是他在數據集中的存在與否影響了實驗得出的結論。

差分隱私在滿足隱私保護需求下,同時保證了分析數據集能得出相同的結論,例如,吸煙會導致癌癥,這與是否有人的數據選是否在數據集中無關。具體地說,任何個體的存在或不存在這個數據集中,差分隱私能確保輸出(對查詢的響應)在“本質上”發生的概率是相同的。這里,概率被差分隱私機制(由數據持有者控制)所做的隨機選擇所取代,這里術語“本質上”被抽象為參數 ? \epsilon ?。較小的 ? \epsilon ? 將產生更好的隱私(和更不準確的響應)。

差分隱私在滿足隱私保護需求下,同時保證了分析數據集能得出相同的結論,例如,吸煙會導致癌癥,這與是否有人的數據選是否在數據集中無關。具體地說,任何個體的存在或不存在這個數據集中,差分隱私能確保輸出(對查詢的響應)在“本質上”發生的概率是相同的。這里,概率被差分隱私機制(由數據持有者控制)所做的隨機選擇所取代,這里術語“本質上”被抽象為參數 ε \varepsilon ε。較小的 ε \varepsilon ε 將產生更好的隱私(和更不準確的響應)。

差分隱私是一個定義,而不是一個算法。對于給定的計算任務 T T T 和給定的 ε \varepsilon ε 值,將有許多不同的私有算法以 ε \varepsilon ε-差分隱私 方式實現 T T T。有些算法會比其他算法更準確。當 ε \varepsilon ε 很小時,很難為任務 T T T 找到一個高精度的 ε \varepsilon ε-差分隱私算法,就像為一個特定的計算任務找到一個數值穩定的算法一樣。

1.1 隱私保護的數據分析

差分隱私是針對隱私保護數據分析問題而提出的一種隱私定義。我們簡要地討論了解決隱私保護的其他方式的一些問題(個人認為:此處的其他方式應該是:屬性隱藏、匿名、少量數據等隱私保護方式)。

數據不能完全匿名并且仍然有用

一般來說,數據越豐富,就越有趣和有用。這就產生了“匿名化”和“刪除可識別個人信息”的概念,這些概念希望部分數據記錄可以被掩蓋,其余部分可以發布并用于分析。

然而,由于數據的豐富性使得“個人”數據屬性可能與其他領域的數據屬性相重合,比如郵政編碼、出生日期和性別的組合,甚至三個電影的名字和一個獨立的人觀看這些電影的大致日期。這種“命名”功能可用于聯動攻擊,以將不同數據集中的“匿名”記錄與非匿名記錄進行匹配。有如下兩個事例:

  • 1.通過將匿名醫療遭遇數據與(公開提供的)選民登記記錄相匹配,確定了馬薩丘塞特政府的醫療記錄。

  • 2.通過與互聯網電影數據庫(IMDB)的鏈接,確定了 Netflix 用戶,其觀看歷史記錄包含在 Netflix 發布的匿名電影記錄集合中,作為推薦競賽的訓練數據。

差分隱私能中和聯動攻擊:因為差分隱私是數據訪問機制的一個屬性,并且與對手可用的輔助信息(背景知識)的存在或不存在無關,訪問 IMDb 用戶數據將不能對存在 Netflix 訓練集中的用戶數據進行聯動攻擊,換言之,攻擊在數據集中的用戶成功的可能性不會超過不在數據集中的用戶。

重標識“匿名”記錄并非唯一風險

“匿名”數據記錄的重新標識顯然是不可取的,這不僅是因為重新標識本身(這肯定揭示了數據集中的成員身份),而且還因為記錄可能包含損害信息,如果它與個人相關聯,則可能會造成損害。在給定日期從特定緊急護理中心收集的醫療遭遇記錄可能只列出少量不同的投訴或診斷。鄰居在相關日期訪問設施的附加信息給出了鄰居病情的一系列可能診斷結果。可能無法將特定記錄與鄰居匹配這一事實為鄰居提供了最低限度的隱私保護。

個人理解:此處的重標識“匿名”記錄應該指的是上一小節中通過其他數據集共有屬性對匿名數據進行標識。個人認為此處的鄰居診斷例子是指,通過關聯特定信息,雖然無法確切知道這個人患了什么病,但卻縮小了其患病的種類,排除了多余信息,這樣是否是種變相的隱私泄露?因為這樣只能提供很小的隱私保護。

不具有保護性的大數據集查詢

對于特定個體的查詢無法準確地得到安全的回答,事實上,人們可能希望直接拒絕他們(如果在計算上無法識別他們)。但如下面的差分攻擊所示,強迫查詢超過大型集并不是萬能的。假設攻擊者已知X先生在某個醫學數據庫中。綜上所述,這兩個大問題的答案是 :

  • 1.“數據庫中有多少人具有鐮狀細胞特征?”

  • 2.“數據庫中除了X外,還有多少人有鐮狀細胞的特征?”

通過這兩個數據查詢得出數據,交出X先生是否有鐮狀細胞特征。

個人理解:如果某種查詢是不允許針對特定個人(這里指的是X)進行查詢,只能針對大規模數據統計類查詢,這種數據發布的方式也是不具有保護性的,能通過差分攻擊攻擊得到隱私數據,如標題所示,對大數據集的查詢不具有保護性。

查詢審查存在的問題

查詢審核有問題。如果根據歷史記錄,回答當前的查詢會損害隱私,那么人們可能會傾向于審查查詢和響應的序列,以阻止任何響應。例如,審核員可能在尋找可能構成差分攻擊的成對查詢。這種方法有兩個困難。首先,拒絕回答一個問題本身就有可能被披露。第二,查詢審計在計算上是不可行的;事實上,如果查詢語言足夠豐富,則甚至不存在算法過程來判斷一對查詢是否構成差分攻擊。(審核、防止差分攻擊語句是不現實的

“不安全”的摘要統計

在某種意義上,將摘要統計作為隱私解決方案是失敗的,是直接來自上述差分攻擊。摘要統計的其他問題包括針對數據庫的各種重建攻擊,數據庫中每個人都有一個要保護的“秘密位”。有用性目標可以是允許,例如,形式的問題“滿足屬性 p 的多少人具有秘密比特值 1 ?”。另一方面,對手的目標是增加猜測個人秘密的機會。第 8.1 節中描述的重建攻擊顯示了即使是這種類型的線性查詢數也難以保護:除非引入足夠的不精確性,否則幾乎所有的秘密比特都可以重建。

公布匯總統計數據的風險的一個顯著例證是,應用統計技術,最初是為了確認或駁斥個人 DNA 在法醫學混合物中的存在,以裁定個人是否參與全基因組關聯研究。根據人類基因組計劃的一個網站,“單核苷酸多態性”(SNPs,發音為“snips”)是當基因組序列中的單核苷酸(A、T、C或G)改變時發生的 DNA 序列變異。例如,一個 SNP 可能會改變 AAGGCTAA 到 ATGGCTAA 的 DNA 序列。“在這種情況下,我們說有兩個等位基因:A 和 T。對于這樣一個 SNP,我們可以問,給定一個特定的參考群體,這兩個可能等位基因的頻率是多少?考慮到參考群體中 SNP 的等位基因頻率,我們可以研究這些頻率對于有特定疾病的亞群(即“病例”組)可能有什么不同,尋找與疾病相關的等位基因。因此,全基因組關聯研究可能包含大量snp病例組的等位基因頻率。根據定義,這些等位基因頻率只是聚合的統計數據,而(錯誤的)假設是,通過這種聚合,它們保留了隱私。然而,考慮到個體的基因組數據,理論上有可能確定個體是否屬于病例組(并且,因此,有疾病)。作為回應,國家衛生研究院和 Wellcome信托基金終止了公眾從他們資助的研究中獲取總頻率數據的途徑。

受制于相關知識缺失,未能理解此段重建攻擊和 DNA 事例,需要對第 8.1 節進行了解

這是一個具有挑戰性的問題,即使是對于差分隱私,因為涉及到大量的——數十萬甚至一百萬——測量,這些測量包含和關聯了大群體中的小數量的個體。

長期的事實并不“好”

如果一個數據主體隨著時間的推移而被跟蹤,那么揭露數據個體長期的行為(例如購買面包)可能會有問題。舉個例子,假設某人,他年復一年地定期買面包,直到突然轉向很少買面包。一位分析師可能會得出結論,某人很可能被診斷為2型糖尿病。分析員可能是正確的,也可能是不正確的;不管怎樣,某人的隱私都會受到傷害。

此處原文為Ordinary Fact,根據下文內容來看,更應該表示為一種長期的普遍性結果,故將其翻譯為“長期”

“少數人”原則

在某些情況下,一種特定的技術實際上可以為數據集的“典型”成員提供隱私保護,或者更普遍地說,為“大多數”成員提供隱私保護。在這種情況下,人們經常聽到這樣的說法,即這種技術是足夠的,因為它損害了“少數”參與者的隱私。撇開那些對隱私最重要的人來說可能是離群者這一擔憂不談,“少數人”原則在本質上并不是沒有價值的:需要做出社會判斷,權衡成本和收益。一個清晰的隱私定義與“少數人”的理念相一致,但還沒有發展出來;但是,對于單個數據集,“只有少數”的隱私可以通過隨機選擇行的子集并將其全部釋放來實現(引理4.3,第4節)。抽樣界限描述了統計分析的質量,可以在隨機子樣本上執行,它控制要釋放的行數。當“少數人”的原則被拒絕時,差分隱私提供了另一種選擇。

個人理解為離群點更容易遭受差分攻擊,需要在之后深入理解

1.2 參考文獻

Sweeney [81] linked voter registration records to “anonymized” medical encounter data; Narayanan and Shmatikov carried out a linkage attack against anonymized ranking data published by Netflix [65]. The work on presence in a forensic mix is due to Homer et al. [46]. The first reconstruction attacks were due to Dinur and Nissim [18].


目錄導航

第1章:https://blog.csdn.net/AdamCY888/article/details/146454841
第2章:https://blog.csdn.net/AdamCY888/article/details/146455093
第3章(1/3):https://blog.csdn.net/AdamCY888/article/details/146455756
第3章(2/3):https://blog.csdn.net/AdamCY888/article/details/146455796
第3章(3/3):https://blog.csdn.net/AdamCY888/article/details/146455328
第4章:https://blog.csdn.net/AdamCY888/article/details/146455882
第5章:https://blog.csdn.net/AdamCY888/article/details/146456100
第6章(1/2):https://blog.csdn.net/AdamCY888/article/details/146456712
第6章(2/2):https://blog.csdn.net/AdamCY888/article/details/146456972
第7章:https://blog.csdn.net/AdamCY888/article/details/146457037
第8章:https://blog.csdn.net/AdamCY888/article/details/146457172
第9章:https://blog.csdn.net/AdamCY888/article/details/146457257
第10章:https://blog.csdn.net/AdamCY888/article/details/146457331
第11章:https://blog.csdn.net/AdamCY888/article/details/146457418
第12章:https://blog.csdn.net/AdamCY888/article/details/146457489
第13章(含附錄):https://blog.csdn.net/AdamCY888/article/details/146457601

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/73108.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/73108.shtml
英文地址,請注明出處:http://en.pswp.cn/web/73108.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

UI-TARS與Midscene.js自動化探索

結合 Midscene.js 和 UI-TARS 大模型 實現 UI 頁面自動化的可實施方案,涵蓋環境配置、核心流程、代碼示例及優化建議: 一、環境配置與工具集成 安裝 Midscene.js 方式一:通過 Chrome 插件快速安裝(適用于瀏覽器自動化場景&#x…

Web開發-JS應用NodeJS原型鏈污染文件系統Express模塊數據庫通訊

知識點: 1、安全開發-NodeJS-開發環境&功能實現 2、安全開發-NodeJS-安全漏洞&案例分析 3、安全開發-NodeJS-特有漏洞 node.js就是專門運行javascript的一個應用程序,區別于以往用瀏覽器解析原生js代碼,node.js本身就可以解析執行js代…

Spring AOP 核心概念與實踐指南

第一章:AOP 核心概念與基礎應用 1.1 AOP 核心思想 ?面向切面編程:通過橫向抽取機制解決代碼重復問題(如日志、事務、安全等)?核心優勢:不修改源代碼增強功能,提高代碼復用性和可維護性 1.2 基礎環境搭…

Flutter使用自簽證書打包ipa

在 Flutter 中使用自簽證書打包 IPA 文件,可以通過以下步驟完成: 1. 準備自簽證書 方式一 生成自簽證書: 打開 鑰匙串訪問 應用。選擇 證書助理 > 創建證書。按照提示填寫證書信息,選擇證書類型為 代碼簽名,并保存…

基于STM32的機器人控制系統設計方案

一、系統概述 該機器人控制系統以STM32微控制器為核心,旨在實現對機器人的運動控制、傳感器數據采集與處理、任務調度以及人機交互等功能。適用于多種類型的移動機器人,如輪式機器人、履帶式機器人等,可應用于室內導航、環境監測、物流搬運等場景。 二、硬件設計 STM32微控…

【leetcode hot 100 51】N皇后

解法一:(基于集合的回溯)我們從第一行開始尋找,找每一行皇后應該放在第幾列。每次找到都用Set記錄已經用過的列和對角,其中從左到右向下的對角(行-列相同),右到左向下的對角&#xf…

藍橋刷題note9(分發餅干,最長回文子串)

1.分發餅干 假設你是一位很棒的家長,想要給你的孩子們一些小餅干。但是,每個孩子最多只能給一塊餅干。 對每個孩子 i,都有一個胃口值 g[i],這是能讓孩子們滿足胃口的餅干的最小尺寸;并且每塊餅干 j,都有…

面試常問系列(一)-神經網絡參數初始化

一、背景 說到參數初始化,先提一下大家常見的兩個概念梯度消失和梯度爆炸。 (一)、梯度消失:深層網絡的“靜默殺手” 定義: 在反向傳播過程中,梯度值隨著網絡層數增加呈指數級衰減,最終趨近…

Manacher 馬拉車算法

Manacher 馬拉車算法 5. 最長回文子串 - 力扣(LeetCode) 馬拉車算法是目前解決尋找字符串中最長的回文子串時間復雜度最低的算法(線性O(n)). 中心擴散法 初始化一個長度與字符串 s 相等的 臂長數組 arr 和 最長臂長 max 與 最…

(學習總結29)Linux 進程概念和進程狀態

Linux 進程概念 馮諾依曼體系結構軟件運行與存儲分級數據流動的理論過程 操作系統操作系統(Operator System) 概念操作系統的功能與作用系統調用和庫函數概念 進程概念描述進程 - PCBtask_struct查看進程通過系統調用獲取進程標示符 PID通過系統調用 fork 函數創建進程簡單使用…

MySQL密碼修改的全部方式一篇詳解

本文將詳細介紹多種修改MySQL密碼的方式。 本文目錄 一、alter user 語句操作步驟 二、set password操作步驟 三、直接修改 mysql.user表操作步驟 一、alter user 語句 當你以 root 用戶或者擁有足夠權限的用戶登錄 MySQL 時,可以使用 ALTER USER 語句來修改密碼。…

Wi-Fi NAN 架構(Wi-Fi Aware Specification v4.0,第2章:2.3~2.6)

1. NAN 數據通信架構 1.1 單播支持 要在兩個NAN設備之間啟動單播數據通信,服務需發起一個NAN數據路徑(NDP,NAN Data Path)請求。這對NAN設備之間會建立一個NAN設備鏈路(NDL,NAN Device Link)&…

Lineageos 22.1(Android 15)實現負一屏

一、前言 方案是參考的這位大佬的,大家可以去付費訂閱支持一波。我大概理一下Android15的修改。 大佬的方案代碼 二、Android15適配調整 1.bp調整,加入aidl引入,這樣make之后就可以索引代碼了 filegroup {name: "launcher-src"…

Java 大視界 -- Java 大數據在智能醫療遠程會診與專家協作中的技術支持(146)

💖親愛的朋友們,熱烈歡迎來到 青云交的博客!能與諸位在此相逢,我倍感榮幸。在這飛速更迭的時代,我們都渴望一方心靈凈土,而 我的博客 正是這樣溫暖的所在。這里為你呈上趣味與實用兼具的知識,也…

Sqlite3數據庫

工具庫的使用&#xff1a;程序編寫時#include <庫名.h>即可調用庫中的函數 編譯時鏈接工具庫&#xff1b; 注意&#xff1a;數據庫中不區分字母大小寫&#xff1b; SQLite 中的事務是數據庫操作中非常重要的一個概念&#xff0c;它用于確保數據庫操作的完整性和一致性。…

虛擬路由與單頁應用(SPA):詳解

在單頁應用&#xff08;SPA&#xff0c;Single Page Application&#xff09;中&#xff0c;虛擬路由&#xff08;也稱為前端路由&#xff09;是一種關鍵的技術&#xff0c;用于管理頁面導航和狀態變化&#xff0c;而無需重新加載整個頁面。為了幫助你更好地理解這一概念&#…

練習:運動計劃

需求&#xff1a;鍵盤錄入星期數&#xff0c;顯示今天的減肥活動。 周一&#xff1a;跑步&#xff1b; 周二&#xff1a;游泳&#xff1b; 周三&#xff1a;慢走&#xff1b; 周四&#xff1a;騎動感單車&#xff1b; 周五&#xff1a;拳擊&#xff1b; 周六&#xff1a;…

通過webrtc+canvas+css實現簡單的電腦濾鏡拍照效果

這里我們用的是webrtc中的MediaDevices.getUserMedia()的瀏覽器api進行的效果實現&#xff0c;MediaDevices.getUserMedia() 會提示用戶給予使用媒體輸入的許可&#xff0c;媒體輸入會產生一個MediaStream&#xff0c;里面包含了請求的媒體類型的軌道。此流可以包含一個視頻軌道…

《TCP/IP網絡編程》學習筆記 | Chapter 20:Windows 中的線程同步

《TCP/IP網絡編程》學習筆記 | Chapter 20&#xff1a;Windows 中的線程同步 《TCP/IP網絡編程》學習筆記 | Chapter 20&#xff1a;Windows 中的線程同步用戶模式和內核模式用戶模式同步內核模式同步 基于 CRITICAL_SECTION 的同步內核模式的同步方法基于互斥量對象的同步基于…

VBA-Excel

VBA 一、數據類型與變量 常用數據類型&#xff1a; Byte&#xff1a;字節型&#xff0c;0~255。Integer&#xff1a;整數型&#xff0c;用于存儲整數值&#xff0c;范圍 -32768 到 32767。Long&#xff1a;長整型&#xff0c;可存儲更大范圍的整數&#xff0c;范圍 -214748364…