公開的聚合數據是通過對原始細粒度數據進行匯總、統計或轉換后發布的,旨在提供群體層面的洞察而非個體信息。它們具有以下關鍵特征:
1. 去標識性(De-identification)
-
表現:
-
直接標識符(姓名、身份證號、手機號)被刪除或泛化(如年齡變為“20-30歲”,地址變為“海淀區”)。
-
個體無法通過聚合數據直接定位到具體人。
-
-
隱私風險:
-
間接標識符(郵編、性別、職業)組合仍可能通過鏈接攻擊重新識別個體(如“中關村某科技公司35歲男性高管”可能唯一)。
-
2. 統計性(Statistical Nature)
-
表現:
-
僅發布統計量:計數(某地區病例數)、均值(平均收入)、比例(疫苗接種率)、分位數(收入中位數)、匯總值(GDP)。
-
不包含原始記錄(如單條醫療記錄)。
-
-
隱私風險:
-
通過多維度交叉統計重構個體值(例:已知“某公司10名員工平均工資5萬” + “9名員工工資≤6萬” → 可推出第10人工資≥14萬)。
-
3. 多維性(Multi-dimensionality)
-
表現:
-
按不同維度分層發布統計結果(如同時按年齡、性別、地區發布收入分布)。
-
-
隱私風險:
-
維度越多,數據越稀疏 →?小群體問題(如“海淀區60歲以上患罕見病X的女性”可能僅1人),泄露其敏感信息。
-
4. 稀疏性(Sparsity)
-
表現:
-
高維組合下,許多統計單元內數據量極少(甚至為0)。
-
例:發布“每個郵編區域+職業類型”的平均收入時,偏遠地區“核物理學家”可能僅1人。
-
-
隱私風險:
-
稀疏單元中的統計值(如均值)≈該個體的真實值 →?直接暴露隱私。
-
5. 關聯性(Correlation)
-
表現:
-
聚合數據隱含屬性間關聯規律(如“學歷與收入正相關”“郵編100084多關聯學生”)。
-
-
隱私風險:
-
攻擊者利用已知關聯(如從公開簡歷庫知“某人是清華博士”)+聚合數據(“海淀區博士平均收入30萬”)→?推測該個體收入。
-
6. 穩定性/連續性(Stability/Continuity)
-
表現:
-
同類數據定期發布(如月度失業率、季度GDP),相鄰時間段數據通常變化平緩。
-
-
隱私風險:通過差分攻擊對比前后版
7. 高信息量(High Informativeness)
-
表現:
-
聚合數據保留原始數據的統計分布特征(如直方圖、熱力圖反映空間密度)。
-
-
隱私風險:
-
利用分布特征進行分布重構攻擊(例:從帶噪聲的年齡分布直方圖中反推原始年齡分布)。
-
8. 機制可溯性(Mechanism Transparency)
-
表現:
-
部分發布說明統計方法(如“使用差分隱私,ε=1.0”),或直接暴露算法(如開源代碼)。
-
-
隱私風險:
-
攻擊者利用已知噪聲機制(如拉普拉斯分布)設計最優濾波算法,削弱噪聲影響(例:對差分隱私保護的聚合數據多次查詢取平均)。
-
隱私保護的關鍵矛盾
聚合數據的特征構成一對矛盾:
-
正面價值:多維性、高信息量支撐深度分析(如政策制定、商業決策)。
-
隱私風險:這些特征恰好為過濾攻擊提供數學基礎,使其能反推個體信息。
典型案例說明特征如何導致攻擊
案例:人口普查數據泄露
-
數據特征:
-
發布至街道層級的年齡/職業/教育程度交叉統計表(多維性+統計性)。
-
-
攻擊過程:
-
攻擊者獲取某人的公開信息(家住“A街道”,職業“律師”,年齡“40歲”)。
-
查詢聚合表發現:
-
A街道40歲律師僅1人(稀疏性),
-
該群體平均收入50萬(統計性)→?推斷此人收入≈50萬。
-
-
防御方案:
-
對稀疏單元合并或截斷(如不發布≤5人的統計項)。
-
添加差分隱私噪聲:即使攻擊者查到“A街道40歲律師平均收入50萬”,實際發布值為“50萬+隨機噪聲”,使其無法置信推斷。
聚合數據的“雙面性”
特征 | 分析價值 | 隱私風險 |
---|---|---|
去標識性 | 保護直接隱私 | 間接標識符組合可重新識別個體 |
多維性 | 支持細粒度分析 | 小群體問題導致個體暴露 |
統計性 | 反映群體規律 | 多維度交叉重構個體值 |
高信息量 | 保留數據分布模式 | 分布重構攻擊基礎 |
穩定性 | 追蹤趨勢變化 | 差分攻擊推斷個體變化 |