【論文閱讀】Diff-Privacy: Diffusion-based Face Privacy Protection

基于擴散模型的人臉隱私保護方法——DiffPrivacy，解決了兩類人臉隱私任務：匿名化（anonymization）和視覺身份信息隱藏（visual identity information hiding）。

1. 研究背景

隨著人工智能和大數據技術的普及，個人身份圖像（尤其是人臉圖像）面臨隱私泄露風險。研究者提出兩類主要保護方法：

挑戰：這兩類任務的目標是矛盾的，難以通過同一模型實現。例如，匿名化需要讓模型無法識別，而視覺身份隱藏則要求機器仍能正確識別。此外，現有方法多為專用，需大量高質量人臉數據，且容易留下編輯痕跡，恢復能力有限。

DiffPrivacy設計：

多尺度圖像反演模塊（MSI）
利用擴散模型在不同時間步關注圖像的不同級別（尺度）信息，設計MSI模塊獲取原始圖像的條件嵌入（conditional embedding），支持多樣化調控。
身份指導能量函數（Energy-based Identity Guidance）
在擴散生成過程的去噪階段，根據任務需求進行梯度修正。即：
- 匿名化：最大化對原身份的混淆（讓識別模型識別錯誤）
- 信息隱藏：確保加密圖像能被機器準確識別
嵌入調度策略（Embedding Scheduling）
結合不同時間步分配不同的嵌入，使生成與恢復流程靈活切換。

Figure 1：DiffPrivacy方法生成的加密/匿名人臉：

低級圖像處理如模糊（blurring）、馬賽克（mosaicing）、遮罩（masking）、像素化（pixelization）等，直接破壞臉部可辨識特征。這些方法有效消滅身份，但往往嚴重損害圖片可用性：檢測、識別、分析都受影響。

GANs/虛擬臉替換
- 用生成對抗網絡（GANs）生成新的、虛擬的面部區域替換原始身份，例如inpainting生成新臉（如Sun等[39]）。
- 不足：生成的面部常常不自然，表情屬性單一。
- 提升：Maximov等[25]利用人臉關鍵點信息生成多樣化加密臉，但高分辨率下自然度仍有限。

最近工作（[5], [13], [22]等）專注于可逆加密和匿名。典型方法：
- 條件GAN，輸入密碼條件，輸出加密臉（Gu等[13]）。
- 抽取屬性/身份向量，旋轉改變身份（Cao等[5]）。
- 將原圖投射到StyleGAN2潛空間，密碼與transformer一起處理生成加密代碼（Li等[22]）。
局限性：訓練強依賴高質量人臉數據，加密和恢復的圖像質量滿意度一般。

Diff-Privacy設計為三步：

條件嵌入學習（key-E）：通過多尺度（multi-stage embedding）反演模塊（MSI）學習原圖在預訓練SDM（Stable Diffusion Model）中的條件嵌入（embedding）。
隱私保護圖像生成（key-I）：通過能量函數身份指導+嵌入調度策略，在去噪流程中引導生成加密/匿名化臉，并通過DDIM反演得到噪音圖。
身份恢復：使用key-I和key-E（作為條件嵌入），利用DDIM采樣逆向還原出原始圖。

觀察：擴散模型去噪初期決定布局、結構；中期決定內容；末期生成紋理。
10階段嵌入方案：1000步去噪分10段，每段一個嵌入（每個token配768維向量）——更細粒度調控。
如何獲取嵌入：不是直接優化而是用MSI模塊，結合CLIP圖像編碼器多層特征（五層768向量），分別與時間步embedding相乘，通過注意力模塊聚合，最終對齊并得到embedding組。