【水印論文閱讀1】將水印規則的定義域從離散的符號空間轉移到連續的語義空間

請添加圖片描述

🌈你好呀！我是是Yu欸 🚀 感謝你的陪伴與支持~ 歡迎添加文末好友 🌌 在所有感興趣的領域擴展知識，不定期掉落福利資訊(*^▽^*)

寫在最前面

版權聲明：本文為原創，遵循 CC 4.0 BY-SA 協議。轉載請注明出處。

這個“破局點”的本質是將水印規則的定義域從離散的符號空間轉移到連續的語義空間，從而同時解決魯棒性與安全性的矛盾。

脆弱性：
- 水印規則依賴前 k 個token的具體ID（如 ["The", "cat", "sat"]）
- 同義替換（如 "cat"→"feline"）或語序調整會完全破壞歷史依賴 → 水印失效
安全性局限：
- 規則數量 = 詞匯表大小 |V|^k（有限離散空間）
- 攻擊者可通過統計詞頻破解（如綠名單token頻率異常高）

? 例：k=3 時，規則總數約 5萬^3=125萬億（可被窮舉分析）
? 致命傷：規則與語義無關，細微擾動即可破壞水印邏輯鏈

水印生成邏輯：

watermark_logits = T(embedding)  # T: 語義嵌入 → 水印logits的連續函數

語義空間中改寫的向量軌跡（微小擾動不影響水印）

語義空間維度通常 ≥ 768維（BERT-base為768維）
水印模型 T 是從 R^768 → R^{|V|} 的非線性映射
安全優勢：
- 規則空間連續無限，無法窮舉
- 即使獲得部分水印文本，也難以反推 T 的決策邊界
- 攻擊者無法通過詞頻統計破解（無固定綠名單）

? 例：在768維空間中，僅覆蓋1%范圍就需要 10^{2300} 個點 → 計算不可行

語義編碼器：
- 使用BERT類模型將前綴文本 t_{:i-1} 編碼為固定向量 e_i
水印生成器：
- 訓練輕量神經網絡 T，滿足：
  - 相似性約束：sim(T(e_i), T(e_j)) ≈ sim(e_i, e_j)（改寫時輸出穩定）
  - 均勻性約束：水印logits均值為0（避免偏好特定token）
水印融合：
- 最終logits = 原始logits + δ · T(語義嵌入)

指標	KGW-1 (k小)	KGW-4 (k大)	SIR (語義水印)
攻擊魯棒性	高 (改寫后AUC=0.88)	低 (改寫后AUC=0.61)	高 (改寫后AUC=0.85)
安全魯棒性	低 (易被詞頻破解)	高 (難破解)	高 (連續空間無法窮舉)
生成質量	可能失真	較穩定	最佳 (困惑度最低)

數據來源：論文Table 1 及 Appendix J

這種范式遷移不僅解決了該論文的核心問題，更為后續工作（如跨語言水印）提供了基礎框架——因為不同語言的同一語義也可映射到相似向量空間。

hello，我是是Yu欸。如果你喜歡我的文章，歡迎三連給我鼓勵和支持：👍點贊 📁 關注 💬評論，我會給大家帶來更多有用有趣的文章。
原文鏈接 👉 ，??更新更及時。

歡迎大家點開下面名片，添加好友交流。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/86604.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/86604.shtml
英文地址，請注明出處：http://en.pswp.cn/web/86604.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！