【大模型水印論文閱讀2】前綴文本編碼、均勻性約束

@TOC


請添加圖片描述

🌈你好呀!我是 是Yu欸
🚀 感謝你的陪伴與支持~ 歡迎添加文末好友
🌌 在所有感興趣的領域擴展知識,不定期掉落福利資訊(*^▽^*)

寫在最前面

版權聲明:本文為原創,遵循 CC 4.0 BY-SA 協議。轉載請注明出處。

第一個問題關于語義編碼過程,第二個關于水印logits的數學約束。

關于前綴文本編碼,需要強調三個關鍵點:
首先是均勻性約束——隨著生成過程不斷增長;
其次是BERT的編碼方式,這里論文用的是[CLS]向量作為全局表示;
最后是固定長度的必要性,否則無法輸入后續網絡。

用戶可能混淆了token嵌入和文本嵌入的區別,需要明確這是句子級表示。

至于均勻性約束,對“均值為0”的實際作用存在疑惑。
這里要區分兩個層面:
數學上是通過損失函數強制實現的(公式5),工程上是為了防止統計攻擊。
可以類比密碼學中的均勻分布要求,比如如果某些token總是獲得正logits,攻擊者只需提高這些token出現頻率就能破壞水印。
論文附錄D提到的γ參數調整其實是個很好的延伸案例。

更直觀的例子說明,比如當輸入“The cat sat”和“A feline perched”時,雖然token完全不同,但BERT輸出的768維向量余弦相似度可能達0.92,因此水印logits也相似。而均值為0的特性可以想象成對所有token“雨露均沾”,不會讓某些token總是受益。


1. 前綴文本的語義編碼:e_i = E(t_{:i-1})

含義
  • t_{:i-1}:生成第 i 個token時,模型已生成的全部前序文本(token序列)。
    例如:生成句子的第5個詞時,t_{:4} = ["The", "cat", "sat", "on"]

  • E:預訓練的語義編碼模型(如BERT),將變長文本映射為固定維度的語義向量
    例:輸入 "The cat sat on" → 輸出768維向量 e_i

    BERT取[CLS]標記或平均池化輸出作為文本表示

關鍵特性
  • 語義抽象
    向量 e_i 捕捉前序文本的整體語義而非表面形式。
    例:["The", "cat", "sat"]["A", "feline", "perched"] 的嵌入向量余弦相似度≈0.9
  • 長度無關
    無論前序文本多長,輸出固定維度向量(如768維)。
  • 位置不變
    同義改寫或語序調整不會顯著改變 e_i(語義空間連續性)。

2. 均勻性約束:水印logits均值為0

含義
  • 水印logits:模型為每個token生成的水印偏移分數 P_W ∈ R^{|V|}|V|=詞表大小)
    例:P_W = [0.3, -1.2, 0.8, ...](每個值對應詞表中一個token的偏移)
  • 約束要求
    \frac{1}{|V|}\sum_{j=1}^{|V|} P_W^{(j)} = 0
    
    即:所有token的水印偏移分數總和為0(正負抵消)。
為何需要此約束?
  • 消除統計偏差
    • 若無約束 → 某些token總是獲得正偏移(如常見詞"the")
    • 結果:這些token在生成文本中頻率異常高 → 攻擊者可通過詞頻分析破解水印(如圖)
      外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳
      KGW-1的綠名單詞頻明顯高于普通文本
  • 保障生成質量
    均值為0確保水印不系統性偏向某些token,避免文本失真(如重復出現特定詞)。
實現方式

通過損失函數強制約束(論文公式5):

\mathcal{L}_n = \underbrace{\sum_{i}|\sum_{j}P_W^{(j)}|}_{\text{行和=0}} + \underbrace{\sum_{i}|\sum_{j}P_W^{(j)}|}_{\text{列和=0}} + \lambda_1\sum_{i}\sum_{j}|R - |P_W^{(j)}|| 
  • 前兩項:約束每行(每個位置)和每列(每個token)的偏移均值為0
  • 第三項:使偏移絕對值接近 R(控制強度)
效果示例
約束情況水印logits示例問題
無約束["the": +0.8, "a": +0.6, "cat": -1.4]“the”/"a"頻率虛高,易被檢測
均勻約束["the": +1.2, "a": -0.3, "cat": -0.9]各token偏移正負平衡,無統計異常

總結:兩個設計的關聯性

  1. 語義向量 e_i → 將離散token序列映射到連續語義空間,解決改寫魯棒性問題。
  2. logits均值為0 → 在語義空間中均勻擾動所有token,解決安全漏洞問題。

二者共同實現核心目標:水印強度與文本語義綁定,而非表面形式綁定


hello,我是 是Yu欸 。如果你喜歡我的文章,歡迎三連給我鼓勵和支持:👍點贊 📁 關注 💬評論,我會給大家帶來更多有用有趣的文章。
原文鏈接 👉 ,??更新更及時。

歡迎大家點開下面名片,添加好友交流。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/86575.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/86575.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/86575.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

破繭時刻,與光同行

凌晨五點的鬧鐘刺破薄霧,我摸黑打開臺燈。攤開的數學錯題本上,函數圖像在暖黃的光暈里舒展,像等待破譯的密碼。這樣的清晨已持續三百多個日夜,我知道,在無數個相似的時刻里,總有千萬盞臺燈在黑暗中次第亮起…

Learning PostgresSQL讀書筆記: 第8章 Triggers and Rules

本章將討論以下內容: ? 探索 PostgreSQL 中的規則 ? 管理 PostgreSQL 中的觸發器 ? 事件觸發器 探索 PostgreSQL 中的規則 文檔中的這段話闡述了rule和trigger的區別: PostgreSQL 規則系統允許定義在數據庫表中插入、更新或刪除時執行的替代操作。粗…

信創國產化替代中的開發語言選擇分析

在信息技術應用創新(信創)國產化替代過程中,選擇合適的開發語言至關重要。以下是適合信創環境的開發語言及其優勢分析: 主流適合信創的編程語言 1. Java 優勢:跨平臺特性(JVM)、豐富的生態體系、企業級應用成熟 信創適配:國內有…

Android 中 函數實現多個返回值的幾種方式

在編程中,函數通常只能返回一個值。但通過使用對象封裝、Pair、Triple、數組、列表或 Bundle 方式,可以輕松地返回多個值。 1、對象封裝方式 創建數據類來封裝需要返回的多個值。 data class Result(val code: Int, val message: String)fun getMultiV…

Leetcode百題斬-DP

又到了最好玩的dp了,各種玄學轉移也算是其樂無窮。前段時間剛做的LCA正是這種題的小試牛刀,如果當時就把這個專題刷完了,或許我現在已經從西溪園區跑到云谷園區了。 不過,恐怖如斯的dp專題居然只給了一道hard,基本也沒…

策略模式與工廠模式的黃金組合:從設計到實戰

策略模式和工廠模式是軟件開發中最常用的兩種設計模式,當它們結合使用時,能產生11>2的效果。本文將通過實際案例,闡述這兩種模式的協同應用,讓代碼架構更優雅、可維護性更強。 一、為什么需要組合使用? 單獨使用的…

SAP PP模塊與MM模塊作用詳解

SAP PP模塊與MM模塊作用詳解 一、PP模塊(Production Planning)—— 生產計劃與執行中樞 核心作用:將銷售需求轉化為可執行的生產指令,管控從計劃到完工的全過程。 關鍵功能 功能說明業務價值主數據管理維護BOM(物料…

Linux tcp_info:監控TCP連接的秘密武器

深入解析 Linux tcp_info:TCP 狀態的實時監控利器 在開發和運維網絡服務時,我們常常遇到這些問題: 我的 TCP 連接為什么速度慢?是發生了重傳,還是窗口太小?擁塞控制到底有沒有生效? 這些問題…

CVE-2015-5531源碼分析與漏洞復現(Elasticsearch目錄遍歷漏洞)

概述 漏洞名稱:Elasticsearch 快照API目錄遍歷漏洞 CVE 編號:CVE-2015-5531 CVSS 評分:7.5 影響版本: Elasticsearch 1.0.0–1.6.0(1.5.1及以前版本無需配置即可觸發;1.5.2–1.6.0需配置path.repo&#xf…

HexHub開發運維利器Database, Docker, SSH, SFTP

支持隧道,SFTP,X11轉發,跳板機,分屏廣播輸入,LRZSZ,TRZSZ,SCP 分屏廣播輸入 管理多臺服務器,更快一步 支持多種文件傳輸協議 支持跨服務器文件傳輸,使用復制粘貼即可進…

2025年教育、心理健康與信息管理國際會議(EMHIM 2025)

2025 2nd International Conference on Education, Mental Health, and Information Management 一、大會信息 會議簡稱:EMHIM 2025 大會地點:中國三亞 收錄檢索:提交Ei Compendex,CPCI,CNKI,Google Scholar等 二、會議簡介 第二屆教…

數字孿生技術為UI前端注入新活力:實現智能化交互新體驗

hello寶子們...我們是艾斯視覺擅長ui設計、前端開發、數字孿生、大數據、三維建模、三維動畫10年經驗!希望我的分享能幫助到您!如需幫助可以評論關注私信我們一起探討!致敬感謝感恩! 在數字化轉型的深水區,數字孿生技術正以破竹之勢重構 UI 前端的技術邏輯與交互范式…

組件協作模式

目錄 “組件協作”模式模板方法模式動機模式定義結構要點總結 “組件協作”模式 現代軟件專業分工之后的第一個結果是“框架與應用程序的劃分”。“組件協作”模式通過晚期綁定,實現框架與應用程序之間的松耦合,是二者之間協作時常用的模式。典型模式&a…

Docker 運行RAGFlow 搭建RAG知識庫

借鑒視頻:DeepSeek 10分鐘完全本地部署 保姆級教程 斷網運行 無懼隱私威脅 大語言模型 CPU GPU 混合推理32B輕松本地部署!DeepSeek模擬王者!!_嗶哩嗶哩_bilibili 借鑒博客:RAGFlow搭建全攻略:從入門到精通…

python編寫腳本每月1號和15號執行一次將TRX是否強更發送到釘釘

編寫腳本 import requests import json import time import hmac import hashlib import base64 import urllib.parse# 1. 配置釘釘機器人 webhook "https://oapi.dingtalk.com/robot/send?access_tokenXXXXXX" secret "XXXXXXXX" # 如果沒有加簽驗…

Linux-系統管理

[rootlocalhost ~]# lscpu //查看cpu [rootlocalhost etc]# cat /etc/redhat-release //查看當前目錄的版本信息 [rootlocalhost ~]# ifconfig //查看當前激活的網卡信息 [rootlocalhost ~]# ifconfig ens33 192.168.1.10 //給網卡配置臨時地址 [rootlocalhost ~]# hostnam…

【Spring】系統化的 Spring Boot 全棧學習教程,涵蓋基礎配置、核心功能、進階實戰及文檔自動生成

這里寫目錄標題 🛠? **一、環境搭建與項目創建**1. 開發環境準備2. 創建第一個項目(Spring Initializr) 🚀 **二、核心功能開發**1. RESTful API 開發2. 數據持久化(Spring Data JPA)3. 配置文件多環境切換…

Discrete Audio Tokens: More Than a Survey

文章目錄 模型設計的考慮量化的方式:比特率:Fixed vs. Adaptive Bitrate碼本內容設計的考慮Streamability. 模型評估Reconstruction Evaluation and Complexity Analysis.識別和生成任務(SE, SR)Acoustic Language Modeling.Music Generation…

設計在線教育項目核心數據庫表

1 在線教育項目核心數據庫表設計-ER圖 簡介:設計在線教育的核心庫表結構 在線教育站點速覽 xdclass.net ER圖知識回顧: 實體對象:矩形屬性:橢圓關系:菱形 核心庫表 videochapterepisodeuservideo_ordervideo_banner…

【音視頻】Ubuntu下配置ffmpeg庫

一、下載預編譯的庫 在github上可以找到編譯好的ffmpeg,多個版本的都有,這里我下載ffmpeg編譯好的動態庫 倉庫鏈接:(https://github.com/BtbN/FFmpeg-Builds/releases 下載后解壓得到 二、配置環境變量 打開.bashrc配置文件,添…