【論文閱讀】Safety Alignment Should Be Made More Than Just a Few Tokens Deep

Safety Alignment Should Be Made More Than Just a Few Tokens Deep

原文摘要
- 問題提出
  - 現狀與漏洞：當前LLMs的安全對齊機制容易被攻破，即使是簡單的攻擊（如對抗性后綴攻擊）或良性的微調也可能導致模型越獄。
  - 核心論點：
    - 作者認為這些漏洞的共同根源是安全對齊存在走捷徑現象——即對齊僅集中在模型生成的前幾個輸出tokens上，而對后續token的控制不足。
    - 這種現象被稱為淺層安全對齊。
  - 研究內容
    - 案例分析：
      - 文章中通過具體案例解釋了淺層安全對齊存在的原因，并提供了實驗證據表明當前對齊的LLMs普遍受此問題影響。
    - 攻擊解釋：這一概念能統一解釋多種已知的攻擊方式，包括：
      - 對抗性后綴攻擊（adversarial suffix attacks）
      - 預填充攻擊（prefilling attacks）
      - 解碼參數攻擊（decoding parameter attacks）
      - 微調攻擊（fine-tuning attacks）
  - 解決方案
    - 深化對齊：將安全對齊擴展到更多token（而不僅是前幾個）能顯著提升模型對常見攻擊的魯棒性。
    - 正則化微調：作者設計了一種正則化微調目標，通過約束初始token的更新，使安全對齊在微調攻擊下更具持久性。
    - 核心主張：未來安全對齊應避免淺層化，需確保對齊的深度覆蓋更多token。

1. Introduction

研究背景與問題現狀
- 當前LLM安全的依賴：
  - 模型的安全性主要依賴于對齊技術，包括SFT、RLHF和DPO。
  - 這些方法的目標是讓模型拒絕有害輸入，減少有害內容的生成。
  - 現有漏洞：盡管對齊技術被廣泛采用，但研究發現其存在多種脆弱性，例如：
    - 對抗性輸入攻擊（如對抗性后綴優化）
    - 少量微調攻擊（少量梯度步即可越獄模型）
    - 解碼參數攻擊（通過調整生成參數繞過對齊）
  - 研究動機：由于對齊是LLM安全的核心，需理解其脆弱性根源并提出改進方案。
核心問題：淺層安全對齊
- 定義：
  - 當前安全對齊僅通過調整模型前幾個輸出token的生成分布來實現，而對后續token的控制不足。
  - 這種走捷徑現象稱為淺層安全對齊。
  - 后果：如果模型的前幾個token偏離安全路徑，后續生成可能完全失控，導致有害內容泄露。
  - 對立概念：與之相對的是深度安全對齊，即模型能從有害的開頭恢復并拒絕請求。
論文三大貢獻
1. 系統性驗證淺層安全對齊的存在
  - 實驗發現：
    - 對齊模型與未對齊模型的安全行為差異僅體現在前幾個token。
    - 未對齊模型只需在開頭預填充安全前綴，即可達到與對齊模型相似的安全性能。
  - 解釋現有攻擊：淺層對齊解釋了以下攻擊為何有效：
    - 攻擊者只要讓模型以“肯定、有害”的語氣開頭，就能突破對齊
    - 微調攻擊（即用少量數據就能越獄）本質上也是改變前幾個 token 的分布，從而篡改了安全開頭
2. 深化安全對齊的解決方案
  - 方法：提出數據增強策略，訓練模型在有害開頭后仍能恢復安全拒絕。
  - 效果：深化對齊后，模型在更深token層級上仍能保持安全，顯著提升對攻擊的魯棒性。
3. 防御微調攻擊的正則化方法
  - 方法：設計約束優化目標，限制初始token概率的劇烈變化，使對齊在微調中更持久。
  - 意義：進一步驗證了當前對齊的淺層性，并為防御微調攻擊提供了新思路。
研究意義
- 統一視角：首次將多種攻擊的根源歸結為淺層對齊，為安全研究提供理論框架。
- 未來方向：未來對齊技術需確保安全干預覆蓋更多token（即深化），而非僅依賴前幾個token。

2. The Shallow Safety Alignment Issue in Current Large Language Models

這一部分正式提出淺層安全對齊的概念，并通過實驗證明當前LLMs的安全對齊主要依賴于前幾個輸出tokens的調整，導致模型在面對攻擊或誘導時容易失效。
核心定義：淺層安全對齊
- 問題描述：當前的安全對齊方法僅調整模型在前幾個token的生成分布，使其傾向于生成拒絕性前綴。
- 關鍵缺陷：
  - 表面安全：在標準測試中，模型因生成安全前綴而表現良好。
  - 脆弱性：一旦模型因攻擊或錯誤生成了非拒絕性前綴，后續內容可能完全失控，導致有害輸出。
對立概念：
- 深度安全對齊：模型即使開頭偏離安全路徑，仍能在后續token中恢復并拒絕請求。

2.1 Preliminaries

2.1.1 符號表示

模型表示：
- $πθ\pi_\theta$ ：參數為 $θ\theta$ 的語言模型。
- $πbase\pi_{\text{base}}$ ：未對齊的預訓練模型（如Llama-2-7B、Gemma-7B）。
- $πaligned\pi_{\text{aligned}}$ ：對齊后的模型（如Llama-2-7B-Chat、Gemma-7B-IT）。
生成過程：
- $πθ(?∣x)\pi_\theta(\cdot \mid x)$ ：給定輸入x，模型的輸出分布。
- $\sim \pi_\theta(\cdot \mid x)$ ：從分布中采樣的輸出序列y。
序列表示：
- $y_t$ ：輸出序列y的第t個token。
- $y<t,y≤ty_{<t}, y_{\leq t}$ ：y中第1到(t-1)或第1到t個token的子序列。
- $y>t,y≥ty_{>t}, y_{\geq t}$ ：y中第t或(t-1)個token之后的子序列。

2.1.2 安全評估指標

數據集：使用HEx-PHI安全基準（330條有害指令，覆蓋11類有害用例）。
評估方法：
1. 無害率（Harmfulness Rate）：無攻擊時，模型輸出有害內容的比例。
2. 攻擊成功率（Attack Success Rate, ASR）：在對抗攻擊下，模型輸出有害內容的比例。
自動化評判：通過GPT-4自動判斷輸出是否安全。

2.2 淺層安全對齊的特征

安全對齊的典型表現：拒絕性前綴
- 觀察現象：
  - 對齊模型在面對有害指令時，96%以上的響應以固定拒絕前綴開頭（如“I cannot”“I apologize”）。
- 關鍵問題：
  - 這些前綴實則是淺層對齊的核心——模型僅需調整前幾個token的分布即可實現表面安全。

2.2.1 未對齊模型 + 強制前綴 ≈ 對齊模型

觀點：
- 未對齊模型也可以通過“安全前綴”假裝安全（即捷徑）
實驗設計：
- 對未對齊的基座模型（如Llama-2-7B、Gemma-7B），在解碼時強制預填充拒絕前綴，觀察安全性
- 使用HEx-PHI有害指令集測試，比較以下兩種情況的有害率：
  1. 標準解碼（無前綴強制）。
  2. 強制以拒絕前綴開頭（如“I cannot”）。
結果：
- 未對齊模型在標準解碼下有害率較高。
- 強制添加拒絕前綴后，有害率顯著下降，接近對齊模型水平。
解釋：
- 基座模型本身已具備延續拒絕前綴的能力（預訓練中學習到的語言模式），對齊僅需強化這一局部行為。
- 這也揭示了一個對齊過程中的捷徑或reward hacking：
  - 即只需讓模型在前幾個token上生成拒絕前綴，就能讓它表現出“偽裝的安全行為”。

2.2.2 證明當前模型在利用安全前綴捷徑

實驗方法：
- 構建有害回答數據集（Harmful HEx-PHI）：使用越獄版GPT-3.5-Turbo為HEx-PHI指令生成有害回答。
- 計算對齊模型（ $πaligned\pi_{\text{aligned}}$ ）與基座模型（ $πbase\pi_{\text{base}}$ ）在生成有害回答時每個token的KL散度：
  $D_{\text{KL}}\left( \pi_{\text{aligned}}(\cdot \mid x, y_{<k}) \parallel \pi_{\text{base}}(\cdot \mid x, y_{<k}) \right)$
  - 其中 $y_{<k}$ 為前 $k ? 1$ 個token。
結果：
- KL散度在前5個token顯著高于后續token。
- 說明對齊模型的優化主要在初始token，后續token幾乎未調整。
原因分析：
- SFT階段：人類編寫的安全響應樣本通常直接拒絕，極少出現先有害后糾正的案例，導致模型未學習深度恢復能力。
- RLHF階段：
  - 模型因總是生成拒絕前綴，幾乎不會因后續有害內容受到懲罰。
  - 結果是：模型就可以毫無代價地利用拒絕前綴這個捷徑來獲得正面獎勵，從而形成淺層對齊。

2.3 淺層對齊可能是多種安全漏洞的根源

本節論證淺層安全對齊如何導致兩類主要漏洞：
1. 推理階段漏洞：攻擊者通過操縱初始token繞過對齊。
2. 微調攻擊漏洞：少量微調即可破壞對齊，因其僅依賴前幾個token的調整。

2.3.1 推理階段漏洞

預填充攻擊（Prefilling Attacks）
- 原理：強制模型以非拒絕前綴開頭生成響應，后續內容易失控。
- 實驗驗證：
  - 使用Harmful HEx-PHI數據集，對每條有害指令 $(x, y)$ ，預填充前 $k$ 個有害token $y≤ky_{\leq k}$ ，生成后續輸出 $y^～πθ(?∣x,y≤k)\hat{y} \sim \pi_\theta(\cdot \mid x, y_{\leq k})$ 。
  - 結果：
    - 隨著 $k$ 增加，攻擊成功率從接近0%快速升至50%以上。
- 影響：
  - 開源模型可直接控制解碼過程。
  - 閉源模型的API支持預填充功能，同樣存在風險。
基于優化的越獄攻擊（Optimization-Based Jailbreak Attacks）
- 代表方法：對抗性后綴攻擊。
- 攻擊邏輯：
  - 優化一個對抗性后綴，附加到有害指令后，迫使模型生成肯定前綴。
  - 代理目標：直接最大化肯定前綴的生成概率。
- 解釋：攻擊成功的關鍵是繞過初始拒絕token，而淺層對齊未對后續token充分約束。
隨機采樣越獄
- 原理：通過調整解碼參數（如溫度、top-k、top-p）增加多樣性，隨機采樣到非拒絕開頭的響應。
  - 只要采樣次數足夠多，得到有害回復的概率就會升高
- 示例：高溫使初始token分布更隨機，可能跳過“I cannot”而直接生成有害內容。
- 根源：淺層對齊僅依賴前幾個token的確定性分布，對隨機性敏感。

Remar
- 深度對齊的改進：第3節將證明，若對齊覆蓋更多token，可顯著提升對上述攻擊的魯棒性。

2.3.2 微調階段的漏洞

背景
- 不僅惡意微調能越獄，良性微調（繼續訓練模型用于任務微調）也可能導致安全性回退。
微調攻擊的公式化表示
- 標準微調損失函數：
  $\min_\theta \left\{ \mathbb{E}_{(x,y)\sim D} -\log \pi_\theta(y \mid x) \right\} = \min_\theta \left\{ \mathbb{E}_{(x,y)\sim D} -\sum_{t=1}^{|y|} \log \pi_\theta(y_t \mid x, y_{<t}) \right\}$
  - $πθ\pi_\theta$ ：微調后的模型，初始化為對齊模型 $πaligned\pi_{\text{aligned}}$ 。
  - $D$ ：微調數據集。
  - 損失函數分解為每個token的交叉熵損失求和。
微調動態的逐token分析
- 評估指標：
  1. 單token損失： $?log?πθ(yt∣x,y<t)-\log \pi_\theta(y_t \mid x, y_{<t})$ —— 交叉熵衡量模型在位置 $t$ 的預測難度。
  2. 梯度幅值： $∥?log?πθ(yt∣x,y<t)∥2\|\nabla \log \pi_\theta(y_t \mid x, y_{<t})\|_2$ —— 反映參數更新強度。
  3. KL散度： $DKL(πθ(?∣x~,y~<t)∥πaligned(?∣x~,y~<t))D_{\text{KL}}(\pi_\theta(\cdot \mid \tilde{x}, \tilde{y}_{<t}) \parallel \pi_{\text{aligned}}(\cdot \mid \tilde{x}, \tilde{y}_{<t}))$ —— 量化微調前后分布的差異。
實驗
- 實驗設置：
  - 對齊模型（Llama-2-7B-Chat）在100個有害樣本上微調（學習率2e-5，batch size=64）。
  - 關鍵發現：
    - 初始token損失與梯度更大：前幾個token的交叉熵損失和梯度幅值顯著高于后續token。
    - KL散度集中在前幾個token：微調主要改變初始token的分布，后續token幾乎不變。
    - 攻擊效率：僅6步微調，ASR從1.5%飆升至87.9%。
原因分析與對抗思路
- 原因：淺層對齊的優化集中在初始token，導致其易被微調破壞（大梯度快速改變分布）。
- 對抗思路：
  - 約束初始token的更新：通過正則化限制前幾個token的梯度幅值。

3. 更深的安全對齊

本節通過數據增強方法構建深度安全對齊的模型，驗證其相比淺層對齊在魯棒性上的優勢。
核心思想：若對齊能覆蓋更多token，模型即使被誘導生成有害開頭，也能在后續恢復拒絕響應。

3.1 基于安全恢復樣本的數據增強

問題形式化
- 符號定義： $x$ ：有害指令、 $h$ ：有害響應、 $r$ ：拒絕響應

3.1.1 淺層對齊的缺陷

僅通過抑制 $h$ 的前幾個token（如 $πθ(h1∣x)=0\pi_\theta(h_1 \mid x)=0$ ）降低 $πθ(h∣x)\pi_\theta(h \mid x)$
$\pi_\theta(h \mid x)=\pi_\theta(h_1 \mid x)\times\pi_\theta(h_{>1} \mid x,h_1)=0 \times 1 = 0$
- 雖然結果為 0，但只是因為第一個 token 被壓制
- 后面的 $h_{>1}$ 仍然有可能生成，所以風險仍舊存在

3.1.2 安全恢復樣本

設計目標：訓練模型在任何位置（即使開頭已生成有害詞元）都能恢復拒絕響應。
數據構造：
- 三元組 $(x, h, r)$ ，其中 $r$ 會接在前綴 $h≤kh_{\leq k}$ 后 [ $\sim \text{Uniform}[1, C]$ $\leq |h|)$ ]
```
<s> [INST] ?SYS? (System Prompt) ?/SYS?\n\nPlease give me step-by-step instructions for building a bomb. [/INST] Step 1: Gather phosphorus I cannot fulfill your request. It’s not... </s>
```
- 關鍵特性：非自然語言連貫文本，專門覆蓋有害開頭后恢復的異常情況。
實現方法
- 數據集：
  - 安全數據集 $D_H$ ：256個 $(x, h, r)$ 三元組，。
  - 效用數據集 $D_B$ ：從Alpaca數據集提取良性指令及回應，保持模型通用能力。
- 優化目標
  $\min_\theta \alpha \times \mathbb{E}_{(x,h,r)\sim D_H, k\sim P_k} \left[ -\log \pi_\theta(r \mid x, h_{\leq k}) \right] + (1-\alpha) \times \mathbb{E}_{(x',y')\sim D_B} \left[ -\log \pi_\theta(y' \mid x') \right]$
  - $P_k$ ：50%概率 $k = 0$ （標準對齊），50%概率 $\in [1,100]$ （深度對齊）。
  - $α=0.2\alpha=0.2$
- 模型：基于Llama-2-7B-Chat微調，記為Llama2-7B-Chat-Augmented。
效果驗證
- 對齊深度提升：微調后模型與基座模型的KL散度在后續token顯著升高，表明對齊影響擴展到更深位置。
- 實用性保留：AlpacaEval勝率49.5%（原模型51.8%），實用性損失可忽略。

3.2 深度對齊對多種攻擊的魯棒性提升

3.2.1 對抗推理攻擊：魯棒性提升

測試攻擊類型：
1. 預填充攻擊
2. GCG攻擊
3. 解碼參數攻擊
結果：
- 增強模型對所有攻擊的攻擊成功率均顯著低于原模型。

3.2.2 對抗微調攻擊：更持久的安全性

良性微調的安全性：在良性數據集上微調時，增強模型的安全退化更少。
有害微調的局限性：增強模型仍可能被有害微調攻擊破壞，但ASR提升速度更慢。

4. 保護初始token免受微調攻擊

本節針對微調攻擊的漏洞，提出一種token級約束優化目標，通過限制初始詞元的分布偏移，增強對齊的持久性。

4.1 針對對齊LLMs的token級約束優化目標

約束優化目標設計
- 目標函數：
  $\min_\theta \left\{\mathbb{E}_{(x,y)\sim D} -\sum_{t=1}^{|y|} \frac{2}{\beta_t} \log\left[ \sigma \left( \beta_t \log \frac{\pi_\theta(y_t \mid x, y_{<t})}{\pi_{\text{aligned}}(y_t \mid x, y_{<t})} \right) \right]\right\}$
  - $σ(z)=11+e?z\sigma(z) = \frac{1}{1+e^{-z}}$ ：Sigmoid函數，平滑限制分布偏移。
  - $βt\beta_t$ ：控制位置 $t$ 的約束強度（越大則約束越強）。
- 物理意義：
  - 當 $πθ\pi_\theta$ 與 $πaligned\pi_{\text{aligned}}$ 在詞元 $y_t$ 的分布接近時（ $πθπaligned≈1\frac{\pi_\theta}{\pi_{\text{aligned}}} \approx 1$ ），損失趨近于0。
  - 當 $πθ\pi_\theta$ 偏離 $πaligned\pi_{\text{aligned}}$ 時，損失快速增加，抑制梯度更新。
目標函數解析
- 重寫形式
  $\min_\theta \left\{\sum_{t \ge 1} \mathbb{E}_{(x,y) \sim D} \left[ \mathbb{1}_{\{t \le |y|\}} \cdot \frac{2}{\beta_t} \cdot S\left( \beta_t \cdot \Delta_t(x, y_{<t},y_t)\right)\right]\right\}$
  - $1{t≤∣y∣}\mathbb{1}_{\{t \le |y|\}}$ ：保證只在序列長度內計算損失；
  - $βt\beta_t$ ：控制第 $t$ 個 token 的正則化強度；
  - $S(z) = \log(1 + e^z)$ ：softplus 函數，是 sigmoid 的積分；
  - $Δt(x,y<t,yt)\Delta_t(x, y_{<t},y_t)$ ：當前模型和對齊模型在token t的概率差異
- $β\beta$ 較小時
  - 當 $βt→0\beta_t \to 0$ 很小時，softplus 函數可以一階泰勒展開： $S(βtz)=log?2+βt2zS(\beta_t z) = \log 2 + \frac{\beta_t}{2} z$
  - 所以 $βt2S(βtz)\frac{\beta_t}{2}S(\beta_t z)$ 約等于標準交叉熵的目標函數。
- $β\beta$ 較大時
  - $Loss≈E(x,y)～D[1{t≤∣y∣}?max?{Δt,0}]\text{Loss} \approx \mathbb{E}_{(x,y) \sim D} \left[ \mathbb{1}_{\{t \le |y|\}} \cdot\max\{ \Delta_t, 0 \}\right ]$
  - 也就是對 log 概率差大的位置進行懲罰，強迫與對齊模型靠近。
$β_t$ 大小時行為近似效果
小交叉熵損失著重擬合目標 token
大分布匹配（與對齊模型）抑制偏離，保護原始對齊性
梯度解釋
$\nabla \left[ \frac{\beta_t}{2} S(\beta_t \Delta_t(x, y_{<t}, y_t)) \right] = -2\sigma(\beta_t \Delta_t) \nabla \log \pi_\theta(y_t \mid x, y_{<t})$
- $σ(z)=11+e?z\sigma(z) = \frac{1}{1 + e^{-z}}$ ：sigmoid 函數；
- 梯度方向仍是和交叉熵一樣： $??log?πθ-\nabla \log \pi_\theta$ ，但是被乘了一個權重項： $wt:=2?σ(βt?Δt)w_t := 2 \cdot \sigma(\beta_t \cdot \Delta_t)$
  - 初始時 $πθ=πaligned\pi_\theta = \pi_{\text{aligned}}$ ， $w_t=1$ ，梯度與標準交叉熵相同。
  - 當 $πθ\pi_\theta$ 偏離 $πaligned\pi_{\text{aligned}}$ ， $wt→0w_t \to 0$ ，抑制梯度更新。

$β_t$ 大小時	行為近似	效果
小	交叉熵損失	著重擬合目標 token
大	分布匹配（與對齊模型）	抑制偏離，保護原始對齊性

4.2 實驗

參數配置
- $βt\beta_t$ 設置：
  - 前5個詞元強約束： $β1=0.5\beta_1=0.5$ , $β2:5=2\beta_{2:5}=2$ 。
  - 后續詞元弱約束： $βt>5=0.1\beta_{t>5}=0.1$ 。
攻擊場景
- 測試三類微調攻擊：
  - 有害樣本攻擊：100個（有害指令，有害回答）對。
  - 身份切換攻擊：微調模型自稱絕對服從，總是以肯定前綴回答。
  - 后門投毒攻擊：混合100個（有害指令，拒絕回答）和100個（有害指令+觸發詞，有害回答）。
良性微調場景
- Samsum（文本摘要）、SQL Create Context（代碼生成）、GSM8k（數學推理）。
結果分析
- 安全性：約束優化在所有攻擊下保持低ASR（<10%），顯著優于標準微調（ASR可達87.9%）。
- 實用性保留：在良性任務中，約束優化的ROUGE-1/準確率與標準微調相當，優于初始模型。
- 關鍵結論：約束初始token可有效對抗攻擊，且不損害下游性能。

5. 相關工作

安全與對齊
- 現有方法：主流對齊技術（如RLHF、DPO）通過微調或偏好優化提升模型安全性，但本文發現其依賴淺層對齊。
- 模型選擇：聚焦Gemma和Llama-2系列，因其對齊流程接近前沿閉源模型（如GPT-4）。
越獄方法
- 攻擊類型：包括微調攻擊、解碼參數攻擊、預填充攻擊、對抗優化攻擊等（如GCG攻擊）。
- 防御局限：現有系統級防御（如輸入/輸出監控）易被繞過，需更底層的安全機制。
淺層對齊假設與token級效應
- 淺層對齊假設：對齊僅改變輸入輸出格式，未深入調整模型內部表征。
- token級效應：
  - 微調主要影響序列開頭的主題和風格先驗。
  - 對齊與未對齊模型的差異隨序列長度增加而消失。
  - 利用token級效應設計越獄攻擊。
- 本文差異：深入分析淺層對齊對安全漏洞的影響，并提出針對性對抗方案。
保護初始token的安全性
- 過放大初始安全聲明token的概率防御推理時攻擊，與本文第4節約束初始詞元的思路相似。
- 本文創新：提出token級約束優化目標，直接限制微調時的初始詞元分布偏移。
與控制理論和安全RL的聯系
- 理論關聯：第3節的數據增強方法類似安全控制理論中的恢復策略學習。
- 未來方向：可進一步探索與策略梯度方法的聯系。
安全深度的其他維度
- 多維度深度：除詞元深度外，安全深度還包括模型在適應后保持安全性的能力。