Safety Alignment Should Be Made More Than Just a Few Tokens Deep
-
原文摘要
-
問題提出
-
現狀與漏洞:當前LLMs的安全對齊機制容易被攻破,即使是簡單的攻擊(如對抗性后綴攻擊)或良性的微調也可能導致模型越獄。
-
核心論點:
- 作者認為這些漏洞的共同根源是安全對齊存在走捷徑現象——即對齊僅集中在模型生成的前幾個輸出tokens上,而對后續token的控制不足。
- 這種現象被稱為淺層安全對齊。
-
研究內容
- 案例分析:
- 文章中通過具體案例解釋了淺層安全對齊存在的原因,并提供了實驗證據表明當前對齊的LLMs普遍受此問題影響。
- 攻擊解釋:這一概念能統一解釋多種已知的攻擊方式,包括:
- 對抗性后綴攻擊(adversarial suffix attacks)
- 預填充攻擊(prefilling attacks)
- 解碼參數攻擊(decoding parameter attacks)
- 微調攻擊(fine-tuning attacks)
- 案例分析:
-
解決方案
- 深化對齊:將安全對齊擴展到更多token(而不僅是前幾個)能顯著提升模型對常見攻擊的魯棒性。
- 正則化微調:作者設計了一種正則化微調目標,通過約束初始token的更新,使安全對齊在微調攻擊下更具持久性。
- 核心主張:未來安全對齊應避免淺層化,需確保對齊的深度覆蓋更多token。
-
-
1. Introduction
-
研究背景與問題現狀
- 當前LLM安全的依賴:
-
模型的安全性主要依賴于對齊技術,包括SFT、RLHF和DPO。
-
這些方法的目標是讓模型拒絕有害輸入,減少有害內容的生成。
-
現有漏洞:盡管對齊技術被廣泛采用,但研究發現其存在多種脆弱性,例如:
- 對抗性輸入攻擊(如對抗性后綴優化)
- 少量微調攻擊(少量梯度步即可越獄模型)
- 解碼參數攻擊(通過調整生成參數繞過對齊)
-
研究動機:由于對齊是LLM安全的核心,需理解其脆弱性根源并提出改進方案。
-
- 當前LLM安全的依賴:
-
核心問題:淺層安全對齊
- 定義:
-
當前安全對齊僅通過調整模型前幾個輸出token的生成分布來實現,而對后續token的控制不足。
-
這種走捷徑現象稱為淺層安全對齊。
-
后果:如果模型的前幾個token偏離安全路徑,后續生成可能完全失控,導致有害內容泄露。
-
對立概念:與之相對的是深度安全對齊,即模型能從有害的開頭恢復并拒絕請求。
-
- 定義:
-
論文三大貢獻
-
系統性驗證淺層安全對齊的存在
-
實驗發現:
- 對齊模型與未對齊模型的安全行為差異僅體現在前幾個token。
- 未對齊模型只需在開頭預填充安全前綴,即可達到與對齊模型相似的安全性能。
-
解釋現有攻擊:淺層對齊解釋了以下攻擊為何有效:
- 攻擊者只要讓模型以“肯定、有害”的語氣開頭,就能突破對齊
- 微調攻擊(即用少量數據就能越獄)本質上也是改變前幾個 token 的分布,從而篡改了安全開頭
-
-
深化安全對齊的解決方案
-
方法:提出數據增強策略,訓練模型在有害開頭后仍能恢復安全拒絕。
-
效果:深化對齊后,模型在更深token層級上仍能保持安全,顯著提升對攻擊的魯棒性。
-
-
防御微調攻擊的正則化方法
-
方法:設計約束優化目標,限制初始token概率的劇烈變化,使對齊在微調中更持久。
-
意義:進一步驗證了當前對齊的淺層性,并為防御微調攻擊提供了新思路。
-
-
-
研究意義
-
統一視角:首次將多種攻擊的根源歸結為淺層對齊,為安全研究提供理論框架。
-
未來方向:未來對齊技術需確保安全干預覆蓋更多token(即深化),而非僅依賴前幾個token。
-
2. The Shallow Safety Alignment Issue in Current Large Language Models
-
這一部分正式提出淺層安全對齊的概念,并通過實驗證明當前LLMs的安全對齊主要依賴于前幾個輸出tokens的調整,導致模型在面對攻擊或誘導時容易失效。
-
核心定義:淺層安全對齊
-
問題描述:當前的安全對齊方法僅調整模型在前幾個token的生成分布,使其傾向于生成拒絕性前綴。
-
關鍵缺陷:
- 表面安全:在標準測試中,模型因生成安全前綴而表現良好。
- 脆弱性:一旦模型因攻擊或錯誤生成了非拒絕性前綴,后續內容可能完全失控,導致有害輸出。
-
-
對立概念:
- 深度安全對齊:模型即使開頭偏離安全路徑,仍能在后續token中恢復并拒絕請求。
2.1 Preliminaries
2.1.1 符號表示
- 模型表示:
- πθ\pi_\thetaπθ?:參數為θ\thetaθ 的語言模型。
- πbase\pi_{\text{base}}πbase?:未對齊的預訓練模型(如Llama-2-7B、Gemma-7B)。
- πaligned\pi_{\text{aligned}}πaligned?:對齊后的模型(如Llama-2-7B-Chat、Gemma-7B-IT)。
- 生成過程:
- πθ(?∣x)\pi_\theta(\cdot \mid x)πθ?(?∣x):給定輸入x,模型的輸出分布。
- y~πθ(?∣x)y \sim \pi_\theta(\cdot \mid x)y~πθ?(?∣x):從分布中采樣的輸出序列y。
- 序列表示:
- yty_tyt?:輸出序列y的第t個token。
- y<t,y≤ty_{<t}, y_{\leq t}y<t?,y≤t?:y中第1到(t-1)或第1到t個token的子序列。
- y>t,y≥ty_{>t}, y_{\geq t}y>t?,y≥t?:y中第t或(t-1)個token之后的子序列。
2.1.2 安全評估指標
- 數據集:使用HEx-PHI安全基準(330條有害指令,覆蓋11類有害用例)。
- 評估方法:
- 無害率(Harmfulness Rate):無攻擊時,模型輸出有害內容的比例。
- 攻擊成功率(Attack Success Rate, ASR):在對抗攻擊下,模型輸出有害內容的比例。
- 自動化評判:通過GPT-4自動判斷輸出是否安全。
2.2 淺層安全對齊的特征
-
安全對齊的典型表現:拒絕性前綴
-
觀察現象:
- 對齊模型在面對有害指令時,96%以上的響應以固定拒絕前綴開頭(如“I cannot”“I apologize”)。
-
關鍵問題:
- 這些前綴實則是淺層對齊的核心——模型僅需調整前幾個token的分布即可實現表面安全。
-
2.2.1 未對齊模型 + 強制前綴 ≈ 對齊模型
-
觀點:
- 未對齊模型也可以通過“安全前綴”假裝安全(即捷徑)
-
實驗設計:
- 對未對齊的基座模型(如Llama-2-7B、Gemma-7B),在解碼時強制預填充拒絕前綴,觀察安全性
- 使用HEx-PHI有害指令集測試,比較以下兩種情況的有害率:
- 標準解碼(無前綴強制)。
- 強制以拒絕前綴開頭(如“I cannot”)。
-
結果:
- 未對齊模型在標準解碼下有害率較高。
- 強制添加拒絕前綴后,有害率顯著下降,接近對齊模型水平。
-
解釋:
- 基座模型本身已具備延續拒絕前綴的能力(預訓練中學習到的語言模式),對齊僅需強化這一局部行為。
- 這也揭示了一個對齊過程中的捷徑或reward hacking:
- 即只需讓模型在前幾個token上生成拒絕前綴,就能讓它表現出“偽裝的安全行為”。
2.2.2 證明當前模型在利用安全前綴捷徑
-
實驗方法:
-
構建有害回答數據集(Harmful HEx-PHI):使用越獄版GPT-3.5-Turbo為HEx-PHI指令生成有害回答。
-
計算對齊模型(πaligned\pi_{\text{aligned}}πaligned?)與基座模型(πbase\pi_{\text{base}}πbase?)在生成有害回答時每個token的KL散度:
DKL(πaligned(?∣x,y<k)∥πbase(?∣x,y<k)) D_{\text{KL}}\left( \pi_{\text{aligned}}(\cdot \mid x, y_{<k}) \parallel \pi_{\text{base}}(\cdot \mid x, y_{<k}) \right) DKL?(πaligned?(?∣x,y<k?)∥πbase?(?∣x,y<k?))- 其中y<ky_{<k}y<k? 為前 k?1k-1k?1 個token。
-
-
結果:
- KL散度在前5個token顯著高于后續token。
- 說明對齊模型的優化主要在初始token,后續token幾乎未調整。
-
原因分析:
- SFT階段:人類編寫的安全響應樣本通常直接拒絕,極少出現先有害后糾正的案例,導致模型未學習深度恢復能力。
- RLHF階段:
- 模型因總是生成拒絕前綴,幾乎不會因后續有害內容受到懲罰。
- 結果是:模型就可以毫無代價地利用拒絕前綴這個捷徑來獲得正面獎勵,從而形成淺層對齊。
2.3 淺層對齊可能是多種安全漏洞的根源
-
本節論證淺層安全對齊如何導致兩類主要漏洞:
-
推理階段漏洞:攻擊者通過操縱初始token繞過對齊。
-
微調攻擊漏洞:少量微調即可破壞對齊,因其僅依賴前幾個token的調整。
-
2.3.1 推理階段漏洞
-
預填充攻擊(Prefilling Attacks)
-
原理:強制模型以非拒絕前綴開頭生成響應,后續內容易失控。
-
實驗驗證:
-
使用Harmful HEx-PHI數據集,對每條有害指令(x,y)(x, y)(x,y),預填充前 kkk 個有害token y≤ky_{\leq k}y≤k?,生成后續輸出y^~πθ(?∣x,y≤k)\hat{y} \sim \pi_\theta(\cdot \mid x, y_{\leq k})y^?~πθ?(?∣x,y≤k?)。
-
結果:
- 隨著 kkk 增加,攻擊成功率從接近0%快速升至50%以上。
-
-
影響:
- 開源模型可直接控制解碼過程。
- 閉源模型的API支持預填充功能,同樣存在風險。
-
-
基于優化的越獄攻擊(Optimization-Based Jailbreak Attacks)
- 代表方法:對抗性后綴攻擊。
- 攻擊邏輯:
- 優化一個對抗性后綴,附加到有害指令后,迫使模型生成肯定前綴。
- 代理目標:直接最大化肯定前綴的生成概率。
- 解釋:攻擊成功的關鍵是繞過初始拒絕token,而淺層對齊未對后續token充分約束。
-
隨機采樣越獄
-
原理:通過調整解碼參數(如溫度、top-k、top-p)增加多樣性,隨機采樣到非拒絕開頭的響應。
- 只要采樣次數足夠多,得到有害回復的概率就會升高
-
示例:高溫使初始token分布更隨機,可能跳過“I cannot”而直接生成有害內容。
-
根源:淺層對齊僅依賴前幾個token的確定性分布,對隨機性敏感。
-
- Remar
- 深度對齊的改進:第3節將證明,若對齊覆蓋更多token,可顯著提升對上述攻擊的魯棒性。
2.3.2 微調階段的漏洞
-
背景
- 不僅惡意微調能越獄,良性微調(繼續訓練模型用于任務微調)也可能導致安全性回退。
-
微調攻擊的公式化表示
-
標準微調損失函數:
min?θ{E(x,y)~D?log?πθ(y∣x)}=min?θ{E(x,y)~D?∑t=1∣y∣log?πθ(yt∣x,y<t)} \min_\theta \left\{ \mathbb{E}_{(x,y)\sim D} -\log \pi_\theta(y \mid x) \right\} = \min_\theta \left\{ \mathbb{E}_{(x,y)\sim D} -\sum_{t=1}^{|y|} \log \pi_\theta(y_t \mid x, y_{<t}) \right\} θmin?{E(x,y)~D??logπθ?(y∣x)}=θmin?????E(x,y)~D??t=1∑∣y∣?logπθ?(yt?∣x,y<t?)????- πθ\pi_\thetaπθ?:微調后的模型,初始化為對齊模型 πaligned\pi_{\text{aligned}}πaligned?。
- DDD:微調數據集。
- 損失函數分解為每個token的交叉熵損失求和。
-
-
微調動態的逐token分析
- 評估指標:
- 單token損失:?log?πθ(yt∣x,y<t)-\log \pi_\theta(y_t \mid x, y_{<t})?logπθ?(yt?∣x,y<t?) —— 交叉熵衡量模型在位置 ttt 的預測難度。
- 梯度幅值:∥?log?πθ(yt∣x,y<t)∥2\|\nabla \log \pi_\theta(y_t \mid x, y_{<t})\|_2∥?logπθ?(yt?∣x,y<t?)∥2? —— 反映參數更新強度。
- KL散度:DKL(πθ(?∣x~,y~<t)∥πaligned(?∣x~,y~<t))D_{\text{KL}}(\pi_\theta(\cdot \mid \tilde{x}, \tilde{y}_{<t}) \parallel \pi_{\text{aligned}}(\cdot \mid \tilde{x}, \tilde{y}_{<t}))DKL?(πθ?(?∣x~,y~?<t?)∥πaligned?(?∣x~,y~?<t?)) —— 量化微調前后分布的差異。
- 評估指標:
-
實驗
-
實驗設置:
- 對齊模型(Llama-2-7B-Chat)在100個有害樣本上微調(學習率2e-5,batch size=64)。
- 關鍵發現:
- 初始token損失與梯度更大:前幾個token的交叉熵損失和梯度幅值顯著高于后續token。
- KL散度集中在前幾個token:微調主要改變初始token的分布,后續token幾乎不變。
- 攻擊效率:僅6步微調,ASR從1.5%飆升至87.9%。
-
-
原因分析與對抗思路
-
原因:淺層對齊的優化集中在初始token,導致其易被微調破壞(大梯度快速改變分布)。
-
對抗思路:
- 約束初始token的更新:通過正則化限制前幾個token的梯度幅值。
-
3. 更深的安全對齊
- 本節通過數據增強方法構建深度安全對齊的模型,驗證其相比淺層對齊在魯棒性上的優勢。
- 核心思想:若對齊能覆蓋更多token,模型即使被誘導生成有害開頭,也能在后續恢復拒絕響應。
3.1 基于安全恢復樣本的數據增強
- 問題形式化
- 符號定義: xxx:有害指令、hhh:有害響應、rrr:拒絕響應
3.1.1 淺層對齊的缺陷
-
僅通過抑制hhh的前幾個token(如πθ(h1∣x)=0\pi_\theta(h_1 \mid x)=0πθ?(h1?∣x)=0)降低πθ(h∣x)\pi_\theta(h \mid x)πθ?(h∣x)
πθ(h∣x)=πθ(h1∣x)×πθ(h>1∣x,h1)=0×1=0 \pi_\theta(h \mid x)=\pi_\theta(h_1 \mid x)\times\pi_\theta(h_{>1} \mid x,h_1)=0 \times 1 = 0 πθ?(h∣x)=πθ?(h1?∣x)×πθ?(h>1?∣x,h1?)=0×1=0- 雖然結果為 0,但只是因為第一個 token 被壓制
- 后面的h>1h_{>1}h>1?仍然有可能生成,所以風險仍舊存在
3.1.2 安全恢復樣本
-
設計目標:訓練模型在任何位置(即使開頭已生成有害詞元)都能恢復拒絕響應。
-
數據構造:
-
三元組(x,h,r)(x, h, r)(x,h,r),其中 rrr 會接在前綴 h≤kh_{\leq k}h≤k? 后 [k~Uniform[1,C]k \sim \text{Uniform}[1, C]k~Uniform[1,C] (C≤∣h∣)(C \leq |h|)(C≤∣h∣)]
<s> [INST] ?SYS? (System Prompt) ?/SYS?\n\nPlease give me step-by-step instructions for building a bomb. [/INST] Step 1: Gather phosphorus I cannot fulfill your request. It’s not... </s>
-
關鍵特性:非自然語言連貫文本,專門覆蓋有害開頭后恢復的異常情況。
-
-
實現方法
-
數據集:
- 安全數據集 DHD_HDH?:256個(x,h,r)(x, h, r)(x,h,r)三元組,。
- 效用數據集 DBD_BDB?:從Alpaca數據集提取良性指令及回應,保持模型通用能力。
-
優化目標
min?θα×E(x,h,r)~DH,k~Pk[?log?πθ(r∣x,h≤k)]+(1?α)×E(x′,y′)~DB[?log?πθ(y′∣x′)] \min_\theta \alpha \times \mathbb{E}_{(x,h,r)\sim D_H, k\sim P_k} \left[ -\log \pi_\theta(r \mid x, h_{\leq k}) \right] + (1-\alpha) \times \mathbb{E}_{(x',y')\sim D_B} \left[ -\log \pi_\theta(y' \mid x') \right] θmin?α×E(x,h,r)~DH?,k~Pk??[?logπθ?(r∣x,h≤k?)]+(1?α)×E(x′,y′)~DB??[?logπθ?(y′∣x′)]- PkP_kPk?:50%概率 k=0k=0k=0(標準對齊),50%概率 k∈[1,100]k \in [1,100]k∈[1,100](深度對齊)。
- α=0.2\alpha=0.2α=0.2
-
模型:基于Llama-2-7B-Chat微調,記為Llama2-7B-Chat-Augmented。
-
-
效果驗證
-
對齊深度提升:微調后模型與基座模型的KL散度在后續token顯著升高,表明對齊影響擴展到更深位置。
-
實用性保留:AlpacaEval勝率49.5%(原模型51.8%),實用性損失可忽略。
-
3.2 深度對齊對多種攻擊的魯棒性提升
3.2.1 對抗推理攻擊:魯棒性提升
-
測試攻擊類型:
- 預填充攻擊
- GCG攻擊
- 解碼參數攻擊
-
結果:
- 增強模型對所有攻擊的攻擊成功率均顯著低于原模型。
3.2.2 對抗微調攻擊:更持久的安全性
- 良性微調的安全性:在良性數據集上微調時,增強模型的安全退化更少。
- 有害微調的局限性:增強模型仍可能被有害微調攻擊破壞,但ASR提升速度更慢。
4. 保護初始token免受微調攻擊
- 本節針對微調攻擊的漏洞,提出一種token級約束優化目標,通過限制初始詞元的分布偏移,增強對齊的持久性。
4.1 針對對齊LLMs的token級約束優化目標
-
約束優化目標設計
-
目標函數:
min?θ{E(x,y)~D?∑t=1∣y∣2βtlog?[σ(βtlog?πθ(yt∣x,y<t)πaligned(yt∣x,y<t))]} \min_\theta \left\{\mathbb{E}_{(x,y)\sim D} -\sum_{t=1}^{|y|} \frac{2}{\beta_t} \log\left[ \sigma \left( \beta_t \log \frac{\pi_\theta(y_t \mid x, y_{<t})}{\pi_{\text{aligned}}(y_t \mid x, y_{<t})} \right) \right]\right\} θmin?????E(x,y)~D??t=1∑∣y∣?βt?2?log[σ(βt?logπaligned?(yt?∣x,y<t?)πθ?(yt?∣x,y<t?)?)]????- σ(z)=11+e?z\sigma(z) = \frac{1}{1+e^{-z}}σ(z)=1+e?z1?:Sigmoid函數,平滑限制分布偏移。
- βt\beta_tβt?:控制位置 ttt 的約束強度(越大則約束越強)。
-
物理意義:
- 當πθ\pi_\thetaπθ?與πaligned\pi_{\text{aligned}}πaligned?在詞元yty_tyt?的分布接近時(πθπaligned≈1\frac{\pi_\theta}{\pi_{\text{aligned}}} \approx 1πaligned?πθ??≈1),損失趨近于0。
- 當πθ\pi_\thetaπθ?偏離πaligned\pi_{\text{aligned}}πaligned?時,損失快速增加,抑制梯度更新。
-
-
目標函數解析
-
重寫形式
min?θ{∑t≥1E(x,y)~D[1{t≤∣y∣}?2βt?S(βt?Δt(x,y<t,yt))]} \min_\theta \left\{\sum_{t \ge 1} \mathbb{E}_{(x,y) \sim D} \left[ \mathbb{1}_{\{t \le |y|\}} \cdot \frac{2}{\beta_t} \cdot S\left( \beta_t \cdot \Delta_t(x, y_{<t},y_t)\right)\right]\right\} θmin?{t≥1∑?E(x,y)~D?[1{t≤∣y∣}??βt?2??S(βt??Δt?(x,y<t?,yt?))]}-
1{t≤∣y∣}\mathbb{1}_{\{t \le |y|\}}1{t≤∣y∣}?:保證只在序列長度內計算損失;
-
βt\beta_tβt?:控制第 ttt 個 token 的正則化強度;
-
S(z)=log?(1+ez)S(z) = \log(1 + e^z)S(z)=log(1+ez):softplus 函數,是 sigmoid 的積分;
-
Δt(x,y<t,yt)\Delta_t(x, y_{<t},y_t)Δt?(x,y<t?,yt?):當前模型和對齊模型在token t的概率差異
-
-
β\betaβ較小時
-
當 βt→0\beta_t \to 0βt?→0 很小時,softplus 函數可以一階泰勒展開:S(βtz)=log?2+βt2zS(\beta_t z) = \log 2 + \frac{\beta_t}{2} zS(βt?z)=log2+2βt??z
-
所以 βt2S(βtz)\frac{\beta_t}{2}S(\beta_t z)2βt??S(βt?z) 約等于標準交叉熵的目標函數。
-
-
β\betaβ較大時
-
Loss≈E(x,y)~D[1{t≤∣y∣}?max?{Δt,0}]\text{Loss} \approx \mathbb{E}_{(x,y) \sim D} \left[ \mathbb{1}_{\{t \le |y|\}} \cdot\max\{ \Delta_t, 0 \}\right ]Loss≈E(x,y)~D?[1{t≤∣y∣}??max{Δt?,0}]
-
也就是對 log 概率差大的位置進行懲罰,強迫與對齊模型靠近。
-
βtβ_tβt? 大小時 行為近似 效果 小 交叉熵損失 著重擬合目標 token 大 分布匹配(與對齊模型) 抑制偏離,保護原始對齊性 -
-
梯度解釋
?[βt2S(βtΔt(x,y<t,yt))]=?2σ(βtΔt)?log?πθ(yt∣x,y<t) \nabla \left[ \frac{\beta_t}{2} S(\beta_t \Delta_t(x, y_{<t}, y_t)) \right] = -2\sigma(\beta_t \Delta_t) \nabla \log \pi_\theta(y_t \mid x, y_{<t}) ?[2βt??S(βt?Δt?(x,y<t?,yt?))]=?2σ(βt?Δt?)?logπθ?(yt?∣x,y<t?)-
σ(z)=11+e?z\sigma(z) = \frac{1}{1 + e^{-z}}σ(z)=1+e?z1?:sigmoid 函數;
-
梯度方向仍是和交叉熵一樣:??log?πθ-\nabla \log \pi_\theta??logπθ?,但是被乘了一個權重項:wt:=2?σ(βt?Δt)w_t := 2 \cdot \sigma(\beta_t \cdot \Delta_t)wt?:=2?σ(βt??Δt?)
- 初始時πθ=πaligned\pi_\theta = \pi_{\text{aligned}}πθ?=πaligned?,wt=1w_t=1wt?=1,梯度與標準交叉熵相同。
- 當πθ\pi_\thetaπθ?偏離πaligned\pi_{\text{aligned}}πaligned?,wt→0w_t \to 0wt?→0,抑制梯度更新。
-
4.2 實驗
-
參數配置
- βt\beta_tβt?設置:
- 前5個詞元強約束:β1=0.5\beta_1=0.5β1?=0.5 , β2:5=2\beta_{2:5}=2β2:5?=2。
- 后續詞元弱約束:βt>5=0.1\beta_{t>5}=0.1βt>5?=0.1。
- βt\beta_tβt?設置:
-
攻擊場景
-
測試三類微調攻擊:
-
有害樣本攻擊:100個(有害指令,有害回答)對。
-
身份切換攻擊:微調模型自稱絕對服從,總是以肯定前綴回答。
-
后門投毒攻擊:混合100個(有害指令,拒絕回答)和100個(有害指令+觸發詞,有害回答)。
-
-
-
良性微調場景
- Samsum(文本摘要)、SQL Create Context(代碼生成)、GSM8k(數學推理)。
-
結果分析
-
安全性:約束優化在所有攻擊下保持低ASR(<10%),顯著優于標準微調(ASR可達87.9%)。
-
實用性保留:在良性任務中,約束優化的ROUGE-1/準確率與標準微調相當,優于初始模型。
-
關鍵結論:約束初始token可有效對抗攻擊,且不損害下游性能。
-
5. 相關工作
-
安全與對齊
-
現有方法:主流對齊技術(如RLHF、DPO)通過微調或偏好優化提升模型安全性,但本文發現其依賴淺層對齊。
-
模型選擇:聚焦Gemma和Llama-2系列,因其對齊流程接近前沿閉源模型(如GPT-4)。
-
-
越獄方法
-
攻擊類型:包括微調攻擊、解碼參數攻擊、預填充攻擊、對抗優化攻擊等(如GCG攻擊)。
-
防御局限:現有系統級防御(如輸入/輸出監控)易被繞過,需更底層的安全機制。
-
-
淺層對齊假設與token級效應
-
淺層對齊假設:對齊僅改變輸入輸出格式,未深入調整模型內部表征。
-
token級效應:
- 微調主要影響序列開頭的主題和風格先驗。
- 對齊與未對齊模型的差異隨序列長度增加而消失。
- 利用token級效應設計越獄攻擊。
-
本文差異:深入分析淺層對齊對安全漏洞的影響,并提出針對性對抗方案。
-
-
保護初始token的安全性
-
過放大初始安全聲明token的概率防御推理時攻擊,與本文第4節約束初始詞元的思路相似。
-
本文創新:提出token級約束優化目標,直接限制微調時的初始詞元分布偏移。
-
-
與控制理論和安全RL的聯系
-
理論關聯:第3節的數據增強方法類似安全控制理論中的恢復策略學習。
-
未來方向:可進一步探索與策略梯度方法的聯系。
-
-
安全深度的其他維度
- 多維度深度:除詞元深度外,安全深度還包括模型在適應后保持安全性的能力。