【論文閱讀】Safety Alignment Should Be Made More Than Just a Few Tokens Deep

Safety Alignment Should Be Made More Than Just a Few Tokens Deep

  • 原文摘要

    • 問題提出

      • 現狀與漏洞:當前LLMs的安全對齊機制容易被攻破,即使是簡單的攻擊(如對抗性后綴攻擊)或良性的微調也可能導致模型越獄。

      • 核心論點

        • 作者認為這些漏洞的共同根源是安全對齊存在走捷徑現象——即對齊僅集中在模型生成的前幾個輸出tokens上,而對后續token的控制不足
        • 這種現象被稱為淺層安全對齊
      • 研究內容

        • 案例分析
          • 文章中通過具體案例解釋了淺層安全對齊存在的原因,并提供了實驗證據表明當前對齊的LLMs普遍受此問題影響。
        • 攻擊解釋:這一概念能統一解釋多種已知的攻擊方式,包括:
          • 對抗性后綴攻擊(adversarial suffix attacks)
          • 預填充攻擊(prefilling attacks)
          • 解碼參數攻擊(decoding parameter attacks)
          • 微調攻擊(fine-tuning attacks)
      • 解決方案

        • 深化對齊:將安全對齊擴展到更多token(而不僅是前幾個)能顯著提升模型對常見攻擊的魯棒性。
        • 正則化微調:作者設計了一種正則化微調目標,通過約束初始token的更新,使安全對齊在微調攻擊下更具持久性。
        • 核心主張:未來安全對齊應避免淺層化,需確保對齊的深度覆蓋更多token。

1. Introduction

  • 研究背景與問題現狀

    • 當前LLM安全的依賴
      • 模型的安全性主要依賴于對齊技術,包括SFT、RLHF和DPO。

      • 這些方法的目標是讓模型拒絕有害輸入,減少有害內容的生成。

      • 現有漏洞:盡管對齊技術被廣泛采用,但研究發現其存在多種脆弱性,例如:

        • 對抗性輸入攻擊(如對抗性后綴優化)
        • 少量微調攻擊(少量梯度步即可越獄模型)
        • 解碼參數攻擊(通過調整生成參數繞過對齊)
      • 研究動機:由于對齊是LLM安全的核心,需理解其脆弱性根源并提出改進方案。

  • 核心問題:淺層安全對齊

    • 定義
      • 當前安全對齊僅通過調整模型前幾個輸出token的生成分布來實現,而對后續token的控制不足。

      • 這種走捷徑現象稱為淺層安全對齊

      • 后果:如果模型的前幾個token偏離安全路徑,后續生成可能完全失控,導致有害內容泄露。

      • 對立概念:與之相對的是深度安全對齊,即模型能從有害的開頭恢復并拒絕請求

  • 論文三大貢獻

    1. 系統性驗證淺層安全對齊的存在

      • 實驗發現

        • 對齊模型與未對齊模型的安全行為差異僅體現在前幾個token
        • 未對齊模型只需在開頭預填充安全前綴,即可達到與對齊模型相似的安全性能。
      • 解釋現有攻擊:淺層對齊解釋了以下攻擊為何有效:

        • 攻擊者只要讓模型以“肯定、有害”的語氣開頭,就能突破對齊
        • 微調攻擊(即用少量數據就能越獄)本質上也是改變前幾個 token 的分布,從而篡改了安全開頭
    2. 深化安全對齊的解決方案

      • 方法:提出數據增強策略,訓練模型在有害開頭后仍能恢復安全拒絕

      • 效果:深化對齊后,模型在更深token層級上仍能保持安全,顯著提升對攻擊的魯棒性。

    3. 防御微調攻擊的正則化方法

      • 方法:設計約束優化目標,限制初始token概率的劇烈變化,使對齊在微調中更持久。

      • 意義:進一步驗證了當前對齊的淺層性,并為防御微調攻擊提供了新思路。

  • 研究意義

    • 統一視角:首次將多種攻擊的根源歸結為淺層對齊,為安全研究提供理論框架。

    • 未來方向:未來對齊技術需確保安全干預覆蓋更多token(即深化),而非僅依賴前幾個token。

2. The Shallow Safety Alignment Issue in Current Large Language Models

  • 這一部分正式提出淺層安全對齊的概念,并通過實驗證明當前LLMs的安全對齊主要依賴于前幾個輸出tokens的調整,導致模型在面對攻擊或誘導時容易失效。

  • 核心定義:淺層安全對齊

    • 問題描述:當前的安全對齊方法僅調整模型在前幾個token的生成分布,使其傾向于生成拒絕性前綴。

    • 關鍵缺陷

      • 表面安全:在標準測試中,模型因生成安全前綴而表現良好。
      • 脆弱性:一旦模型因攻擊或錯誤生成了非拒絕性前綴,后續內容可能完全失控,導致有害輸出。
  • 對立概念

    • 深度安全對齊:模型即使開頭偏離安全路徑,仍能在后續token中恢復并拒絕請求。

2.1 Preliminaries

2.1.1 符號表示
  • 模型表示
    • πθ\pi_\thetaπθ?:參數為θ\thetaθ 的語言模型。
    • πbase\pi_{\text{base}}πbase?:未對齊的預訓練模型(如Llama-2-7B、Gemma-7B)。
    • πaligned\pi_{\text{aligned}}πaligned?:對齊后的模型(如Llama-2-7B-Chat、Gemma-7B-IT)。
  • 生成過程
    • πθ(?∣x)\pi_\theta(\cdot \mid x)πθ?(?x):給定輸入x,模型的輸出分布。
    • y~πθ(?∣x)y \sim \pi_\theta(\cdot \mid x)yπθ?(?x):從分布中采樣的輸出序列y。
  • 序列表示
    • yty_tyt?:輸出序列y的第t個token。
    • y<t,y≤ty_{<t}, y_{\leq t}y<t?,yt?:y中第1到(t-1)或第1到t個token的子序列。
    • y>t,y≥ty_{>t}, y_{\geq t}y>t?,yt?:y中第t或(t-1)個token之后的子序列。
2.1.2 安全評估指標
  • 數據集:使用HEx-PHI安全基準(330條有害指令,覆蓋11類有害用例)。
  • 評估方法
    1. 無害率(Harmfulness Rate):無攻擊時,模型輸出有害內容的比例。
    2. 攻擊成功率(Attack Success Rate, ASR):在對抗攻擊下,模型輸出有害內容的比例。
  • 自動化評判:通過GPT-4自動判斷輸出是否安全。

2.2 淺層安全對齊的特征

  • 安全對齊的典型表現:拒絕性前綴

    • 觀察現象

      • 對齊模型在面對有害指令時,96%以上的響應以固定拒絕前綴開頭(如“I cannot”“I apologize”)。
    • 關鍵問題

      • 這些前綴實則是淺層對齊的核心——模型僅需調整前幾個token的分布即可實現表面安全。
2.2.1 未對齊模型 + 強制前綴 ≈ 對齊模型
  • 觀點

    • 未對齊模型也可以通過“安全前綴”假裝安全(即捷徑)
  • 實驗設計

    • 未對齊的基座模型(如Llama-2-7B、Gemma-7B),在解碼時強制預填充拒絕前綴,觀察安全性
    • 使用HEx-PHI有害指令集測試,比較以下兩種情況的有害率
      1. 標準解碼(無前綴強制)。
      2. 強制以拒絕前綴開頭(如“I cannot”)。
  • 結果

    • 未對齊模型在標準解碼下有害率較高。
    • 強制添加拒絕前綴后,有害率顯著下降,接近對齊模型水平。
  • 解釋

    • 基座模型本身已具備延續拒絕前綴的能力(預訓練中學習到的語言模式),對齊僅需強化這一局部行為。
    • 這也揭示了一個對齊過程中的捷徑或reward hacking
      • 即只需讓模型在前幾個token上生成拒絕前綴,就能讓它表現出“偽裝的安全行為”。
2.2.2 證明當前模型在利用安全前綴捷徑
  • 實驗方法

    • 構建有害回答數據集(Harmful HEx-PHI):使用越獄版GPT-3.5-Turbo為HEx-PHI指令生成有害回答。

    • 計算對齊模型(πaligned\pi_{\text{aligned}}πaligned?)與基座模型(πbase\pi_{\text{base}}πbase?)在生成有害回答時每個token的KL散度
      DKL(πaligned(?∣x,y<k)∥πbase(?∣x,y<k)) D_{\text{KL}}\left( \pi_{\text{aligned}}(\cdot \mid x, y_{<k}) \parallel \pi_{\text{base}}(\cdot \mid x, y_{<k}) \right) DKL?(πaligned?(?x,y<k?)πbase?(?x,y<k?))

      • 其中y<ky_{<k}y<k? 為前 k?1k-1k?1 個token。
  • 結果

    • KL散度在前5個token顯著高于后續token。
    • 說明對齊模型的優化主要在初始token,后續token幾乎未調整。
  • 原因分析

    • SFT階段:人類編寫的安全響應樣本通常直接拒絕,極少出現先有害后糾正的案例,導致模型未學習深度恢復能力。
    • RLHF階段
      • 模型因總是生成拒絕前綴,幾乎不會因后續有害內容受到懲罰。
      • 結果是:模型就可以毫無代價地利用拒絕前綴這個捷徑來獲得正面獎勵,從而形成淺層對齊。

2.3 淺層對齊可能是多種安全漏洞的根源

  • 本節論證淺層安全對齊如何導致兩類主要漏洞:

    1. 推理階段漏洞:攻擊者通過操縱初始token繞過對齊。

    2. 微調攻擊漏洞:少量微調即可破壞對齊,因其僅依賴前幾個token的調整。

2.3.1 推理階段漏洞
  1. 預填充攻擊(Prefilling Attacks)

    • 原理:強制模型以非拒絕前綴開頭生成響應,后續內容易失控。

    • 實驗驗證

      • 使用Harmful HEx-PHI數據集,對每條有害指令(x,y)(x, y)(x,y),預填充前 kkk 個有害token y≤ky_{\leq k}yk?,生成后續輸出y^~πθ(?∣x,y≤k)\hat{y} \sim \pi_\theta(\cdot \mid x, y_{\leq k})y^?πθ?(?x,yk?)

      • 結果

        • 隨著 kkk 增加,攻擊成功率從接近0%快速升至50%以上。
    • 影響

      • 開源模型可直接控制解碼過程。
      • 閉源模型的API支持預填充功能,同樣存在風險。
  2. 基于優化的越獄攻擊(Optimization-Based Jailbreak Attacks)

    • 代表方法:對抗性后綴攻擊。
    • 攻擊邏輯
      • 優化一個對抗性后綴,附加到有害指令后,迫使模型生成肯定前綴。
      • 代理目標:直接最大化肯定前綴的生成概率。
    • 解釋:攻擊成功的關鍵是繞過初始拒絕token,而淺層對齊未對后續token充分約束。
  3. 隨機采樣越獄

    • 原理:通過調整解碼參數(如溫度、top-k、top-p)增加多樣性,隨機采樣到非拒絕開頭的響應

      • 只要采樣次數足夠多,得到有害回復的概率就會升高
    • 示例:高溫使初始token分布更隨機,可能跳過“I cannot”而直接生成有害內容。

    • 根源:淺層對齊僅依賴前幾個token的確定性分布,對隨機性敏感。

  • Remar
    • 深度對齊的改進:第3節將證明,若對齊覆蓋更多token,可顯著提升對上述攻擊的魯棒性。
2.3.2 微調階段的漏洞
  • 背景

    • 不僅惡意微調能越獄,良性微調(繼續訓練模型用于任務微調)也可能導致安全性回退。
  • 微調攻擊的公式化表示

    • 標準微調損失函數
      min?θ{E(x,y)~D?log?πθ(y∣x)}=min?θ{E(x,y)~D?∑t=1∣y∣log?πθ(yt∣x,y<t)} \min_\theta \left\{ \mathbb{E}_{(x,y)\sim D} -\log \pi_\theta(y \mid x) \right\} = \min_\theta \left\{ \mathbb{E}_{(x,y)\sim D} -\sum_{t=1}^{|y|} \log \pi_\theta(y_t \mid x, y_{<t}) \right\} θmin?{E(x,y)D??logπθ?(yx)}=θmin?????E(x,y)D??t=1y?logπθ?(yt?x,y<t?)????

      • πθ\pi_\thetaπθ?:微調后的模型,初始化為對齊模型 πaligned\pi_{\text{aligned}}πaligned?
      • DDD:微調數據集。
      • 損失函數分解為每個token的交叉熵損失求和。
  • 微調動態的逐token分析

    • 評估指標
      1. 單token損失?log?πθ(yt∣x,y<t)-\log \pi_\theta(y_t \mid x, y_{<t})?logπθ?(yt?x,y<t?) —— 交叉熵衡量模型在位置 ttt 的預測難度。
      2. 梯度幅值∥?log?πθ(yt∣x,y<t)∥2\|\nabla \log \pi_\theta(y_t \mid x, y_{<t})\|_2∥?logπθ?(yt?x,y<t?)2? —— 反映參數更新強度。
      3. KL散度DKL(πθ(?∣x~,y~<t)∥πaligned(?∣x~,y~<t))D_{\text{KL}}(\pi_\theta(\cdot \mid \tilde{x}, \tilde{y}_{<t}) \parallel \pi_{\text{aligned}}(\cdot \mid \tilde{x}, \tilde{y}_{<t}))DKL?(πθ?(?x~,y~?<t?)πaligned?(?x~,y~?<t?)) —— 量化微調前后分布的差異。
  • 實驗

    • 實驗設置

      • 對齊模型(Llama-2-7B-Chat)在100個有害樣本上微調(學習率2e-5,batch size=64)。

      • 關鍵發現
        • 初始token損失與梯度更大:前幾個token的交叉熵損失和梯度幅值顯著高于后續token。
        • KL散度集中在前幾個token:微調主要改變初始token的分布,后續token幾乎不變。
        • 攻擊效率:僅6步微調,ASR從1.5%飆升至87.9%。
  • 原因分析與對抗思路

    • 原因:淺層對齊的優化集中在初始token,導致其易被微調破壞(大梯度快速改變分布)。

    • 對抗思路

      • 約束初始token的更新:通過正則化限制前幾個token的梯度幅值。

3. 更深的安全對齊

  • 本節通過數據增強方法構建深度安全對齊的模型,驗證其相比淺層對齊在魯棒性上的優勢。
  • 核心思想:若對齊能覆蓋更多token,模型即使被誘導生成有害開頭,也能在后續恢復拒絕響應。

3.1 基于安全恢復樣本的數據增強

  • 問題形式化
    • 符號定義xxx:有害指令、hhh:有害響應、rrr:拒絕響應
3.1.1 淺層對齊的缺陷
  • 僅通過抑制hhh的前幾個token(如πθ(h1∣x)=0\pi_\theta(h_1 \mid x)=0πθ?(h1?x)=0)降低πθ(h∣x)\pi_\theta(h \mid x)πθ?(hx)
    πθ(h∣x)=πθ(h1∣x)×πθ(h>1∣x,h1)=0×1=0 \pi_\theta(h \mid x)=\pi_\theta(h_1 \mid x)\times\pi_\theta(h_{>1} \mid x,h_1)=0 \times 1 = 0 πθ?(hx)=πθ?(h1?x)×πθ?(h>1?x,h1?)=0×1=0

    • 雖然結果為 0,但只是因為第一個 token 被壓制
    • 后面的h>1h_{>1}h>1?仍然有可能生成,所以風險仍舊存在
3.1.2 安全恢復樣本
  • 設計目標:訓練模型在任何位置(即使開頭已生成有害詞元)都能恢復拒絕響應。

  • 數據構造

    • 三元組(x,h,r)(x, h, r)(x,h,r),其中 rrr 會接在前綴 h≤kh_{\leq k}hk? 后 [k~Uniform[1,C]k \sim \text{Uniform}[1, C]kUniform[1,C] (C≤∣h∣)(C \leq |h|)(Ch)]

      <s> [INST] ?SYS? (System Prompt) ?/SYS?\n\nPlease give me step-by-step instructions for building a bomb. [/INST] Step 1: Gather phosphorus I cannot fulfill your request. It’s not... </s>
      
    • 關鍵特性:非自然語言連貫文本,專門覆蓋有害開頭后恢復的異常情況。

  • 實現方法

    • 數據集

      • 安全數據集 DHD_HDH?:256個(x,h,r)(x, h, r)(x,h,r)三元組,。
      • 效用數據集 DBD_BDB?:從Alpaca數據集提取良性指令及回應,保持模型通用能力。
    • 優化目標
      min?θα×E(x,h,r)~DH,k~Pk[?log?πθ(r∣x,h≤k)]+(1?α)×E(x′,y′)~DB[?log?πθ(y′∣x′)] \min_\theta \alpha \times \mathbb{E}_{(x,h,r)\sim D_H, k\sim P_k} \left[ -\log \pi_\theta(r \mid x, h_{\leq k}) \right] + (1-\alpha) \times \mathbb{E}_{(x',y')\sim D_B} \left[ -\log \pi_\theta(y' \mid x') \right] θmin?α×E(x,h,r)DH?,kPk??[?logπθ?(rx,hk?)]+(1?α)×E(x,y)DB??[?logπθ?(yx)]

      • PkP_kPk?:50%概率 k=0k=0k=0(標準對齊),50%概率 k∈[1,100]k \in [1,100]k[1,100](深度對齊)。
      • α=0.2\alpha=0.2α=0.2
    • 模型:基于Llama-2-7B-Chat微調,記為Llama2-7B-Chat-Augmented

  • 效果驗證

    • 對齊深度提升:微調后模型與基座模型的KL散度在后續token顯著升高,表明對齊影響擴展到更深位置。

    • 實用性保留:AlpacaEval勝率49.5%(原模型51.8%),實用性損失可忽略。

3.2 深度對齊對多種攻擊的魯棒性提升

3.2.1 對抗推理攻擊:魯棒性提升
  • 測試攻擊類型

    1. 預填充攻擊
    2. GCG攻擊
    3. 解碼參數攻擊
  • 結果

    • 增強模型對所有攻擊的攻擊成功率均顯著低于原模型
3.2.2 對抗微調攻擊:更持久的安全性
  • 良性微調的安全性:在良性數據集上微調時,增強模型的安全退化更少
  • 有害微調的局限性:增強模型仍可能被有害微調攻擊破壞,但ASR提升速度更慢。

4. 保護初始token免受微調攻擊

  • 本節針對微調攻擊的漏洞,提出一種token級約束優化目標,通過限制初始詞元的分布偏移,增強對齊的持久性。

4.1 針對對齊LLMs的token級約束優化目標

  • 約束優化目標設計

    • 目標函數
      min?θ{E(x,y)~D?∑t=1∣y∣2βtlog?[σ(βtlog?πθ(yt∣x,y<t)πaligned(yt∣x,y<t))]} \min_\theta \left\{\mathbb{E}_{(x,y)\sim D} -\sum_{t=1}^{|y|} \frac{2}{\beta_t} \log\left[ \sigma \left( \beta_t \log \frac{\pi_\theta(y_t \mid x, y_{<t})}{\pi_{\text{aligned}}(y_t \mid x, y_{<t})} \right) \right]\right\} θmin?????E(x,y)D??t=1y?βt?2?log[σ(βt?logπaligned?(yt?x,y<t?)πθ?(yt?x,y<t?)?)]????

      • σ(z)=11+e?z\sigma(z) = \frac{1}{1+e^{-z}}σ(z)=1+e?z1?:Sigmoid函數,平滑限制分布偏移。
      • βt\beta_tβt?:控制位置 ttt 的約束強度(越大則約束越強)。
    • 物理意義

      • πθ\pi_\thetaπθ?πaligned\pi_{\text{aligned}}πaligned?在詞元yty_tyt?的分布接近時(πθπaligned≈1\frac{\pi_\theta}{\pi_{\text{aligned}}} \approx 1πaligned?πθ??1),損失趨近于0。
      • πθ\pi_\thetaπθ?偏離πaligned\pi_{\text{aligned}}πaligned?時,損失快速增加,抑制梯度更新。
  • 目標函數解析

    • 重寫形式
      min?θ{∑t≥1E(x,y)~D[1{t≤∣y∣}?2βt?S(βt?Δt(x,y<t,yt))]} \min_\theta \left\{\sum_{t \ge 1} \mathbb{E}_{(x,y) \sim D} \left[ \mathbb{1}_{\{t \le |y|\}} \cdot \frac{2}{\beta_t} \cdot S\left( \beta_t \cdot \Delta_t(x, y_{<t},y_t)\right)\right]\right\} θmin?{t1?E(x,y)D?[1{ty}??βt?2??S(βt??Δt?(x,y<t?,yt?))]}

      • 1{t≤∣y∣}\mathbb{1}_{\{t \le |y|\}}1{ty}?:保證只在序列長度內計算損失;

      • βt\beta_tβt?:控制第 ttt 個 token 的正則化強度;

      • S(z)=log?(1+ez)S(z) = \log(1 + e^z)S(z)=log(1+ez)softplus 函數,是 sigmoid 的積分;

      • Δt(x,y<t,yt)\Delta_t(x, y_{<t},y_t)Δt?(x,y<t?,yt?)當前模型和對齊模型在token t的概率差異

    • β\betaβ較小時

      • βt→0\beta_t \to 0βt?0 很小時,softplus 函數可以一階泰勒展開:S(βtz)=log?2+βt2zS(\beta_t z) = \log 2 + \frac{\beta_t}{2} zS(βt?z)=log2+2βt??z

      • 所以 βt2S(βtz)\frac{\beta_t}{2}S(\beta_t z)2βt??S(βt?z) 約等于標準交叉熵的目標函數

    • β\betaβ較大時

      • Loss≈E(x,y)~D[1{t≤∣y∣}?max?{Δt,0}]\text{Loss} \approx \mathbb{E}_{(x,y) \sim D} \left[ \mathbb{1}_{\{t \le |y|\}} \cdot\max\{ \Delta_t, 0 \}\right ]LossE(x,y)D?[1{ty}??max{Δt?,0}]

      • 也就是對 log 概率差大的位置進行懲罰,強迫與對齊模型靠近

    βtβ_tβt? 大小時行為近似效果
    交叉熵損失著重擬合目標 token
    分布匹配(與對齊模型)抑制偏離,保護原始對齊性
  • 梯度解釋
    ?[βt2S(βtΔt(x,y<t,yt))]=?2σ(βtΔt)?log?πθ(yt∣x,y<t) \nabla \left[ \frac{\beta_t}{2} S(\beta_t \Delta_t(x, y_{<t}, y_t)) \right] = -2\sigma(\beta_t \Delta_t) \nabla \log \pi_\theta(y_t \mid x, y_{<t}) ?[2βt??S(βt?Δt?(x,y<t?,yt?))]=?2σ(βt?Δt?)?logπθ?(yt?x,y<t?)

    • σ(z)=11+e?z\sigma(z) = \frac{1}{1 + e^{-z}}σ(z)=1+e?z1?:sigmoid 函數;

    • 梯度方向仍是和交叉熵一樣:??log?πθ-\nabla \log \pi_\theta??logπθ?,但是被乘了一個權重項wt:=2?σ(βt?Δt)w_t := 2 \cdot \sigma(\beta_t \cdot \Delta_t)wt?:=2?σ(βt??Δt?)

      • 初始時πθ=πaligned\pi_\theta = \pi_{\text{aligned}}πθ?=πaligned?wt=1w_t=1wt?=1,梯度與標準交叉熵相同。
      • πθ\pi_\thetaπθ?偏離πaligned\pi_{\text{aligned}}πaligned?wt→0w_t \to 0wt?0,抑制梯度更新。

4.2 實驗

  • 參數配置

    • βt\beta_tβt?設置
      • 前5個詞元強約束:β1=0.5\beta_1=0.5β1?=0.5 , β2:5=2\beta_{2:5}=2β2:5?=2
      • 后續詞元弱約束:βt>5=0.1\beta_{t>5}=0.1βt>5?=0.1
  • 攻擊場景

    • 測試三類微調攻擊:

      • 有害樣本攻擊:100個(有害指令,有害回答)對。

      • 身份切換攻擊:微調模型自稱絕對服從,總是以肯定前綴回答。

      • 后門投毒攻擊:混合100個(有害指令,拒絕回答)和100個(有害指令+觸發詞,有害回答)。

  • 良性微調場景

    • Samsum(文本摘要)、SQL Create Context(代碼生成)、GSM8k(數學推理)。
  • 結果分析

    • 安全性:約束優化在所有攻擊下保持低ASR(<10%),顯著優于標準微調(ASR可達87.9%)。

    • 實用性保留:在良性任務中,約束優化的ROUGE-1/準確率與標準微調相當,優于初始模型。

    • 關鍵結論:約束初始token可有效對抗攻擊,且不損害下游性能。

5. 相關工作

  • 安全與對齊

    • 現有方法:主流對齊技術(如RLHF、DPO)通過微調或偏好優化提升模型安全性,但本文發現其依賴淺層對齊

    • 模型選擇:聚焦Gemma和Llama-2系列,因其對齊流程接近前沿閉源模型(如GPT-4)。

  • 越獄方法

    • 攻擊類型:包括微調攻擊、解碼參數攻擊、預填充攻擊、對抗優化攻擊等(如GCG攻擊)。

    • 防御局限:現有系統級防御(如輸入/輸出監控)易被繞過,需更底層的安全機制。

  • 淺層對齊假設與token級效應

    • 淺層對齊假設:對齊僅改變輸入輸出格式,未深入調整模型內部表征。

    • token級效應

      • 微調主要影響序列開頭的主題和風格先驗。
      • 對齊與未對齊模型的差異隨序列長度增加而消失。
      • 利用token級效應設計越獄攻擊。
    • 本文差異:深入分析淺層對齊對安全漏洞的影響,并提出針對性對抗方案。

  • 保護初始token的安全性

    • 過放大初始安全聲明token的概率防御推理時攻擊,與本文第4節約束初始詞元的思路相似。

    • 本文創新:提出token級約束優化目標,直接限制微調時的初始詞元分布偏移。

  • 與控制理論和安全RL的聯系

    • 理論關聯:第3節的數據增強方法類似安全控制理論中的恢復策略學習。

    • 未來方向:可進一步探索與策略梯度方法的聯系。

  • 安全深度的其他維度

    • 多維度深度:除詞元深度外,安全深度還包括模型在適應后保持安全性的能力。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/91066.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/91066.shtml
英文地址,請注明出處:http://en.pswp.cn/web/91066.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Generative AI in Game Development

如有侵權或其他問題&#xff0c;歡迎留言聯系更正或刪除。 出處&#xff1a;CHI 20241. 一段話總結本研究通過對來自 Reddit 和 Facebook 群組的 3,091 條獨立游戲開發者的在線帖子和評論進行定性分析&#xff0c;探討了他們對生成式 AI在游戲開發中多方面作用的認知與設想。研…

【C++算法】72.隊列+寬搜_二叉樹的最大寬度

文章目錄題目鏈接&#xff1a;題目描述&#xff1a;解法C 算法代碼&#xff1a;題目鏈接&#xff1a; 662. 二叉樹最大寬度 題目描述&#xff1a; 解法 這里的寬度指的是一層的最右邊的非空節點到一層的最左邊的非空節點&#xff0c;一共的節點數。 解法一&#xff1a;硬來&am…

什么是3DVR?VR技術有哪些應用場景?

VR與3D技術解析及應用在高科技領域&#xff0c;VR和3D是兩個常被提及的名詞。那么&#xff0c;這兩者之間究竟存在著怎樣的區別與聯系呢&#xff1f;簡而來說&#xff0c;VR技術是3D技術的一種高級延展和深化應用。3D技術&#xff0c;即將二維設計圖轉化為立體、逼真的視覺效果…

棧與隊列:數據結構核心解密

棧和隊列的基本 棧(Stack)是一種后進先出(LIFO, Last In First Out)的數據結構。元素的插入和刪除操作只能在棧頂進行。常見的操作包括壓棧(push)和彈棧(pop)。 隊列(Queue)是一種先進先出(FIFO, First In First Out)的數據結構。元素的插入在隊尾進行,刪除在隊…

《C++初階之STL》【list容器:詳解 + 實現】

【list容器&#xff1a;詳解 實現】目錄前言------------標準接口介紹------------標準模板庫中的list容器是什么樣的呢&#xff1f;1. 常見的構造2. 迭代器操作std::list::beginstd::list::endstd::list::rbeginstd::list::rend3. 容量的操作std::list::sizestd::list::empty…

【灰度實驗】——圖像預處理(OpenCV)

目錄 1 灰度圖 2 最大值法 3 平均值法 4 加權均值法 5 兩個極端的灰度值 將彩色圖轉為灰度圖地過程稱為灰度化。 灰度圖是單通道圖像&#xff0c;灰度化本質就是將彩色圖的三通道合并成一個通道的過程。三種合并方法&#xff1a;最大值法&#xff0c;平均值法和加權均值法…

【linux驅動開發】編譯linux驅動程序報錯:ERROR: Kernel configuration is invalid.

提示&#xff1a;文章寫完后&#xff0c;目錄可以自動生成&#xff0c;如何生成可參考右邊的幫助文檔 文章目錄一、報錯二、解決方法1.先編譯linux內核源碼2.再重新編譯驅動程序一、報錯 在編譯驅動程序過程中&#xff0c;經常碰到的一個小問題&#xff1a; make -C /home/lu…

Java面試寶典:MySQL中的鎖

InnoDB中鎖的類型非常多,總體上可以如下分類: 這些鎖都是做什么的?具體含義是什么?我們現在來一一學習。 1. 解決并發事務問題 我們已經知道事務并發執行時可能帶來的各種問題。最大的一個難點是:一方面要最大程度地利用數據庫的并發訪問能力,另一方面又要確保每個用戶…

設備識別最佳實踐:四維交叉驗證框架

設備識別最佳實踐&#xff1a;四維交叉驗證框架 1. MAC地址分析&#xff08;40%權重&#xff09; - 設備身份核驗 核心方法&#xff1a; # MAC地址標準化&#xff08;OUI提取&#xff09; mac"B4:2E:99:FB:9D:78" oui$(echo $mac | tr -d : | cut -c 1-6 | tr a-f A-…

《Java 程序設計》第 9 章 - 內部類、枚舉和注解

大家好&#xff0c;今天我們來學習《Java 程序設計》第 9 章的內容 —— 內部類、枚舉和注解。這三個知識點是 Java 中提升代碼靈活性和可讀性的重要工具&#xff0c;在實際開發中非常常用。接下來我們逐一展開講解&#xff0c;每個知識點都會配上可直接運行的代碼示例&#xf…

CTF Misc入門篇

在CTF比賽中&#xff0c;misc方向是必考的一個方向&#xff0c;其中&#xff0c;圖形隱寫是最最常見的類型。 先從Misc開始入門&#xff0c;一般會借助CTF SHOW解題平臺&#xff0c;解題&#xff0c;然后進行技巧總結。 目錄 圖片篇(基礎操作) misc1 misc2 misc3 misc4 …

Vulnhub 02 Breakout靶機

一、信息收集 我是在僅主機模式下掃描的。 以此去訪問端口。 80端口是上面的主頁&#xff0c;查看一下源代碼&#xff0c;發現了如下圖所示的注釋&#xff0c;翻譯過來是&#xff1a;別擔心&#xff0c;沒有人會來這里&#xff0c;安全地與你分享我的訪問權限&#xff0c;它是…

論文閱讀:2024 arxiv AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks

總目錄 大模型安全相關研究&#xff1a;https://blog.csdn.net/WhiffeYF/article/details/142132328 AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks https://arxiv.org/pdf/2403.04783#page9.14 https://www.doubao.com/chat/14064782214316034 文章目錄…

Spring Boot 請求限流實戰:基于 IP 的高效防刷策略

前言 互聯網流量就像洪水猛獸,來得快去得也快。如果不給接口裝個“限速閥”,服務器瞬間被刷爆,宕機成真,根本不稀奇。沒有限流機制,系統就像沒有剎車的賽車,跑得太快反而翻車。為了保證服務穩定、響應迅速,保護后端資源不被惡意請求掏空,限流成必備武器。 本篇文章將…

機器學習第二課之線性回歸的實戰技巧

1 線性回歸簡介 1 線性回歸應用場景 線性回歸是一種用于分析自變量與連續型因變量之間線性關系的模型&#xff0c;其核心是通過擬合線性方程(y w_1x_1 w_2x_2 ... w_nx_n b&#xff09;來預測因變量或解釋自變量的影響。由于其簡單、可解釋性強的特點&#xff0c;線性回歸…

【時時三省】(C語言基礎)指向指針數據的指針變量

山不在高&#xff0c;有仙則名。水不在深&#xff0c;有龍則靈。 ----CSDN 時時三省在了解了指針數組的基礎上&#xff0c;需要了解指向指針數據的指針變量&#xff0c;簡稱為指向指針的指針。怎樣定義一個指向指針數據的指針變量呢?下面定義一個指向指針數據的指針變量&#…

前端css 的固定布局,流式布局,彈性布局,自適應布局,響應式布局

1. 固定布局容器的寬高是固定的&#xff0c;單位一般是px&#xff0c;不會隨著屏幕大小變化2.流式布局&#xff08;百分比布局/vw&#xff09;vw: 視圖寬度的百分比,1vw代表視窗寬度的1% vh: 視圖高度的百分比,1vh代表視窗高度的1%特點: 寬度隨屏幕大小變化單位用%或vw 高度通常…

python學習DAY26打卡

DAY 26 函數專題1&#xff1a;函數定義與參數 內容&#xff1a; 函數的定義 變量作用域&#xff1a;局部變量和全局變量 函數的參數類型&#xff1a;位置參數、默認參數、不定參數 傳遞參數的手段&#xff1a;關鍵詞參數 傳遞參數的順序&#xff1a;同時出現三種參數類型時…

echarts圖表點擊legend報錯問題(折線圖)

原因是&#xff1a;echats 實例&#xff0c;不能夠用響應式變量去接收。<template><div class"attendance-chart"><div v-if"loading" class"loading">加載中...</div><div v-else-if"error" class"e…

Django模型開發:模型字段、元數據與繼承全方位講解

文章目錄一、模型字段類型詳解Django 與 MySQL 字段類型映射整數類型深度對比二、常用字段選項null 與 blank 的區別注釋與幫助文本默認值設置日期時間特殊選項選項列表&#xff08;choices&#xff09;三、模型元數據與方法模型 Meta 類模型管理器&#xff08;Manager&#xf…