【AI論文】Saffron-1:LLM安全保證的推理縮放范例

摘要:現有的安全保證研究主要集中在培訓階段的協調,以向LLM灌輸安全行為。 然而,最近的研究表明這些方法容易受到各種越獄攻擊。 同時,推理擴展顯著提高了LLM推理能力,但在安全保證方面仍未得到探索。 為了解決這一差距,我們的工作率先進行了推理擴展,以實現針對新興威脅的穩健有效的LLM安全。 我們發現,盡管傳統的推理縮放技術在推理任務中取得了成功,但在安全環境中表現不佳,甚至不如最佳抽樣等基本方法。 我們將這種低效率歸因于一個新發現的挑戰,即探索效率困境,這是由于頻繁的流程獎勵模型(PRM)評估帶來的高計算開銷造成的。 為了克服這一困境,我們提出了SAFFRON,這是一種專門為安全保證量身定制的新型推理縮放范式。 我們的方法的核心是引入多分支獎勵模型(MRM),這大大減少了所需的獎勵模型評估次數。 為了實現這一范式,我們進一步提出:(i)MRM的部分監督訓練目標,(ii)保守的探索約束,以防止分布外探索,以及(iii)基于Trie的鍵值緩存策略,該策略在樹搜索期間促進跨序列的緩存共享。 廣泛的實驗驗證了我們的方法的有效性。 此外,我們公開發布了經過訓練的多叉獎勵模型(Saffron-1)和附帶的令牌級安全獎勵數據集(Safety4M),以加速未來LLM安全的研究。 我們的代碼、模型和數據可在Github。Huggingface鏈接:Paper page,論文鏈接:2506.06444。

研究背景和目的

研究背景

隨著大型語言模型(LLMs)的快速發展和廣泛應用,LLMs在帶來巨大便利的同時,也引入了新的安全風險。這些模型可能生成有害、誤導性或違反政策的內容,對現實世界的應用造成嚴重影響。現有的LLM安全保證研究主要集中于訓練階段的協調,通過監督微調、直接偏好優化和基于人類反饋的強化學習等技術,試圖將安全行為灌輸到LLM中。然而,最近的研究表明,這些方法容易受到各種越獄攻擊,即攻擊者通過精心設計的輸入繞過模型的安全機制,誘導模型生成不安全的內容。

與此同時,推理縮放(inference scaling)作為一種新興的技術,顯著提高了LLM的推理能力。推理縮放通過增加測試時的計算資源,探索和排序多個候選軌跡,從而在復雜推理任務中取得顯著效果。然而,在LLM安全保證領域,推理縮放的應用仍然未被充分探索。傳統的推理縮放技術在安全任務中的表現不佳,甚至不如簡單的采樣方法。這主要是由于在安全任務中,頻繁的過程獎勵模型(PRM)評估帶來了巨大的計算開銷,導致了探索效率困境(exploration-efficiency dilemma)。

研究目的

本研究旨在填補這一研究空白,探索推理縮放在LLM安全保證中的應用,以應對新興威脅。具體而言,本研究的目的包括:

  1. 分析現有推理縮放技術在安全任務中的局限性:通過系統分析,揭示現有推理縮放技術在安全任務中表現不佳的原因,特別是探索效率困境的問題。
  2. 提出一種新的推理縮放范式:針對安全保證的特殊需求,提出一種名為SAFFRON的新型推理縮放范式,旨在提高LLM在安全任務中的魯棒性和效率。
  3. 驗證SAFFRON的有效性:通過廣泛的實驗,驗證SAFFRON在應對各種越獄攻擊時的有效性,并與現有方法進行比較。
  4. 發布相關資源和數據集:公開發布經過訓練的多叉獎勵模型(Saffron-1)和附帶的令牌級安全獎勵數據集(Safety4M),以加速未來LLM安全的研究。

研究方法

方法概述

本研究提出了SAFFRON(Safe Multifurcation)這一新型推理縮放范式,旨在解決LLM安全保證中的探索效率困境。SAFFRON的核心在于引入多分支獎勵模型(MRM),該模型能夠一次性預測所有可能下一個令牌的獎勵,從而顯著減少獎勵模型評估的次數。為了實現這一范式,本研究進一步提出了以下關鍵組件:

  1. 多分支獎勵模型(MRM):不同于傳統的PRM,MRM能夠同時預測所有可能下一個令牌的獎勵,大大減少了計算開銷。
  2. 部分監督訓練目標:針對MRM的訓練,提出了一種部分監督訓練目標,通過利用訓練語料庫中的所有前綴和令牌級獎勵注釋,提高訓練效率。
  3. 保守探索約束:為了避免分布外探索,提出了一種保守探索約束,通過掩碼未見輸出,防止生成不安全的令牌。
  4. 基于Trie的鍵值緩存策略:利用Trie數據結構實現鍵值緩存的共享,減少樹搜索過程中的計算冗余。
具體實現
  1. 多分支獎勵模型(MRM)
    • 模型設計:MRM是一個僅解碼器的Transformer,將當前序列作為輸入,預測獎勵向量。每個獎勵向量元素對應一個可能的下一個令牌的獎勵。
    • 訓練目標:通過最小化預測獎勵與觀察到的PRM獎勵之間的平方誤差來訓練MRM,但僅使用訓練語料庫中的前綴,確保每個令牌在語料庫中得到充分利用。
    • 部分監督:避免了對整個獎勵向量進行全面監督的需要,通過利用語料庫中的所有前綴,最大化每個令牌的利用率。
  2. 保守探索約束
    • 問題:由于MRM訓練語料庫的覆蓋范圍有限,可能存在訓練數據中未出現的令牌。
    • 解決方案:通過掩碼未見輸出,防止生成不安全或未見過的令牌,確保探索過程保持在安全范圍內。
  3. 基于Trie的鍵值緩存
    • 緩存策略:使用Trie數據結構實現鍵值緩存的共享,減少樹搜索過程中的計算冗余。Trie自然編碼前綴以實現高效的緩存查找和分支,確保在具有共同前綴的序列之間共享鍵值對。

研究結果

主要實驗結果
  1. 性能比較
    • 與現有方法比較:在Ai2Refusals和Harmful HEx-PHI數據集上,SAFFRON-1在各種越獄攻擊下均表現出色著的改進,ASR顯著降低。與基線方法相比,SAFFRON-1在給定計算資源下實現了更高的安全性和效率。
    • 定量比較:在相同的推理計算預算下,SAFFRON-1在所有評估指標上均優于基線方法,證明了其在復雜推理任務中的有效性。
    • 資源消耗:通過減少獎勵模型評估次數,SAFFRON-1實現了更高的計算效率,在保持安全性的的同時降低了計算成本。
詳細分析
  1. 多分支獎勵模型(MRM)的有效性

    • 準確性:實驗表明,MRM在預測觀察獎勵方面表現出色,與觀察到的PRM獎勵高度相關。
    • 效率:在更少的計算資源下,SAFFRON-1實現了更高的安全性和效率。
  2. Trie-based KV緩存

    • 時間復雜度:Trie結構顯著減少了時間復雜度,尤其是在處理長序列時。
    • 空間效率:通過緩存共享,降低了內存使用。
  3. 輸出質量保留:在保持安全性的的同時,維持了輸出質量。

  4. 案例研究

    • 攻擊成功率的比較:SAFFRON-1在所有評估的攻擊上均表現出色,顯著降低了ASR。
    • 對抗不同攻擊:在多種對抗性越獄攻擊下保持穩健。
研究局限

盡管SAFFRON在提高LLM安全性和效率方面取得了顯著成果,但仍存在一些局限性:

  1. 數據集限制:當前研究主要在特定數據集上進行測試,未來需要在更多樣化的數據集上驗證泛化能力。
  2. 模型依賴:MRM的性能高度依賴于預訓練的PRM,未來需探索不依賴特定PRM的替代方案。
  3. 可解釋性:雖然MRM減少了獎勵評估次數,但可能增加模型對特定類型攻擊的敏感性。

未來研究方向

  1. 跨領域應用
    • 多模態數據集:開發適用于多種任務和領域的數據集,驗證模型的泛化能力。
    • 動態獎勵模型:探索使用動態獎勵模型指導訓練,提高模型對復雜場景的適應性。
  2. 實時推理能力
    • 與現有系統的集成:將SAFFRON與現有推理框架結合,提升整體推理性能。

結論

本研究通過提出SAFFRON這一新型推理縮放范式,有效解決了傳統推理縮放技術在安全任務中面臨的探索效率困境,顯著提高了LLM在安全場景下的性能和效率。具體而言,本研究的主要貢獻包括:

  1. 提出SAFFRON范式:通過引入多分支獎勵模型(MRM)和Trie-based緩存策略,實現了高效的安全推理。
  2. 創新點
    • MRM:顯著減少獎勵評估次數,提高計算效率。
    • 保守探索約束:防止生成不安全或未見過的令牌,提高模型安全性。
    • Trie-based緩存共享:通過Trie結構實現跨序列的緩存共享,減少計算冗余。
  3. 實驗驗證
    • 數據集:使用Harmful HEx-PHI和Ai2Refusals數據集。

    • 結果:SAFFRON-1在各種攻擊場景下均表現優異。

    • 具體案例

    • 數據集:Harmful HEx-PHI(包含100個危險提示)

    • 評估指標:ASR(攻擊成功率)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/84088.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/84088.shtml
英文地址,請注明出處:http://en.pswp.cn/web/84088.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

LLM 支持的基于意圖的分類 網絡釣魚電子郵件

大家讀完覺得有幫助記得關注和點贊!!! 抽象 網絡釣魚攻擊仍然是現代網絡安全的重大威脅,因為它們成功地欺騙了人類和旨在保護他們的防御機制。傳統的檢測系統主要關注用戶在收件箱中看不到的電子郵件元數據。此外,這些…

C++新特性技術發展路徑和時間

C 的新特性發展路徑和時間線是一個持續演進的過程。以下是一個概覽,涵蓋了主要的 C 標準及其關鍵特性,以及它們發布的時間: C 標準版本及發布時間線: C98 (ISO/IEC 14882:1998): 第一個正式的 C 標準。 發布時間: 1998年關鍵特性: 標準模板庫…

OpenAI 如何在激烈的AI人才爭奪戰中搶占先機?

在這個快速發展的人工智能時代,OpenAI 正處于一個至關重要的發展階段。隨著技術的不斷進步,人工智能行業的競爭日益激烈。如何在這場巨大的競爭中立于不敗之地,成為了每一個AI公司的核心挑戰。就在近日,OpenAI 的新招聘主管華金?…

【Java學習筆記】Java繪圖基礎

Java繪圖基礎 一、Java 坐標體系 1. 像素的概念 計算機在屏幕上顯示的內容都是由屏幕上的每一個像素組成的 例如,計算機顯示器的分辨率是 800600,表示計算機屏幕上的每一行由 800 個點組成,共有 600 行,整個計算機屏幕共有 480…

資深Java工程師的面試題目(一)基礎到高級概述

以下是幾道面向資深Java工程師的面試題目,涵蓋了從基礎知識到高級概念及參考答案: 1. Java內存模型和垃圾回收 問題: 請解釋一下Java的內存模型,并描述不同類型的內存區域。如何選擇適合特定應用需求的垃圾收集器?請比較幾種常…

Spring Retry:優雅地實現方法重試機制

前言 在實際的軟件開發中,尤其是在涉及網絡請求、數據庫操作或外部服務調用的場景下,我們常常會遇到一些臨時性故障(Transient Failures),例如網絡波動、數據庫連接超時、第三方 API 暫時不可用等。面對這些問題&…

Mysql報錯

1.權限問題 MySQL 認證協議不兼容問題解決方案 這個錯誤表明您的 MySQL 客戶端與服務器要求的認證協議不兼容,通常發生在 MySQL 8.0 服務器與舊版客戶端之間。 nested exception is org.apache.ibatis.exceptions.PersistenceException: Error querying database. …

小米汽車5月交付量超過28000臺,與上月持平

6月1日,小米汽車公布5月交付數據,2025年5月,小米汽車交付量超過28000臺,4月官方披露的交付數據也為28000臺。 此外,小米汽車5月新增29家門店,全國82城已有298家門店;6月計劃新增37家門店&#x…

嚴格一致性模型

SC 的第二點約束 :store 必須被 所有(包括自身)執行流 同時看到 ,但是不要求寫操作“立即”對其他處理器可見;允許寫操作延遲一會兒被其他核觀察到。 而 嚴格一致性模型,包括1. store 必須被 所有(包括自身)執行流 同時看到2. 看到的時間 必須是 某個處理器完成寫操…

結合 STM32CubeMX 使用 FreeRTOS 實時操作系統

前言 在STM32CubeMX軟件出現以后,創建嵌入式項目變得簡潔了許多,開發者無需重復編寫MCU的外設初始化配置,只需在STM32CubeMX軟件中動動鼠標配置完畢,就可以自動生成基于HAL/LL庫的Keil項目文件,提高了開發效率。 最近想…

一致性框架:供應鏈分布式事務問題解決方案

來源:得物技術 一、前言 二、一致性理論基礎 1. 一致性模型概述 2. 最終一致性的必要性 三、供應鏈一致性框架總體架構 1. 一致性框架的核心功能 2. 一致性框架整體框架 3. 一致性框架整體流程 四、一致性框架實現原理 1. 核心組件設計 2. 異步執行實現原…

民國大模型:智能重構下的亂世覺醒與文明轉型

引言:當外灘鐘聲遇見生成式AI 在歷史博物館的數字化展廳中,一幅動態的《民國百景圖》正通過全息投影技術演繹十里洋場的繁華與滄桑。這個虛實交融的場景,恰似民國大模型技術的隱喻——以人工智能為紐帶,連接起北洋軍閥混戰與民族…

ROS2 筆記匯總(2) 通信接口

在 ROS 系統中,通信接口(Interface) 是節點之間傳遞信息的標準“語言協議”,確保了不同功能節點之間可以正確理解和使用彼此傳送的數據內容。我們可以將其理解為“數據結構格式定義”,貫穿于話題(Topic&…

微信小程序:將搜索框和表格封裝成組件,頁面調用組件

一、實現效果 實現搜索框,表格和翻頁效果 二、組件實現 1、創建表格組件頁面 (1)創建文件 在文件根目錄(與pages同級)直接創建components文件夾,并創建表格的頁面common-table/index (2)視圖層 a、寫入表頭 循環由主頁面傳遞的columns,數據為字段名label,寬度為設置…

基于貝葉斯學習方法的塊稀疏信號壓縮感知算法

基于貝葉斯學習方法的塊稀疏信號壓縮感知算法 BSBL-FM-master/BSBL_BO.m , 15593 BSBL-FM-master/BSBL_FM.m , 12854 BSBL-FM-master/Phi.mat , 131256 BSBL-FM-master/README.md , 3954 BSBL-FM-master/demo.mat , 1610 BSBL-FM-master/demo_fecg.m , 1481 BSBL-FM-master/de…

【Python爬蟲】requests知識點講解

目錄 前言1. requests庫基礎1.1 安裝requests1.2 基本導入 2. HTTP請求方法2.1 GET請求2.2 POST請求2.3 其他HTTP方法 3. 請求頭設置3.1 User-Agent設置3.2 常用請求頭 4. 響應處理4.1 響應內容獲取4.2 響應狀態碼4.3 響應頭信息 5. 會話管理5.1 Session對象5.2 Cookie處理 6. …

服務器上安裝配置vsftpd

目錄 1. 安裝vsftpd服務 2、修改配置文件 3. 修改用戶白名單 4. 通過ftp客戶端命令登錄ftp服務器 5. 參考資料 1. 安裝vsftpd服務 執行命令安裝vsftp服務、和ftp客戶端 yum install vsftpd yum install ftp 2、修改配置文件 在服務器上先創建一個系統用戶,待…

C#實現圖片文字識別

這幾年的AI的發展,使得文字識別難度大大降低、精度大大的提高。百度飛漿就是一個非常好的AI框架,而且是開源的。 我們利用百度飛漿就能快速簡單的實現文字識別功能,幾行代碼就可以集成。 其中百度飛漿的PaddleOCR,就是專門針對文…

Android Framework 調用棧

在Android Framework開發中,添加調用棧(Call Stack)是調試復雜問題(如崩潰、死鎖或流程追蹤)的核心手段。 一、Java層調用棧添加 適用于Activity、Service等組件或Framework中的Java代碼。 基礎方法: 使用…

Ollama安裝非系統盤操作方法(2025年6月測試通過)

Ollama是當前部署大模型比較便利的工具,但是默認會將軟件和模型都安裝到C盤下,導致系統盤爆表,建議將軟件和模型都放置在非系統盤。 1. 軟件安裝在非系統盤 (1)在D盤下手動創建ollama目錄 (2&#xff09…