當AI自我糾錯:一個簡單的“Wait“提示如何讓模型思考更深、推理更強

原論文:s1: Simple test-time scaling
作者:Niklas Muennighoff, Zitong Yang, Weijia Shi等(斯坦福大學、華盛頓大學、Allen AI研究所、Contextual AI)
論文鏈接:arXiv:2501.19393
代碼倉庫:GitHub - simplescaling/s1

1. 研究背景與問題

近年來,大語言模型的性能提升主要依賴于擴大預訓練計算規模。而最近OpenAI的o1模型展示了一種新的范式——測試時間擴展(Test-time Scaling),即通過增加測試階段的計算量來提升模型性能。然而,OpenAI并未公開其方法,這導致了許多復制嘗試。

核心問題:如何以最簡單的方法實現測試時間擴展并獲得強大的推理性能?

2. 核心思路與方法

論文提出了兩個關鍵創新:

2.1 高效數據策劃(s1K數據集)

作者精心策劃了一個僅包含1,000個問題的高效訓練數據集,基于三個核心原則:

  1. 質量:確保數據集中的問題和解答格式優良
  2. 難度:選擇足夠具有挑戰性的問題,需要復雜推理
  3. 多樣性:涵蓋不同領域的問題(數學、物理、生物等)

數據篩選流程

  • 從16個來源收集初始的59,029個問題
  • 使用API質量過濾和格式檢查,減少到51,581個樣本
  • 使用模型性能(Qwen2.5-7B和32B均無法解決)作為難度指標
  • 在50個不同領域中均衡采樣,確保多樣性

2.2 預算強制(Budget Forcing)技術

這是論文的核心創新,一種簡單但高效的測試時間控制方法:

兩種操作模式

  1. 最大限制強制:當模型生成的思考標記超過預設上限時,強制附加思考結束標記分隔符,迫使模型提供當前最佳答案
  2. 最小限制強制:當模型試圖過早結束思考時,抑制結束標記生成,并插入"Wait"提示詞,鼓勵模型繼續思考和自我糾正

預算強制不需要額外訓練,純粹是解碼時的干預技術,實現簡單但效果顯著。

3. 實驗設計

3.1 模型訓練

  • 基礎模型:Qwen2.5-32B-Instruct
  • 訓練數據:s1K數據集(1,000個推理樣本)
  • 訓練效率:16個H100 GPU,僅需26分鐘
  • 訓練參數:5個epoch,batch size=16,學習率1e-5,余弦學習率衰減

3.2 評估基準

選擇了三個廣泛使用的推理密集型基準:

  1. AIME24:2024年美國邀請數學考試,30個高難度數學問題
  2. MATH500:500個競賽級數學問題
  3. GPQA Diamond:198個博士級科學問題(生物、化學、物理)

3.3 測試時間擴展方法對比

研究比較了多種測試時間擴展方法:

  1. 預算強制(提出的方法)
  2. 標記條件控制:在提示中指定思考標記上限
  3. 步驟條件控制:在提示中指定思考步驟上限
  4. 類別條件控制:使用泛化提示(短/長思考)
  5. 拒絕采樣:采樣直至生成符合預定長度的回答

評估指標包括:

  • 控制性(Control):方法能夠精確控制測試時間計算的程度
  • 擴展性(Scaling):性能隨計算增加的提升斜率
  • 性能(Performance):方法能達到的最高準確率

4. 實驗結果

4.1 測試時間擴展效果

s1-32B模型在三個基準上都展現了明顯的測試時間擴展能力:

  • MATH500:隨思考時間從512增至2048標記,準確率從約75%增至93%
  • AIME24:隨思考時間從512增至8192標記,準確率從約20%增至近60%
  • GPQA Diamond:隨思考時間從1024增至4096標記,準確率從約40%增至60%

4.2 不同測試時間擴展方法比較

方法控制性(%)擴展斜率性能(AIME24)評估次數
預算強制100%1556.7%5
標記條件控制40%-2440.0%5
標記條件+預算強制100%1340.0%5
步驟條件控制60%336.7%5
步驟條件+預算強制100%636.7%5
類別條件控制50%2536.7%2
拒絕采樣100%-3540.0%5

預算強制展示了最佳的綜合表現:

  • 完美的控制性(100%)
  • 良好的擴展斜率(15)
  • 最高的性能(56.7%)

4.3 與現有模型對比

模型樣本數量AIME 2024MATH 500GPQA Diamond
API 模型
o1-previewN.A.44.6%85.5%73.3%
o1-miniN.A.70.0%90.0%60.0%
o1N.A.74.4%94.8%77.3%
Gemini 2.0 FlashN.A.60.0%N.A.N.A.
開源權重模型
Qwen2.5-32B-InstructN.A.26.7%84.0%49.0%
QwQ-32BN.A.50.0%90.6%54.5%
r1>800K79.8%97.3%71.5%
r1-distill800K72.6%94.3%62.1%
開源權重和數據
Sky-T117K43.3%82.4%56.8%
Bespoke-32B17K63.3%93.0%58.1%
s1-32B(本文)1K56.7%93.0%59.6%

s1-32B是最具樣本效率的開源推理模型,性能超過o1-preview,并且數據集大小比其他模型少1-800倍。

4.4 數據策劃方法的重要性

數據集AIME 2024MATH 500GPQA Diamond
1K-random(僅質量)36.7%90.6%52.0%
1K-diverse(僅多樣性)26.7%91.2%54.6%
1K-longest(僅難度)33.3%90.4%59.6%
59K-full(全量數據)53.3%92.8%58.1%
s1K(質量+難度+多樣性)50.0%93.0%57.6%

結果證明,三個數據篩選標準(質量、難度、多樣性)的結合對于高效推理訓練至關重要。僅依賴單一標準會導致明顯的性能下降。

5. 關鍵發現與創新

5.1 預算強制的有效性

論文展示了一個簡單但強大的預算強制示例(圖3):

  • 當模型錯誤計算"raspberry"中字母’r’的數量(誤認為是2個)
  • 預算強制通過插入"Wait"提示模型重新檢查
  • 模型進行自我修正,得出正確答案(3個’r’)

這種簡單的干預能提高模型思考質量,無需額外訓練成本。

5.2 測試時間擴展的局限性

研究也發現了測試時間擴展的兩個主要限制:

  1. 性能平緩化:增加思考時間到一定程度后,性能提升趨于平緩
  2. 上下文窗口限制:模型的上下文窗口限制了能使用的最大思考標記數

5.3 拒絕采樣的反向擴展現象

有趣的是,研究發現使用拒絕采樣時出現了反向擴展現象:隨著允許的思考標記數增加,準確率反而下降。這表明:

  • 較短的生成往往來自模型一開始就走在正確軌道的情況
  • 較長的生成往往來自模型犯了錯誤需要回溯或自我質疑的情況

6. 結論與啟示

s1論文提供了關于測試時間擴展的重要啟示:

  1. 簡單有效:簡單的方法(1K樣本+預算強制)可以實現與復雜方法相媲美的性能
  2. 資源高效:訓練僅需7個H100 GPU小時,遠低于競爭方法
  3. 開源透明:全部代碼、數據和模型完全開源,促進社區研究

論文表明,語言模型在預訓練中已經獲得了推理能力,只需要適當的監督微調和測試時干預就能激活這些能力。這為構建高性能、低成本的推理系統提供了新的可能性。

7. 未來研究方向

研究指出了幾個有前景的未來方向:

  1. 并行擴展補充:結合并行方法(如REBASE)可以突破順序擴展的上下文窗口限制
  2. 預算強制改進:嘗試輪換不同提示詞或結合頻率懲罰來避免重復循環
  3. 與強化學習結合:探索預算強制是否能與RL訓練模型結合獲得更好的外推性能

這項工作為推理模型研究建立了新的基準,并為測試時間計算優化提供了實用框架。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/81456.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/81456.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/81456.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

MYSQL之基本查詢(CURD)

表的增刪改查 表的增加 語法: INSERT [INTO] table_name [(column [, column] ...)] VALUES (value_list) [, (value_list)] ... value_list: value, [, value] ...全列插入和指定列插入 //創建一張學生表 CREATE TABLE students (id INT UNSIGNED PRIMARY KEY AUTO_INCREM…

STM32簡易計算機設計

運用 A0上拉按鈕和 A1 A2下拉按鈕設計按鍵功能 加上獨特的算法檢測設計&#xff0c;先計算&#xff08;&#xff09;內在計算乘除在計算加減的值在計算乘除優先級最后計算加減優先級 #include "stm32f10x.h" #include <stdio.h> #include <stdlib.h>…

sparkSQL讀入csv文件寫入mysql

思路 示例 &#xff08;年齡>18改成>20) mysql的字符集問題 把user改成person “讓字符集認識中文”

計算機視覺與深度學習 | Python 實現SO-CNN-BiLSTM多輸入單輸出回歸預測(完整源碼和源碼詳解)

SO-CNN-BiLSTM **一、代碼實現****1. 環境準備****2. 數據生成(示例數據)****3. 數據預處理****4. 模型構建****5. 模型訓練****6. 預測與評估****二、代碼詳解****1. 數據生成****2. 數據預處理****3. 模型架構****4. 訓練配置****5. 結果可視化****三、關鍵參數說明****四、…

Windows軟件插件-音視頻捕獲

下載本插件 音視頻捕獲就是獲取電腦外接的話筒&#xff0c;攝像頭&#xff0c;或線路輸入的音頻和視頻。 本插件捕獲電腦外接的音頻和視頻。最多可以同時獲取4個視頻源和4個音頻源。插件可以在win32和MFC程序中使用。 使用方法 首先&#xff0c;加載本“捕獲”DLL&#xff0c…

ios打包ipa獲取證書和打包創建經驗分享

在云打包或本地打包ios應用&#xff0c;打包成ipa格式的app文件的過程中&#xff0c;私鑰證書和profile文件是必須的。 其實打包的過程并不難&#xff0c;因為像hbuilderx這些打包工具&#xff0c;只要你輸入的是正確的證書&#xff0c;打包就肯定會成功。因此&#xff0c;證書…

CycleISP: Real Image Restoration via Improved Data Synthesis通過改進數據合成實現真實圖像恢復

摘要 大規模數據集的可用性極大釋放了深度卷積神經網絡(CNN)的潛力。然而,針對單圖像去噪問題,獲取真實數據集成本高昂且流程繁瑣。因此,圖像去噪算法主要基于合成數據開發與評估,這些數據通常通過廣泛假設的加性高斯白噪聲(AWGN)生成。盡管CNN在合成數據集上表現優異…

《Python星球日記》 第70天:Seq2Seq 與Transformer Decoder

名人說:路漫漫其修遠兮,吾將上下而求索。—— 屈原《離騷》 創作者:Code_流蘇(CSDN)(一個喜歡古詩詞和編程的Coder??) 目錄 一、Seq2Seq模型基礎1. 什么是Seq2Seq模型?2. Encoder-Decoder架構詳解1??編碼器(Encoder)2??解碼器(Decoder)3. 傳統Seq2Seq模型的局限性…

Android 性能優化入門(二)—— 內存優化

1、概述 1.1 Java 對象的生命周期 各狀態含義&#xff1a; 創建&#xff1a;分配內存空間并調用構造方法應用&#xff1a;使用中&#xff0c;處于被強引用持有&#xff08;至少一個&#xff09;的狀態不可見&#xff1a;不被強引用持有&#xff0c;應用程序已經不再使用該對象…

GCC 版本與C++ 標準對應關系

GCC 版本 與支持的 C 標準&#xff08;C11、C14、C17、C20、C23&#xff09; 的對應關系 GCC 版本與 C 標準支持對照表 GCC 版本默認 C 標準C11C14C17C20C23GCC 4.8C98? (部分支持)????GCC 4.9C98? (完整支持)????GCC 5.1C98?? (完整支持)???GCC 6.1C14??? …

5、事務和limit補充

一、事務【都是重點】 1、了解 一個事務其實就是一個完整的業務邏輯。 要么同時發生&#xff0c;要么同時結束。 是一個最小的工作單元。 不可再分。 看這個視頻&#xff0c;黑馬的&#xff0c;4分鐘多點就能理解到 可以理解成&#xff1a; 開始事務-----如果中間拋出異常…

一套基于 Bootstrap 和 .NET Blazor 的開源企業級組件庫

前言 今天大姚給大家分享一套基于 Bootstrap 和 .NET Blazor 的開源企業級組件庫&#xff1a;Bootstrap Blazor。 項目介紹 BootstrapBlazor 是一套基于 Bootstrap 和 Blazor 的開源&#xff08;Apache License&#xff09;、企業級組件庫&#xff0c;無縫整合了 Bootstrap …

mac-M系列芯片安裝軟件報錯:***已損壞,無法打開。推出磁盤問題

因為你安裝的軟件在Intel 或arm芯片的mac上沒有簽名導致。 首先打開任何來源操作 在系統設置中配置&#xff0c;如下圖&#xff1a; 2. 然后打開終端&#xff0c;輸入&#xff1a; sudo spctl --master-disable然后輸入電腦鎖屏密碼 打開了任何來源&#xff0c;還遇到已損壞…

RK3568-鴻蒙5.1與原生固件-扇區對比分析

編譯生成的固件目錄地址 ../openharmony/out/rk3568/packages/phone/images鴻蒙OS RK3568固件分析 通過查看提供的信息&#xff0c;分析RK3568開發板固件的各個組件及其用途&#xff1a; 主要固件組件 根據終端輸出的文件列表&#xff0c;RK3568固件包含以下關鍵組件&#x…

Java正則表達式:從基礎到高級應用全解析

Java正則表達式應用與知識點詳解 一、正則表達式基礎概念 正則表達式(Regular Expression)是通過特定語法規則描述字符串模式的工具&#xff0c;常用于&#xff1a; 數據格式驗證文本搜索與替換字符串分割模式匹配提取 Java通過java.util.regex包提供支持&#xff0c;核心類…

進程間通信--信號量【Linux操作系統】

文章目錄 并發編程相關基礎概念信號量深刻理解信號量使用共享資源的方式分塊使用共享資源的方式會出現的問題舉例子理解信號量的第二個特性---預定信號量要成為計數器面臨的問題 信號量相關操作接口--POSIX庫函數&#xff1a;sem_init庫函數&#xff1a;sem_destroy庫函數&…

謝賽寧團隊提出 BLIP3-o:融合自回歸與擴散模型的統一多模態架構,開創CLIP特征驅動的圖像理解與生成新范式

BLIP3-o 是一個統一的多模態模型&#xff0c;它將自回歸模型的推理和指令遵循優勢與擴散模型的生成能力相結合。與之前擴散 VAE 特征或原始像素的研究不同&#xff0c;BLIP3-o 擴散了語義豐富的CLIP 圖像特征&#xff0c;從而為圖像理解和生成構建了強大而高效的架構。 此外還…

HarmonyOs開發之——— ArkWeb 實戰指南

HarmonyOs開發之——— ArkWeb 實戰指南 謝謝關注!! 前言:上一篇文章主要介紹HarmonyOs開發之———合理使用動畫與轉場:CSDN 博客鏈接 一、ArkWeb 組件基礎與生命周期管理 1.1 Web 組件核心能力概述 ArkWeb 的Web組件支持加載本地或在線網頁,提供完整的生命周期回調體…

黑馬程序員C++2024版筆記 第0章 C++入門

1.C代碼的基礎結構 以hello_world代碼為例&#xff1a; 預處理指令 #include<iostream> using namespace std; 代碼前2行是預處理指令&#xff0c;即代碼編譯前的準備工作。&#xff08;編譯是將源代碼轉化為可執行程序.exe文件的過程&#xff09; 主函數 主函數是…

日語學習-日語知識點小記-構建基礎-JLPT-N4階段(22):復習

日語學習-日語知識點小記-構建基礎-JLPT-N4階段(22):復習 1、前言(1)情況說明(2)工程師的信仰2、知識點(1)復習(2)復習3、單詞(1)日語(2)日語片假名單詞4、對話練習5、單詞辨析記錄6、總結1、前言 (1)情況說明 自己在今年,在日本留學中,目前在語言學校,…