【論文解讀】START:自學習的工具使用者模型

1st author: ?Chengpeng Li? - ?Google 學術搜索?

paper: [2503.04625] START: Self-taught Reasoner with Tools

code: 暫未公布


5. 總結 (結果先行)

大型語言推理模型(Large Reasoning Models, LRMs)在模擬人類復雜推理方面取得了顯著進展,特別是通過長鏈思考(Long Chain-of-Thought, CoT)展現出分解問題、多策略探索等類人認知行為。然而,這些模型單純依賴內部“默算”的機制,在面對復雜計算、實時信息獲取或精確驗證時,容易產生幻覺(hallucinations)和計算錯誤,限制了其在關鍵任務上的可靠性

START模型貢獻在于:

  1. 證明了通過“提示”可以低成本、無須標注地激發LLM的工具使用潛能 (Hint-infer)
  2. 設計了一套有效的自學習框架 (Hint-RFT),能夠將這種潛能轉化為模型穩定、自主的能力

Hint-infer的巧妙之處在于它利用了LLM已有的潛在能力,通過極低的成本啟動了工具學習的正反饋循環。這種“提示-推理-微調”的自學習范式,對于未來構建更強大、更可靠的AI系統具有重要的借鑒意義。

從更廣闊的視角看,這項工作對于AI Agent的發展具有重要意義。START所展示的“引導-探索-內化”的學習模式,可能為訓練更自主、更全能的AI Agent提供了一條可行的途徑。

后續值得探索的方向包括:

  • 更豐富的工具集:將Hint-infer和Hint-RFT擴展到Python解釋器之外的更多工具,如搜索引擎、知識庫API、物理模擬器等。
  • 動態提示生成:當前提示是人工設計的,未來或許可以探索讓模型自身學習生成最有效的“自我提示”來調用工具。
  • 工具選擇與組合:當面臨多種可用工具時,模型如何學習選擇最優工具或工具組合來解決問題。

1. 思想

START的核心思想在于,如何讓一個預訓練的LRM能夠 自我教會 在其長鏈思考過程中適時且有效地調用外部工具(本文特指Python解釋器)。研究者們意識到,直接通過指令或少量示例(few-shot prompting)來引導現有LRM在長鏈推理中穩定調用工具非常困難。這可能是因為模型在預訓練和針對CoT的微調階段,主要被“教導”去解決問題本身,而非學習何時以及如何求助于外部工具

START的巧妙之處在于它提出了一種 “提示-推斷-精煉” 的自學習框架,旨在喚醒并強化模型利用工具的能力。
Figure 1

2. 方法

START的自學習框架包含兩個技術提示推斷提示拒絕采樣微調

  • 提示推斷 (Hint-infer)

    • 機制:在LRM進行推理時,于特定位置(例如,在“Alternatively”、“Wait”等表示思考轉換的連接詞后,或在長CoT結束前)注入人工設計的、與上下文相關的“提示” (hints),例如 “等等,這里用Python算一下也許更好” (Wait, maybe using Python here is a good idea)。
    • 效果:這類提示無需任何示例數據 (demonstration data) 即可有效激發LRM調用外部工具的潛能。對于代碼生成任務,提示會更具體,包含代碼模板引導模型對測試用例進行本地驗證。
    • 擴展:Hint-infer本身也可以作為一種測試時增強(test-time scaling)方法,通過在推理末端多次迭代插入提示,給予模型更多“思考時間”和調用工具的機會來提升性能。

    Figure 3

  • 提示拒絕采樣微調 (Hint Rejection Sampling Fine-Tuning, Hint-RFT)
    這是一個兩階段的自學習與微調過程,旨在將Hint-infer誘導出的工具使用行為內化為模型的自身能力。

    1. 階段一:引導工具感知 (Bootstrapping START-0)

      • 數據合成:使用基礎LRM(如QwQ-32B-Preview)配合Hint-infer處理一批訓練數據(包含數學、代碼等問題)。
      • 篩選與構建 D s e e d D_{seed} Dseed?收集那些模型僅在Hint-infer下才解決,并且包含了有效工具調用(Python代碼執行)的推理軌跡。這些軌跡經過評分、過濾和必要的修改(如統一Python標識符、移除占位符),形成初始的工具使用示范數據集 D s e e d D_{seed} Dseed?
      • 初步微調:在 D s e e d D_{seed} Dseed? 上微調基礎LRM,得到START-0模型。此時,START-0已經具備了初步的、自我驅動的工具使用意識
    2. 階段二:強化工具熟練度 (Developing START)

      • 數據增強與提純:使用START-0模型,在全部訓練數據上進行帶有拒絕采樣的推理,生成更豐富、更多樣化的長鏈工具調用軌跡。對這些軌跡進行評分、過濾重復模式、人工修正不合理內容,保留每個問題至多一個高質量的回答,構成更優的工具使用數據集 D S T A R T D_{START} DSTART?
      • 最終微調:在 D S T A R T D_{START} DSTART? 上再次微調基礎LRM(論文中表述為QwQ-32B-Preview,但邏輯上也可以是START-0),得到最終的START模型,該模型能夠更熟練和自主地在長鏈思考中集成工具使用。

    符號解釋:

    D s e e d D_{seed} Dseed?:通過Hint-infer生成的、包含成功工具調用的初始高質量軌跡集合。

    D S T A R T D_{START} DSTART?:通過START-0模型配合拒絕采樣生成的、質量更高、多樣性更好的工具調用軌跡集合。

    QwQ-32B-Preview:論文中使用的基礎大型語言模型。

    START-0:經過 D s e e d D_{seed} Dseed? 初步微調后,具備基本工具使用能力的模型。

    START:經過 D S T A R T D_{START} DSTART? 再次微調后,具備更強工具使用能力的最終模型。

3. 優勢

  • 顯著提升復雜推理能力:通過將精確計算、代碼執行與驗證等任務外包給Python解釋器,有效克服了LRM在這些方面的固有弱點,減少了幻覺。
  • 高效的自學習機制:Hint-infer的引入避免了大規模人工標注工具使用數據的需求,通過“提示”巧妙地誘導出模型的潛在能力,并結合RFT進行強化,實現了低成本的自我進化。
  • 保留并增強長CoT的優點:START并非簡單地用工具替代思考,而是在長CoT的框架內有機地集成工具,使得模型既能進行宏觀的策略規劃,又能借助工具處理微觀的復雜執行。
  • 開放性與可復現性:論文基于開源模型進行微調,并詳細描述了方法,為社區提供了借鑒。

4. 實驗

START在一系列具有挑戰性的基準測試上展現了其有效性:

  • 測試平臺
    • GPQA:博士級別的科學問答。
    • MATH (AMC23, AIME24, AIME25):競賽級別的數學問題。
    • LiveCodeBench:競賽級別的代碼生成問題。
  • 實驗結果
    • START顯著優于其基座模型QwQ-32B-Preview。例如,在AIME25上,從基座的40.0%提升至47.1%;在LiveCodeBench上,從41.4%提升至47.3%。
    • 與業界頂尖模型相比,START的性能與R1-Distill-Qwen-32B(基于671B參數模型蒸餾)和閉源的o1-Preview(可能是指GPT系列模型的某個版本)相當或有所超越。
  • 消融實驗與分析
    • Hint-infer的有效性:即便僅僅在測試時對QwQ-32B-Preview使用Hint-infer,也能帶來一定的性能提升證明了提示的即時引導作用
    • Long CoT vs. Long TIR:通過對比僅用更多長CoT數據微調的模型(QwQ-RFT)與START,證明了工具調用能力(Long TIR)是性能提升的核心驅動因素,而非僅僅是訓練數據量的增加。
    • 測試時提示對START的影響:對已經微調好的START模型在測試時再使用Hint-infer,性能提升不如對基座模型明顯。這間接說明START已經較好地內化了工具使用策略,外部提示的邊際效益降低。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/86896.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/86896.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/86896.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【GitOps】Kubernetes安裝ArgoCD,使用阿里云MSE云原生網關暴露服務

?? ArgoCD是什么? ArgoCD是一款開源的持續交付(CD)工具,專門為Kubernetes環境設計。它采用GitOps理念,將Git倉庫作為應用部署的唯一真實來源(SSOT),實現了聲明式的應用部署和管理。 簡單來說,ArgoCD就像是一位不知疲倦的"倉庫管理員",時刻盯著你的Git倉庫,…

三維重建 —— 1. 攝像機幾何

文章目錄 1. 針孔相機1.1. 針孔成像1.2. 光圈對成像的影響 2. 透視投影相機2.1. 透鏡成像2.2. 失焦2.3. 徑向畸變2.4. 透視投影的性質 3. 世界坐標系到像素坐標系的變換4. 其它相機模型4.1. 弱透視投影攝像機4.2. 正交投影攝像機4.3. 各種攝像機模型的應用場合 課程視頻鏈接&am…

Linux基本指令(包含vim,用戶,文件等方面)超詳細

文章目錄 Linux 基本指令前序Vim編輯器分為兩種設計理念模式轉化指令解釋 Normal模式移動光標(motion 核心)常用指令 動作(action)常用指令將動作與移動進行組合 查找(正則表達式)替換(substitude)文本對象…

如何徹底刪除Neo4j中的所有數據:完整指南

如何徹底刪除Neo4j中的所有數據:完整指南 Neo4j作為領先的圖數據庫,在某些場景下我們需要完全清空數據庫中的所有數據。本文將介紹多種刪除Neo4j數據的有效方法,涵蓋不同版本和部署方式的操作步驟。 一、Neo4j數據刪除的常見需求場景 開發…

Keil無法下載程序到STM32 Error: Flash Download failed - Target DLL has been cancelled

背景 Keil通過st-link v2連接STM32,下載報錯 Error: Flash Download failed - Target DLL has been cancelled 我有多臺STM32需要下載程序,會出現這個問題 原因 應該是Keil保存了設備的相關信息,當換了設備之后下載就會出錯 解決辦法 斷…

CIM和建筑風貌管控平臺

2025年的雄安新區,中央綠谷的碧波倒映著現代建筑群,中國星網總部大廈的曲面幕墻與古風飛檐相映成趣。這座“未來之城”的每一處建筑肌理,都離不開一項關鍵技術——城市信息模型(CIM)與建筑風貌管控平臺的支撐。從雄安到…

REBT 分類任務中,`loss`(損失值)和 `logits`(原始預測分數)是什么

REBT 分類任務中,loss(損失值)和 logits(原始預測分數)是什么 在分類任務中,loss(損失值)和 logits(原始預測分數)的含義及計算邏輯可以通過具體示例清晰解釋。以下結合你提供的數值(loss=0.7478,logits=[-0.1955, -0.3021])進行說明 一、logits 的本質:未歸一化…

6月13日day52打卡

神經網絡調參指南 知識點回顧: 隨機種子內參的初始化神經網絡調參指南 參數的分類調參的順序各部分參數的調整心得 作業:對于day41的簡單cnn,看看是否可以借助調參指南進一步提高精度。 用“燒水調溫”的日常場景來打比方: 每個…

穿越時空的刀劍之旅:走進VR刀劍博物館?

VR 刀劍博物館不僅僅是一個展示刀劍的場所,更是文化傳承與教育的重要基地,在弘揚刀劍文化、增強民族文化認同感以及開展教育活動等方面發揮著不可替代的重要作用。? 從文化傳承的角度來看,刀劍文化源遠流長,它承載著不同國家、不…

基于GA遺傳優化的PID控制器最優控制參數整定matlab仿真

PID(比例-積分-微分)控制器是工業控制領域中最常用的控制器之一。通過調節PID控制器的三個參數:比例(Kp)、積分(Ki)和微分(Kd),可以實現系統的穩定控制。然而…

華為OD最新機試真題-上班之路-OD統一考試(B卷)

題目描述 Jungle 生活在美麗的藍鯨城,大馬路都是方方正正,但是每天馬路的封閉情況都不一樣。地圖由以下元素組成: .—空地,可以達到 *—路障,不可達到; S—Jungle的家。 T—公司;

大模型驅動數據分析革新:美林數據智能問數解決方案破局傳統 BI 痛點

在數字化向智能化躍遷的時代浪潮中,大模型技術正驅動企業數據分析模式迎來顛覆性變革。傳統自助式BI工具主導的數據分析模式,雖在降低分析門檻、提升報表開發效率層面發揮了一定作用,但隨著數據應用場景的深化,其指標固化、響應滯…

(Note)基于Pytorch手搓RNN參考

Coding a Recurrent Neural Network (RNN) from scratch using PytorchPyTorch RNN from Scratch - Jake Taelearning pytorch 3: coding an RNN, GRU, LSTM | Kaggle

《網絡安全與防護》知識點復習

? 一、網絡安全基礎(CIA / AAA / 安全服務) 概念快速記憶CIA 三元組機密性(Confidentiality)、完整性(Integrity)、可用性(Availability)安全服務(OSI)鑒別…

編譯,多面體庫

1) barvinok是一個用于計算整數點數的庫 在參數和非參數多面體以及投影中 這樣的集合。 對于參數多面體,計數由以下任一表示 顯式函數或生成函數。 第一種是分段階躍多項式的形式。 這是Ehrhart擬多項式的推廣 以及向量分割函數。 第二個是Ehrhart級數的…

Kotlin基礎語法一

語言聲明變量與內置數據類型 var:數據可變 val: 數據不可變 內置數據類型 String 字符串 Char 單字符 Boolean true/false Int 整形 Double 小數 List 集合 Set 無重復的元素集合 Map 鍵值對的集合 Kotlin語言的類型推斷 val info : String "Hello KT&quo…

無人機避障——感知篇(在Ubuntu20.04的Orin nx上基于ZED2實現Vins Fusion)

設備:Jetson Orin nx 系統:Ubuntu 20.04 雙目視覺:zed 2 結果展示: 官網中的rosdep install --from-paths src --ignore-src -r -y如果連不上,可以用小魚rosdepc進行替換: 安裝標定工具: 1、…

從零構建端到端AI天氣預測系統:不依賴第三方API的實踐指南

引言:自主可控的AI氣象解決方案 在當今數據隱私和系統自主性日益重要的背景下,本文將詳細介紹如何完全不依賴任何第三方API,從數據采集到模型部署,構建一個完整的本地化AI天氣預測系統。這個方案特別適合對數據主權有要求的企業或…

扣子數據庫實戰案例:搭建AI登記助手

《扣子開發AI Agent智能體應用(人工智能技術叢書)》(宋立桓,王東健,陳銘毅,程東升)【摘要 書評 試讀】- 京東圖書 在當今的數字化生活場景中,無論是拜訪公司還是進入小區,登記信息似乎已經成為…

STA(Station)模式與AP(Access Point)模式

以下是STA(Station)模式與AP(Access Point)模式的核心區別對比表,綜合各搜索結果的關鍵信息整理: 對比維度?STA模式??AP模式?角色定位?無線終端(客戶端)無線接入點&#xff08…