推理大模型的后訓練增強技術-Reasoning模型也進化到2.0了,這次居然學會用工具了

論文題目:START: Self-taught Reasoner with Tools

論文鏈接:https://arxiv.org/pdf/2503.04625

論文簡介

Reasoning模型也進化到2.0了,這次居然學會用工具了!? 最近有個叫START的方法,讓大模型也能學著用工具,比如自己調用代碼解釋器,來提升推理和解決問題的能力。

具體怎么實現的呢?它會把「思考鏈」和「工具調用」結合起來,給模型配上了自查、自我探索和自己修bug的能力。簡單說,就是教模型邊想邊動手,用工具解決推理過程中的難題。

具體的訓練步驟大概是:

1?? 收集數學和編程題目,比如數學的AIME、MATH,編程的Codeforces、LiveCodeBench這些比賽題目。
2?? 設計一些「友情提示」,比如“這里不如用Python試一下?”
3?? 讓模型自己帶著工具解題,然后把剛才的提示巧妙地插到推理過程中(通常是在模型猶豫的時候,比如出現「等等…」的地方)。
4?? 對解題過程打分,去掉重復或者沒用的步驟,形成高質量的種子數據集。
5?? 用這些種子數據微調模型,讓它學到正確的使用工具的思路,并不斷“自我精煉”,創造更多解題方案。
6?? 再通過“拒絕采樣”技術在更大的數據集上做二次微調,讓模型越來越聰明。

研究還發現了幾個有趣的現象:

💡 加入工具后,數學題的準確率直接提升了15%,像AMC23考試的正確率達到了95%!編程題的中等難度問題準確率提升更厲害,達到了38.6%!

📈 考試的時候加上一些小提示,也能再提升12%的準確率。
🐞 調整代碼模板,訓練過程中的debug錯誤直接少了41%。
💡 給模型加工具(比如Python解釋器)帶來的提升,比單純增加訓練數據還有效!
🧠 大模型本身其實就已經有使用工具的潛力了,只是需要點撥一下就能激活。
🛠? 訓練的時候用“兩階段”方法(先提示微調再拒絕采樣微調),能讓模型更好地掌握工具的使用方法。
📍 對了,插入提示的位置也很重要,最好放在連詞后(比如“但是”、“等等”之后),停頓之前。

一句話總結:模型加了工具,就像你考試允許開卷一樣,效果簡直好到飛起!


如上圖所示START模型的訓練框架,它的訓練分為兩個階段:Hint-RFT 和 RFT。

論文效果

1?? Hint-infer(提示推理)

  • 先拿代碼和數學數據喂給 QwQ-32B-Preview(一個大模型),它會在特定的地方停下來。
  • 這些停頓點會插入一些智能提示(來自一個提示庫),比如“這里是不是可以試試Python?”
  • 之后,模型會繼續推理,并且用代碼解釋器(Python)來執行代碼、檢查反饋,確保思路正確。

2?? Hint-RFT(基于提示的拒絕采樣微調)

  • 在上一步的基礎上,模型生成的推理過程會經過一輪篩選,去掉低質量、重復的內容,并進行一些修改,形成一個高質量的種子數據集 D_seed
  • 然后,QwQ-32B-Preview 會用這些數據進行微調,生成一個初版的 START-0,讓它能自己感知并使用工具。

3?? RFT(拒絕采樣微調)

  • START-0 開始自我蒸餾,自己生成更多解題思路,構建一個更豐富的訓練數據集 D_START(這個數據集不僅更有多樣性,還強化了工具使用模式)。
  • 最后,用這個擴展版數據集再微調一次,最終得到完整的 START 模型

簡單來說,這個流程的關鍵就是:

  • 先讓模型學會用提示來調用工具
  • 再篩選高質量的解題過程進行微調
  • 讓模型自己生成更多推理過程,最后再訓練一遍

這張圖對比了 QwQ-32B-PreviewSTART 在處理 LiveCodeBench(難度:hard)編程題時的表現。

📌 QwQ-32B-Preview

  • 采用 長鏈推理(CoT),自己反思、嘗試不同的方法,邏輯看起來很嚴謹。
  • 但在分析復雜測試用例時容易“幻覺”,也就是推理時編出一些錯誤的假設,導致最終解法是錯的。

📌 START

  • 繼承了 QwQ-32B-Preview 的推理框架,但 加入了代碼執行能力,讓模型可以真正跑代碼來驗證自己的推理。
  • 具體做了什么?
    1?? 執行代碼:用解釋器跑代碼,看看結果對不對。
    2?? 檢測錯誤:如果輸出和預期不匹配,說明哪里有問題。
    3?? 迭代分析 & 調試:自動找 bug、分析錯誤,修正代碼。
    4?? 輸出最終答案:確保解法正確再交卷!

總體來看,QwQ-32B-Preview 雖然思考方式不錯,但容易犯錯。START 靠工具(代碼執行)補上漏洞,推理更嚴謹,答案更靠譜!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/72587.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/72587.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/72587.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

LeetCode[24]兩兩交換鏈表中的節點

思路: 就對于這種頭節點發生變化的, 我覺得一般都需要一個虛擬頭節點,然后無非就是讓虛擬頭節點的后兩個節點進行交換,即找到要交換的兩個節點的前一個節點,然后每次循環的時候都要記住這點,這道題就很簡單…

13個問題

1. 電橋平衡是什么? 電橋平衡是指在電橋電路中,通過調節電阻或電容等元件,使電橋四個臂的阻抗滿足一定的比例關系,從而使電橋的輸出電壓為零。其原理基于惠斯通電橋:當四個臂的阻抗滿足 R1/R2 R3/R4 時,電…

基于llama.cpp的QwQ32B模型推理

基于llama.cpp的QwQ32B模型推理 llama.cpp項目主頁: https://github.com/ggml-org/llama.cpp# llama.cpp源碼下載 cd /root/lanyun-tmpgit clone https://github.com/ggml-org/llama.cpp#llama.cpp編譯 llama.cpp是個C語言項目,實際調用過程需要先構建項…

如何使用Spring AI提示詞模板PromptTemplate?

如何使用Spring AI提示詞模板PromptTemplate 目錄 如何使用Spring AI提示詞模板PromptTemplate 1、提示詞Prompt介紹 2、Spring Boot集成Spring AI框架 3、提示詞模板PromptTemplate用法 4、開發代碼使用PromptTemplate 5、啟動Springboot工程并驗證 本文章節介紹Prompt…

華為OD機試 - 創建二叉樹(Java 2024 E卷 200分)

題目描述 給定一系列樹狀結構操作的問題,通過 Q 次查詢還原樹結構并輸出結果。題目要求實現一個類 Solution,其方法 recoverTree 需要根據輸入的操作數組 operations 還原樹的結構,并返回樹的根節點。每個操作 operations[i] [height, inde…

Vue3 + Element Plus 圖片加載優化全攻略

如果對你有幫助&#xff0c;請幫忙點個贊 一、為什么需要優化圖片加載&#xff1f; 在Web開發中&#xff0c;未優化的圖片會導致&#xff1a; 首屏加載時間過長&#xff08;LCP指標惡化&#xff09; 不必要的帶寬消耗 低端設備卡頓 用戶流量浪費 Element Plus的<el-im…

Python 基礎知識整理筆記

鬧麻了&#xff0c;因為各種原因&#xff0c;現在需要重新回顧一下Python&#xff0c;話不多說&#xff0c;開始吧 1. Python是解釋型語言 && Python與C代碼執行過程的區別&#xff1a; &#xff08;1&#xff09;C 源碼&#xff08;Source&#xff09;&#xff1a;C的…

Windows Server中的NTP服務器部署(NTP Srver Deployment in Windows Server)

構建穩定內網時間同步&#xff1a;Windows Server中的NTP服務器部署指南 服務簡介 NTP&#xff08;Network Time Protocol&#xff09;服務器是用于同步計算機網絡中各設備時間的服務器。它通過網絡協議與標準時間源&#xff08;如原子鐘、GPS系統等&#xff09;進行時間同步&…

Linux驅動開發實戰之PCIE驅動(一)

以下是針對Linux下PCI設備驅動開發的詳細步驟指南及示例代碼&#xff0c;適合剛入門的小白逐步學習和實踐&#xff1a; 一、開發環境準備 安裝開發工具sudo apt install build-essential linux-headers-$(uname -r)創建項目目錄mkdir pci_driver && cd pci_driver二、…

【 <二> 丹方改良:Spring 時代的 JavaWeb】之 Spring Boot 的自動配置:約定優于配置的設計美學

<前文回顧> 點擊此處查看 合集 https://blog.csdn.net/foyodesigner/category_12907601.html?fromshareblogcolumn&sharetypeblogcolumn&sharerId12907601&sharereferPC&sharesourceFoyoDesigner&sharefromfrom_link <今日更新> 一、Spring…

SourceTree的安裝與使用

SourceTree的安裝與使用 一、前言 作為可視化Git管理工具&#xff0c;SourceTree可以避免我們使用命令進行常規的代碼拉取&#xff0c;更新&#xff0c;合并等操作。 鼠標點點就可以完成代碼管理的工作。所以強烈推薦可視化的工具。不過SourceTree還是有點bug&#xff0c;比…

JMeter 性能測試

Jmeter 用戶手冊 名詞解釋&#xff1a; RPS&#xff1a;每秒請求數-每秒向服務器發送多少請求數&#xff08;一個場景&#xff0c;系統面臨多大的壓力&#xff09; TPS&#xff1a;每秒事務數-每秒能夠處理多少請求/事務數性能評價標準&#xff08;其中的一個核心指標&#x…

Go語言的負載均衡

Go語言的負載均衡 引言 在互聯網快速發展的今天&#xff0c;服務器的壓力越來越大。隨著用戶的增加&#xff0c;單一服務器很難滿足所有請求&#xff0c;導致延遲增加&#xff0c;服務質量下降。負載均衡&#xff0c;作為一種重要的技術手段&#xff0c;能夠有效地分散用戶請…

【Mac 從 0 到 1 保姆級配置教程 09】09. 快速配置終端復用工具 tmux 和 oh-my-tmux

文章目錄 1. 前言2. 安裝 tmux3. 配置 tmux4. 安裝 oh-my-tmux5. 最后6. 參考資料7. 系列教程 Mac 從 0 到 1 保姆級配置教程目錄&#xff0c;點擊即可跳轉對應文章&#xff1a; 【Mac 從 0 到 1 保姆級配置教程 00】 - 教程說明 【Mac 從 0 到 1 保姆級配置教程 01】 - 安裝無…

【每日學點HarmonyOS Next知識】屏幕參數、半模態相關、三集聯動、只顯示部分卡面,自定義繪制

1、HarmonyOS 需要 獲取屏幕 xdpi 與 ydpi 數據&#xff1f; 可以通過display.getDefaultDisplaySync參考鏈接&#xff1a;https://developer.huawei.com/consumer/cn/doc/harmonyos-references-V5/js-apis-display-V5 ohos.display (屏幕屬性) &#xff1a;屏幕屬性提供管理…

Java 大視界 -- 基于 Java 的大數據機器學習模型的遷移學習應用與實踐(129)

&#x1f496;親愛的朋友們&#xff0c;熱烈歡迎來到 青云交的博客&#xff01;能與諸位在此相逢&#xff0c;我倍感榮幸。在這飛速更迭的時代&#xff0c;我們都渴望一方心靈凈土&#xff0c;而 我的博客 正是這樣溫暖的所在。這里為你呈上趣味與實用兼具的知識&#xff0c;也…

通義萬相 2.1 與藍耘智算平臺的深度協同,挖掘 AIGC 無限潛力并釋放巨大未來價值

我的個人主頁 我的專欄&#xff1a; 人工智能領域、java-數據結構、Javase、C語言&#xff0c;希望能幫助到大家&#xff01;&#xff01;&#xff01; 點贊&#x1f44d;收藏? 引言&#xff1a;AIGC 浪潮下的新機遇 在當今數字化飛速發展的時代&#xff0c;人工智能生成內容&…

【BERT和GPT的區別】

BERT采用完形填空&#xff08;Masked Language Modeling, MLM&#xff09;與GPT采用自回歸生成&#xff08;Autoregressive Generation&#xff09;的差異&#xff0c;本質源于兩者對語言建模的不同哲學導向與技術目標的根本分歧。這種選擇不僅塑造了模型的架構特性&#xff0c…

Java實體類轉JSON時如何避免null值變成“null“?

在Java開發中&#xff0c;實體類與JSON的轉換是一個非常常見的需求。今天&#xff0c;我們要聊聊一個特別的重要但又常常被忽視的問題&#xff1a;當我們將Java實體類轉換為JSON格式時&#xff0c;如何處理那些null值&#xff0c;避免它們在JSON中出現為字符串“null”呢&#…

五大基礎算法——枚舉算法

枚舉算法 是一種通過遍歷所有可能的解來尋找問題答案的算法思想。它通常用于解決那些解空間有限且可以直接列舉所有可能情況的問題。以下是枚舉算法的核心概念、適用場景、實現方法及經典例題&#xff1a; 一、核心概念 解空間 所有可能的解的集合。 遍歷 通過循環或遞歸逐一檢…