SWiRL:數據合成、多步推理與工具使用

SWiRL:數據合成、多步推理與工具使用

在大語言模型(LLMs)蓬勃發展的今天,其在復雜推理和工具使用任務上卻常遇瓶頸。本文提出的Step-Wise Reinforcement Learning(SWiRL)技術,為解決這些難題帶來曙光。它通過創新的合成數據生成和強化學習方法,顯著提升模型表現,快和我一同深入探究這項技術的奧秘吧!

論文標題
Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use
來源
arXiv:2504.04736v2 [cs.AI] + https://arxiv.org/abs/2504.04736

PS: 整理了LLM、量化投資、機器學習方向的學習資料,關注同名公眾號 「 亞里隨筆」 即刻免費解鎖

文章核心

研究背景

大語言模型(LLMs)在自然語言處理領域成果斐然,展現出強大的能力,像Gemini 2、Claude 3等模型不斷涌現,為該領域帶來諸多突破。然而,它們在處理復雜任務時卻面臨困境。當遇到需要多步推理和工具使用的任務,如多跳問答、數學解題、編碼等,LLMs往往表現不佳。同時,傳統的強化學習方法,像RLHF、RLAIF等,主要針對單步優化,難以應對多步任務中復雜的推理和工具調用需求。因此,如何提升LLMs在多步推理和工具使用方面的能力,成為當前亟待解決的問題 。

研究問題

  1. 傳統強化學習(RL)方法,如RLHF、RLAIF等,主要聚焦于單步優化,難以應對多步任務中復雜的推理和工具調用需求。

  2. 多步推理過程中,中間步驟的錯誤容易導致最終結果錯誤,如何保證模型在整個推理鏈條上的準確性,并有效從錯誤中恢復,是一大挑戰。

  3. 在多步任務中,模型需要學會合理分解問題、適時調用工具、準確構造工具調用指令等,現有方法在這些方面的指導和優化能力不足。

主要貢獻

1. 提出SWiRL方法:創新地提出了Step-Wise Reinforcement Learning(SWiRL),這是一種針對多步優化場景的合成數據生成和離線RL方法,有效提升模型在多步推理和工具使用任務中的能力。

2. 實現跨數據集泛化:SWiRL展現出強大的泛化能力,在不同的多跳問答和數學推理數據集上都取得了優異成績。例如,在HotPotQA數據集上訓練的SWiRL模型,在GSM8K數據集上的零樣本性能相對提升了16.9% 。

3. 分析數據過濾策略:深入分析了多步推理和工具使用場景中合成數據過濾策略的影響,發現基于過程過濾的數據能讓模型學習效果最佳,且模型能從包含錯誤最終答案的軌跡中學習,這與傳統監督微調(SFT)方法不同。

4. 探索模型和數據集規模影響:研究了訓練數據集大小和模型大小對SWiRL性能的影響,發現即使只有1000條軌跡也能顯著提升模型性能,且較大模型在SWiRL訓練下的泛化能力更強。

方法論精要

1. 核心算法/框架:SWiRL分為兩個階段。第一階段是合成數據生成與過濾,通過迭代提示模型生成多步推理和工1具使用的軌跡,并對其進行不同策略的過濾;第二階段是基于這些合成軌跡,使用逐步強化學習方法優化生成式基礎模型。

2. 關鍵參數設計原理:在逐步強化學習階段,目標函數是期望的逐步獎勵之和 J ( θ ) = E s ~ T , a ~ π θ ( s ) [ R ( a ∣ s ) ] J(\theta)=E_{s \sim T, a \sim \pi_{\theta}(s)}[R(a | s)] J(θ)=EsT,aπθ?(s)?[R(as)] 。其中, π θ \pi_{\theta} πθ? 是由 θ \theta θ 參數化的基礎模型,通過SWiRL進行微調; T T T 表示合成多步軌跡中的所有狀態集合;獎勵信號 R ( a ∣ s ) R(a | s) R(as) 由生成式獎勵模型(如Gemini 1.5 Pro)評估,根據給定上下文 s s s 下生成響應 a a a 的質量來確定。

3. 創新性技術組合:將合成數據生成、多步推理和工具使用相結合,通過迭代生成多步軌跡并轉換為多個子軌跡,在子軌跡上進行合成數據過濾和RL優化。這種方法能夠在每一步推理后給予模型直接反饋,使模型學習更具上下文感知能力。

4. 實驗驗證方式:選擇了五個具有挑戰性的多跳問答和數學推理數據集,包括HotPotQA、MuSiQue、CofCA、BeerQA和GSM8K。基線方法選取了當前一些先進的語言模型,如GPT-4、GPT-3.5、Gemini 1.0 Pro等。通過對比在這些數據集上的性能,評估SWiRL的有效性。

實驗洞察

在實驗環節,研究團隊對SWiRL展開了多維度探究,獲得了一系列關鍵發現。

1. 性能優勢:SWiRL在多個復雜任務數據集上表現卓越。在GSM8K數學推理數據集上,相比基線方法,其相對準確率提升21.5%;HotPotQA多跳問答數據集提升12.3%;CofCA數據集提升14.8%;MuSiQue數據集提升11.1%;BeerQA數據集提升15.3%。這表明SWiRL能顯著增強模型在多步推理和工具使用任務中的表現,遠超傳統方法。

2. 泛化能力驗證:SWiRL展現出良好的跨任務泛化性。在HotPotQA數據集訓練的模型,在GSM8K上零樣本性能相對提升16.9%;反之,在GSM8K訓練的模型,在HotPotQA上性能提升9.2%。這意味著SWiRL訓練的模型能將在某一任務中學到的多步推理和工具使用能力,有效遷移到其他不同類型任務中。

3. 數據過濾策略影響:通過對不同數據過濾策略的研究發現,僅進行過程過濾的數據能讓模型達到最佳性能。雖然傳統觀點認為基于結果正確性過濾數據能提升性能,但實驗表明,SWiRL從包含正確和錯誤最終答案的過程過濾數據中學習效果更好,而基于結果過濾的數據(除MuSiQue數據集外)反而降低了模型性能。

4. 數據集和模型大小的影響:實驗發現,增加訓練數據集規模能持續提升SWiRL模型性能。即使只有1000條軌跡,模型在多個數據集上也能取得顯著進步。此外,較大模型(如Gemma-2-27b)在SWiRL訓練下的泛化能力更強,而較小模型(Gemma-2-2b和9b)雖在域內有一定提升,但泛化能力相對較弱。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/82075.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/82075.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/82075.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【Windows 常用工具系列 22 -- vscode markdown preview 字體大小設置】

文章目錄 解決辦法 解決辦法 打開設置(快捷鍵 Ctrl , 。或者左下角圖標齒輪 ?)搜索設置選項 Markdown ? Preview: Font Size控制 Markdown 預覽中使用的字號(以像素為單位)。 推薦閱讀 https://blog.csdn.net/yanglsbb/article/details/127306685

【風控】模型監控和異常處理

在風控模型的全生命周期中,模型監控與異常處理是保障模型持續、穩定、可靠運行的關鍵環節。本指南旨在提供系統化、可落地的監控指標、預警策略及異常處置流程,幫助團隊快速定位、響應并修復線上模型問題,最大限度降低風險。 1.模型監控與預…

第4章 遞推法

4.1 遞推法概述 設計思想: 遞推法(Recurrence Method)通過已知的初始條件和遞推關系,逐步推導出問題的最終結果,常用于序列計算和分階段問題求解。 示例:猴子和桃子問題 題目描述: 猴子每天吃…

可視化魔法指南

?? ECharts數據可視化魔法指南 ?? ECharts:數據的藝術畫筆 #mermaid-svg-ARwFHUrXBJ03Gpo9 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-ARwFHUrXBJ03Gpo9 .error-icon{fill:#552222;}#mermaid-svg-ARwFHUr…

SpringBoot學生宿舍管理系統開發實現

概述 一款基于SpringBoot框架開發的學生宿舍管理系統完整項目,該系統包含管理員、學生、宿管員和維修員四大角色模塊,功能完善,非常適合作為設計或二次開發的基礎項目。 主要內容 5.1 管理員功能模塊 管理員登錄界面采用驗證碼驗證機制&a…

同步 / 異步、阻塞 / 非阻塞

前言 同步異步,在計算機科學中是一個非常重要的概念。作為一位軟件開發工程師,我們每天都在和同步和異步打交道。 同步 同步-阻塞,顧名思義,就是同步和阻塞。調用方法后,必須等到結果返回,才能繼續執行別…

AOP封裝進行批量的數據查詢并填充

在我們日常的項目開發中,我們經常會遇到這樣的問題。我們有一張用戶表,用戶表中有用戶ID和用戶名稱。我們其他表中會記錄我們當前操作人的ID,一般,我們會記錄一個創建人ID和修改人ID。那么,這個時候問題來了&#xff0…

Java學習手冊:數據庫事務相關知識

一、事務的概念與特性 概念 :事務是數據庫中一系列操作的集合,這些操作要么全部成功,要么全部失敗,是一個不可分割的工作單位。例如,在銀行轉賬系統中,從一個賬戶扣款和向另一個賬戶存款這兩個操作必須作為…

java復雜度,包裝類,泛型解析

如何衡量代碼的好壞? 評價代碼的好壞我們使用算法效率來判斷,而算法效率分兩種: 算法效率: 第一種是時間效率,第二種是空間效率,時間效率被稱為時間復雜度,?空間效率被稱作空間復雜度。 時間…

基于 SpringBoot + Vue 的校園管理系統設計與實現

一、項目簡介 本系統以校園組織管理為主線,結合用戶權限分離機制與模塊化設計,實現對“單位類別、單位、通知推送、投票信息、用戶回復”等內容的全流程管理,廣泛適用于教育局、高校及下屬組織的信息管理工作。 🎯 項目亮點&…

iOS藍牙技術實現及優化

以下是針對2025年iOS藍牙技術實現的核心技術要點的深度解析,結合當前iOS 18(推測版本)的最新特性與開發實踐,分模塊結構化呈現: 一、硬件與協議層適配 BLE 5.3 支持 iOS 18默認支持藍牙5.3協議,需注意&…

Qt 中實現觀察者模式(Observer Pattern)

在 Qt 中實現**觀察者模式(Observer Pattern)通常利用其內置的信號與槽(Signals & Slots)**機制,這是最符合 Qt 設計哲學的方式。以下是詳細實現方法和關鍵點: —### 1. 觀察者模式的核心思想- Subject(被觀察者):維護一個觀察者列表,在狀態變化時通知觀察者。- …

寫程序,統計兩會政府工作報告熱詞頻率,并生成詞云

import jieba from collections import Counter from wordcloud import WordCloud import matplotlib.pyplot as pltdef generate_wordcloud():try:# 讀取文本文件with open(E:\\桌面\\s.txt, r, encodingutf-8) as file:text file.read()# 中文分詞words jieba.lcut(text)# …

【Science Advances】普林斯頓大學利用非相干光打造可重構納米光子神經網絡

(導讀 ) 人工智能對計算性能需求劇增,電子微處理器發展受功耗限制。光學計算有望解決這些問題,光學神經網絡(ONNs)成為研究熱點,但現有 ONNs 因設計缺陷,在圖像分類任務中精度遠低于現代電子神經網絡&#…

gin + es 實踐 01

項目結構說明 目錄結構概覽 Go-ES 項目采用領域驅動設計(DDD)架構,目錄結構清晰,各層次職責分明。以下是項目的主要目錄結構: go-es/ ├── cmd/ # 應用程序入口 │ └── api/ …

如何構建直播美顏SDK?從美顏API調用邏輯到GPU優化實戰

隨著短視頻和直播行業的爆發,美顏SDK已成為各大直播平臺的“標配”。從基礎的磨皮、美白,到如今的AI濾鏡、虛擬形象,這些功能的背后都離不開高效的美顏SDK支持。那么,如何構建一款性能優越、體驗流暢的直播美顏SDK呢?本…

高組裝導軌的特點

高組裝導軌通常是四列式單圓弧齒形接觸直線導軌,具有整合化的結構設計,適用于重負荷和精密應用。與其它直線導軌高組裝導軌提升了負荷與剛性能力,具備四方向等負載特色和自動調心功能,能夠吸收安裝面的裝配誤差,達到高…

2025-05-07-FFmpeg視頻裁剪(尺寸調整,畫面比例不變)

原比例如圖 原比例如圖裁剪后的比例 代碼: 方法一:極速 ffmpeg -i input.mp4 -vf "crop1080:750:0:345" -c:v libx264 -preset ultrafast -c:a copy output.mp4關鍵參數說明: vf “crop寬:高?y”:定義裁剪區域。 …

一個.Net開源的協作辦公套件,包括文檔、表格、演示文稿和表單

從零學習構建一個完整的系統 推薦一個開源的文檔協作辦公套件,可以很好的滿足團隊對方便、高效、安全的方式來處理文檔工作,促進團隊協作和信息共享。 項目簡介 ONLYOFFICE 是一個開源的辦公套件,包括文檔、表格、演示文稿和表單等應用程序…

虛幻基礎:硬件輸入

文章目錄 triggered:按下一直觸發 等于tickcompleted:必須等到triggered結束后 才觸發松下triggered結束 默認按鍵觸發順序按下:觸發兩個先 Started后 Triggered 松開Completed 觸發器:用于修改triggered 觸發和結束驅動閾值&…