R1-Searcher:Incentivizing the Search Capability in LLMs via Reinforcement Learning 2025.3
https://github.com/RUCAIBox/R1-Searcher
針對的問題:
現有大型推理模型在時間敏感或知識密集型問題上通常僅使用模型內部知識,導致回答不準確甚至出現幻覺。
思路:
讓模型自行學會“何時檢索+ 如何利用結果”。
實現方法:
用純 RL、不需要過程獎勵或冷啟動的蒸餾;激勵大語言模型在推理過程中主動調用外部檢索系統,提升解答能力。訓練分為兩個階段:
第一階段專注于讓模型學會如何正確地發起檢索請求。獎勵包括兩部分:檢索獎勵和格式獎勵。
檢索獎勵:
n代表檢索次數。
格式獎勵:
正確的格式為:
第一階段鼓勵模型發起檢索操作,并不關心模型答案的正確性。
第二階段專注模型答案的正確性,讓模型有效利用檢索結果來回答問題。獎勵包括答案獎勵和格式獎勵。
答案獎勵:
利?了ground-truth 答案和預測答案的 F1 分數:
格式獎勵:
相比于第一階段的格式獎勵,第二階段加大了對格式的懲罰力度。
實驗結果:
算法采用REINFORCE++。Backbone使用Qwen2.5-7B和Llam-3.1-8B,訓練采用的是本地檢索數據庫。
其中HotpotQA和2Wiki是訓練數據,Bambogle是域外數據。實驗表明,GRPO在域外數據上表現好。REINFORCE++在域內數據上表現好。
在線搜索的擴展:
使用在線檢索測試域外數據,具體,使用 Google API 檢索網頁,并用 GPT-4o-mini 總結長網頁內容后融入推理模型。
[?為什么還要額外引入一個摘要模型,他自己不會總結嗎]
作者給出的解釋:經過CoT訓練的模型(無論是sft還是rl),總結能力都會有所下降。
RL vs SFT
面對不確定的問題,RL傾向于利用檢索來尋找答案,而SFT則傾向于利用模型內部不正確的知識進行回答。
總結:
論文提出了?種將 RAG 與 RL 相結合的 R1-Searcher 框架。該框架采?兩階段結果監督 RL方法,通過設計的獎勵機制,使模型能夠在推理過程中學習調用外部搜索引擎以獲取相關知識。所提出的方法完全依賴于RL ,允許模型通過探索自主學習,而不需要任何指令微調冷啟動。它展示了從域內訓練數據集推?到域外測試數據集的能力,同時無縫切換到在線搜索以獲取最新信息。