原文鏈接:https://i68.ltd/notes/posts/20250307-search-r1/
Search-R1
- DeepSeek團隊開發的SEARCH-R1模型通過強化學習,讓AI學會了自主搜索信息并將其與推理過程無縫結合,性能提升高達26%
- 高效、可擴展的RL訓練框架,用于推理和搜索引擎調用,基于veRL的交錯LLM
- 論文鏈接:https://arxiv.org/pdf/2503.09516v1
- 項目倉庫:https://github.com/PeterGriffinJin/Search-R1
- Search-R1: 讓AI學會搜索引擎互動,推理能力大幅提升26%
核心創新:通過強化學習讓模型自主學習如何與搜索引擎交互
- 革命性的交互式搜索推理框架
SEARCH-R1將搜索引擎視為環境的一部分,使AI能夠在推理過程中自主發起搜索請求。具體來說:
1)模型使用和標記觸發搜索調用
2)檢索內容被封裝在和標記中
3)模型的思考步驟包含在和標記內
4)最終答案使用和標記呈現
這種結構化設計讓模型能夠進行多輪交錯的推理與搜索,大大提升了解決復雜問題的能力。
- 穩定可靠的訓練策略
SEARCH-R1采用了幾項關鍵技術來確保訓練穩定:
1)檢索令牌掩碼:僅對模型生成的內容進行優化,避免對檢索內容的不當學習
2)簡單有效的獎勵函數:基于最終結果的準確性進行獎勵,避免了復雜的過程獎勵設計
3)兼容多種強化學習算法:支持PPO和GRPO等主流強化學習方法
實驗結果:碾壓現有方法
研究團隊在七個問答數據集上進行了全面測試,結果令人振奮:
1)Qwen2.5-7B:性能提升26%
2)Qwen2.5-3B:性能提升21%
3)LLaMA3.2-3B:性能提升10%
R1-Searcher 通過強化學習激勵LLMs中的搜索能力
- R1-Searcher采用兩階段強化學習方法,增強LLMs的搜索能力。
- 通過強化學習激勵LLMs在推理過程中主動調用外部搜索系統,從而獲取必要的知識來解決復雜問題。
- 與以往的方法不同,R1-Searcher框架完全依賴于RL,不需要過程獎勵或通過蒸餾進行冷啟動。
- 論文鏈接:https://arxiv.org/pdf/2503.05592
- 項目倉庫:https://github.com/SsmallSong/R1-Searcher
- R1-Searcher告別SFT,強化學習提升LLM推理能力300%
- R1思考+RAG = R1-Searcher
search-o1 增強的大規模推理模型
- 通過代理檢索增強生成(RAG)機制和文檔中推理模塊來增強LRM的框架,用于深入分析檢索到的文檔并將其集成到推理鏈中
- 論文鏈接:[2501.05366] Search-o1: Agentic Search-Enhanced Large Reasoning Models
- 項目倉庫:https://github.com/sunnynexus/Search-o1
- HuggingFace:https://huggingface.co/papers/2501.05366
- 大&清華提出Search-o1:賦予推理模型主動搜索的能力
- Search-o1 升級:主動搜索+知識整合,推理能力更強!