大語言模型(LLMs)在處理復雜推理和實時信息檢索時面臨兩大挑戰:知識局限性(無法獲取最新外部知識)和檢索靈活性不足(傳統方法依賴固定檢索流程)。現有方法如檢索增強生成(RAG)和工具調用(Tool-Use)存在以下問題:
- RAG:單輪檢索導致上下文不足,無法適應多輪交互場景。
- 工具調用:依賴大量監督數據,難以擴展。
SEARCH-R1,一種新的強化學習框架,使LLMs能夠交替進行自我推理和實時搜索引擎交互。與現有的檢索增強生成方法相比,SEARCH-R1通過強化學習優化LLMs展開,允許自主查詢生成和戰略利用檢索信息。通過在七個數據集上的廣泛實驗,證明了SEARCH-R1顯著增強了LLMs處理需要實時外部知識的復雜推理任務的能力。
核心方法
強化學習與搜索引擎整合
- 環境建模:將搜索引擎作為環境的一部分,LLM生成文本與檢索交替進行。
- 算法支持:兼容PPO和GRPO算法,通過檢索標記掩碼(Retrieved Token Masking)提升訓練穩定性。
SEARCH - R1的RL框架公式如下:
max ? π θ E x ~ D , y ~ π θ ( ? ∣ x ; R ) [ r ? ( x , y ) ] ? β D K L [ π θ ( y ∣ x ; R ) ∣ ∣ π ref ( y ∣ x ; R ) ] \max_{\pi_{\theta}} E_{x\sim\mathcal{D}, y\sim\pi_{\theta}(\cdot\mid x;\mathcal{R})}\left[r_{\phi}(x, y)\right]-\beta D_{KL}\left[\pi_{\theta}(y\mid x;\mathcal{R})||\pi_{\text{ref}}(y\mid x;\mathcal{R})\right] πθ?max?Ex~D,y~πθ?(?∣x;R)?[r??(x,y)]?βDKL?[πθ?(y∣x;R)∣∣πref?(y∣x;R)]
其中, π θ \pi_{\theta} πθ?是策略LLMs, π ref \pi_{\text{ref}} πref?是參考LLMs, r ? r_{\phi} r??是獎勵函數, D K L D_{KL} DKL?是KL散度。
與現有的LLMs強化學習方法不同,SEARCH - R1明確結合了檢索和推理的交替進行,即 π θ ( ? ∣ x ; R ) \pi_{\theta}(\cdot\mid x;\mathcal{R}) πθ?(?∣x;R),可以看作 π θ ( ? ∣ x ) ? R \pi_{\theta}(\cdot\mid x)\otimes\mathcal{R} π