DeepResearch深度搜索實現方法調研

作者：人大+清華

https://github.com/sunnynexus/Search-o1 (Star 800）

優勢：

檢索觸發機制：傳統 RAG 是靜態的、預先定義的；Search-o1 是動態的、由模型主動觸發的，可以在一定程度上實現能力二。

https://github.com/zilliztech/deep-searcher

基本流程：

https://github.com/mshumer/OpenDeepResearcher

https://github.com/dzhng/deep-research

作者：伊利諾伊大學香檳分校+高麗大學

https://github.com/pat-jj/DeepRetrieval (Star 360)

query改寫已被證實是檢索流程中的關鍵步驟。當用戶提交問題時，大型語言模型(LLM)通常會對其進行重新表述(稱為增強查詢)，然后再執行檢索。DeepRetrieval采用創新方法，利用強化學習(RL)而非傳統的監督式微調(SFT)來優化這一關鍵步驟。

DeepRetrieval的突出之處在于它能夠通過"試錯"方式直接學習，使用檢索指標作為獎勵，無需昂貴的監督數據。這種方法使模型能夠針對實際性能指標進行優化，而不僅僅是模仿人工編寫的查詢。

訓練策略使用 PPO。

數據集：PubMed、ClinicalTrials.gov…公開數據集

伊利諾伊大學香檳分校

https://github.com/PeterGriffinJin/Search-R1

將搜索引擎建模為環境的一部分模型可以在生成中插入 <search>query</search> 指令，系統則響應 <information>results</information>，最終答案用 <answer> 標簽輸出，推理過程包裹在 <think> 中。
支持多輪思考-檢索循環模型可以識別信息缺口并主動發起下一輪搜索，而不是一次性拼接上下文。
基于強化學習策略學習訓練采用 PPO （Proximal Policy Optimization）或 GRPO （Group Relative Policy Optimization）算法，獎勵信號基于最終結果（如 Exact Match）而非過程監督。
避免優化干擾的技術細節引入 Retrieved Token Loss Masking，對搜索返回內容不反向傳播，從而保持訓練穩定。

從下圖來看，它用 7B 模型就能超越 Search-o1 和 680B 參數的 R1？這種“小模型大能力”的背后，正是 RL 訓練出的搜索策略彌補了知識覆蓋和參數規模的不足。

數據集：在七個問答數據集上進行評估，包括一般問答（NQ、TriviaQA、PopQA）和多跳問答（HotpotQA、2WikiMultiHopQA、Musique、Bamboogle）。
基線比較：與多種方法進行比較，包括無檢索的推理、檢索增強生成（RAG）、工具調用方法（如IRCoT和Search-o1）、監督微調（SFT）和基于RL的微調（R1）。
模型和檢索設置：使用Qwen-2.5-3B和Qwen-2.5-7B模型，以2018年維基百科轉儲作為知識源，E5作為檢索器，每次檢索返回3個段落。

獎勵函數：

非強化學習方法從技術上來看技術路線都是一樣的，即使用推理模型分析，結合聯網搜索以及ReAct機制，根據用戶輸入擴展問題，再對每個問題進行多次聯網查找，推理、再查找的過程，最終輸出一個綜合性的答案。這套方法也比較容易復現。
使用強化學習對整體進行進行端到端訓練固然可以提升效果，用小模型代替大模型。但缺點也很明顯，依賴于高質量的數據，會限制其應用范圍，比如無法支持多種模型。
使用強化學習對個別流程進行針對性訓練的是比較有可行性的，比如針對query生成專門訓練。
當前的方法主要討論的都是能力一、二，對能力三較少有針對性優化。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/80372.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/80372.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/80372.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！