Search-R1 、 R1-Searcher 和 Search-O1

原文鏈接:https://i68.ltd/notes/posts/20250307-search-r1/

Search-R1

  • DeepSeek團隊開發的SEARCH-R1模型通過強化學習,讓AI學會了自主搜索信息并將其與推理過程無縫結合,性能提升高達26%
  • 高效、可擴展的RL訓練框架,用于推理和搜索引擎調用,基于veRL的交錯LLM
  • 論文鏈接:https://arxiv.org/pdf/2503.09516v1
  • 項目倉庫:https://github.com/PeterGriffinJin/Search-R1
  • Search-R1: 讓AI學會搜索引擎互動,推理能力大幅提升26%

核心創新:通過強化學習讓模型自主學習如何與搜索引擎交互

  • 革命性的交互式搜索推理框架

SEARCH-R1將搜索引擎視為環境的一部分,使AI能夠在推理過程中自主發起搜索請求。具體來說:

1)模型使用和標記觸發搜索調用

2)檢索內容被封裝在和標記中

3)模型的思考步驟包含在和標記內

4)最終答案使用和標記呈現

這種結構化設計讓模型能夠進行多輪交錯的推理與搜索,大大提升了解決復雜問題的能力。

  • 穩定可靠的訓練策略

SEARCH-R1采用了幾項關鍵技術來確保訓練穩定:

1)檢索令牌掩碼:僅對模型生成的內容進行優化,避免對檢索內容的不當學習

2)簡單有效的獎勵函數:基于最終結果的準確性進行獎勵,避免了復雜的過程獎勵設計

3)兼容多種強化學習算法:支持PPO和GRPO等主流強化學習方法

實驗結果:碾壓現有方法

研究團隊在七個問答數據集上進行了全面測試,結果令人振奮:

1)Qwen2.5-7B:性能提升26%

2)Qwen2.5-3B:性能提升21%

3)LLaMA3.2-3B:性能提升10%

R1-Searcher 通過強化學習激勵LLMs中的搜索能力

  • R1-Searcher采用兩階段強化學習方法,增強LLMs的搜索能力。
  • 通過強化學習激勵LLMs在推理過程中主動調用外部搜索系統,從而獲取必要的知識來解決復雜問題。
  • 與以往的方法不同,R1-Searcher框架完全依賴于RL,不需要過程獎勵或通過蒸餾進行冷啟動。
  • 論文鏈接:https://arxiv.org/pdf/2503.05592
  • 項目倉庫:https://github.com/SsmallSong/R1-Searcher
  • R1-Searcher告別SFT,強化學習提升LLM推理能力300%
  • R1思考+RAG = R1-Searcher

search-o1 增強的大規模推理模型

  • 通過代理檢索增強生成(RAG)機制和文檔中推理模塊來增強LRM的框架,用于深入分析檢索到的文檔并將其集成到推理鏈中
  • 論文鏈接:[2501.05366] Search-o1: Agentic Search-Enhanced Large Reasoning Models
  • 項目倉庫:https://github.com/sunnynexus/Search-o1
  • HuggingFace:https://huggingface.co/papers/2501.05366
  • 大&清華提出Search-o1:賦予推理模型主動搜索的能力
  • Search-o1 升級:主動搜索+知識整合,推理能力更強!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/72205.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/72205.shtml
英文地址,請注明出處:http://en.pswp.cn/web/72205.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

linux 命令 tail

tail 是 Linux 中用于查看文件末尾內容的命令&#xff0c;常用于日志監控和大文件快速瀏覽。以下是其核心用法及常見選項&#xff1a; 基本語法 tail [選項] 文件名 常用選項 顯示末尾行數 -n <行數> 或 --lines<行數> 指定顯示文件的最后若干行&#xff08;…

某乎x-zse-96加密算法分析與還原

文章目錄 1. 寫在前面2. 接口分析3. 加密分析4. 算法實現 【&#x1f3e0;作者主頁】&#xff1a;吳秋霖 【&#x1f4bc;作者介紹】&#xff1a;擅長爬蟲與JS加密逆向分析&#xff01;Python領域優質創作者、CSDN博客專家、阿里云博客專家、華為云享專家。一路走來長期堅守并致…

Java常用算法

一、排序算法 排序算法是計算機科學中最基礎的算法之一&#xff0c;用于將一組數據按照特定順序排列。 1.1 冒泡排序&#xff08;Bubble Sort&#xff09; 通過重復遍歷列表&#xff0c;比較相鄰元素并交換位置&#xff0c;直到列表有序。時間復雜度&#xff1a;O(n)。 pub…

ubuntu 24 安裝 python3.x 教程

目錄 注意事項 一、安裝不同 Python 版本 1. 安裝依賴 2. 下載 Python 源碼 3. 解壓并編譯安裝 二、管理多個 Python 版本 1. 查看已安裝的 Python 版本 2. 配置環境變量 3. 使用 update-alternatives? 管理 Python 版本 三、使用虛擬環境為項目指定特定 Python 版本…

【后端】【django】Django 自帶的用戶系統與 RBAC 機制

Django 自帶的用戶系統與 RBAC 機制 Django 自帶的用戶系統&#xff08;django.contrib.auth&#xff09;提供了 身份驗證&#xff08;Authentication&#xff09; 和 權限管理&#xff08;Authorization&#xff09;&#xff0c;能夠快速實現 用戶管理、權限控制、管理員后臺…

怎樣使用Modbus轉Profinet網關連接USB轉485模擬從站配置案例

怎樣使用Modbus轉Profinet網關連接USB轉485模擬從站配置案例 Modbus轉profinet網關可以將Modbus協議轉化為profinet協議&#xff0c;以實現設備之間的數據交互。在實際使用過程中&#xff0c;我們需要使用Modbus協議進行設備通訊&#xff0c;而profinet協議則是用于工業自動化…

5.編譯鏈接和宏**

1. 宏&#xff08;考察很多&#xff09;-要求輕松實現宏&#xff0c;很容易出錯 #define 機制包括了一個規定&#xff0c;允許把參數替換到文本中&#xff0c;這種實現通常稱為宏或定義宏。 下面是宏的聲明方式&#xff1a; #define name(參數列表) 內容 參數列表的左括號必…

如何搭建一個適配微信小程序,h5,app的uni-app項目

在vscode搭建 uni-app 項目&#xff08;Vue 3 Vite Pinia uView Plus&#xff09; 一、環境準備 1. 安裝 Node.js 確保已安裝 Node.js&#xff08;需≥14版本&#xff09;&#xff0c;可通過以下命令檢查版本&#xff1a; node -v2. 安裝 VSCode 從 VSCode 官網 下載并…

Kotlin apply 方法的用法和使用場景

Kotlin apply 方法的用法和使用場景 1. 方法簡介 apply 是 Kotlin 標準庫中的一個擴展函數&#xff0c;用于對對象執行一系列操作&#xff0c;并返回該對象本身。它的語法如下&#xff1a; inline fun <T> T.apply(block: T.() -> Unit): T參數&#xff1a;block 是…

一文解讀python高階功能:匿名函數到魔法方法(__call__)

文章目錄 一、python中匿名方法的使用使用示例注意事項總結 二、匿名函數和魔法方法的結合示例&#xff1a;結合 lambda 和 __call__解釋更復雜的示例 總結 一、python中匿名方法的使用 在 Python 中&#xff0c;匿名方法是通過 lambda 關鍵字定義的&#xff0c;通常稱為 lamb…

云服務器新手配置內網穿透服務(frp)

首先你得有一個公網服務器&#xff0c;有了它你就可以借助它&#xff0c;將自己電腦進行配置內網穿透&#xff0c;讓自己內網電腦也可以異地輕松訪問。網上教程較多&#xff0c;特此記錄我自己的配置&#xff0c;避免迷路&#xff0c;我這里只記錄我自己云服務小白&#xff0c;…

基于STM32的火災報警設備(阿里云平臺)

目錄 前言&#xff1a; 一、項目介紹和演示視頻 二、硬件需求準備 三、硬件框圖 1. 原理圖 2. PCB 四、CubeMX配置 五、代碼框架 前言&#xff1a; 源代碼下載鏈接&#xff1a; https://download.csdn.net/download/m0_74712453/90474701 需要實物的可以私信博主或者…

學習筆記之車票搜索為什么用Redis而不是ES?

在文章正式開始前&#xff0c;大家打開 12306.cn 搜索一趟列車&#xff0c;根據搜索條件判斷&#xff0c;數據搜索技術使用 ElasticSearch 或者其它搜索技術是否合適&#xff1f; 這里我先把答案說下&#xff0c;12306 車票搜索用的是 Redis &#xff0c;而不是大家常用的 Ela…

揭秘AI:機器學習與深度學習的奧秘

文章目錄 機器學習與深度學習1. 什么是人工智能&#xff1f;2. 機器學習、深度學習和人工智能又是什么關系&#xff1f;3. 人工智能解決了什么問題&#xff1f;為什么需要人工智能&#xff1f;4. 機器學習、深度學習常用術語1&#xff09;模型2&#xff09;數據集3&#xff09;…

【具體場景實踐】使用存儲過程查數據全流程+自動調度

文章目錄 場景設計場景描述:公司員工管理系統需求1. 創建數據庫和表2. 插入測試數據3. 復雜存儲過程4. 調用存儲過程5. 結果示例6. 細節優化存儲過程總結7. 自動定期執行存儲過程7.1 啟用 MySQL 事件調度器7.2 創建定時任務(每天凌晨 2 點自動執行)7.3 查看和管理事件1?? …

【ubuntu】——wsl中使用windows中的adb

一、引言 在 Windows Subsystem for Linux&#xff08;WSL&#xff09;環境下工作時&#xff0c;有時需要使用 Android Debug Bridge&#xff08;ADB&#xff09;工具與 Android 設備進行交互。通過特定設置&#xff0c;能夠在 WSL 中便捷地調用 Windows 系統中已安裝的 ADB&a…

Centos離線安裝gcc

文章目錄 Centos離線安裝gcc1. gcc是什么&#xff1f;2. gcc下載地址3. gcc的安裝4. 安裝結果驗證 Centos離線安裝gcc 1. gcc是什么&#xff1f; GCC&#xff08;GNU Compiler Collection&#xff09;是 GNU 項目下的開源編譯器套件&#xff0c;主要用于將 C、C 等編程語言的源…

JAVA中的多態性以及它在實際編程中的作用

JAVA中的多態性以及它在實際編程中的作用&#xff1f; 在Java中&#xff0c;多態性是指一個對象可以具有多種形態。它主要體現在兩個方面&#xff1a;編譯時多態和運行時多態。 1.編譯時多態 編譯時多態通過方法重載&#xff08;Overloading&#xff09;來實現。方法重載是指…

NetLink內核套接字案例分析

一、基礎知識 Netlink 是 Linux 系統中一種內核與用戶空間通信的高效機制&#xff0c;而 Netlink 消息是這種通信的核心載體。它允許用戶態程序&#xff08;如網絡配置工具、監控工具&#xff09;與內核子系統&#xff08;如網絡協議棧、設備驅動&#xff09;交換數據&#xff…

批量壓縮與優化 Excel 文檔,減少 Excel 文檔大小

當我們在 Excel 文檔中插入圖片資源的時候&#xff0c;如果我們插入的是原圖&#xff0c;可能會導致 Excel 變得非常的大。這非常不利于我們傳輸或者共享。那么當我們的 Excel 文件非常大的時候&#xff0c;我們就需要對文檔做一些壓縮或者優化的處理。那有沒有什么方法可以實現…