Search-R1 、 R1-Searcher 和 Search-O1

Search-R1 、 R1-Searcher 和 Search-O1

web/2025/9/5 4:28:04/文章來源:https://blog.csdn.net/galileo2016/article/details/146267919

原文鏈接:https://i68.ltd/notes/posts/20250307-search-r1/

Search-R1

DeepSeek團隊開發的SEARCH-R1模型通過強化學習，讓AI學會了自主搜索信息并將其與推理過程無縫結合，性能提升高達26%
高效、可擴展的RL訓練框架，用于推理和搜索引擎調用，基于veRL的交錯LLM
論文鏈接:https://arxiv.org/pdf/2503.09516v1
項目倉庫:https://github.com/PeterGriffinJin/Search-R1
Search-R1: 讓AI學會搜索引擎互動，推理能力大幅提升26%

核心創新:通過強化學習讓模型自主學習如何與搜索引擎交互

革命性的交互式搜索推理框架

SEARCH-R1將搜索引擎視為環境的一部分，使AI能夠在推理過程中自主發起搜索請求。具體來說：

1）模型使用和標記觸發搜索調用

2）檢索內容被封裝在和標記中

3）模型的思考步驟包含在和標記內

4）最終答案使用和標記呈現

這種結構化設計讓模型能夠進行多輪交錯的推理與搜索，大大提升了解決復雜問題的能力。

穩定可靠的訓練策略

SEARCH-R1采用了幾項關鍵技術來確保訓練穩定：

1）檢索令牌掩碼：僅對模型生成的內容進行優化，避免對檢索內容的不當學習

2）簡單有效的獎勵函數：基于最終結果的準確性進行獎勵，避免了復雜的過程獎勵設計

3）兼容多種強化學習算法：支持PPO和GRPO等主流強化學習方法

實驗結果：碾壓現有方法

研究團隊在七個問答數據集上進行了全面測試，結果令人振奮：

1）Qwen2.5-7B：性能提升26%

2）Qwen2.5-3B：性能提升21%

3）LLaMA3.2-3B：性能提升10%

R1-Searcher 通過強化學習激勵LLMs中的搜索能力

R1-Searcher采用兩階段強化學習方法，增強LLMs的搜索能力。
通過強化學習激勵LLMs在推理過程中主動調用外部搜索系統，從而獲取必要的知識來解決復雜問題。
與以往的方法不同，R1-Searcher框架完全依賴于RL，不需要過程獎勵或通過蒸餾進行冷啟動。
論文鏈接:https://arxiv.org/pdf/2503.05592
項目倉庫:https://github.com/SsmallSong/R1-Searcher
R1-Searcher告別SFT,強化學習提升LLM推理能力300%
R1思考+RAG = R1-Searcher

search-o1 增強的大規模推理模型

通過代理檢索增強生成（RAG）機制和文檔中推理模塊來增強LRM的框架，用于深入分析檢索到的文檔并將其集成到推理鏈中
論文鏈接:[2501.05366] Search-o1: Agentic Search-Enhanced Large Reasoning Models
項目倉庫:https://github.com/sunnynexus/Search-o1
HuggingFace:https://huggingface.co/papers/2501.05366
大&清華提出Search-o1：賦予推理模型主動搜索的能力
Search-o1 升級：主動搜索+知識整合，推理能力更強！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/72205.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/72205.shtml
英文地址，請注明出處：http://en.pswp.cn/web/72205.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

linux 命令 tail

linux 命令 tail

tail 是 Linux 中用于查看文件末尾內容的命令，常用于日志監控和大文件快速瀏覽。以下是其核心用法及常見選項： 基本語法 tail [選項] 文件名常用選項顯示末尾行數 -n <行數> 或 --lines<行數> 指定顯示文件的最后若干行（…

閱讀更多...

某乎x-zse-96加密算法分析與還原

某乎x-zse-96加密算法分析與還原

文章目錄 1. 寫在前面2. 接口分析3. 加密分析4. 算法實現【🏠作者主頁】：吳秋霖【💼作者介紹】：擅長爬蟲與JS加密逆向分析！Python領域優質創作者、CSDN博客專家、阿里云博客專家、華為云享專家。一路走來長期堅守并致…

閱讀更多...

Java常用算法

Java常用算法

一、排序算法排序算法是計算機科學中最基礎的算法之一，用于將一組數據按照特定順序排列。 1.1 冒泡排序（Bubble Sort） 通過重復遍歷列表，比較相鄰元素并交換位置，直到列表有序。時間復雜度：O(n)。 pub…

閱讀更多...

ubuntu 24 安裝 python3.x 教程

ubuntu 24 安裝 python3.x 教程

目錄注意事項一、安裝不同 Python 版本 1. 安裝依賴 2. 下載 Python 源碼 3. 解壓并編譯安裝二、管理多個 Python 版本 1. 查看已安裝的 Python 版本 2. 配置環境變量 3. 使用 update-alternatives? 管理 Python 版本三、使用虛擬環境為項目指定特定 Python 版本…

閱讀更多...

【后端】【django】Django 自帶的用戶系統與 RBAC 機制

【后端】【django】Django 自帶的用戶系統與 RBAC 機制

Django 自帶的用戶系統與 RBAC 機制 Django 自帶的用戶系統（django.contrib.auth）提供了身份驗證（Authentication） 和權限管理（Authorization），能夠快速實現用戶管理、權限控制、管理員后臺…

閱讀更多...

怎樣使用Modbus轉Profinet網關連接USB轉485模擬從站配置案例

怎樣使用Modbus轉Profinet網關連接USB轉485模擬從站配置案例

怎樣使用Modbus轉Profinet網關連接USB轉485模擬從站配置案例 Modbus轉profinet網關可以將Modbus協議轉化為profinet協議，以實現設備之間的數據交互。在實際使用過程中，我們需要使用Modbus協議進行設備通訊，而profinet協議則是用于工業自動化…

閱讀更多...

5.編譯鏈接和宏**

5.編譯鏈接和宏**

1. 宏（考察很多）-要求輕松實現宏，很容易出錯 #define 機制包括了一個規定，允許把參數替換到文本中，這種實現通常稱為宏或定義宏。下面是宏的聲明方式： #define name(參數列表) 內容參數列表的左括號必…

閱讀更多...

如何搭建一個適配微信小程序，h5，app的uni-app項目

如何搭建一個適配微信小程序，h5，app的uni-app項目

在vscode搭建 uni-app 項目（Vue 3 Vite Pinia uView Plus） 一、環境準備 1. 安裝 Node.js 確保已安裝 Node.js（需≥14版本），可通過以下命令檢查版本： node -v2. 安裝 VSCode 從 VSCode 官網下載并…

閱讀更多...

Kotlin apply 方法的用法和使用場景

Kotlin apply 方法的用法和使用場景

Kotlin apply 方法的用法和使用場景 1. 方法簡介 apply 是 Kotlin 標準庫中的一個擴展函數，用于對對象執行一系列操作，并返回該對象本身。它的語法如下： inline fun <T> T.apply(block: T.() -> Unit): T參數：block 是…

閱讀更多...

一文解讀python高階功能：匿名函數到魔法方法(__call__)

一文解讀python高階功能：匿名函數到魔法方法(call)

文章目錄一、python中匿名方法的使用使用示例注意事項總結二、匿名函數和魔法方法的結合示例：結合 lambda 和 __call__解釋更復雜的示例總結一、python中匿名方法的使用在 Python 中，匿名方法是通過 lambda 關鍵字定義的，通常稱為 lamb…

閱讀更多...

云服務器新手配置內網穿透服務（frp）

云服務器新手配置內網穿透服務（frp）

首先你得有一個公網服務器，有了它你就可以借助它，將自己電腦進行配置內網穿透，讓自己內網電腦也可以異地輕松訪問。網上教程較多，特此記錄我自己的配置，避免迷路，我這里只記錄我自己云服務小白，…

閱讀更多...

基于STM32的火災報警設備（阿里云平臺）

基于STM32的火災報警設備（阿里云平臺）

目錄前言： 一、項目介紹和演示視頻二、硬件需求準備三、硬件框圖 1. 原理圖 2. PCB 四、CubeMX配置五、代碼框架前言： 源代碼下載鏈接： https://download.csdn.net/download/m0_74712453/90474701 需要實物的可以私信博主或者…

閱讀更多...

學習筆記之車票搜索為什么用Redis而不是ES？

學習筆記之車票搜索為什么用Redis而不是ES？

在文章正式開始前，大家打開 12306.cn 搜索一趟列車，根據搜索條件判斷，數據搜索技術使用 ElasticSearch 或者其它搜索技術是否合適？ 這里我先把答案說下，12306 車票搜索用的是 Redis ，而不是大家常用的 Ela…

閱讀更多...

揭秘AI：機器學習與深度學習的奧秘

揭秘AI：機器學習與深度學習的奧秘

文章目錄機器學習與深度學習1. 什么是人工智能？2. 機器學習、深度學習和人工智能又是什么關系？3. 人工智能解決了什么問題？為什么需要人工智能？4. 機器學習、深度學習常用術語1）模型2）數據集3）…

閱讀更多...

【具體場景實踐】使用存儲過程查數據全流程+自動調度

【具體場景實踐】使用存儲過程查數據全流程+自動調度

文章目錄場景設計場景描述：公司員工管理系統需求1. 創建數據庫和表2. 插入測試數據3. 復雜存儲過程4. 調用存儲過程5. 結果示例6. 細節優化存儲過程總結7. 自動定期執行存儲過程7.1 啟用 MySQL 事件調度器7.2 創建定時任務（每天凌晨 2 點自動執行）7.3 查看和管理事件1?? …

閱讀更多...

【ubuntu】——wsl中使用windows中的adb

【ubuntu】——wsl中使用windows中的adb

一、引言在 Windows Subsystem for Linux（WSL）環境下工作時，有時需要使用 Android Debug Bridge（ADB）工具與 Android 設備進行交互。通過特定設置，能夠在 WSL 中便捷地調用 Windows 系統中已安裝的 ADB&a…

閱讀更多...

Centos離線安裝gcc

Centos離線安裝gcc

文章目錄 Centos離線安裝gcc1. gcc是什么？2. gcc下載地址3. gcc的安裝4. 安裝結果驗證 Centos離線安裝gcc 1. gcc是什么？ GCC（GNU Compiler Collection）是 GNU 項目下的開源編譯器套件，主要用于將 C、C 等編程語言的源…

閱讀更多...

JAVA中的多態性以及它在實際編程中的作用

JAVA中的多態性以及它在實際編程中的作用

JAVA中的多態性以及它在實際編程中的作用？ 在Java中，多態性是指一個對象可以具有多種形態。它主要體現在兩個方面：編譯時多態和運行時多態。 1.編譯時多態編譯時多態通過方法重載（Overloading）來實現。方法重載是指…

閱讀更多...

NetLink內核套接字案例分析

NetLink內核套接字案例分析

一、基礎知識 Netlink 是 Linux 系統中一種內核與用戶空間通信的高效機制，而 Netlink 消息是這種通信的核心載體。它允許用戶態程序（如網絡配置工具、監控工具）與內核子系統（如網絡協議棧、設備驅動）交換數據&#xff…

閱讀更多...

批量壓縮與優化 Excel 文檔，減少 Excel 文檔大小

批量壓縮與優化 Excel 文檔，減少 Excel 文檔大小

當我們在 Excel 文檔中插入圖片資源的時候，如果我們插入的是原圖，可能會導致 Excel 變得非常的大。這非常不利于我們傳輸或者共享。那么當我們的 Excel 文件非常大的時候，我們就需要對文檔做一些壓縮或者優化的處理。那有沒有什么方法可以實現…

閱讀更多...

最新文章