【論文解讀】ZeroSearch: 零API成本激活大模型Web搜索

1st author: Hao Sun 孫浩 - PhD Candidate @ Peking University - Homepage

paper: [2505.04588] ZeroSearch: Incentivize the Search Capability of LLMs without Searching

code: Alibaba-NLP/ZeroSearch: ZeroSearch: Incentivize the Search Capability of LLMs without Searching


5. 總結 (結果先行)

ZeroSearch 用 LLM 充當模擬環境的思想,不僅僅是一個降本增效的工程技巧,有更深遠的意義。它將強化學習中的“環境”這一外部、不可控的元素,成功地內化為了一個內部、完全可控的組件。

這種“LLM 模擬 LLM 環境”的范式極具擴展性。今天可以模擬搜索引擎,明天就可以模擬代碼解釋器、數據庫、API 調用乃至模擬人類用戶的反饋。這為在完全虛擬、但高度逼真且可控的世界中訓練復雜的 AI Agent 指明了一條可行的道路。

雖然該方法仍需要額外的 GPU 資源來部署模擬器,但與無盡的 API 賬單相比,這無疑是一筆劃算的投資。隨著模型推理效率的不斷提升,這種“自給自足”的訓練范式將變得越來越有吸引力。

Table 2

1. 思想

這篇論文試圖解決一個在 AI Agent 領域非常實際且棘手的問題。

  • 大問題:

    • 我們希望通過強化學習 (RL) 讓大型語言模型 (LLM) 學會如何使用搜索引擎來解決復雜問題。然而,直接與真實搜索引擎(如 Google)進行 RL 訓練存在兩大障礙:
      1. 高昂的 API 成本: RL 需要海量的交互 (rollouts) 來進行探索和學習,數百萬次的搜索請求會產生難以承受的 API 費用。
      2. 不可控的文檔質量: 真實搜索引擎返回的結果質量參差不齊,充滿噪音,這給 RL 訓練帶來了巨大的不穩定性,模型很難在這樣的嘈雜環境中穩定學習。
  • 小問題:

    • 如何構建一個既免費又可控的“模擬搜索環境”?
    • 如何確保在這個模擬環境中訓練出的模型,能夠泛化到真實世界的搜索引擎上?
    • 如何設計訓練過程,讓模型逐步學會處理從“理想信息”到“嘈雜信息”的各種情況,從而鍛煉出真正的推理和篩選能力?
  • 核心思想:

    • 論文的核心洞見是:用一個經過特殊微調的 LLM 假扮搜索引擎
    1. 模擬器 (Simulator): 直接用另一個 LLM 作為模擬搜索引擎 π ? \pi_\phi π??。這個模擬器接收策略模型 π θ \pi_\theta πθ? 生成的查詢,然后生成模擬的搜索結果。這直接將 API 成本降為零,只剩下本地 GPU 的計算成本。
    2. 質量可控 (Controllable Quality): 通過對模擬器 LLM 進行輕量級的監督微調 (SFT),使其能夠根據提示中的特定關鍵詞(例如 [useful][noisy]生成“有用”或“嘈雜”的文檔。這賦予了我們對環境質量的精確控制能力,這是真實搜索引擎無法提供的。
    3. 課程學習 (Curriculum Learning): 既然環境可控,就可以設計一個從易到難的訓練課程。訓練初期,讓模擬器多返回“有用”的文檔,幫助模型快速掌握基本任務流程和格式。隨著訓練的進行,逐步提高“嘈雜”文檔的比例,迫使模型學會從噪音中辨別和推理,從而變得更加魯棒。

Table 1

2. 方法

ZeroSearch 的方法有如下步驟:

  1. 構建模擬搜索引擎 ($\pi_{\phi} $)

    • 目標: 創造一個能模仿真實搜索引擎并能按指令生成不同質量文檔的 LLM。

    • 流程:

      1. 首先,通過與真實搜索引擎交互,收集一批“查詢-文檔”對
      2. 然后,利用一個強大的 LLM(如 GPT-4)作為裁判,判斷每個文檔相對于其查詢是“有用的 (useful)”還是“嘈雜的 (noisy)”。
      3. 最后,使用這些標注好的數據,對一個中等大小的 LLM 進行監督微調 (SFT)。微調的模板包含一個控制開關,例如:
        "給定查詢 [query],請為問題 [question] 生成五個 [useful/noisy] 的文檔..."
        
      • 通過在訓練時向模擬器輸入 [useful][noisy] 關鍵詞,我們就能在后續的 RL 訓練中精確控制生成文檔的質量
  2. 強化學習框架

    • 整體優化目標是一個標準的 RL 目標,加入了 KL 散度作為正則化項,以保證訓練的穩定性。
      max ? π θ E x ~ D , y ~ π θ ( ? ∣ x ; π ? ) [ r ? ( x , y ) ] ? β D K L [ π θ ( y ∣ x ) ∣ ∣ π ref ( y ∣ x ) ] \max_{\pi_{\theta}} \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_{\theta}(\cdot|x;\pi_{\phi})} [r_{\phi}(x,y)] - \beta D_{KL}[\pi_{\theta}(y|x) || \pi_{\text{ref}}(y|x)] πθ?max?ExD,yπθ?(?x;π??)?[r??(x,y)]?βDKL?[πθ?(yx)∣∣πref?(yx)]

    • 符號解釋:

      • π θ \pi_{\theta} πθ?: 我們要訓練的策略模型 (policy model),即 Agent。

      • π ? \pi_{\phi} π??: 凍結的、作為環境的模擬搜索引擎 LLM。它的參數在 RL 訓練中保持不變。

      • y y y: 模型生成的完整軌跡,包括思考鏈 (<think>)、搜索查詢 (<search>) 和最終答案 (<answer>)。

      • r ? ( x , y ) r_{\phi}(x,y) r??(x,y): 獎勵函數。這里使用最終答案與標準答案之間的 F1 分數,以避免模型通過生成冗長答案來“刷分”(reward hacking)。
        r ? ( x , y ) = 2 × I N P N + R N r_\phi(x,y)=\frac{2\times IN}{PN+RN} r??(x,y)=PN+RN2×IN?
        其中 IN 表示預測與真實值之間的重疊單詞數,PN 是預測中的單詞數,RN 是真實值中的單詞數。

      • D K L D_{KL} DKL?: KL 散度。用于懲罰策略模型 π θ \pi_{\theta} πθ? 與一個參考模型 π ref \pi_{\text{ref}} πref? (通常是訓練前的 SFT 模型) 偏離太遠,防止模型在探索中“忘記”其基本語言能力。

      • β \beta β: KL 散度的權重系數。

  3. 課程化 Rollout 策略

    • 為了實現從易到難的訓練,引入了一個概率函數 p i p_i pi? 來控制在第 i i i 個訓練步驟中生成嘈雜文檔的概率。
      p i = p s + b i m ? 1 b ? 1 ( p e ? p s ) p_i = p_s + \frac{b^{\frac{i}{m}}-1}{b-1}(p_e - p_s) pi?=ps?+b?1bmi??1?(pe??ps?)

    • 符號解釋:

      • p i p_i pi?: 在訓練步驟 i i i 時,生成嘈雜文檔的概率。
      • p s , p e p_s, p_e ps?,pe?: 分別是初始和最終的噪音概率。例如,可以設 p s = 0.1 , p e = 0.8 p_s=0.1, p_e=0.8 ps?=0.1,pe?=0.8
      • i , m i, m i,m: 分別是當前和總的訓練步數
      • b b b: 一個控制課程進度的基數(默認為 4),決定了難度是線性增加還是指數增加。
    • 效果: 訓練初期 ( i i i 較小), p i p_i pi? 接近 p s p_s ps?模型主要看到高質量文檔隨著訓練的進行 ( i → m i \to m im), p i p_i pi? 趨近 p e p_e pe?模型必須面對一個充滿噪音的、更具挑戰性的環境

  4. 損失函數設計細節

    • 在一次 rollout 中,軌跡 y y y 同時包含由策略模型 π θ \pi_{\theta} πθ? 生成的 token (思考和查詢) 和由模擬器 π ? \pi_{\phi} π?? 生成的 token (文檔內容)。
    • 在計算損失和反向傳播時,必須只對策略模型 $\pi_\theta $ 生成的 token 計算梯度對于模擬器 $\pi_\phi $ 生成的文檔 token,其損失會被掩碼 (mask) 掉,不參與梯度更新。這確保了策略模型只為自己的“決策”負責,從而穩定了訓練過程。

3. 優勢

與同類工作(如 Search-R1, DeepResearcher)相比,ZeroSearch 的優勢非常清晰:

  • 零 API 成本: 將最主要的開銷從外部 API 調用轉為內部 GPU 計算,極大地降低了研究和應用的門檻。
  • 完全可控的環境: 能夠精確控制返回文檔的質量,這使得實現課程學習成為可能,而這在真實、不可控的網絡環境中是無法做到的。
  • 高度的訓練穩定性和可復現性: 模擬環境是確定性的(給定種子),消除了真實網絡波動帶來的噪音,使實驗結果更可靠、更易復現。
  • 卓越的可擴展性: 當需要加速訓練時,可以通過增加 GPU 并行運行多個模擬器實例來實現,而不像商業 API 那樣受到速率限制。

4. 實驗

  • 設置與評估:

    • 在多個 QA 數據集上進行測試,涵蓋單跳和多跳問題。
    • 關鍵對比: 與使用真實搜索引擎(通過 SerpAPI)進行訓練的 Search-R1 模型進行直接比較。
    • 公平性: 為了公平起見,在最終評估(inference)階段,所有模型(包括 ZeroSearch)都使用同一個真實的搜索引擎。這驗證了在模擬環境中學習到的能力可以成功遷移到真實世界。
      Table5 & Table 6
  • 實驗結論:

    • 模擬器超越真實: 最令人驚訝的發現是,使用 14B 模型的 ZeroSearch 不僅能匹敵,甚至在平均性能上超越了使用真實 Google 搜索進行訓練的 Search-R1。這證明了高質量的模擬環境甚至可以比嘈雜的真實環境更利于模型學習。

    • 模擬器的質量至關重要: 實驗表明,經過 SFT 微調的模擬器遠勝于僅通過 prompt 指導的 LLM。并且,模擬器 LLM 的規模越大,最終訓練出的策略模型性能越好。

    • 成本效益驚人: 成本分析表直觀地展示了其巨大優勢,約 6.4 萬次搜索請求,Google API 成本約 587 美元,而使用 14B 模擬器的 GPU 成本僅為 71 美元。

    • 課程學習行之有效 (Table 6): 與在整個訓練過程中使用固定噪音比例的“隨機”策略相比,從易到難的課程學習策略取得了明顯更好的性能。

    • REINFORCE 反而最好 (Table 5): 反直覺的是,通常認為 REINFORCE 的高方差特性會遜色于 PPO 等 Actor-Critic 方法。但實驗表明恰恰相反。不過論文作者沒有分析原因。

      筆者認為這可能的原因是:

      在 LLM Agent 的特定場景下,PPO 的核心優勢(通過 Critic 減少方差)可能因 Critic 難以訓練而大打折扣,甚至引入負面效果。而 REINFORCE 的核心劣勢(高方差)則被強大的預訓練先驗和大數據量 (論文使用64x5條經驗樣本) 訓練所緩解。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/85622.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/85622.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/85622.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

JAVA網絡編程中HTTP客戶端(HttpURLConnection、Apache HttpClient)

HTTP 客戶端是 Java 中實現網絡請求的核心工具,主要用于與 Web 服務器交互(如獲取網頁、提交表單、調用 REST API 等)。Java 生態中有兩種主流的 HTTP 客戶端實現:??HttpURLConnection(JDK 原生)?? 和 ??Apache HttpClient(第三方庫)??。以下是兩者的詳細解析、…

C# Process.Start多個參數傳遞及各個參數之間的空格處理

最近做一個軟件集成的事情&#xff0c;有多個之前做的軟件&#xff0c;集成到一起自己用&#xff0c;使用了 Process.Start&#xff08;“*.exe”&#xff09;的方式&#xff0c;然而遇到了傳遞參數的問題。 這里匯總后的程序叫main.exe&#xff0c;要匯總的軟件之一是pro1.…

【Python】Excel表格操作:ISBN轉條形碼

一、效果 原始文件&#xff1a; 輸出文件&#xff1a; 二、代碼 import os import logging from openpyxl import load_workbook from openpyxl.drawing.image import Image as ExcelImage from barcode import EAN13 from barcode.writer import ImageWriterlogging.basicCo…

【Fargo】mediasoup發送2:碼率分配、傳輸基類設計及WebRtcTransport原理

Fargo 使用了mediasoup的代碼,搬運了他的架構架構精妙,但是似乎是為了sfu而生,【Fargo】mediasoup發送1:控制與數據分離的分層設計和原理我本地用來發送測試,因此需要進一步梳理: 通過分析這段代碼,我來詳細解釋: 一、sfu 需要碼率級別的分配控制 1. DistributeAvail…

矩陣置零C++

給定一個 m x n 的矩陣&#xff0c;如果一個元素為 0 &#xff0c;則將其所在行和列的所有元素都設為 0 。請使用 原地 算法。 思路&#xff1a; 1、讓首行首列記錄哪一行哪一列有0 2、于是可以直接遍歷非首行首列的元素&#xff0c;若該元素對應的首行首列為0&#xff0c;說明…

大內存對電腦性能有哪些提升

在科技飛速發展的今天&#xff0c;電腦已經成為我們生活和工作中不可或缺的伙伴。無論是日常辦公、追劇娛樂&#xff0c;還是進行復雜的游戲和專業設計&#xff0c;電腦的性能都至關重要。而在影響電腦性能的眾多因素中&#xff0c;內存大小常常被人們忽視。 多任務處理更流暢…

【StarRocks系列】Update語句

目錄 簡要流程 詳細流程 1. UPDATE 語句執行流程 2. 如何更新表的數據 3. 是否支持事務 總結關鍵點 簡要流程 前端處理&#xff08;FE&#xff09;&#xff1a; 解析 SQL 并驗證主鍵條件生成包含主鍵列表和新值的更新計劃按主鍵哈希分發到對應 BE 后端執行&#xff08…

計算機三級Linux應用與開發

第 1 章 計算機體系結構與操作系統 1.1 計算科學與計算機系統 馮諾依曼體系的結構要點&#xff1a; 計算機數制采用二進制&#xff0c;程序指令和數據統一存儲&#xff0c;計算機應按照程序順序執行。按照馮諾依曼結構設計的計算機由 控制器&#xff0c;運算器&#xff0c;存…

Web攻防-XSS跨站Cookie盜取數據包提交網絡釣魚BEEF項目XSS平臺危害利用

知識點&#xff1a; 1、Web攻防-XSS跨站-手工代碼&框架工具&在線平臺 2、Web攻防-XSS跨站-Cookie盜取&數據提交&網絡釣魚 演示案例-WEB攻防-XSS跨站-Cookie盜取&數據提交&網絡釣魚&Beef工具 1、XSS跨站-攻擊利用-憑據盜取 條件&#xff1a;無防…

自力更生式養老VS三大新型養老:在時代裂變中重構銀發生存法則

在歲月長河中&#xff0c;父母曾為子女遮風擋雨&#xff0c;當他們步入暮年&#xff0c;養老問題成為家庭與社會共同關注的焦點。 “父母的養老終究是自力更生”&#xff0c;這句話道出了養老的本質內核。 然而&#xff0c;在自力更生的基礎上&#xff0c;選擇合適的養老方式…

計算機網絡學習筆記:Wireshark觀察TCP通信

文章目錄 前言一、前置準備二、三報文握手過程抓包2.1、第一次握手2.2、第二次握手2.3、第三次握手 三、通信過程抓包3.1、報文 44379 – 客戶端發數據&#xff08;PSH, ACK&#xff09;3.2、 報文 44380 – 服務端確認收到數據&#xff08;ACK&#xff09;3.3、報文 44469 – …

在Linux中,Iptables能做什么?

概述 背景說明 在運維工作中&#xff0c;Iptables是一個不可或缺的工具&#xff0c;它提供了強大的網絡流量控制和管理能力。 問題呈現 iptables是一個不可獲取的工具&#xff0c;你對其了解多少&#xff1f;該工具你是否真的會用&#xff1f;詳細功能對應的應用場景你是否…

Linux——linux的基本命令

目錄 一、linux的目錄結構 二、絕對路徑和相對路徑 三、文件類型&#xff08;linux下所有東西都可看作文件&#xff09; 四、文件的權限 五、文件權限的修改&#xff08;chmod&#xff09; 六、linux常用的命令 七、文件查看命令 八、文件編輯命令 九、文件壓縮與解壓…

智慧水利數字孿生解決方案:百川孿生智領千行,100+標桿案例賦能智慧水利全域升級

在數字技術革命與產業變革深度交織的浪潮下&#xff0c;智慧水利作為保障國家水安全、推動水利高質量發展的核心載體&#xff0c;正以數字孿生技術為引擎&#xff0c;驅動水利行業從“經驗驅動”向“數據驅動”轉型。 山東融谷作為智慧水利數字孿生領域的創新實踐者&#xff0c…

深入解析ID3算法:信息熵驅動的決策樹構建基石

本文來自「大千AI助手」技術實戰系列&#xff0c;專注用真話講技術&#xff0c;拒絕過度包裝。 ID3&#xff08;Iterative Dichotomiser 3&#xff09; 是機器學習史上的里程碑算法&#xff0c;由Ross Quinlan于1986年提出。它首次將信息論引入決策樹構建&#xff0c;奠定了現代…

Java解析audio時長

前提需要電腦上先安裝后ffmpeg public long parseDuration(String audioPath) {long durationMs -1;try {Process process Runtime.getRuntime().exec("ffprobe " audioPath);// InputStream is process.getInputStream();InputStream is process.getErrorStrea…

python學智能算法(十五)|機器學習樸素貝葉斯方法進階-CountVectorizer多文本處理

【1】引言 前序學習進程中&#xff0c;已經學習CountVectorizer文本處理的簡單技巧&#xff0c;先相關文章鏈接為&#xff1a; python學智能算法&#xff08;十四&#xff09;|機器學習樸素貝葉斯方法進階-CountVectorizer文本處理簡單測試-CSDN博客 此次繼續深入&#xff0…

AiPy 監控視頻智能監察:人像一鍵抽取+可反復執行程序落地

兄弟們&#xff0c;不知道你們有沒有過查監控的經歷&#xff0c;雖然現在監控攝像頭是越來越多&#xff0c;硬盤越塞越滿&#xff0c;但真出了事兒&#xff0c;回放查錄像堪比大海撈針&#xff01;純人工一幀幀的去找&#xff0c;能把眼睛盯瞎還是人影都找不到。不過我最近搞了…

期貨反向跟單-終止盤手合作原則(二)

在期貨反向跟單的領域中&#xff0c;數據就是實打實的真金白銀&#xff0c;是策略能否持續盈利的核心價值所在。然而&#xff0c;許多團隊在實際運營過程中&#xff0c;都遭遇了相似的困境&#xff1a;期初策略運轉良好&#xff0c;可隨著時間推移&#xff0c;數據表現卻每況愈…

【Unity】MiniGame編輯器小游戲(三)馬賽克【Mosaic】

更新日期&#xff1a;2025年6月17日。 項目源碼&#xff1a;后續章節發布 索引 馬賽克【Mosaic】一、游戲最終效果二、玩法簡介三、正式開始1.定義游戲窗口類2.規劃游戲窗口、視口區域3.地圖方塊陣列①.定義方塊結構體②.生成方塊陣列③.計算九宮格黑色方塊數量④.排除任意九宮…