1st author: Hao Sun 孫浩 - PhD Candidate @ Peking University - Homepage
paper: [2505.04588] ZeroSearch: Incentivize the Search Capability of LLMs without Searching
code: Alibaba-NLP/ZeroSearch: ZeroSearch: Incentivize the Search Capability of LLMs without Searching
5. 總結 (結果先行)
ZeroSearch 用 LLM 充當模擬環境的思想,不僅僅是一個降本增效的工程技巧,有更深遠的意義。它將強化學習中的“環境”這一外部、不可控的元素,成功地內化為了一個內部、完全可控的組件。
這種“LLM 模擬 LLM 環境”的范式極具擴展性。今天可以模擬搜索引擎,明天就可以模擬代碼解釋器、數據庫、API 調用乃至模擬人類用戶的反饋。這為在完全虛擬、但高度逼真且可控的世界中訓練復雜的 AI Agent 指明了一條可行的道路。
雖然該方法仍需要額外的 GPU 資源來部署模擬器,但與無盡的 API 賬單相比,這無疑是一筆劃算的投資。隨著模型推理效率的不斷提升,這種“自給自足”的訓練范式將變得越來越有吸引力。
1. 思想
這篇論文試圖解決一個在 AI Agent 領域非常實際且棘手的問題。
-
大問題:
- 我們希望通過強化學習 (RL) 讓大型語言模型 (LLM) 學會如何使用搜索引擎來解決復雜問題。然而,直接與真實搜索引擎(如 Google)進行 RL 訓練存在兩大障礙:
- 高昂的 API 成本: RL 需要海量的交互 (rollouts) 來進行探索和學習,數百萬次的搜索請求會產生難以承受的 API 費用。
- 不可控的文檔質量: 真實搜索引擎返回的結果質量參差不齊,充滿噪音,這給 RL 訓練帶來了巨大的不穩定性,模型很難在這樣的嘈雜環境中穩定學習。
- 我們希望通過強化學習 (RL) 讓大型語言模型 (LLM) 學會如何使用搜索引擎來解決復雜問題。然而,直接與真實搜索引擎(如 Google)進行 RL 訓練存在兩大障礙:
-
小問題:
- 如何構建一個既免費又可控的“模擬搜索環境”?
- 如何確保在這個模擬環境中訓練出的模型,能夠泛化到真實世界的搜索引擎上?
- 如何設計訓練過程,讓模型逐步學會處理從“理想信息”到“嘈雜信息”的各種情況,從而鍛煉出真正的推理和篩選能力?
-
核心思想:
- 論文的核心洞見是:用一個經過特殊微調的 LLM 假扮搜索引擎。
- 模擬器 (Simulator): 直接用另一個 LLM 作為模擬搜索引擎 π ? \pi_\phi π??。這個模擬器接收策略模型 π θ \pi_\theta πθ? 生成的查詢,然后生成模擬的搜索結果。這直接將 API 成本降為零,只剩下本地 GPU 的計算成本。
- 質量可控 (Controllable Quality): 通過對模擬器 LLM 進行輕量級的監督微調 (SFT),使其能夠根據提示中的特定關鍵詞(例如
[useful]
或[noisy]
)生成“有用”或“嘈雜”的文檔。這賦予了我們對環境質量的精確控制能力,這是真實搜索引擎無法提供的。 - 課程學習 (Curriculum Learning): 既然環境可控,就可以設計一個從易到難的訓練課程。訓練初期,讓模擬器多返回“有用”的文檔,幫助模型快速掌握基本任務流程和格式。隨著訓練的進行,逐步提高“嘈雜”文檔的比例,迫使模型學會從噪音中辨別和推理,從而變得更加魯棒。
2. 方法
ZeroSearch 的方法有如下步驟:
-
構建模擬搜索引擎 ($\pi_{\phi} $)
-
目標: 創造一個能模仿真實搜索引擎并能按指令生成不同質量文檔的 LLM。
-
流程:
- 首先,通過與真實搜索引擎交互,收集一批“查詢-文檔”對。
- 然后,利用一個強大的 LLM(如 GPT-4)作為裁判,判斷每個文檔相對于其查詢是“有用的 (useful)”還是“嘈雜的 (noisy)”。
- 最后,使用這些標注好的數據,對一個中等大小的 LLM 進行監督微調 (SFT)。微調的模板包含一個控制開關,例如:
"給定查詢 [query],請為問題 [question] 生成五個 [useful/noisy] 的文檔..."
- 通過在訓練時向模擬器輸入
[useful]
或[noisy]
關鍵詞,我們就能在后續的 RL 訓練中精確控制生成文檔的質量。
-
-
強化學習框架
-
整體優化目標是一個標準的 RL 目標,加入了 KL 散度作為正則化項,以保證訓練的穩定性。
max ? π θ E x ~ D , y ~ π θ ( ? ∣ x ; π ? ) [ r ? ( x , y ) ] ? β D K L [ π θ ( y ∣ x ) ∣ ∣ π ref ( y ∣ x ) ] \max_{\pi_{\theta}} \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_{\theta}(\cdot|x;\pi_{\phi})} [r_{\phi}(x,y)] - \beta D_{KL}[\pi_{\theta}(y|x) || \pi_{\text{ref}}(y|x)] πθ?max?Ex~D,y~πθ?(?∣x;π??)?[r??(x,y)]?βDKL?[πθ?(y∣x)∣∣πref?(y∣x)] -
符號解釋:
-
π θ \pi_{\theta} πθ?: 我們要訓練的策略模型 (policy model),即 Agent。
-
π ? \pi_{\phi} π??: 凍結的、作為環境的模擬搜索引擎 LLM。它的參數在 RL 訓練中保持不變。
-
y y y: 模型生成的完整軌跡,包括思考鏈 (
<think>
)、搜索查詢 (<search>
) 和最終答案 (<answer>
)。 -
r ? ( x , y ) r_{\phi}(x,y) r??(x,y): 獎勵函數。這里使用最終答案與標準答案之間的 F1 分數,以避免模型通過生成冗長答案來“刷分”(reward hacking)。
r ? ( x , y ) = 2 × I N P N + R N r_\phi(x,y)=\frac{2\times IN}{PN+RN} r??(x,y)=PN+RN2×IN?
其中 IN 表示預測與真實值之間的重疊單詞數,PN 是預測中的單詞數,RN 是真實值中的單詞數。 -
D K L D_{KL} DKL?: KL 散度。用于懲罰策略模型 π θ \pi_{\theta} πθ? 與一個參考模型 π ref \pi_{\text{ref}} πref? (通常是訓練前的 SFT 模型) 偏離太遠,防止模型在探索中“忘記”其基本語言能力。
-
β \beta β: KL 散度的權重系數。
-
-
-
課程化 Rollout 策略
-
為了實現從易到難的訓練,引入了一個概率函數 p i p_i pi? 來控制在第 i i i 個訓練步驟中生成嘈雜文檔的概率。
p i = p s + b i m ? 1 b ? 1 ( p e ? p s ) p_i = p_s + \frac{b^{\frac{i}{m}}-1}{b-1}(p_e - p_s) pi?=ps?+b?1bmi??1?(pe??ps?) -
符號解釋:
- p i p_i pi?: 在訓練步驟 i i i 時,生成嘈雜文檔的概率。
- p s , p e p_s, p_e ps?,pe?: 分別是初始和最終的噪音概率。例如,可以設 p s = 0.1 , p e = 0.8 p_s=0.1, p_e=0.8 ps?=0.1,pe?=0.8。
- i , m i, m i,m: 分別是當前和總的訓練步數。
- b b b: 一個控制課程進度的基數(默認為 4),決定了難度是線性增加還是指數增加。
-
效果: 訓練初期 ( i i i 較小), p i p_i pi? 接近 p s p_s ps?,模型主要看到高質量文檔。隨著訓練的進行 ( i → m i \to m i→m), p i p_i pi? 趨近 p e p_e pe?,模型必須面對一個充滿噪音的、更具挑戰性的環境。
-
-
損失函數設計細節
- 在一次 rollout 中,軌跡 y y y 同時包含由策略模型 π θ \pi_{\theta} πθ? 生成的 token (思考和查詢) 和由模擬器 π ? \pi_{\phi} π?? 生成的 token (文檔內容)。
- 在計算損失和反向傳播時,必須只對策略模型 $\pi_\theta $ 生成的 token 計算梯度。對于模擬器 $\pi_\phi $ 生成的文檔 token,其損失會被掩碼 (mask) 掉,不參與梯度更新。這確保了策略模型只為自己的“決策”負責,從而穩定了訓練過程。
3. 優勢
與同類工作(如 Search-R1, DeepResearcher)相比,ZeroSearch 的優勢非常清晰:
- 零 API 成本: 將最主要的開銷從外部 API 調用轉為內部 GPU 計算,極大地降低了研究和應用的門檻。
- 完全可控的環境: 能夠精確控制返回文檔的質量,這使得實現課程學習成為可能,而這在真實、不可控的網絡環境中是無法做到的。
- 高度的訓練穩定性和可復現性: 模擬環境是確定性的(給定種子),消除了真實網絡波動帶來的噪音,使實驗結果更可靠、更易復現。
- 卓越的可擴展性: 當需要加速訓練時,可以通過增加 GPU 并行運行多個模擬器實例來實現,而不像商業 API 那樣受到速率限制。
4. 實驗
-
設置與評估:
- 在多個 QA 數據集上進行測試,涵蓋單跳和多跳問題。
- 關鍵對比: 與使用真實搜索引擎(通過 SerpAPI)進行訓練的 Search-R1 模型進行直接比較。
- 公平性: 為了公平起見,在最終評估(inference)階段,所有模型(包括 ZeroSearch)都使用同一個真實的搜索引擎。這驗證了在模擬環境中學習到的能力可以成功遷移到真實世界。
-
實驗結論:
-
模擬器超越真實: 最令人驚訝的發現是,使用 14B 模型的 ZeroSearch 不僅能匹敵,甚至在平均性能上超越了使用真實 Google 搜索進行訓練的 Search-R1。這證明了高質量的模擬環境甚至可以比嘈雜的真實環境更利于模型學習。
-
模擬器的質量至關重要: 實驗表明,經過 SFT 微調的模擬器遠勝于僅通過 prompt 指導的 LLM。并且,模擬器 LLM 的規模越大,最終訓練出的策略模型性能越好。
-
成本效益驚人: 成本分析表直觀地展示了其巨大優勢,約 6.4 萬次搜索請求,Google API 成本約 587 美元,而使用 14B 模擬器的 GPU 成本僅為 71 美元。
-
課程學習行之有效 (Table 6): 與在整個訓練過程中使用固定噪音比例的“隨機”策略相比,從易到難的課程學習策略取得了明顯更好的性能。
-
REINFORCE 反而最好 (Table 5): 反直覺的是,通常認為 REINFORCE 的高方差特性會遜色于 PPO 等 Actor-Critic 方法。但實驗表明恰恰相反。不過論文作者沒有分析原因。
筆者認為這可能的原因是:
在 LLM Agent 的特定場景下,PPO 的核心優勢(通過 Critic 減少方差)可能因 Critic 難以訓練而大打折扣,甚至引入負面效果。而 REINFORCE 的核心劣勢(高方差)則被強大的預訓練先驗和大數據量 (論文使用64x5條經驗樣本) 訓練所緩解。
-