【論文閱讀】MedResearcher-R1: 基于知識引導軌跡合成框架的專家級醫學深度研究員

論文鏈接：https://arxiv.org/pdf/2508.14880

【導讀】當通用大模型還在“背題庫”時，螞蟻集團聯合哈工大推出的 MedResearcher-R1 已把“臨床查房”搬進訓練場！這篇 2025 年 9 月發布的論文，首次讓開源 32B 模型在醫學深度研究基準 MedBrowseComp 上拿下 27.5/50 的新 SOTA，反超 o3-deep-research、Gemini-2.5-Pro 等旗艦商用系統。作者提出“知識軌跡合成”框架 KISA：①從 3000 萬 PubMed 摘要中挖出頻率＜10?? 的罕見實體，②在子圖最長鏈路上生成 4.2 跳的多跳問答，③用 Masked Trajectory Guidance 防止模型“背答案”。配套私有醫學檢索器直接對接 FDA、臨床試試驗注冊庫，把“通用搜索”升級為“循證醫學”模式。訓練采用兩階段范式：先 SFT 學習工具調用，再用 GRPO 強化學習優化“準確率+專家偏好+效率”復合獎勵。結果不僅醫學任務霸榜，在通用基準 GAIA、XBench 上也與 WebSailor-32B 打平（53.4 vs 53.2）。論文最后放出代碼、數據與模型，呼吁共建安全、可溯源的 AI 醫學研究新基建。想讓你的 AI 像資深醫生一樣查文獻、做鑒別診斷？向學習如何構建一個深度研究智能體？這篇 13干貨文章值得逐句精讀！

MedResearcher-R1: 基于知識引導軌跡合成框架的專家級醫學深度研究員

病愈的余1蘭瑤2*劉景南浙江尹家俊1王元1廖新浩葉志凌李繼岳云肖漢松1周華雷1郭春曉1魏鵬1劉俊偉1顧金杰1

1螞蟻集團2哈爾濱工業大學

代碼和數據集：AQ- MedAI/MedResearcher- R1

摘要

近期基于大型語言模型（LLM）的智能體發展顯示出跨多個領域的令人印象深刻的能力，例如在復雜信息搜索和合成任務上表現出色深度研究系統。雖然通用深度研究智能體已展現出令人印象深刻的能力，但在醫療領域挑戰上卻面臨顯著困難，這體現在領先的專有系統在復雜醫療基準測試上僅達到有限精度。關鍵限制在于：(1)模型缺乏足夠的密集醫療知識以支持臨床推理，以及(2)框架受限于缺乏針對醫療場景的專用檢索工具。我們提出了一種醫療深度研究智能體，通過兩項核心創新解決這些挑戰。首先，我們開發了一種使用醫療知識圖譜的新型數據合成框架，從圍繞罕見醫療實體的子圖中提取最長鏈以生成復雜的多跳問答對。其次，我們集成了定制構建的私有醫療檢索引擎與通用工具，實現準確的醫療信息合成。我們的方法在12個醫療專科中生成 $2100 +$ 多樣化的軌跡，每個平均涉及4.2次工具交互。通過結合監督微調和在線強化學習的兩階段訓練范式（使用復合獎勵），我們的MedResearcher- R1- 32B模型展現出卓越性能，在醫療基準測試上建立新的最先進結果，同時在通用深度研究任務上保持具有競爭力的表現。我們的工作證明，在架構、工具設計和訓練數據構建方面的策略性領域特定創新可以使較小的開源模型在專業領域超越遠大的專有系統。代碼和數據集將發布以促進進一步研究。

圖1：MedResearcher- R1在三個基準測試中的整體性能。在MedBrowseComp上，我們的MedResearcher- R1- 32B達到了最先進的性能，正確答案為27.5/50，超過了o3- deepresearch（25.5/50）、Gemini- 2.5- Pro- deepresearch（25.0/50），并且顯著優于僅搜索的方法（o3- search：19.0/50，Gemini- 2.5- Pro- search：14.0/50）。在通用深度研究任務中，我們在GAIA上取得了具有競爭力的結果（53.4 vs. WebSailor- 32B的53.2）和xBench上（54.0 vs. WebSailor- 32B的53.3）。

1引言

大型語言模型（LLM）的最新進展推動了基于LLM的代理在軟件工程[Wang等人，2024年，Jimenez等人，2023]以及深度研究系統[Xu和Peng，2025]等不同領域的廣泛應用。這些代理在處理環境觀察、跨多個交互維護上下文以及執行復雜的多步驟推理任務方面表現出令人印象深刻的能力。

然而，醫療領域存在獨特的挑戰，當前的通用深度研究代理無法充分解決。最近引入的MedBrowseComp基準[Chenetal.，2025b]揭示了這一關鍵差距：即使是OpenAI的o3- deepresearch（領先的專有深度研究系統），在需要跨醫療知識源進行多跳推理的復雜醫療查詢中也僅達到 $25.5%25.5\%$ 的準確率。我們確定了兩個導致此性能差距的基本限制：(1)通用代理缺乏進行準確臨床推理所需的密集、專業醫療知識，(2)它們依賴通用檢索工具，這些工具無法捕捉醫療信息中的細微關系。

核心挑戰在于我們稱之為稀疏醫療知識問題的方面。醫學研究通常需要通過非明顯的路徑連接罕見疾病、新興治療和專門的臨床發現一一這些連接存在于專業醫學文獻中，但普通搜索工具無法獲取。雖然現有的醫學AI系統在診斷等結構化任務中取得了進展，但它們主要關注具有明確推理模式的常見醫療場景。這些系統未能發展出專家臨床醫生所具備的探索性醫學研究能力：同時追蹤多個假設、整合來自不同來源的證據，并識別罕見醫療實體之間的微妙聯系。

為解決這些局限性，我們提出了一種全面的方法，從根本上重新思考醫療代理應該如何進行訓練。我們的關鍵洞察是，有效的醫療推理需要在訓練過程中接觸真正復雜的醫療場景，而不是簡化的近似。我們通過三個相互關聯的創新來實現這一點：

首先，我們開發了一個新穎的數據合成框架，通過系統化流程生成具有極高復雜度的訓練樣本：我們從超過3000萬篇PubMed摘要中提取醫學實體，然后應用頻率分析來識別在醫學語料庫中出現頻率低于 $10^{- 6}$ 的候選者。通過LLM輔助評估，我們篩選這些候選者以選擇真正罕見但具有臨床意義的實體，避免無關緊要的拼寫錯誤和過于常見的病癥。圍繞這些精心挑選的罕見醫學實體，我們構建知識圖譜以提取用于多跳問題生成的最長推理鏈。這種方法生成的題目能夠反映真實的醫學研究挑戰，無法通過簡單檢索回答，但需要系統性地探索和綜合多個醫學信息來源。

圖2：醫療推理代理的比較。MedResearcher- R1解決了valsartan識別案例，該案例擊敗了通用代理，展示了專業醫療數據庫訪問和基于證據的推理集成的優勢。

其次，我們引入了專有的醫學領域工具，以解決通用系統中的檢索空白。如圖2所示，雖然通用代理在遇到醫學特定查詢時經常失敗，尤其是涉及罕見疾病或復雜化學化合物的查詢，但MedResearcher- R1可以迭代調用專有的醫學工具和通用工具以確保準確的信息檢索。與依賴通用網絡爬蟲的傳統搜索引擎不同，我們定制構建的私有醫學檢索引擎直接訪問權威醫學數據庫，包括FDA數據庫、官方處方數據、臨床試驗注冊庫和同行評審的醫學出版物。圖2中的比較展示了MedResearcher- R1如何動態地在通用和醫學特定工具之間切換，從而對完整的證據鏈進行系統化驗證：從企業并購信息到心力衰竭藥物開發，再到化學成分和機制，最終確保臨床準確性，同時避免僅依賴通用方法所導致的推理錯誤。該系統采用醫學本體感知排序，優先考慮臨床權威性和相關性而非通用網絡流行度指標，有效地結合了通用搜索的廣度與領域特定醫學專長的精確性。

第三，我們實現了一種專門為醫療領域設計的訓練方法。與近期提倡純強化學習方法的研究不同，我們發現醫療任務需要我們稱之為知識錨定學習的東西：在高質量醫療軌跡上進行初始的監督微調被證明非常有效，可以學習工具使用模式并顯著提高最終性能。我們的掩碼軌跡指導（MTG）技術提供了結構化的支撐，同時防止記憶，迫使模型發展真正的醫療推理能力，而不是模式匹配。

我們的實驗結果驗證了這種方法。訓練好的模型MedResearcher- R1在MedBrowseComp上取得了27.5/50的分數，建立了新的當前最佳水平，并且顯著優于Qwen2.5- 32B基線和現有的深度研究系統。值得注意的是，我們的醫療專業化并沒有損害通用能力：在通用代理基準（GAIA:53.4，xBench:54）上，MedResearcher- R1保持了與OpenAIo4- mini相當的有競爭力的性能。請參考圖1以了解整體情況。這些結果挑戰了主流假設，即特定領域的代理需要犧牲通用能力。相反，我們證明，醫學任務所要求的嚴格推理——精確術語、謹慎的證據評估和系統的假設檢驗——為開發強大的代理能力提供了更優越的訓練信號。從醫學領域學習到的密集知識結構和復雜推理模式可以有效地遷移到一般任務中，這表明專業訓練可以增強而不是限制代理的通用性。

這項工作通過證明實現醫學深度研究能力需要超越將通用代理應用于醫學任務的根本性創新，為快速發展的醫學人工智能領域做出了貢獻。通過精心設計訓練數據、專業工具和學習算法，我們展示了開發接近專家級醫學研究能力的代理的可能性。我們發布我們的代碼、數據集和訓練模型，以促進這一關鍵領域進一步的研究。

2 MedResearcher-R1：醫學深度研究代理框架

2.1 問題定義

我們將醫學深度研究任務形式化為一個序列決策問題，其中代理必須導航復雜的醫學知識源來回答多跳查詢，這些查詢表征了第1節中確定的稀疏醫學知識問題。給定一個醫學問題 $\in \mathcal{Q}$ ，代理使用異構工具集 $T=Tgeneral∪Tmedical\mathcal{T} = \mathcal{T}_{\mathrm{general}} \cup \mathcal{T}_{\mathrm{medical}}$ ，其中 $Tgeneral={t1q,…,tmq}\mathcal{T}_{\mathrm{general}} = \{t_1^q, \ldots , t_m^q \}$ 包括通用工具（網絡搜索、文檔分析），而 $Tmedical={t1m,…,tnm}\mathcal{T}_{\mathrm{medical}} = \{t_1^m, \ldots , t_n^m \}$ 包含我們專有的醫學領域工具，這些工具可以直接訪問權威醫學數據庫。

代理在時間步 $t$ 維護一個不斷演變的 $a_{t} = (c_{t}, k_{t}, h_{t})$ 狀態，其中：

$ct∈Cc_{t} \in \mathcal{C}$ ：對話上下文編碼當前查詢和響應歷史- $kt∈Kk_{t} \in \mathcal{K}$ ：從檢索來源中累積的醫學知識，結構化為知識圖譜- $ht∈Hh_{t} \in \mathcal{H}$ ：推理歷史跟蹤探索的知識路徑和假設演變

這種狀態表示使能夠跟蹤多跳推理鏈，這對于通過非明顯路徑連接罕見醫學實體至關重要。在每個時間步，代理根據學習到的策略選擇一個動作：

$a_{t} \sim \pi_{\theta} (a \mid s_{t}, \mathcal{T}, q)$

where $πθ\pi_{\theta}$ 是通過我們的知識錨定學習方法進行訓練的，以根據查詢需求動態切換通用和醫學專用工具。

2.2智能體架構

我們的框架直接解決了通用代理的兩個基本限制：醫學知識密度不足以及對通用檢索工具的依賴，這些工具無法捕捉細微的醫學關系。

推理- 行動范式。遵循REACT框架[Yao等人，2023a]，我們的智能體通過迭代推理- 行動- 觀察循環運行，并增加了醫療特定的增強功能，以實現探索性醫療研究能力。在每個步驟中，策略生成：

·思考：一個醫療推理跟蹤，用于識別信息差距、形成假設，并確定是否需要通用或專用工具

·行動：一個針對醫療信息提取的工具調用，參數經過優化，優先考慮權威來源而非一般網絡內容

·觀察：經過臨床證據驗證的結構化醫療知識，并整合到智能體的不斷發展的狀態中

該過程持續迭代，代理同時追求多個假設，直到綜合出一個全面的答案。復雜的multi- hop問題通常需要4- 5次工具交互，反映了專家臨床醫生系統探索的模式。

通用工具。我們的代理保留對標準工具的訪問權限，以實現廣泛的覆蓋范圍：

(1)WebSearch：標準網絡檢索，用于一般醫學信息、最新發展和企業/組織數據（例如，圖2中所示制藥公司合并）。

(2)DocumentRead：從檢索到的文檔中提取和綜合，使用高容量LLM主干（例如，Qwen2.5-72B[Bai等人，2024]），特別適用于處理冗長的臨床報告或研究論文。

醫學專用工具套件。我們架構的核心創新是集成了專有的醫學領域工具，這些工具解決了臨床研究的獨特挑戰，并在一般檢索和專門醫學推理之間架起了橋梁。我們的醫學專用工具套件包括：

(1)PrivateMedicalRetriever：該模塊直接從權威臨床資源聚合證據，包括FDA數據庫、臨床試驗注冊機構和PubMed出版物。每個候選文檔 $d$ 通過語義相關性和臨床權威性的加權線性組合對查詢 $q$ 進行評分：

$\mathrm{Score}(d,q) = \lambda \mathrm{Rel}(d,q) + (1 - \lambda)\mathrm{Auth}(d),$

where $Rel(d,q)\mathrm{Rel}(d,q)$ 表示與查詢的語義相似度（通過嵌入余弦相似度計算）， $Auth(d)\mathrm{Auth}(d)$ 反映臨床權威性（結合影響因子和指南狀態）。超參數 $λ\lambda$ $(0≤λ≤1)(0\leq \lambda \leq 1)$ 平衡相關性和權威性的重要性；在所有實驗中，我們將 $λ=0.4\lambda = 0.4$ 設置為優先考慮可靠且具有臨床意義的證據。

(2)臨床推理引擎：專為循證鑒別診斷而設計，該工具應用貝葉斯推理系統性地評估多個假設。給定觀察到的癥狀s、候選診斷 $D_{j}$ 和患者背景信息c，每個診斷的后驗概率計算如下：

$P(D_{j}\mid \mathbf{s},\mathbf{c}) = \frac{\prod_{i = 1}^{n}P(s_{i}\mid D_{j},\mathbf{c})\cdot P(D_{j}\mid\mathbf{c})}{\sum_{k = 1}^{m}\prod_{i = 1}^{n}P(s_{i}\mid D_{k},\mathbf{c})\cdot P(D_{k}\mid\mathbf{c})}$

條件概率源自臨床文獻，并根據新檢索的證據進行迭代更新。

動態工具選擇策略。如圖2所示，我們的智能體在通用工具和醫學專用工具之間動態切換，以確保完整的證據鏈。工具選擇由一個學習到的策略控制，該策略評估查詢的復雜性：

$P(t\mid s_t,q) = \left\{ \begin{array}{ll}\sigma (\mathbf{w}_m^T\phi (s_t,q)) & \mathrm{if} t\in \mathcal{T}_{\mathrm{medcal}}\\ \sigma (\mathbf{w}_g^T\phi (s_t,q)) & \mathrm{if} t\in \mathcal{T}_{\mathrm{general}} \end{array} \right.$

其中 $?(st,q)\phi (s_t, q)$ 提取包括實體稀有性、所需推理跳數和醫學術語的存在等特征， $wm\mathbf{w}_m$ 和 $wg\mathbf{w}_g$ 是學習到的權重向量，而 $σ(?)\sigma (\cdot)$ 是 sigmoid 函數。該策略學習在遇到罕見疾病或復雜化學化合物時優先使用醫學工具，同時利用通用工具獲取上下文信息。

PrivateMedicalRetriever 和 ClinicalReasoningEngine 共同構成了醫療專用工具套件，使代理能夠檢索、解釋和推理超出通用工具能力范圍的專門臨床證據。

3 KISA：基于知識的軌跡合成方法

為解決醫學深度研究智能體訓練數據稀缺的關鍵挑戰，我們提出了一種知識引導軌跡合成方法（KISA），該方法能夠生成復雜的、多跳的醫學推理軌跡。我們的框架通過創建強調以下方面的訓練數據來直接解決通用智能體的局限性：(1) 需要密集領域知識的罕見醫學實體連接，以及(2) 醫學專用檢索工具的有效利用。

3.1 Agentic Dataset Construction

我們的數據集構建流程由三個相互關聯的組件組成，旨在生成真正復雜的醫療查詢，以穩健地測試代理的能力：

3.1.1 實體中心知識圖譜構建

我們構建了針對生成復雜推理鏈而專門優化的醫學知識圖譜。與關注常見概念的傳統方法不同，我們優先考慮罕見醫學實體 $Eseed\mathcal{E}_{\mathrm{seed}}$ 在通用醫學語料庫中的頻率低于閾值的實體。關注罕見實體確保生成的問答需要深厚的醫學知識，而非可通過一般搜索獲取的表面信息。

圖譜擴展遵循迭代過程：

$e_{i + 1} \sim \left\{ \begin{array}{ll} \text{Uniform} (\mathcal{N}(e_i)) & \text{with probability 0.5} \\ \text{Discover} (\mathcal{E}_{\text{new}}|e_i) & \text{with probability 0.5} \end{array} \right.$

其中 $N(ei)\mathcal{N}(e_i)$ 表示 $e_i$ 的鄰域集合，而 Discover() 通過我們的私有醫學檢索引擎識別新實體，確保新連接既具有醫學有效性又具有挑戰性。

每個關系都附加了額外的上下文信息：

$\langle e_{\mathrm{subj}}, p, e_{\mathrm{obj}}, t_{\mathrm{temporal}}, l_{\mathrm{spatial}}, c_{\mathrm{clinical}} \rangle$

其中 $cclinicalc_{\mathrm{clinical}}$ 編碼臨床上下文（例如，疾病階段、患者人口統計）， $ttemporalt_{\mathrm{temporal}}$ 捕獲時間維度，而 $lspatiall_{\mathrm{spatial}}$ 表示空間上下文。這種豐富的表示形式通過標準三元組提升了 $12.3%12.3\%$ 的多跳推理準確率。

3.1.2 基于最長路徑提取的多跳問題生成

我們的關鍵創新在于從子圖中提取最長鏈以生成最大程度復雜的查詢。對于每個罕見實體子圖 $GsubG_{\mathrm{sub}}$ ，我們計算最長有效推理路徑：

$\mathcal{P}^{*} = \arg \max_{p \in \mathcal{P}(G_{\mathrm{sub}})} \text{Length} (p) \quad \text{s.t. MedicallyValid} (p)$

其中 $P(Gsub)\mathcal{P}(G_{\mathrm{sub}})$ 是 $GsubG_{\mathrm{sub}}$ 中所有路徑的集合。

這種最長路徑策略確保問題需要多個推理跳轉（平均每個軌跡4.2次），而不是可以通過簡單的查找來回答。這些路徑隨后被轉換為需要順序調用工具來重建完整推理鏈的自然語言問題。

圖3：基于知識圖譜的問答生成管道：從罕見實體子圖中提取最長鏈以創建復雜的多跳醫學查詢。

3.1.3質量控制與難度校準

為了確保生成的問題對當前系統仍然具有挑戰性，我們實現了自適應難度校準每道題目都會與OpenAI- o3深度研究和GPT- 4進行評估。如果任一模型達到 $>50%>50\%$ 的準確率，該題目將自動重新生成并增加復雜度：

$q^{\prime} = \left\{ \begin{array}{ll}q & \mathrm{if~max}(\mathrm{Acc}_{\mathrm{O3}}(q),\mathrm{Acc}_{\mathrm{GPT4}}(q))< 0.5\\ \mathrm{Regenerate}(q,\mathrm{complexity} + 1) & \mathrm{otherwise} \end{array} \right.$

這種方法確保我們的數據集即使對于最先進的系統也保持具有挑戰性，直接解決了MedBrowseComp中先前觀察到的 $25.5%25.5\%$ 性能上限問題。

3.2帶有醫療工具集成的軌跡合成

3.2.1掩碼軌跡引導（MTG)

為了生成能夠有效利用我們特定醫療工具的高質量訓練軌跡，我們引入了掩碼軌跡引導(MTG)。給定從知識圖譜中提取的推理圖路徑 $T={(e1,r1,e2),…,(en?1,rn?1,en)}\mathcal{T} = \{(e_1,r_1,e_2),\ldots ,(e_{n - 1},r_{n - 1},e_n)\}$ ，我們通過掩碼實體來創建結構框架：

$\mathcal{T}_{\mathrm{masked}} = \{([\mathrm{MASK}],r_i,[\mathrm{MASK}])\}_{i = 1}^{n - 1}$

此掩碼過程有兩個主要目的：

·工具選擇學習：鼓勵模型確定何時需要使用醫學特定檢索工具，而何時一般搜索就足夠了。

·預防快捷方式：防止答案記憶，同時保持底層推理過程。

圖4：掩碼軌跡引導：一種結構支架，通過掩碼實體實現推理而不進行捷徑學習。

3.2.2工具多樣性混合策略

為促進穩健和多樣化的工具使用，我們采用混合數據策略： $Dtrain=α?Dguided+(1?α)?Dexploration\mathcal{D}_{\mathrm{train}} = \alpha \cdot \mathcal{D}_{\mathrm{guided}} + (1 - \alpha)\cdot \mathcal{D}_{\mathrm{exploration}}$ ，其中 $α=0.7\alpha = 0.7$ 平衡結構化學習與探索。探索軌跡自然培養了三種關鍵行為：

·醫療工具優先級： $78%78\%$ 以私有醫療檢索器開始處理罕見實體·工具切換： $42%42\%$ 展示通用工具和醫療工具之間的自適應切換·錯誤恢復： $34%34\%$ 包括使用替代工具進行顯式糾正

4大規模智能體訓練

4.1冷啟動與監督微調

我們通過在大量合成代理對話 $D={(x(i),y(i))}i=1N\mathcal{D} = \{(x^{(i)},y^{(i)})\}_{i = 1}^{N}$ 上進行監督微調(SFT)來啟動代理訓練。這里， $x^{(i)}$ 表示輸入上下文，而 $y^{(i)}$ 表示每個示例的理想下一條動作序列（思考、工具調用等）。目標是最大化在上下文和先驗代理歷史條件下生成正確軌跡的可能性：

$\mathcal{L}_{\mathrm{SFT}}(\theta) = -\frac{1}{N}\sum_{i = 1}^{N}\sum_{k = 1}^{|y^{(i)}|}\log p_{\theta}(y_k^{(i)}|x^{(i)},y_{< k}^{(i)}).$

為了提高代理的魯棒性和泛化能力，我們在微調過程中結合了幾個關鍵增強：

·工具故障模擬 $(5%(5\%$ 污染率)：隨機污染工具輸出，以鼓勵下游軌跡中的應急計劃和魯棒錯誤恢復。

·中間思考監督：教導代理在每次工具調用之前明確表達推理，提高可解釋性和決策可追溯性。

·多任務采樣：在醫學領域（診斷、治療、指南、罕見疾病）中多樣化訓練批次，支持廣泛泛化和遷移。

優化過程使用AdamW優化器（學習率 $λ=0.01)\lambda = 0.01)$ ，采用余弦退火調度 $(ηmax=3×10?7)(\eta_{\mathrm{max}} = 3\times 10^{- 7})$ ，在 $8 x$ H800GPU上進行3個epoch。這確保了對多樣化軌跡的快速探索以及收斂到經過良好校準的智能體策略。

4.2強化學習

在監督預訓練后，我們通過分組正則化策略優化（GRPO）使用強化學習來改進智能體，優化與特定任務復合獎勵相關的智能體軌跡： $rt=αrtask+βrexpert?γrefficiencyr_t = \alpha r_{\mathrm{task}} + \beta r_{\mathrm{expert}} - \gamma r_{\mathrm{efficiency}}$ ，其中 $rtaskr_{\mathrm{task}}$ 衡量答案準確性， $rexpertr_{\mathrm{expert}}$ 反映根據基于GPT- 4的專家模型的偏好， $refficiencyr_{\mathrm{efficiency}}$ 懲罰過度或冗余的工具使用。權重系數 $α\alpha$ 、 $β\beta$ 和 $γ\gamma$ 分別設置為1.0、0.2和0.1。

獎勵建模：獎勵函數的分解如下：

·任務：獎勵函數的主要組成部分，直接衡量答案準確性并計算每個查詢的任務完成分數。

·專家：基于GPT- 4偏好模型，該術語使模型的響應與專家知識保持一致。

·效率：懲罰不必要的工具使用，包括對同一工具的重復調用而沒有增加價值、在找到答案后過度使用工具，以及為任務使用不相關的工具。效率懲罰使用基于規則的系統和LLM裁判來評估不必要的使用。

GRPO目標：GRPO目標優化： $LGRPO=E(x,y)～D[log?πθ(y∣x)?(r(x,y)?rˉG(x))],\mathcal{L}_{\mathrm{GRPO}} = \mathbb{E}_{(x,y)\sim \mathcal{D}}\left[\log \pi_{\theta}(y|x)\cdot (r(x,y) - \bar{r}_{\mathcal{G}(x)})\right],$ 其中 $rˉG(x)\bar{r}_{\mathcal{G}(x)}$ 是組級基線，計算為同一批次中響應的平均獎勵。該組歸一化穩定了梯度估計。

附加修改：

·KL正則化：我們從訓練流程中移除了KL正則化，因為它可能會阻礙性能提升，尤其是在多階段訓練期間。這與文獻中關于省略KL損失對模型泛化有益的觀點一致[He等人，2025]。

·任務復雜度：任務復雜度通過課程學習逐步增加，通過任務上的平均通過率進行監控。這確保了模型在訓練早期不會被過度挑戰。

5實驗

我們在特定領域和通用基準上評估MedResearcher- R1，以評估其在復雜醫學研究任務中的有效性及其在醫學領域之外的泛化能力。

5.1基準測試

·MedBrowseComp[Chen et al.,2025b]是一個最近提出的基準測試，專門設計用于評估基于LLM的代理從多個網絡來源檢索和合成醫學證據的能力。此基準測試向代理提出開放式臨床問題，這些問題需要多步推理、戰略信息收集以及有效利用網絡瀏覽API來構建全面的醫學評估。

·GAIA[Shinnet al.，2023] (通用人工智能助手)是一個綜合評估框架，通過需要工具使用、網絡搜索和多步推理的復雜、多模態任務來測試現實世界的助手能力。基準測試強調對人類來說概念簡單但對AI系統具有挑戰性的任務，重點關注閱讀理解、邏輯推理以及在實際場景中有效使用工具的基本技能。

·XBench- DeepSearch[Chen et al.,2025a]是一個廣泛的多領域代理評估套件，系統地評估了跨各種開放域任務的工具使用能力。基準測試涵蓋了廣泛的各種場景，包括事實核查、比較分析、基于網絡瀏覽的推理和復雜的信息合成任務，為基于LLM的代理在現實世界問題解決環境中導航和利用各種工具的能力提供了全面的評估。

5.2主要結果

如表1所示，我們的工具增強代理在MedBrowseComp基準測試中取得了新的最先進性能，達到了27.5/50的pass@1分數，并超過了之前的最佳代理和Qwen2.5- 32B基線。監督微調（SFT）階段已經帶來了顯著的提升，而后續的強化學習進一步提高了決策質量和工具編排效率。

值得注意的是，盡管我們的代理主要針對醫療領域進行訓練，但它對表2中展示的開域任務表現出強大的泛化能力。在GAIA和XBench- deepsearch上，我們的系統顯示出具有競爭力的有用性分數，證明了基于工具的訓練范式的多功能性。

表1：MedBrowseComp基準測試的性能比較（50個正確答案的數量）

模型	o3 search	gemini2.5pro deepsearch	o3 deepresearch	claude-cua	MedResearcher-R1-32B
MedBrowseComp	19.0	24.5	25.5	18.0	27.5

5.3定性分析

為了理解驅動性能提升的潛在因素，我們對訓練數據模式及其對代理行為的影響進行了深入分析。我們的調查表明，遵循范式的訓練數據能夠顯著提升深度研究能力。

表2：在Xbench-DeepSearch和GAIA基準測試上的性能比較

模型	范例	Xbench-DeepSearch	GAIA
Owen-2.5-32B	直接	8.7	13.6
Owen-2.5-72B	直接	12.7	14.6
GPT-4o	直接	18.0	17.5
GPT-4.1	直接	17.0	22.3
OwQ-32B	直接	10.7	22.3
o4-mini	直接	22.3	33.3
DeepSearch-R1	直接	32.7	16.5
Owen-2.5-32B	Search-ol	3.7	28.2
WebDancer-32B	ReAct	38.7	40.7
OwQ-32B	Search-ol	25.0	39.8
WebSailor-7B	ReAct	34.3	37.9
WebSailor-32B	ReAct	53.3	53.2
WebSailor-72B	ReAct	55.0	55.4
MedResearcher-R1-32B(我們的)	ReAct	54.0	53.4

遵循迭代搜索- 驗證- 綜合范式的訓練數據能夠顯著提升深度研究能力。

圖5展示了一個典型示例，其中我們的智能體通過系統性的證據收集展現了卓越的研究深度。智能體執行了一個4步策略：(1)初始廣泛搜索以識別相關來源，(2)在多個權威醫學數據庫中驗證信息一致性，(3)有針對性的后續查詢以解決歧義，以及(4)對已驗證發現的全面綜合。這種系統性的方法——其特點是在最終綜合前通過多次驗證循環確保答案的唯一性——與基線智能體形成鮮明對比，后者表現出過早收斂或工具使用模式欠佳。

對成功軌跡的分析表明，關鍵的不同之處在于搜索- 驗證- 綜合模式，其中 $n$ 表示多次驗證迭代。表現出這種模式的訓練實例在復雜的多跳推理任務中的成功率比單次驗證方法高 $34.2%34.2\%$

圖5：展示搜索- 驗證- 綜合范式的案例研究：智能體在信息來源中執行多次驗證輪次，確保在綜合前信息一致性。基線智能體（顯示為灰色）在初始搜索后過早終止，而我們的方法（藍色）持續進行，直到通過交叉驗證達到高置信度。

率。迭代驗證確保答案的唯一性和事實基礎，這對需要高精度的領域（如醫學診斷）尤其關鍵。

這些發現表明，工具增強的代理訓練效果與訓練數據中的結構模式從根本上相關聯，迭代驗證是開發跨不同工具推理環境泛化的強大深度研究能力的關鍵機制。

6 相關工作

6.1 一般深度研究方法

基于代理的深度研究和自主信息收集框架的最新進展主要出現在兩種主要范式中：多代理規劃架構和代理強化學習系統。

多代理規劃架構將研究過程分解為語義上不同的角色，不同的代理專注于檢索、推理、合成或評估等子任務。這些代理通過模塊化管道或結構化通信協議進行協作。CAMEL [Li 等人，2023] 介紹了一個通信驅動的多代理框架，其中代理使用自然語言來解決復雜的規劃和推理任務。該框架強調代理間通信以實現策略協調和涌現行為。自 2025 年以來，許多大規模推理模型（LRMs）擴展了深度研究能力，例如 OpenAI O3、Perplexity 深度研究和 Kimi K2。例如，Anthropic 的多代理研究系統提出一個主代理，動態生成專門的子代理來執行網絡搜索、文檔閱讀和合成。這種架構通過并行執行和隱式內存共享在復雜、長期研究任務中表現出色。還有許多開源項目實現了使用多代理機制的深度學習，例如 Deerflow。使用多代理方法實現的深度學習系統具有顯著優勢：它們更易于解釋，并且更容易通過并行化進行擴展。然而，由于缺乏針對性的推理訓練，僅基于提示和字符的規劃會導致錯誤在多個代理間傳播，并且無法處理需要高級推理的任務。

與模塊化設計不同，Agent RL 方法通過在與研究環境（通常是網絡瀏覽或開放域問答）的獎勵引導交互中訓練單個或半自主代理。這些代理通常通過離線數據學習自主搜索、點擊、閱讀和綜合，然后通過后訓練進行微調。ReAct代理 [Yao等人，2023b] 最初被提出作為一種提示策略，但已使用 RLHF 進一步優化以強制執行最佳推理路徑。強化學習技術使代理能夠優化工具使用并在長期交互中避免幻覺。WebArena [Zhou等人，2024] 提供了一個高保真度的網絡交互環境，用于訓練強化學習代理執行多跳推理和代理式數據收集，通過真實的瀏覽器 API，實現逼真、反饋驅動的學習。WebSailor [Li等人，2025] 在高不確定性 QA 環境中實現了超人的網絡研究。它使用合成任務構建、基于 RFT 的冷啟動和 DUPO（重復采樣策略優化）強化學習微調來構建用于工具增強網絡任務的魯棒代理。Search- R1 [Jin等人，2025] 通過統一 RL 訓練 LLM 以交替推理和搜索，而 S3 [Jiang等人，2025] 將搜索與生成解耦，并使用 $70× \times$ 更少的樣本達到了相當的準確率。與基于多角色代理的深度研究系統相比，代理強化學習通過學習行為將模型的解決問題能力內化，從而提供更好的泛化到未知任務和適應復雜環境（如網絡瀏覽）的優勢。

然而，雖然通用型網絡代理在開放域環境中表現出色，但它們的架構系統性地忽略了醫療保健中證據溯源的重要性和時間限制。缺乏特定于醫療保健的組件（例如，去識別引擎、臨床級別證據分級器和藥物依從性審計）嚴重限制了它們的臨床實用性。

6.2 醫療 RAG 系統

特定領域的檢索增強生成（RAG）架構通過在證據集成方面的系統性創新，為醫療臨床人工智能領域做出了重要貢獻。

MedRAG [Zhao 等人，2025b] 建立了一個基于證據生成的范式，通過從 PubMed 快照和專有數據庫中檢索不可變語料庫來實現。Deeprare [Zhao 等人，2025a] MedRAG 的實時證據整合，通過實時 CDC/WHO 數據流持續同步不斷發展的醫學知識，并動態加權（F1 分數 $+14.3%+14.3\%$ ），直接解決了 DeepRare 等系統固有的知識過時問題。SurgRAW [Low 等人，2025] 開創了將實時手術視頻檢索與

強化學習相結合，實現了 $90.2%90.2\%$ 的器械識別準確率，從而實現術中決策支持。Federated ClinicalCamel [Toma 等人，2023]通過跨機構知識蒸餾解決數據碎片化問題，同時保持隱私合規（在12家醫院中AUROC為0.92）。

盡管取得了這些進展，當前的醫學RAG系統仍然存在根本性局限性。首先，知識過時仍然是一個關鍵問題，因為像DeepRare[Zhao等人，2025a]這樣的系統中的模塊更新需要手動編排，導致策展延遲，這可能會使檢索相關性降低數月。此外，證據錯位表現為語義漂移，這在KBLaM的插件架構中尤為明顯。模塊更新會導致累積嵌入錯位（5次迭代后MRR下降 $18.4%18.4\%$ ）[Wang等人，2025]。

6.3醫學多角色系統

基于代理的架構的最新進展通過檢索- 推理- 驗證循環的內生集成揭示了一種范式轉變，尤其是在AgenticRAG框架和多模態知識集成的出現中尤為明顯。這些系統展示了三個核心創新，重新定義了臨床決策支持：

動態知識內化通過自更新的圖來消除外部依賴，能夠與不斷發展的醫學知識保持持續同步。SeaKR的[Yao等人，2024]自我感知檢索引入了時間錨定機制，根據發表時效性和證據等級動態調整知識權重，而Med- PaLM的[Tu等人，2023]視覺- 語言分離通過專用路徑處理放射學圖像和基因組數據，同時保持診斷一致性。與傳統的RAG系統相比，這些方法將知識延遲從天縮短到分鐘。偏好對齊的強化學習框架，如MedicalGPTv2.4的GRPO（組相對策略優化）在腫瘤學決策中與臨床專家小組的同意度為 $98.7%98.7\%$ [Xu，2023]。統一認知架構將檢索- 推理- 驗證合并為集成管道，以微軟的MAIDxO[Nori等人，2025]為例，五個協作代理實現了 $85.5%85.5\%$ 的診斷準確率——是臨床專家平均表現的四倍。通過Med- Gemini的[Saab等人，2024]3多階段管道結合時間錨定、臨床專家驗證的SFT和多目標RLHF來維持監管合規性。

盡管取得了這些進展，當前醫療多角色代理系統的推理能力仍存在關鍵局限性——與醫學研究中深度推理方法相比，這是一個根本性的差距。首先，多步臨床推理仍受淺層推理深度的限制：雖然像AgentClinic[Schmidgall等人，2025]在順序決策中表現出 $42.9%42.9\%$ 的診斷準確率，但當任務需要 $> 5$ 推理步驟（在7步時為 $27.3%27.3\%$ ）時，這一準確率會顯著下降。其次，在治療規劃場景中，因果推理缺陷表現為代理難以模擬長期結果依賴關系（例如，化療排序效應），與人類專家相比（在NCCN指南依從性方面存在 $19.4%19.4\%$ 的F1分數差距）[?]。第三，在動態臨床環境中，適應性推理局限性顯現——像MAIDxO這樣的系統在處理需要協議切換的實時患者惡化場景時，性能會下降 $34%34\%$ 。這些挑戰凸顯了迫切需要新一代架構，以彌合多角色代理與人類醫學專家之間的推理深度和適應性差距。

7結論

在這項工作中，我們通過引入一個以KISA數據生成方法為中心的新智能體開發框架，應對了復雜、基于證據的醫學研究的挑戰。KISA系統地產出具有挑戰性、多跳的醫學問答對及其對應的推理軌跡，這些推理軌跡基于稀有實體挖掘和基于知識圖譜的推理鏈。這確保了智能體能夠接觸到真實世界醫學研究特有的復雜、組合性問題。

基于這個豐富的數據集，并配備了全面的訓練流程——包括監督微調、軌跡掩碼和帶有專業醫學工具的強化學習——我們的智能體MedResearcher- R1在MedBrowseComp上達到了最先進的pass@1準確率（27.5 $%\%$ ），并在通用智能體基準測試中表現出穩健的性能。這些發現表明，MedResearcher- R1能夠解決需要系統探索和細致證據綜合的復雜醫學問題，突顯了它作為下一代醫學領域深度研究智能體的有效性。

8未來工作

在本次研究的基礎上，我們確定了幾個推進深度醫療研究代理的具體方向：

·多模態工具集成：擴展當前框架以支持多模態醫療工具，如放射學圖像查看器、病理切片分析器、基因組數據源和電子健康記錄。此類集成將使代理能夠處理和綜合多種數據類型，更緊密地符合實際臨床工作流程。

·人類專家協作：整合來自醫療專業人員的閉環反饋以指導代理行為。開發專家評估和標注界面可以提高推理質量、工具使用和代理輸出的臨床相關性。

·安全性與可靠性：系統性地研究模型安全性和可靠性以支持開放部署，重點關注魯棒的幻覺檢測、不確定性估計以及適用于高風險醫療場景的失效安全機制的實施。

·高級醫療推理基準：構建一個涵蓋藥理學、診斷學、流行病學、遺傳學、手術規劃、治療的復雜多跳推理的綜合基準，以跨醫療領域。這將設定一個更高的標準來評估代理在挑戰性場景中協調工具和綜合證據的能力。

我們的框架為醫療等專業化領域中的更對齊和可靠的基于代理的系統鋪平了道路。通過發布我們的代碼庫、數據集和訓練模型，我們尋求促進協作進步和嚴格評估，朝著值得信賴的AI伴侶邁進，這些伴侶可以增強醫學研究并支持改善的患者結果。

參考文獻

Jiaming Bai, Jin Qiu, Jing Liu, et al. Qwen2: Scaling open language models with decoupled attention and comprehensive alignment, 2024. Available at https://huggingface.co/Qwen/Qwen2- 72B.

Kaiyuan Chen, Yixin Ren, Yang Liu, Xiaobo Hu, Haotong Tian, Tianbao Xie, Fangfu Liu, Haoye Zhang, Hongzhang Liu, Yuan Gong, et al. xbench: Tracking agents productivity scaling with profession- aligned real- world evaluations. arXiv preprint arXiv:2506.13651, 2025a.

Shan Chen, Pedro Moreira, Yuxin Xiao, Sam Schmidgall, Jeremy Warner, Hugo Aerts, Thomas Hartvigsen, Jack Gallifant, and Danielle S Bitterman. Medbrowsecomp: Benchmarking medical deep research and computer use. arXiv preprint arXiv:2505.14963, 2025b.

Jujie He, Jiacai Liu, Chris Yuhao Liu, Rui Yan, Chaojie Wang, Peng Cheng, Xiaoyu Zhang, Fuxiang Zhang, Jiacheng Xu, Wei Shen, et al. Skywork open reasoner 1 technical report. arXiv preprint arXiv:2505.22312, 2025.

Pengcheng Jiang, Xueqiang Xu, Jiacheng Lin, Jinfeng Xiao, Zifeng Wang, Jimeng Sun, and Jiawei Han. s3: You don’t need that much data to train a search agent via rl. arXiv preprint arXiv:2505.14146, 2025.

Carlos E Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, and Karthik Narasimhan. Swe- bench: Can language models resolve real- world github issues? arXiv preprint arXiv:2310.06770, 2023.

Bowen Jin, Hansi Zeng, Zhenrui Yue, Jinsung Yoon, Sercan Arik, Dong Wang, Hamed Zamani, and Jiawei Han. Search- rl: Training llms to reason and leverage search engines with reinforcement learning. arXiv preprint arXiv:2503.09516, 2025.

Guohao Li, Hasan Abed Al Kader Hammoud, Hani Itani, Dmitrii Khizbullin, and Bernard Ghanem. Camel: Communicative agents for “mind” exploration of large language model society. In Thirty- seventh Conference on Neural Information Processing Systems, 2023.

Kuan Li, Zhongwang Zhang, Huifeng Yin, Liwen Zhang, Liu Ou, Jialong Wu, Wenbiao Yin, Baixuan Li, Zhengwei Tao, Xinyu Wang, et al. Websailor: Navigating super- human reasoning for web agent. arXiv preprint arXiv:2507.02592, 2025.

Chang Han Low, Ziyue Wang, Tianyi Zhang, Zhitao Zeng, Zhu Zhuo, Evangelos B. Mazomenos, and Yueming Jin. Surgraw: Multi- agent workflow with chain- of- thought reasoning for surgical intelligence, 2025. URL https://arxiv.org/abs/2503.10265.

Harsha Nori, Mayank Daswani, Christopher Kelly, Scott Lundberg, Marco Tulio Ribeiro, Marc Wilson, Xiaoxuan Liu, Viknesh Sounderajah, Jonathan Carlson, Matthew P Lungren, Bay Gross, Peter Hames, Mustafa Suleyman, Dominic King, and Eric Horvitz. Sequential diagnosis with language models, 2025. URL https://arxiv.org/abs/2506.22405.

Khaled Saab, Tao Tu, Wei- Hung Weng, Ryutaro Tanno, David Stutz, Ellery Wulczyn, Fan Zhang, Tim Strother, Chunjong Park, Elahe Vedadi, Juanma Zambrano Chaves, Szu- Yeu Hu, Mike Schaekermann, Aishwarya Kamath, Yong Cheng, David G. T. Barrett, Cathy Cheung, Basil Mustafa, Anil Palepu, Daniel McDuff, Le Hou, Tomer Golany, Luyang Liu, Jean baptiste Alayrac, Neil Houlsby, Nenad Tomasev, Jan Freyberg, Charles Lau, Jonas Kemp, Jeremy Lai, Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, Siamak Shakeri, Luheng He, Ben Caine, Albert Webson, Natasha Latysheva, Melvin Johnson, Philip Mansfield, Jian Lu, Ehud Rivlin, Jesper Anderson, Bradley Green, Renee Wong, Jonathan Krause, Jonathon Shlens, Ewa Dominowska, S. M. Ali Eslami, Katharine Chou, Claire Cui, Oriol Vinyar, Koray Kavukcuoglu, James Manyika, Jeff Dean, Demis Hassabis, Yossi Matias, Dale Webster, Joelle Barral, Greg Corrado, Christopher Semturs, S. Sara Mahdavi, Juraj Gottweis, Alan Karthikesalingam, and Vivek Natarajan. Capabilities of gemini models in medicine, 2024. URL https://arxiv.org/abs/2404.18416.

Samuel Schmidgall, Rojin Ziaei, Carl Harris, Eduardo Reis, Jeffrey Jopling, and Michael Moor. Agentclinic: a multimodal agent benchmark to evaluate ai in simulated clinical environments, 2025. URL https://arxiv.org/abs/2405.07960.

Noah Shinn, Heng Zhu, Alex Chen, Xinyu Li, et al. Gaia: A benchmark for general- purpose web agents. arXiv preprint arXiv:2307.12030, 2023.

Augustin Toma, Patrick R. Lawler, Jimmy Ba, Rahul G. Krishnan, Barry B. Rubin, and Bo Wang. Clinical camel: An open expert- level medical language model with dialogue- based knowledge encoding, 2023. URL https://arxiv.org/abs/2305.12031.

Tao Tu, Shekoofeh Azizi, Danny Driess, Mike Schaekermann, Mohamed Amin, Pi- Chuan Chang, Andrew Carroll, Chuck Lau, Ryutaro Tanno, Ira Ktena, Basil Mustafa, Aakanksha Chowdhery, Yun Liu, Simon Kornblith, David Fleet, Philip Mansfield, Sushant Prakash, Renee Wong, Sunny Virmani, Christopher Semturs, S Sara Mahdavi, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Karan Singhal, Pete Florence, Alan Karthikesalingam, and Vivek Natarajan. Towards generalist biomedical ai, 2023. URL https://arxiv.org/abs/2307.14334.

Xi Wang, Taketomo Isazawa, Liana Mikaelyan, and James Hensman. Kblam: Knowledge base augmented language model, 2025. URL https://arxiv.org/abs/2410.10450.

Xingyao Wang, Boxuan Li, Yufan Song, Frank F Xu, Xiangru Tang, Mingchen Zhuge, Jiayi Pan, Yueqi Song, Bowen Li, Jaskirat Singh, et al. Openhands: An open platform for ai software developers as generalist agents. arXiv preprint arXiv:2407.16741, 2024.

Ming Xu. Medicalgpt: Training medical gpt model. https://github.com/shibing624/MedicalGPT, 2023.

Renjun Xu and Jingwen Peng. A comprehensive survey of deep research: Systems, methodologies, and applications. arXiv preprint arXiv:2506.12594, 2025.

Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, and Yuan Cao. React: Synergizing reasoning and acting in language models. In International Conference on Learning Representations (ICLR), 2023a.

Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, and Yuan Cao. React: Synergizing reasoning and acting in language models, 2023b. URL https://arxiv.org/abs/2210.03628.

Zijun Yao, Weijian Qi, Liangming Pan, Shulin Cao, Linmei Hu, Weichuan Liu, Lei Hou, and Juanzi Li. Seakr: Self- aware knowledge retrieval for adaptive retrieval augmented generation, 2024. URL https://arxiv.org/abs/2406.19215.

Weike Zhao, Chaoyi Wu, Yanjie Fan, Xiaoman Zhang, Pengcheng Qiu, Yuze Sun, Xiao Zhou, Yanfeng Wang, Ya Zhang, Yongguo Yu, et al. An agentic system for rare disease diagnosis with traceable reasoning. arXiv preprint arXiv:2506.20430, 2025a.

Xuejiao Zhao, Siyan Liu, Su- Yin Yang, and Chunyan Miao. Medrag: Enhancing retrieval- augmented generation with knowledge graph- elicited reasoning for healthcare copilot, 2025b. URL https://arxiv.org/abs/2502.04413.

Shuyan Zhou, Frank F. Xu, Hao Zhu, Xuhui Zhou, Robert Lo, Abishek Sridhar, Xianyi Cheng, Tianyue Ou, Yonatan Bisk, Daniel Friedl, Uri Alon, and Graham Neubig. Webarena: A realistic web environment for building autonomous agents, 2024. URL https://arxiv.org/abs/2307.13854.