【AI論文】ReasonMed：一個370K的多智能體生成數據集，用于推進醫療推理

摘要：盡管基于推理的大型語言模型（LLM）在數學和編程方面表現出色，但它們在知識密集型醫療問題回答方面的能力仍未得到充分探索。為解決這一問題，我們推出了ReasonMed，這是最大的醫療推理數據集，包含從各種LLM生成的170萬條初始推理路徑中提煉出的37萬個高質量示例。ReasonMed是通過多代理驗證和細化過程構建的，我們設計了一個錯誤細化器，通過識別和糾正驗證器標記的易出錯步驟來增強推理路徑。借助ReasonMed，我們系統地研究了訓練醫療推理模型的最佳實踐，發現將詳細的思維鏈（CoT）推理與簡潔的答案摘要相結合，能產生最有效的微調策略。基于這一策略，我們訓練了ReasonMed-7B，它為10B以下的模型設定了新的基準，比之前的最佳模型高出4.17%，甚至在PubMedQA上比LLaMA3.1-70B高出4.60%。Huggingface鏈接：Paper page，論文鏈接：2506.09513

研究背景和目的

研究背景

近年來，基于推理的大型語言模型（LLMs）在邏輯推理、數學和編程等領域取得了顯著進展，如Deepseek-R1和QwQ等模型在相關任務中展現出了卓越的能力（Liu et al., 2025a; Ahn et al., 2024; OpenAI et al., 2025）。然而，在醫療領域，這些模型的應用仍面臨諸多挑戰。醫學知識具有高度的專業性和復雜性，要求模型不僅具備廣泛的知識覆蓋，還需能夠進行深入、準確的推理。然而，現有的醫療推理數據集規模有限，且通常來源于單一的教師模型，這限制了模型的知識覆蓋和推理能力。

具體而言，現有的醫療推理數據集存在以下幾個主要問題：

規模有限：現有數據集的大小通常不足以支撐大規模模型的訓練，導致模型在處理復雜醫療問題時表現不佳。
知識覆蓋不足：由于數據集通常來源于單一模型，其知識覆蓋有限，難以涵蓋醫學領域的各個方面。
缺乏系統性分析：現有研究缺乏對多步思維鏈（Chain-of-Thought, CoT）推理與簡潔答案摘要之間權衡的系統性分析，導致難以確定哪種策略在醫療問答系統中更為有效。

研究目的

為解決上述問題，本研究旨在開發一個大規模、高質量的醫療推理數據集ReasonMed，并通過系統分析不同推理訓練策略對模型性能的影響，提出最有效的微調方法。具體目標包括：

構建大規模醫療推理數據集：通過多智能體系統生成并驗證超過170萬條初始推理路徑，最終提煉出37萬個高質量示例，形成ReasonMed數據集。
探索最佳推理訓練策略：通過對比傳統思維鏈（CoT）推理、簡潔答案摘要以及兩者結合的混合方法，確定哪種策略在醫療問答任務中表現最佳。
訓練并評估醫療推理模型：基于確定的最佳策略，訓練ReasonMed-7B模型，并在多個醫療問答基準數據集上評估其性能，驗證其有效性。

研究方法

數據集構建

數據收集：從MedQA、MMLU、PubMedQA和MedMCQA等現有醫療問答基準數據集中收集約19.5萬個問題。
多智能體系統生成推理路徑：結合Qwen-2.5-72B、DeepSeek-R1-Distill-Llama-70B和HuatuoGPT-o1-70B三個LLM，通過調整采樣超參數（如溫度、top-p），生成約175萬條多樣化的多步推理路徑。
質量驗證與細化：設計驗證器（Verifier）檢查每條推理路徑的正確性、邏輯連貫性和醫學事實性，并根據驗證結果將問題分為簡單、中等和困難三個等級。針對不同等級的問題，采用不同的細化策略：簡單問題直接保留前兩條最優路徑；中等問題使用錯誤細化器（Error Refiner）修正并擴展路徑；困難問題則直接利用GPT-o1生成準確路徑。

推理訓練策略分析

數據準備：利用響應摘要器（Response Summarizer）將每條思維鏈壓縮成簡潔的答案解釋，生成三種不同粒度的數據實例：CoT實例（包含完整思維鏈）、Response實例（僅包含答案摘要）和Reason實例（結合思維鏈與答案摘要）。
模型微調：使用LlamaFactory框架對Qwen2.5-7B模型進行三輪監督微調，分別基于CoTMed-7B（僅CoT實例）、ResponseMed-7B（僅Response實例）和ReasonMed-7B（Reason實例）數據集。
性能評估：在MedQA、MedMCQA、PubMedQA和MMLU等醫療問答基準數據集上評估微調后模型的性能，分析不同訓練策略對模型性能的影響。

研究結果

數據集質量

規模與多樣性：ReasonMed數據集包含37萬個高質量醫療推理示例，規模遠超現有數據集，且通過多智能體系統生成，確保了數據的多樣性和覆蓋面。
質量驗證：通過嚴格的驗證和細化流程，確保了數據集中每條推理路徑的正確性和邏輯連貫性。實驗結果表明，經過細化后的數據集在質量上顯著優于原始數據集。

模型性能

CoTMed-7B：基于完整思維鏈進行微調的模型，在大多數基準數據集上表現出色，尤其在MedQA、MedMCQA和PubMedQA等復雜醫療問答任務中取得了顯著成績。
ResponseMed-7B：僅基于答案摘要進行微調的模型，在保持較低計算成本的同時，仍能在MedQA等數據集上取得競爭性結果，表明簡潔答案摘要在醫療問答中的有效性。
ReasonMed-7B：結合完整思維鏈與答案摘要的混合策略進行微調的模型，在所有基準數據集上均取得了最佳性能，尤其在MedMCQA和PubMedQA等復雜任務中表現突出，驗證了混合策略的有效性。

訓練策略分析

多步思維鏈的重要性：實驗結果表明，包含完整思維鏈的微調策略能顯著提升模型在復雜醫療問答任務中的性能，表明多步推理在醫療領域的重要性。
簡潔答案摘要的潛力：盡管ResponseMed-7B在整體準確性上略低于CoTMed-7B，但其計算成本更低，且在某些任務中仍能取得競爭性結果，表明簡潔答案摘要在醫療問答中具有一定的應用潛力。
混合策略的優勢：ReasonMed-7B通過結合完整思維鏈與答案摘要，實現了性能與效率的平衡，為醫療推理模型的訓練提供了新的思路。

研究局限

計算資源限制：由于計算資源的限制，本研究未將多尺度微調實驗擴展到7B參數以上的模型。因此，對于更大規模模型在醫療推理任務中的表現仍需進一步探索。
數據過濾與評估的依賴性：本研究的數據過濾（驗證器和質量排名器）和最終質量評估（評分評估器）均依賴于其他大型語言模型（如Qwen-2.5-72B和GPT-4o），這些模型可能存在偏差或系統錯誤，偶爾會導致誤判。
模型泛化能力：盡管ReasonMed-7B在多個基準數據集上表現出色，但其在實際醫療場景中的泛化能力仍需進一步驗證。醫療領域的復雜性和多樣性要求模型具備更強的泛化能力，以應對各種未知情況。

未來研究方向

擴展數據集規模與多樣性：未來研究可進一步擴展ReasonMed數據集的規模和多樣性，納入更多醫療領域的知識和案例，以提升模型的覆蓋面和推理能力。
探索更大規模模型的微調：隨著計算資源的不斷增加，未來研究可嘗試將多尺度微調策略應用于更大規模的模型（如10B-100B參數范圍），以探索其在醫療推理任務中的潛力。
增強模型的泛化能力：通過引入更多樣化的訓練數據和更先進的微調策略，增強模型在復雜醫療場景中的泛化能力，提高其在實際應用中的可靠性和準確性。
結合多模態信息：醫療領域不僅包含文本信息，還涉及圖像、視頻等多種模態的數據。未來研究可探索如何將多模態信息融入醫療推理模型中，以進一步提升其性能和應用范圍。
倫理與安全性研究：隨著醫療推理模型在實際應用中的不斷推廣，其倫理和安全性問題也日益凸顯。未來研究需關注模型的倫理和安全性問題，制定相應的規范和標準，確保其在醫療領域的健康、可持續發展。

綜上所述，本研究通過構建大規模、高質量的醫療推理數據集ReasonMed，并系統分析不同推理訓練策略對模型性能的影響，為醫療推理模型的訓練和應用提供了新的思路和方法。未來研究可在此基礎上進一步探索數據集擴展、模型微調、泛化能力提升以及多模態信息融合等方面的問題，推動醫療推理模型在醫療領域的廣泛應用和發展。