【AI論文】ReasonMed:一個370K的多智能體生成數據集,用于推進醫療推理

摘要:盡管基于推理的大型語言模型(LLM)在數學和編程方面表現出色,但它們在知識密集型醫療問題回答方面的能力仍未得到充分探索。為解決這一問題,我們推出了ReasonMed,這是最大的醫療推理數據集,包含從各種LLM生成的170萬條初始推理路徑中提煉出的37萬個高質量示例。ReasonMed是通過多代理驗證和細化過程構建的,我們設計了一個錯誤細化器,通過識別和糾正驗證器標記的易出錯步驟來增強推理路徑。借助ReasonMed,我們系統地研究了訓練醫療推理模型的最佳實踐,發現將詳細的思維鏈(CoT)推理與簡潔的答案摘要相結合,能產生最有效的微調策略。基于這一策略,我們訓練了ReasonMed-7B,它為10B以下的模型設定了新的基準,比之前的最佳模型高出4.17%,甚至在PubMedQA上比LLaMA3.1-70B高出4.60%。Huggingface鏈接:Paper page,論文鏈接:2506.09513

研究背景和目的

研究背景

近年來,基于推理的大型語言模型(LLMs)在邏輯推理、數學和編程等領域取得了顯著進展,如Deepseek-R1和QwQ等模型在相關任務中展現出了卓越的能力(Liu et al., 2025a; Ahn et al., 2024; OpenAI et al., 2025)。然而,在醫療領域,這些模型的應用仍面臨諸多挑戰。醫學知識具有高度的專業性和復雜性,要求模型不僅具備廣泛的知識覆蓋,還需能夠進行深入、準確的推理。然而,現有的醫療推理數據集規模有限,且通常來源于單一的教師模型,這限制了模型的知識覆蓋和推理能力。

具體而言,現有的醫療推理數據集存在以下幾個主要問題:

  1. 規模有限:現有數據集的大小通常不足以支撐大規模模型的訓練,導致模型在處理復雜醫療問題時表現不佳。
  2. 知識覆蓋不足:由于數據集通常來源于單一模型,其知識覆蓋有限,難以涵蓋醫學領域的各個方面。
  3. 缺乏系統性分析:現有研究缺乏對多步思維鏈(Chain-of-Thought, CoT)推理與簡潔答案摘要之間權衡的系統性分析,導致難以確定哪種策略在醫療問答系統中更為有效。
研究目的

為解決上述問題,本研究旨在開發一個大規模、高質量的醫療推理數據集ReasonMed,并通過系統分析不同推理訓練策略對模型性能的影響,提出最有效的微調方法。具體目標包括:

  1. 構建大規模醫療推理數據集:通過多智能體系統生成并驗證超過170萬條初始推理路徑,最終提煉出37萬個高質量示例,形成ReasonMed數據集。
  2. 探索最佳推理訓練策略:通過對比傳統思維鏈(CoT)推理、簡潔答案摘要以及兩者結合的混合方法,確定哪種策略在醫療問答任務中表現最佳。
  3. 訓練并評估醫療推理模型:基于確定的最佳策略,訓練ReasonMed-7B模型,并在多個醫療問答基準數據集上評估其性能,驗證其有效性。

研究方法

數據集構建
  1. 數據收集:從MedQA、MMLU、PubMedQA和MedMCQA等現有醫療問答基準數據集中收集約19.5萬個問題。
  2. 多智能體系統生成推理路徑:結合Qwen-2.5-72B、DeepSeek-R1-Distill-Llama-70B和HuatuoGPT-o1-70B三個LLM,通過調整采樣超參數(如溫度、top-p),生成約175萬條多樣化的多步推理路徑。
  3. 質量驗證與細化:設計驗證器(Verifier)檢查每條推理路徑的正確性、邏輯連貫性和醫學事實性,并根據驗證結果將問題分為簡單、中等和困難三個等級。針對不同等級的問題,采用不同的細化策略:簡單問題直接保留前兩條最優路徑;中等問題使用錯誤細化器(Error Refiner)修正并擴展路徑;困難問題則直接利用GPT-o1生成準確路徑。
推理訓練策略分析
  1. 數據準備:利用響應摘要器(Response Summarizer)將每條思維鏈壓縮成簡潔的答案解釋,生成三種不同粒度的數據實例:CoT實例(包含完整思維鏈)、Response實例(僅包含答案摘要)和Reason實例(結合思維鏈與答案摘要)。
  2. 模型微調:使用LlamaFactory框架對Qwen2.5-7B模型進行三輪監督微調,分別基于CoTMed-7B(僅CoT實例)、ResponseMed-7B(僅Response實例)和ReasonMed-7B(Reason實例)數據集。
  3. 性能評估:在MedQA、MedMCQA、PubMedQA和MMLU等醫療問答基準數據集上評估微調后模型的性能,分析不同訓練策略對模型性能的影響。

研究結果

數據集質量
  1. 規模與多樣性:ReasonMed數據集包含37萬個高質量醫療推理示例,規模遠超現有數據集,且通過多智能體系統生成,確保了數據的多樣性和覆蓋面。
  2. 質量驗證:通過嚴格的驗證和細化流程,確保了數據集中每條推理路徑的正確性和邏輯連貫性。實驗結果表明,經過細化后的數據集在質量上顯著優于原始數據集。
模型性能
  1. CoTMed-7B:基于完整思維鏈進行微調的模型,在大多數基準數據集上表現出色,尤其在MedQA、MedMCQA和PubMedQA等復雜醫療問答任務中取得了顯著成績。
  2. ResponseMed-7B:僅基于答案摘要進行微調的模型,在保持較低計算成本的同時,仍能在MedQA等數據集上取得競爭性結果,表明簡潔答案摘要在醫療問答中的有效性。
  3. ReasonMed-7B:結合完整思維鏈與答案摘要的混合策略進行微調的模型,在所有基準數據集上均取得了最佳性能,尤其在MedMCQA和PubMedQA等復雜任務中表現突出,驗證了混合策略的有效性。
訓練策略分析
  1. 多步思維鏈的重要性:實驗結果表明,包含完整思維鏈的微調策略能顯著提升模型在復雜醫療問答任務中的性能,表明多步推理在醫療領域的重要性。
  2. 簡潔答案摘要的潛力:盡管ResponseMed-7B在整體準確性上略低于CoTMed-7B,但其計算成本更低,且在某些任務中仍能取得競爭性結果,表明簡潔答案摘要在醫療問答中具有一定的應用潛力。
  3. 混合策略的優勢:ReasonMed-7B通過結合完整思維鏈與答案摘要,實現了性能與效率的平衡,為醫療推理模型的訓練提供了新的思路。

研究局限

  1. 計算資源限制:由于計算資源的限制,本研究未將多尺度微調實驗擴展到7B參數以上的模型。因此,對于更大規模模型在醫療推理任務中的表現仍需進一步探索。
  2. 數據過濾與評估的依賴性:本研究的數據過濾(驗證器和質量排名器)和最終質量評估(評分評估器)均依賴于其他大型語言模型(如Qwen-2.5-72B和GPT-4o),這些模型可能存在偏差或系統錯誤,偶爾會導致誤判。
  3. 模型泛化能力:盡管ReasonMed-7B在多個基準數據集上表現出色,但其在實際醫療場景中的泛化能力仍需進一步驗證。醫療領域的復雜性和多樣性要求模型具備更強的泛化能力,以應對各種未知情況。

未來研究方向

  1. 擴展數據集規模與多樣性:未來研究可進一步擴展ReasonMed數據集的規模和多樣性,納入更多醫療領域的知識和案例,以提升模型的覆蓋面和推理能力。
  2. 探索更大規模模型的微調:隨著計算資源的不斷增加,未來研究可嘗試將多尺度微調策略應用于更大規模的模型(如10B-100B參數范圍),以探索其在醫療推理任務中的潛力。
  3. 增強模型的泛化能力:通過引入更多樣化的訓練數據和更先進的微調策略,增強模型在復雜醫療場景中的泛化能力,提高其在實際應用中的可靠性和準確性。
  4. 結合多模態信息:醫療領域不僅包含文本信息,還涉及圖像、視頻等多種模態的數據。未來研究可探索如何將多模態信息融入醫療推理模型中,以進一步提升其性能和應用范圍。
  5. 倫理與安全性研究:隨著醫療推理模型在實際應用中的不斷推廣,其倫理和安全性問題也日益凸顯。未來研究需關注模型的倫理和安全性問題,制定相應的規范和標準,確保其在醫療領域的健康、可持續發展。

綜上所述,本研究通過構建大規模、高質量的醫療推理數據集ReasonMed,并系統分析不同推理訓練策略對模型性能的影響,為醫療推理模型的訓練和應用提供了新的思路和方法。未來研究可在此基礎上進一步探索數據集擴展、模型微調、泛化能力提升以及多模態信息融合等方面的問題,推動醫療推理模型在醫療領域的廣泛應用和發展。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/85242.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/85242.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/85242.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

singlefligt使用方法和源碼解讀

singlefligt使用方法和源碼解讀 介紹 sync.once保證其整個生命周期內只調用一次;而singleflight則可以保證在一定范圍內其只調用一次。 背景|使用場景 應對緩存擊穿:加鎖可以解決這個問題,但是加鎖不太靈活(不能控制訪問頻率之…

HTTP 協議的基本概念(請求/響應流程、狀態碼、Header、方法)問題解決方案大全

HTTP 協議的基本概念(請求/響應流程、狀態碼、Header、方法)問題解決方案大全 一. 摘要 HTTP 協議是 Web 開發的基石,但初學者往往只停留在 GET、POST 的層面,對重定向機制、緩存控制、請求體解析等概念缺乏深入理解,…

Python中常用的函數

以下是Python中常用的函數分類整理,涵蓋基礎操作、數據處理、文件操作、面向對象等場景,并附上示例說明: --- ### **一、基礎內置函數** | 函數 | 作用 | 示例 | |----…

【Windows】刪除鼠標右鍵多余菜單的方法

要刪除鼠標右鍵菜單中的多余菜單,如:“打開抖音壁紙”選項,通常需要通過修改注冊表或使用第三方工具來清理殘留的注冊表項。以下是詳細步驟(操作注冊表前務必備份!): 方法一:通過注冊…

【性能優化】啟用zram

性能優化 系統內存不足時,可以考慮啟動ZRAM功能(壓縮內存)。關于ZRAM的概念,可自行學習。這里記錄一下,啟用ZRAM的方式。 啟用ZRAM,可能會導致CPU升高,以及低內存時的惡性循環。是否啟用需要綜…

深度解析YOLOv8:CSPHet卷積結構如何實現極致輕量化

文章目錄 一、背景介紹1.1 YOLOv8的現狀1.2 降參數的必要性 二、相關技術介紹2.1 Dual思想2.2 HetConv 三、CSPHet結構設計3.1 CSP模塊的改進3.2 結合HetConv3.3 參數量的下降 四、CSPHet的代碼實現五、實驗結果六、總結與展望 在目標檢測領域,YOLO系列算法一直以其…

適配器模式demo

#include <QCoreApplication> #include <iostream>using namespace std;class XmCom { public:void ComByXm(){cout << "XM電源適配器只適用于小米筆記本電腦" << endl;} };class LxCom { public:virtual void ComByLx() 0;virtual ~LxCom…

數據處理考核要求-SQL測試的答案

在一個團隊中&#xff0c;有業務人員。如業務人員深入理解數據處理的內容&#xff0c;會大幅度增強相互配合的效率。 針對業務人員進行針對性培訓&#xff0c;還是比較容易掌握SQL的數據處理。類似與大學里面開的一門選修課。數據集選擇帆軟的Demo數據集。 業務人員學會SQL的…

第十七屆全國大學生數學競賽(數學類)初賽模擬試題

上周組委會發布了第十七屆全國大學生數學競賽通知&#xff0c;初賽暫定于2025年11月8日(星期六)上午9:00-11:30舉行&#xff0c;同時今年新增了個亮點&#xff0c;針對與數學類的同學&#xff0c;即&#xff1a; 為提升全國大學生數學競賽的含金量和公平性&#xff0c;并進一步…

解決: React Native iOS webview 空白頁

iOS react-native-webview 之前是正常的, 升級了 react-native / react-native-webview 等 之后, 就變成了空白頁. 通過下面的修改, 可以修復, 回到正常的狀態. 來源: https://github.com/react-native-webview/react-native-webview/issues/3697 diff --git a/node_modules/…

VMware安裝Ubuntu并實現root遠程登錄

前置信息 垃圾Ubuntu系統默認ssh、vim都沒有&#xff01;&#xff01;&#xff01; 已踩坑cnmUbuntu處于sb安全機制要求&#xff0c;默認是禁用root直接登錄的 1、修改root密碼 sudo -sH &#xff08;可以讓一個具有sudo權限的普通用戶進入 root&#xff09; 然后就是pas…

量化面試綠皮書:20. 正態生成

文中內容僅限技術學習與代碼實踐參考&#xff0c;市場存在不確定性&#xff0c;技術分析需謹慎驗證&#xff0c;不構成任何投資建議。 20. 正態生成 Q: 如何生成兩個標準正態分布&#xff08;N(0,1)&#xff09;的隨機變量&#xff0c;使它們之間的相關系數為p&#xff0c;假設…

Arduino入門教程:10、屏幕顯示

飛書文檔https://x509p6c8to.feishu.cn/docx/N45Pd0tA1oaC4CxUWZjc8Ekyn0b 屏幕應用場景 課程使用的SSD1306是一款128*64像素可以使用IIC驅動的OLED屏幕。 SSD1306 Oled顯示模塊共有4個引腳&#xff0c;標記為GND, VCC, SCL和SDA。這種Oled顯示模塊可以使用3.3V到5V輕松上電。…

華為云Flexus+DeepSeek征文|體驗華為云ModelArts快速搭建Dify-LLM應用開發平臺并創建自己dify釘釘群聊機器人

華為云FlexusDeepSeek征文&#xff5c;體驗華為云ModelArts快速搭建Dify-LLM應用開發平臺并創建自己dify釘釘群聊機器人 什么是華為云ModelArts 華為云ModelArts ModelArts是華為云提供的全流程AI開發平臺&#xff0c;覆蓋從數據準備到模型部署的全生命周期管理&#xff0c;幫…

【Pytorch】(1)Pytorch環境安裝-①創建虛擬環境

提示&#xff1a;文章寫完后&#xff0c;目錄可以自動生成&#xff0c;如何生成可參考右邊的幫助文檔 文章目錄 前言一、創建Pytorch的虛擬環境 前言 提示&#xff1a;以下是本篇文章正文內容&#xff0c;下面案例可供參考 一、Anaconda環境基礎操作 1.1 啟動Anaconda Prompt …

如何自定義WordPress登錄頁面,提升用戶體驗和安全性

WordPress是目前最受歡迎的網站搭建平臺之一&#xff0c;無論是個人博客、企業網站&#xff0c;還是電商平臺&#xff0c;很多人都選擇用它來搭建自己的網站。不過&#xff0c;很多WordPress用戶會發現默認的登錄頁面相對普通&#xff0c;無法體現自己網站的特色。其實&#xf…

Coze扣子 - AI生成數字人口播視頻

一、數字人介紹 數字人&#xff08;Digital Human&#xff09;是指利?先進的數字技術和??智能創建的虛擬人 類形象&#xff0c;能夠模擬?類的外貌、?為和情感。數字?不僅可以在視覺上表 現出真實的?類特征&#xff0c;還可以通過?然語?處理與?戶進?互動。 Coze通過全…

【請關注】真實案例pg及kong安裝部署

# 前提需要安裝好nfs KONG_NAMESPACE="kong-api" PG_NAMESPACE="pg-ha" HARBOR_IP="harbor.rancher.com" 一、安裝pg高可用####################################################################################### kubectl creat…

SSRF7 SSRF漏洞的檢測方式

我們可以進入bp利用bp模塊collaborator&#xff0c;進行檢測&#xff1a; 我們點擊復制到剪切板&#xff1a; 然后再到目標網站進行構造URL&#xff1a; http://192.168.112.12/pikachu-master/vul/ssrf/ssrf_curl.php?urlmvluewtgs390alohzqjakhu2qtwkkc81.oastify.com 然…

C++ 函數的使用

C中的函數是實現代碼復用和模塊化的基本單元。下面從定義、調用、參數傳遞、常見樣式、聲明和分文件編寫等方面進行介紹。 1. 函數定義 函數定義包括返回類型、函數名、參數列表和函數體&#xff1a; 返回類型 函數名(參數列表) {// 函數體return 返回值; // 如果返回類型不是…