摘要:推理是推進醫學影像分析的關鍵前沿領域,其中透明度和可信度對于贏得臨床醫生信任和獲得監管批準起著核心作用。盡管醫學視覺語言模型(VLMs)在放射學任務中展現出巨大潛力,但大多數現有VLM僅給出最終答案,而不揭示其背后的推理過程。為了填補這一空白,我們推出了MedVLM-R1,這是一種能夠明確生成自然語言推理的醫學VLM,以增強透明度和可信度。MedVLM-R1沒有采用常因過擬合訓練數據分布而無法培養真正推理能力的監督微調(SFT)方法,而是采用了一種強化學習框架,激勵模型在不使用任何推理參考的情況下發現人類可解釋的推理路徑。盡管訓練數據有限(600個視覺問答樣本)且模型參數較少(20億),但MedVLM-R1在MRI、CT和X射線基準測試中的準確率從55.11%提升到了78.22%,表現優于在超過一百萬樣本上訓練的更大型模型。此外,它還在非分布內任務中展現出了強大的域泛化能力。通過將醫學影像分析與明確推理相結合,MedVLM-R1標志著在臨床實踐中邁向可信且可解釋的人工智能的重要一步。Huggingface鏈接:Paper page論文鏈接:2502.19634
一、引言
隨著醫學影像技術的快速發展,每年進行的醫學影像掃描數量已超過80億次。在診斷需求不斷增長的背景下,對高效的人工智能(AI)驅動影像解讀的需求也日益迫切。醫學視覺語言模型(VLMs)作為處理醫學影像與文本信息融合的重要工具,在放射學視覺問答(VQA)等任務中展現出了巨大潛力。然而,現有醫學VLM大多僅能提供最終答案,缺乏對其推理過程的解釋,這在臨床應用中引發了對透明度和可信度的關注。本文介紹的MedVLM-R1模型,旨在通過強化學習(RL)框架激勵模型生成明確的自然語言推理,從而提升醫學影像分析的透明度和可信度。
二、背景與動機
1. 醫學影像分析的挑戰
醫學影像分析在現代醫療中占據核心地位,但其復雜性和多樣性對AI模型提出了高要求。透明度和可信度是贏得臨床醫生信任和獲得監管批準的關鍵因素。然而,傳統醫學VLM往往僅關注最終答案的準確性,忽略了推理過程的解釋,這限制了它們在臨床決策支持中的應用。
2. 現有醫學VLM的局限性
當前,大多數醫學VLM采用監督微調(SFT)策略進行訓練,這種方法依賴于最終答案的監督信號。然而,SFT存在兩個主要問題:一是過擬合訓練數據分布,導致在未見過的數據(即分布外數據)上表現不佳;二是缺乏對推理能力的真正培養,因為直接監督最終答案無法有效激勵模型學習推理步驟。盡管可以通過蒸餾教師模型的鏈式思考(CoT)推理來改進SFT,但在醫療等專業領域構建高質量的CoT數據成本高昂且難以擴展。
3. 強化學習的優勢
與SFT不同,強化學習(RL)通過獎勵模型發現自己的邏輯步驟來培養推理能力,而不是記憶最終答案或復制教師的CoT推理。RL訓練的模型通常顯示出比SFT模型更好的泛化能力。特別地,組相對策略優化(GRPO)作為一種RL算法,通過規則基組相對優勢選擇動作,消除了對神經獎勵模型的需求,從而降低了計算需求,非常適合資源受限的醫療領域。
三、MedVLM-R1模型介紹
1. 模型概述
MedVLM-R1是一種能夠生成明確推理過程的醫學VLM,它采用GRPO框架進行訓練,旨在提升醫學影像分析的透明度和可信度。該模型不僅提供最終答案,還通過自然語言形式詳細闡述其推理過程。
2. 模型架構與訓練
MedVLM-R1以Qwen2-VL-2B作為基礎模型,該模型預先在網頁數據、開源數據集和合成數據上進行了訓練。為了將Qwen2-VL-2B適應醫學領域,研究團隊采用了GRPO強化學習框架。在訓練過程中,模型接收包含圖像和文本提示的輸入,并生成包含推理過程和最終答案的輸出。推理過程被封裝在<think>...</think>標簽中,而最終答案則位于<answer>...</answer>標簽內。
GRPO的訓練過程包括以下幾個步驟:首先,從當前模型參數下的分布中采樣多個候選輸出;然后,根據預設的獎勵函數計算每個輸出的獎勵,并計算組相對優勢;最后,通過最大化包含裁剪正則化的相對優勢估計來更新模型參數,以防止災難性遺忘。獎勵函數由格式獎勵和準確性獎勵兩部分組成,格式獎勵確保輸出符合預定義的結構,而準確性獎勵則評估最終答案的正確性。
3. 數據集與實驗設置
研究團隊使用HuatuoGPT-Vision評估數據集進行實驗,該數據集是從多個公開可用的醫學VQA基準數據集合并而來,包括VQA-RAD、SLAKE、PathVQA、OmniMedVQA和PMC-VQA等。數據集包含17,300個與醫學影像(如MRI、CT和X射線)相關的多選題,每個問題有2到6個選項。研究團隊使用600個MRI圖像-問題對進行訓練,并將300個MRI、300個CT和300個X射線圖像-問題對分別用于測試。MRI測試集用于域內測試,而CT和X射線測試集則用于分布外測試。
4. 實驗結果與討論
MedVLM-R1在域內和分布外測試集上均表現出色。與基于SFT的模型相比,MedVLM-R1在分布外測試集上的準確率提升顯著,特別是在CT和X射線測試集上分別提高了16%和35%。此外,盡管MedVLM-R1是一個參數較少(20億)且訓練數據有限(600個樣本)的模型,但其性能卻優于在超過一百萬樣本上訓練的更大型模型(如Qwen2-VL-72B和HuatuoGPT-Vision-7B)。
MedVLM-R1的核心優勢在于其能夠生成明確的自然語言推理。如圖2所示,MedVLM-R1為每個問題提供了詳細的推理過程,這些推理過程在邏輯上與醫學知識相一致。然而,對于一些更復雜的問題,MedVLM-R1的推理可能顯得啟發式或部分性。例如,在某些情況下,模型通過排除法得出正確答案,而不是基于詳細的醫學分析。此外,盡管MedVLM-R1在大多數情況下能夠提供有意義的推理過程,但有時也會給出與結論不一致的推理,這表明即使是為解釋性設計的模型也可能偶爾回歸到膚淺或幻覺般的合理化過程。
四、模型限制與未來展望
1. 模型限制
盡管MedVLM-R1在醫學影像分析方面取得了顯著進展,但仍存在一些限制。首先,當測試其他醫學模態(如病理圖像或OCT圖像)時,模型無法收斂。這可能是由于基礎模型在預訓練期間對這些模態的暴露不足所致。其次,當前方法僅適用于多選題(閉集)VQA任務,在開放性問題設置下(即沒有預定義選項的問題)性能顯著下降。這也是許多VLM面臨的共同挑戰。最后,盡管MedVLM-R1在大多數情況下能夠提供有意義的推理過程,但有時會給出膚淺或幻覺般的合理化過程,這表明在生成一致透明和邏輯合理的推理方面仍存在挑戰。
2. 未來展望
針對上述限制,研究團隊計劃在未來工作中采取以下措施進行改進:首先,將MedVLM-R1部署在更大規模的VLM主干網絡上,以評估其性能是否有所提升。其次,探索將MedVLM-R1擴展到開放性問題設置下的方法,以進一步提高其泛化能力。最后,研究如何優化獎勵函數和訓練過程,以鼓勵模型生成更一致、透明和邏輯合理的推理過程。
五、結論
本文介紹了MedVLM-R1模型,一種通過強化學習激勵醫學視覺語言模型推理能力的創新方法。MedVLM-R1不僅能夠提供準確的最終答案,還能夠生成明確的自然語言推理過程,從而顯著提升了醫學影像分析的透明度和可信度。盡管仍面臨一些挑戰和限制,但MedVLM-R1標志著在臨床實踐中邁向可信且可解釋的人工智能的重要一步。隨著研究的深入和技術的不斷進步,相信未來會有更多類似MedVLM-R1的模型涌現出來,為醫學影像分析領域帶來更多的創新和突破。