MiniGPT-Med 通用醫學視覺大模型:生成醫學報告 + 視覺問答 + 醫學疾病識別
- 提出背景
- 解法拆解
?
論文:https://arxiv.org/pdf/2407.04106
代碼:https://github.com/Vision-CAIR/MiniGPT-Med
提出背景
近年來,人工智能(AI)的進步引發了醫療保健領域的重大突破,特別是在精細化診斷程序方面。
然而,先前的研究往往局限于有限的功能。
本文介紹了MiniGPT-Med,一種從大規模語言模型中派生并專為醫療應用量身定制的視覺-語言模型。
MiniGPT-Med在各種成像模態(包括X射線、CT掃描和MRI)中展示了卓越的多功能性,提升了其實用性。
該模型能夠執行醫學報告生成、視覺問答(VQA)和醫學圖像中的疾病識別等任務。
其對圖像和文本臨床數據的集成處理顯著提高了診斷準確性。
我們的實證評估證實了MiniGPT-Med在疾病定位、醫學報告生成和VQA基準測試中的優異表現,代表了在輔助放射學實踐方面的一大進步。
此外,它在醫學報告生成方面取得了最先進的性能,比之前的最佳模型高出19%的準確率。
MiniGPT-Med有望成為放射學診斷的一般界面,提升各種醫學影像應用中的診斷效率。
這張圖展示了MiniGPT-Med模型在醫學影像處理和疾病診斷方面的多樣能力。圖中主要包含以下信息:
-
模型簡介:
- 名稱:MiniGPT-Med
- 功能:能夠處理所有醫療模態,包括X射線、CT掃描和MRI圖像。
- 疾病檢測:可以檢測超過14種疾病,如肺炎、水腫、腦腫瘤、肺癌等。
- 數據集:在五個醫療數據集上進行訓練,包括MIMIC、RSNA、NLST、RadVQA和SLAKE。
-
模型任務:
- 視覺語言任務:模型能夠執行6種不同的視覺語言任務,包括疾病檢測、圖像描述(Captioning)、視覺問答(VQA)、定位(Grounding)、引用表達理解(Refer)和識別(Identify)。
-
基準對比:
- 圖表列出了MiniGPT-Med與其他幾種模型(LLaVA-Med、RadFM、XrayGPT、CheXagent、MedKLIP、BioViL)在這些任務上的表現對比。
- MiniGPT-Med:在所有任務(檢測、描述、VQA、定位、引用、識別)上都表現出色,均為對號(?)。
- 其他模型:各模型在不同任務上的表現有所不同。例如:
- LLaVA-Med只在VQA任務上表現較好。
- RadFM在VQA和定位任務上表現不錯。
- MedKLIP在檢測和識別任務上表現良好。
總結:MiniGPT-Med是一個功能全面的醫學影像處理模型,能夠在多個任務上提供優異的性能,相比其他模型更為全面和高效。
解法拆解
這張圖展示了MiniGPT-Med的架構概覽,具體包括以下幾個關鍵部分:
-
視覺編碼器(Vision Encoder):
- 輸入的醫學圖像(如CT掃描圖像)首先通過視覺編碼器進行處理。
- 使用預訓練的EVA視覺編碼器將圖像轉換為視覺語義特征。
- 視覺編碼器在整個訓練過程中保持參數不變(凍結狀態)。
-
線性投影層(Linear Projection Layer):
- 從視覺編碼器輸出的特征被連接成單一的視覺標記。
- 線性投影層將這些視覺標記映射到大型語言模型的特征空間中。
-
大型語言模型(Large Language Model):
- 使用LLaMA2-chat作為主要語言模型。
- 語言模型處理經過投影的視覺標記,并結合文本指令生成輸出。
- 圖中展示了指令示例:[INST] [refer] What part of the image indicates cancer? [/INST]。
-
輸出:
- 語言模型生成對輸入圖像的描述或回答問題。
- 在圖中,輸出的結果是一個帶有病灶區域邊界框的圖像,病灶的坐標格式為<nodule (<29><43><42><56>)>。
圖示解說了MiniGPT-Med模型如何處理單個醫學圖像,將其轉換為視覺語義特征,然后通過線性投影層和大型語言模型生成詳細的診斷報告或回答醫學相關的問題。
在整個訓練過程中,視覺編碼器的參數保持不變,而對大型語言模型和線性投影層進行微調。
目的:高效的醫學視覺語言模型├── 子解法1:采用EVA作為視覺編碼器│ └── 特征:處理復雜圖像結構和變化├── 子解法2:采用LLaMA2-chat作為語言模型│ └── 特征:生成醫學報告,定位腫瘤├── 子解法3:采用MiniGPT-v2架構,連接視覺標記│ └── 特征:提高處理高分辨率圖像的效率├── 子解法4:添加任務特定標記│ └── 特征:減少多任務環境中的幻想和混淆└── 子解法5:文本表示邊界框└── 特征:增強模型對圖像空間信息的理解