CVPR 2025 | 優化SAM:高效無監督Prompt與偏好對齊驅動的半監督醫學分割
論文信息
- 標題:Enhancing SAM with Efficient Prompting and Preference Optimization for Semi-supervised Medical Image Segmentation
- 作者:Aishik Konwer, Zhijian Yang, Erhan Bas, Cao Xiao, Prateek Prasanna, Parminder Bhatia, Taha Kass-Hout
- 單位:Stony Brook University, GE Healthcare
- 會議:CVPR 2025
背景簡介
Segment Anything Model(SAM)等基礎模型已成為醫學圖像分割的重要工具,但仍依賴大量人工標注或專家prompt,難以充分利用無標注大數據,且人工成本高昂。現有自監督/弱監督提升方案要么僅用于訓練偽標簽,要么缺乏高效的偏好對齊,仍未實現真正低標注、高性能的自動化醫學分割。
創新方法
-
高效無監督Prompt生成
- 融合BiomedCLIP、MedVInT(VQA)、GPT-4等多模態大模型,自動生成融合語義、定位、形狀等關鍵信息的bounding box和文本prompt,無需人工參與。
- 視覺prompt基于CLIP生成顯著性圖+CRF優化,提取目標區域坐標;文本prompt融合疾病/器官通用描述和VQA輸出。
-
偏好對齊的直接優化(Direct Preference Optimization, DPO)
- 訓練初期用少量標注數據微調prompt模塊,后續在無標注數據上,通過“虛擬標注員”對多組掩碼候選進行評分/排序,直接優化模型對偏好分割的正確性,無需顯式reward建模或真實人工反饋。
- DPO損失函數可自動獎勵高分候選,懲罰低分候選,實現端到端半監督優化。
方法流程
- 階段一(Prompt微調):用10%有標注數據,聯合視覺(BiomedCLIP)+文本(MedVInT+GPT-4)prompt指導SAM-Med2D主干微調。
- 階段二(偏好對齊訓練):剩余無標注數據,自動生成多組分割候選,用IoU分數(與真實掩碼對比模擬虛擬評分)分為4檔,依照DPO損失優化模型,使其輸出更貼合高評分分割。
- 端到端無需Reward模型:全流程無需人工反饋或reward函數訓練,極簡實現,高效易用。
主要實驗與結果
- 數據集:涵蓋胸部X光肺分割、乳腺超聲腫瘤分割、Abdominal CT多器官分割,支持X-ray、US、CT等多模態。
- 少標注強性能:僅用10-20%標注數據,性能大幅優于U-Net、nnU-Net、SAM、SAM-Med2D、Self-prompt等SOTA方法,在20%數據下胸片Dice達到78.87,遠超同類。
- 半監督優勢明顯:在50%數據量下,半監督DPO模型Dice可達89.68,接近全監督prompt-only模型(91.42)。
- 邊界精度與泛化:分割邊界更精細,腫瘤/肺/多器官實驗中對小結構和難分割區域表現突出。
- 魯棒性:評分噪聲(虛擬評分誤差)下性能損失極小,體現方法穩健性。
消融實驗
- 各模塊貢獻明確:無監督prompt、VQA、GPT-4等模塊疊加顯著提升性能。
- 不同Preference策略:排名優于單獨評分和“只優化最好”候選,且無監督數據越多,提升越大。
- 參數選擇:DPO損失中的權重參數經實驗證明最優為β1=1, β2=0.5。
總結與展望
本方法實現了面向半監督醫學圖像分割的高效無監督prompt+偏好對齊優化,極大降低對人工標注和專家干預的依賴,泛化性和實用性突出。未來可拓展至3D/時序醫學影像、更多大模型prompt融合與真實用戶偏好采集。
歡迎關注,獲取更多CVPR 2025醫學AI前沿論文解讀!