? 背景動機
- 數字病理中的語義分割(semantic segmentation)是非常關鍵的,比如腫瘤檢測、組織分類等。
- SAM(Segment Anything Model)推動了通用分割的發展,但在病理圖像上表現一般。
病理圖像(Pathology Images)指的是通過顯微鏡觀察生物組織切片后拍攝的圖像,主要用來幫助醫生診斷疾病。 - SAM2相較于SAM提升了準確率和泛化性,但在病理圖像分割上,直接用SAM2還是不夠好。
- 因此,Path-SAM2提出了專門為病理圖像設計的SAM2變體。
🛠 方法設計
整體架構如下:
主要包括:
- SAM2圖像編碼器
- 外部病理編碼器UNI
- 維度對齊模塊
- KAN分類模塊(取代傳統prompt)
- 混合解碼器
1. Pathology Encoder
- SAM2自帶的Hiera網絡是為自然圖像設計的,不夠理解病理圖像細節。
- 新引入了UNI —— 一個在1億張H&E病理圖上自監督訓練的超大模型,專門懂病理。
- 做法:將SAM2編碼器輸出和UNI編碼器輸出拼接(concat),作為后續特征輸入。
2. KAN分類模塊(取代Prompt)
- 傳統SAM需要人工給“點提示”(點在腫瘤位置提示模型),很麻煩。
- 這里引入了Kolmogorov–Arnold Network(KAN),代替人工prompt,自動生成分類提示。
- KAN的特點:用可學習的單變量函數,取代傳統MLP的線性權重,提升了參數利用率和解釋性。
3. Loss設計
- 總損失 = **Dice Loss + Focal Loss + IOU Loss(MSE)**的加權組合。
- 參數 α 和 β 控制各部分的比重(文中默認α=0.125,β=0.01)。
📊 實驗與結果
數據集
- EBHI:4,456張 224×224 的切片
- CRAG:213張 1536×1536 的大圖
- GlaS:165張 522×775 的腸腺癌組織
實驗設置
- 使用SAM2和UNI的預訓練權重
- 三層KAN網絡
- 優化器:AdamW
- 訓練硬件:4× RTX V100 GPU
主要結果(見表格)
方法 | EBHI IOU | CRAG IOU | GlaS IOU |
---|---|---|---|
Fine-tuned SAM2 | 50.24% | 53.17% | 47.82% |
MedSAM2 (pp) | 62.29% | 49.72% | 48.55% |
Path-SAM2 (Ours) | 93.17% | 89.38% | 92.02% |
- ?? Path-SAM2在三個病理數據集上都大幅領先其他方法。
- ?? 引入UNI病理知識+KAN分類模塊的改動起了決定性作用。
- ?? 相比SAM/SAM2,即便人工精細點prompt,Path-SAM2仍明顯更好。
Ablation Study(消融實驗)
- 證明了KAN模塊比傳統MLP更好,帶來了顯著的IOU提升。
🏁 結論
- Path-SAM2是首個基于SAM2,且針對病理圖像語義分割特別設計的模型。
- 核心貢獻:
- 結合了UNI病理編碼器增強病理領域知識。
- 用KAN分類器代替人工prompt,提升了自動化和精度。
- 在多個病理數據集上驗證了出色性能,未來會公開代碼和模型權重。