Deep semi-supervised learning for medical image segmentation: A review

概述

在這里插入圖片描述

醫學圖像分割的重要性：它是計算機輔助診斷（CAD）的關鍵部分，能幫助醫生定位病變、評估治療效果，減輕醫生工作量。
深度學習技術的應用：U-Net等網絡在醫學圖像分割中表現優異，近期大型視覺語言模型也展現出潛力。
數據稀缺的挑戰：醫學圖像標注數據少（因疾病罕見、隱私問題、標注成本高），導致模型容易過擬合。
現有解決方案的局限性：降低模型復雜度、正則化、數據增強等方法效果有限。
半監督學習的潛力：通過利用少量標注數據和大量未標注數據，可能緩解數據稀缺問題，包括傳統方法（多視圖、圖模型、生成模型）和深度半監督學習。

現在AI技術（尤其是深度學習）在醫學影像分析中很厲害，比如用U-Net這種網絡可以自動圈出CT或MRI圖像里的腫瘤或器官，幫醫生更快診斷。但問題是，訓練這些AI需要大量帶標注的醫療圖片，而現實中這種數據很難搞到——要么因為罕見病例少，要么因為患者隱私保護，而且請專家標注圖片又貴又費時間。

目前解決數據少的方法（比如簡化AI模型、數據增強）效果一般，所以研究者開始嘗試“半監督學習”：讓AI既學少量標注數據，也利用大量未標注數據（比如醫院里現成的未標記片子），這樣可能更省錢又高效。

假設你要教小朋友認動物，但只有幾張帶標簽的貓狗圖片（有標注數據），和一堆無標簽的動物照片（未標注數據）。傳統方法是只反復用那幾張帶標簽的圖訓練，而深度半監督學習會

先用帶標簽的圖教基礎規則（比如貓有尖耳朵）。
對無標簽圖片，讓模型自己猜標簽（偽標簽）或發現規律（比如“這兩張圖耳朵形狀一致，可能是同類”）。
通過設計更聰明的練習（損失函數）或學習工具（模型結構），讓小朋友舉一反三，最終認得更準

![[Pasted image 20250702095110.png]]

三個關鍵假設

平滑假設（保證局部一致性）

相似的輸入，應該有相似的輸出
如果兩個樣本（比如兩張醫學圖像）在特征空間里距離很近（比如像素分布、紋理相似），那它們的標簽（比如是否患病）也應該相似

聚類假設（保證全局一致性）

同一類別的數據會聚在一起
數據在特征空間中會形成聚類（Cluster），同一聚類內的樣本屬于同一類別
因此，決策邊界（分類的分界線）應該避開高密度區域（即不要穿過聚類中心）

低密度分離假設

分類邊界應該位于數據稀疏的地方
聚類假設的強化版，明確要求決策邊界不能穿過數據密集區，而要在空白區域。

圖像五大分割方法

偽標簽法（Pseudo-Labeling）

先用標注數據訓練初始模型，然后用該模型對未標注數據預測偽標簽（Pseudo-Label），再將這些偽標簽加入訓練集重新訓練模型。

典型方法：

自訓練（Self-training）：模型自己生成偽標簽迭代優化。
協同訓練（Co-training）：多個模型互相提供偽標簽（如不同視角或模態的數據）。

改進方向：

篩選高置信度偽標簽（避免錯誤標簽累積）。
動態閾值調整（不同類別采用不同置信度閾值）。
不確定性估計（剔除不可靠預測）。

優點：簡單易實現，計算成本低
缺點：錯誤偽標簽會導致“累積偏差”（誤差越來越大）
未來方向：結合不確定性建模、多模型協同優

一致性正則化（Consistency Regularization）

對同一輸入施加不同擾動（如噪聲、數據增強），要求模型輸出保持一致（即預測結果不應因微小變化而劇烈波動）

![[Pasted image 20250702114946.png]]

（1）數據一致性（Data Consistency）
對未標注數據進行不同增強或擾動，強制模型對這些變體給出相同或相似的預測

（2）模型一致性（Model Consistency）
對模型本身施加約束（如參數擾動、多模型交互），確保不同模型變體的輸出一致

（3）任務一致性（Task Consistency）
通過多任務學習或輔助任務（如重建、分類）約束主任務（分割）的一致性。

典型方法：

Π-Model：同一圖像兩次不同增強后預測應一致。
Mean Teacher：學生模型和教師模型（EMA平滑版）輸出需一致。
FixMatch：強增強數據與弱增強數據的預測一致。

改進方向：

更強的數據增強策略（如MixUp、CutMix）。
自適應一致性權重（不同樣本賦予不同重要性）。

優點：避免依賴偽標簽，適合噪聲多的數據。
缺點：對擾動方式敏感，可能過擬合增強策略。
未來方向：自適應擾動策略、多模態一致性學習。

基于生成對抗網絡（GAN）的方法

![[Pasted image 20250702112729.png]]

利用**生成器（Generator）合成逼真數據，判別器（Discriminator）區分真實標注數據和生成數據，通過對抗訓練提升分割性能。

典型方法：

SegAN：生成器生成分割圖，判別器判斷其真實性。
CycleGAN：跨模態數據轉換（如MRI→CT）輔助分割。

改進方向：

更穩定的GAN訓練（如Wasserstein GAN）。
結合半監督損失（如一致性正則化+GAN）。

優點：能生成多樣化數據，緩解標注不足問題。
缺點：訓練不穩定，計算成本高。
未來方向：輕量化GAN、結合擴散模型（Diffusion Models）。

基于對比學習（Contrastive Learning）的方法

讓相似樣本（正樣本）在特征空間靠近，不相似樣本（負樣本）遠離，從而學習更好的特征表示(之前看過的facenet也是)

高級特征 vs. 低級特征

![[Pasted image 20250702113147.png]]

典型方法：

SimCLR：同一圖像的不同增強版本作為正樣本。
MoCo：使用動態記憶庫存儲負樣本。

改進方向：

醫學圖像特異性對比策略（如解剖結構相似性）。
減少負樣本偏差（醫學數據類別不平衡）

優點：特征提取能力強，適合小樣本場景。
缺點：需要大量負樣本，計算開銷大。
未來方向：無負樣本對比學習（如BYOL）、跨模態對比

混合方法（Hybrid Methods）

結合上述多種方法（如偽標簽+一致性正則化+對比學習），取長補短

典型方法：

UPS（Uncertainty-aware Pseudo-labeling and Self-training）：偽標簽+不確定性估計。
CCT（Cross-Consistency Training）：一致性+對比學習。

優點：性能通常優于單一方法。
缺點：設計復雜，調參難度大。
未來方向：自動化方法組合（如NAS搜索最優混合策略）。

方法	核心思想	優點	缺點	適用場景
偽標簽法	模型自生成標簽迭代訓練	簡單、計算高效	錯誤標簽累積風險	標注數據較少但質量高
一致性正則化	不同擾動下預測應一致	避免偽標簽偏差	依賴數據增強策略	數據增強有效的任務（如CT）
GAN方法	生成對抗數據提升泛化能力	數據多樣性增強	訓練不穩定、計算成本高	需要合成數據的復雜任務
對比學習	特征空間正負樣本分離	特征提取能力強	需大量負樣本、計算量大	小樣本但需強特征表示的任務
混合方法	結合多種策略	性能通常最優	設計復雜、調參難	對精度要求極高的任務

評估指標

Dice系數（Dice Score）：
- 衡量預測結果和醫生標注的重疊程度（0~1，越接近1越好）。
- 通俗理解：像“考試得分”，90分（Dice=0.9）比70分（Dice=0.7）好。
Jaccard指數（IoU）：
- 類似Dice，但計算方式不同（通常比Dice略低）。
平均表面距離（ASD）：
- 預測邊界和真實邊界的平均誤差（單位：毫米）。
- 通俗理解：像“測量腫瘤邊界的偏差”，誤差越小越好。
95% Hausdorff距離（HD95）：
- 剔除5%異常值后的最大邊界誤差（對噪聲更魯棒）。
- 通俗理解：像“去掉最離譜的錯題后，看最差能錯多遠”。

類型	代表方法	性能表現	原因分析
單模型	自訓練（Chen et al. 2022）	較低	易過擬合（標注數據少時，模型“死記硬背”）。
多模型	Mean Teacher、UMCT	更高、更穩定	多模型互相糾錯（如教師模型提供穩定偽標簽，協同訓練多視角學習）。
例外	URPC（單模型+金字塔一致性）	媲美多模型	通過多尺度（多模態？？？）一致性約束（不同放大倍率的預測需一致），減少偏差。