關注gongzhonghao【CVPR頂會精選】
今天聊一個醫學圖像領域的前沿探索:結合空間感知卷積、擴散模型與視覺語言模型,從圖像配準到合成分割,再到跨模態理解,打造了一個更加智能、魯棒且可泛化的醫學影像工具鏈。
無論是SACB-Net帶來的精準對齊,Noise-Consistent Diffusion實現的高質量合成與穩健分割,還是BIOMEDICA推動的跨學科大規模影像-文本數據資源,這些工作共同指向了醫學圖像分析的未來方向:更精確、更全面、更可解釋,有望在臨床診斷與科研中發揮革命性作用。今天小圖給大家精選3篇CVPR有關醫學圖像方向的論文,請注意查收!
論文一:SACB-Net: Spatial-awareness Convolutions for Medical Image Registration
方法:
作者將模型在3D配準骨干的關鍵層嵌入SACB,通過多尺度鄰域聚合與相對位置感知調制卷積權重,使特征同時捕捉細粒度形態與全局拓撲,從而更準確地預測致密形變場。 訓練階段以固定圖與經形變后的移動圖之間的相似性為主目標,并加入空間平滑與拓撲一致性等正則,使形變既貼合解剖邊界又保持連續穩定。推理時輸入體數據對,經SACB-Net輸出位移場并完成重采樣對齊;消融與對比顯示在多項指標上持續領先,同時幾乎不引入額外延遲。
創新點:
提3D Spatial-Awareness Convolution Block,顯式注入局部與全局空間上下文,強化方向性與幾何敏感度,從源頭提升配準表征力。
以即插即用的方式融入主流配準主干,參數與計算開銷輕量,卻在多模態與多數據集上穩定增益,具備良好可遷移性與魯棒性。
結合空間先驗的訓練與約束策略,兼顧對齊精度與形變平滑,減少結構折疊與偽配準現象,提升臨床可用性。
論文鏈接:
https://arxiv.org/abs/2503.19592
圖靈學術論文輔導
論文二:Noise-Consistent Siamese-Diffusion for Medical Image Synthesis and Segmentation
方法:
作者以孿生擴散分支在共享或配對噪聲調度下同步去噪,通過一致性損失約束兩路潛在表示與生成圖像的形態對齊,從而在合成階段即保證結構保真。 訓練時聯合標準擴散重建目標與形態敏感的分割/邊界損失,通過跨時間步的一致性正則抑制偽紋理與形變漂移,并以生成樣本動態增廣分割模型。 推理與應用階段利用少量種子便可高效生成形態穩定的樣本并無縫喂給分割網絡,帶來更好的Dice/IoU與泛化表現,同時保持合理計算與存儲開銷。。
創新點:
?設計Siamese-Diffusion架構共享或對齊噪聲過程,使成像內容在不同視角/模態下保持形態一致,從源頭抑制結構漂移。
引入跨時間步的噪聲一致性約束與形態先驗,強化邊界與解剖結構的可辨性,顯著提升下游分割質量。
打通“合成—分割”一體化訓練/增廣流程,在多數據集上相較現有擴散與分割方法取得穩定優勢與更強泛化。
論文鏈接:
https://www.alphaxiv.org/overview/2505.06068v1
圖靈學術論文輔導
論文三:BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature
方法:
團隊設計了端到端的數據管線從PubMed自動解析論文圖表與對應文字說明,結合版面/引用關系進行圖文配對、去重與質量篩查,并遵循隱私與倫理準則完成規范化清洗。接著,在模型層面采用對比對齊與生成式目標聯合預訓練,使圖像編碼與醫學文本嵌入在統一表征空間高質量對齊,同時通過領域術語與知識約束增強細粒度語義理解。 最后,在評測環節覆蓋圖文檢索、圖像描述與醫學VQA等任務,結果顯示所訓練的生物醫學VLM在準確率與穩健性上全面領先,并以開源數據與模型促進后續研究與臨床應用。
創新點:
首次從大規模PubMed文獻系統化抽取并清洗醫學圖像—標題/說明成對數據,打造開放可復用的生物醫學圖文語料庫。
以領域數據驅動的預訓練范式構建生物醫學VLM,相比通用模型顯著提升檢索、描述與問答等關鍵任務的可用性與精度。
?打通數據、模型與評測三位一體的開放生態,為可復現研究與臨床落地提供標準化基準與可擴展資源。
論文鏈接:
https://arxiv.org/abs/2501.07171
本文選自gongzhonghao【CVPR頂會精選】