【技術追蹤】SynPo:基于高質量負提示提升無訓練少樣本醫學圖像分割性能(MICCAI-2025)

??SAM 新用法,無需訓練,利用高質量負提示提升分割性能~


論文:SynPo: Boosting Training-Free Few-Shot Medical Segmentation via High-Quality Negative Prompts
代碼:https://liu-yufei.github.io/synpo-project-page/


0、摘要

??大型視覺模型(Large Vision Models,LVMs)為小樣本醫學圖像分割帶來了新機遇。然而,現有基于 LVMs 的無訓練方法未能有效利用負提示,在低對比度醫學圖像上表現不佳。(研究背景

??為此,本文提出 SynPo,一種基于 LVMs(如 SAM)的無訓練小樣本分割方法,核心思想是提升負提示的質量。

??本文設計了置信圖協同模塊,融合 DINOv2 與 SAM 的優勢,生成更可靠的置信圖。基于該置信圖,選取前 k 個像素作為正提示點集,并基于高斯分布選取負提示點集,隨后分別對兩者進行 K-means 聚類。最終,這些高質量提示點被輸入 SAM 進行分割。大量實驗表明,SynPo 的性能可與當前最優的有訓練小樣本方法相媲美。


1、引言

1.1、研究意義與當前挑戰

??(1)利用 SAM 進行無訓練小樣本分割的流程可概括如 圖 1(1) 所示。該方法以支持-查詢圖像對及支持掩膜為輸入,首先通過強預訓練視覺編碼器(如 DINO)提取支持-查詢圖像對的特征圖,隨后利用余弦距離計算查詢特征與目標特征之間的二維置信圖,并將置信圖中的最大值作為點提示,引導 SAM 在查詢圖像上完成交互式分割;

??(2)置信圖的利用仍有改進余地: DINOv2 作為該范式中常用的特征提取器,在語義特征提取方面表現出色,但其采用相對位置編碼,削弱了對絕對空間位置的感知,可能導致正提示點選擇錯誤,如 圖 1(2) 左下 所示,這會影響解剖先驗的利用,進而導致分割結果在解剖結構上不一致;而同樣廣泛使用的 SAM-ViT 采用絕對位置編碼,具備更強的空間定位能力,能夠有效避免該問題,如 圖 1(2) 右上 綠框所示;

??(3)負提示的選擇策略較為粗糙: 導致分割性能下降。現有方法將置信圖中與目標區域相似度最低的像素作為負提示,使得大多數負提示集中在背景區域,而非解剖區域內,圖 1(3) 中的先導實驗表明,該方式違背直覺,效果不佳;
??
Figure 1 | 無訓練少樣本分割面臨的挑戰:(1) 無訓練小樣本點提示分割模型的通用流程;(2) 不同置信圖(C. Map)與真實標簽對比,DINOv2 特征生成的置信圖誤將右側無關區域識別為“相似”;SAM-ViT 特征的置信圖數值區分度較低,本文提出的協同置信圖融合兩者優勢,彌補各自不足;(3) 先導實驗:在解剖區域外設置負提示,即使正提示位置相同,分割性能仍低于在區域內設置負提示;

在這里插入圖片描述

1.2、本文貢獻

??(1)提出了一種新穎的無訓練方法 SynPo,包含置信圖協同模塊點提示選擇模塊

??(2)借助 SAM 在低層空間信息捕捉方面的優勢,彌補 DINOv2 特征的不足,設計了置信圖協同模塊,該模塊融合 DINOv2 的高層語義特征與 SAM-ViT 的絕對空間信息,提升解剖結構的識別能力并優化分割邊界;

??(3)點提示策略模塊通過在解剖區域內啟發式地選擇負提示,提升了負提示的信息量,增強了提示引導效果,減少了冗余信息;

??(4)引入噪聲感知優化模塊,結合標準形態學操作與 SAM 對粗分割結果進行細化;


2、方法

2.1、總覽

??SynPo方法,如 圖 2 (1) 所示,由三個核心部分組成:置信圖協同模塊(CMSM)點選擇模塊(PSM)噪聲感知優化模塊(NRM)。給定一個支持-查詢對,首先使用預訓練的視覺模型(SAM-ViT 和 DINOv2)提取零樣本視覺特征。

??在 CMSM 中,特征圖與支持掩碼 MS∈RH×W\mathcal M_S∈\mathbb R^{H×W}MS?RH×W 共同用于計算協同映射 SynMap∈RH×WSynMap∈\mathbb R^{H×W}SynMapRH×W,并建模負置信度分布 PnegP_{neg}Pneg?,這些要素共同支撐提示信息的生成。

??在 PSM 中,協同映射中的像素按其置信度得分排序形成一個分級列表,該列表與置信度分布共同構成點提示選擇的關鍵決定因素。

??最后,生成的點提示和查詢圖像 IQI_QIQ? 被輸入到 SAM 中,以預測粗略掩碼 Mcoarse∈RH×W\mathcal M_{coarse} ∈\mathbb R^{H×W}Mcoarse?RH×W,此外,設計了額外的 NRM 來對 Mcoarse\mathcal M_{coarse}Mcoarse? 進行細化。

??
Figure 2 | :(1)SynPo 架構概述;(2)置信圖協同作用示意圖;(3)點選擇模塊圖示;

在這里插入圖片描述

2.2、置信圖協同模塊(CMSM)

??如 圖 2 (2) 所示,CMSM 是一種創新方法,它包含兩個分支來生成協同圖,并附帶生成負置信度分布。對于上分支,使用 Ms\mathcal M_sMs?Fs\mathcal F_sFs? 中提取與視覺概念中前景像素對應的支持特征:
在這里插入圖片描述
??其中 TSi∈R1×c\mathcal T_S^i ∈ \mathbb R^{1×c}TSi?R1×c??? 表示空間維度乘法運算。隨后,通過計算 TSi\mathcal T_S^iTSi? 與查詢特征 FQ\mathcal F_QFQ? 之間的余弦相似度,為每個前景像素 iii 生成 nnn 個置信度圖:
在這里插入圖片描述
??接下來,采用平均池化方法來聚合所有 nnn 個局部特征圖,從而獲得目標器官的整體置信度圖 S∈RH×W\mathcal S ∈ \mathbb R^{H×W}SRH×W

??在生成負置信度圖的下分支中,通過 Mˉs\bar{\mathcal M}_sMˉs?Fs\mathcal F_sFs? 中裁剪出視覺概念內背景像素的支持特征,其中 Mˉs\bar{\mathcal M}_sMˉs? 表示 Ms{\mathcal M}_sMs? 的逆矩陣:
在這里插入圖片描述
??其中 BSi∈R1×c\mathcal B_S^i ∈ \mathbb R^{1×c}BSi?R1×c??? 表示空間維度乘法運算。隨后,將 BS\mathcal B_SBS? 視為 Fq\mathcal F_qFq?,并以相同方式計算負置信度圖 Sneg\mathcal S_{neg}Sneg?

??隨后,將 SSAM\mathcal S_{SAM}SSAM?SDINO\mathcal S_{DINO}SDINO? 結合生成 SynMapSynMapSynMap

在這里插入圖片描述
??其中 ⊙⊙ 表示哈達瑪積,且 δS?D+δS+δD=1δ_{S-D} + δ_S + δ_D = 1δS?D?+δS?+δD?=1。第一項捕捉了兩個矩陣之間的非線性相互作用,有效地放大了結果矩陣中的極端值。這增強了對兩個置信度圖中顯著偏差的敏感性,同時降低了中性或中等數值的影響。此外,后續項為每個矩陣的貢獻提供了受控權重。接下來,對 SnegSAM\mathcal S^{SAM}_{neg}SnegSAM?SnegDINO\mathcal S^{DINO}_{neg}SnegDINO? 應用相同流程,生成融合表征,隨后將其展平以獲得 SynMapneg∈R(H×W?1)×1SynMap_{neg}∈ \mathbb R^{(H×W-1)×1}SynMapneg?R(H×W?1)×1

在這里插入圖片描述
??對于 SynMapnegSynMap_{neg}SynMapneg?,采用高斯概率密度函數對其中的每個像素值 pip_ipi? 進行建模:

在這里插入圖片描述
??其中 μμμσσσ 通過最大似然估計得出。

2.3、點選擇模塊(PSM)

??將協同圖中的每個像素點 pi=(xi,yi,ci)p_i = (x_i, y_i, c_i)pi?=(xi?,yi?,ci?) 按照該像素置信度分數 cic_ici? 進行降序排列,其中 xix_ixi?yiy_iyi? 表示該像素的坐標位置。

??對于正樣本點,選取概率值 pip_ipi? 的前 γ1?Kpγ_1·K_pγ1??Kp? 個點,其中 γ1γ_1γ1? 是聚類比例因子,KpK_pKp? 代表期望的正樣本點數量。所選點的坐標集合可表示為:
在這里插入圖片描述
??其中 pi∈R2p_i∈\mathbb R^2pi?R2。接下來,對這些坐標進行 K 均值聚類并選取 KpK_pKp? 個中心點,從而得到 Ppos\mathcal P_{pos}Ppos?
在這里插入圖片描述
??其中 Ppos∈RKp×2\mathcal P_{pos}∈ \mathbb R^{K_p×2}Ppos?RKp?×2代表坐標集合。

??對于負樣本點,最多從置信區域選取 γ2?Knγ_2·K_nγ2??Kn? 個與感興趣區域更相關的像素點,其定義如下列方程所示:
在這里插入圖片描述
??其中 μμμσσσ 源自 SynMapnegSynMap_{neg}SynMapneg?αααβββ 是用戶定義的用于控制置信區間邊界的常數。隨后隨機選取 γ2?Knγ_2·K_nγ2??Kn? 個像素點:
在這里插入圖片描述
??隨后,將類似的聚類方法應用于正樣本點,得到 Pneg\mathcal P_{neg}Pneg?

在這里插入圖片描述
??最終,取兩個集合的交集并為這些點分配標簽,從而得到該集合:
在這里插入圖片描述
??其被輸入至 SAM 模型以生成粗分割結果 Mcoarse\mathcal M_{coarse}Mcoarse?

2.4、噪聲感知優化模塊(NRM)

??該模塊首先通過初始腐蝕操作來優化由 PSM 生成的原始粗糙掩膜 Mcoarse\mathcal M_{coarse}Mcoarse?,以去除細小噪聲,隨后進行膨脹步驟以恢復主要結構區域。設 Mj\mathcal M_jMj? 表示針對 Mcoarse\mathcal M_{coarse}Mcoarse?jjj 個連通區域 CjC_jCj? 所獲得的掩膜,通過 Mj\mathcal M_jMj? 對查詢特征進行分割:
在這里插入圖片描述
??其中 ∣Cj∣|Cj|Cj 表示 CjC_jCj? 區域內的總像素數。隨后,將 TQ,CjT_{Q,Cj}TQ,Cj? 視作 FqF_qFq?,并采用相同方式計算 CjC_jCj? 區域的置信度得分,得到 SCj\mathcal S_{C_j}SCj??。接著在每個連通域內計算均值:

在這里插入圖片描述
??選擇得分最高的連通區域作為 Mrefine\mathcal M_{refine}Mrefine?,并將其作為掩碼提示輸入 PSM 模型。結合點提示,這有助于進一步細化分割結果。隨后再次通過相同步驟處理輸出,最終生成分割結果 Mfinal\mathcal M_{final}Mfinal?


3、實驗與結果

3.1、實驗設置

??(1)數據集與評價指標:Synapse-CT 數據集:30 例腹部 CT 三維掃描;CHAOSMRI 數據集:20 例 T2-SPIR 磁共振三維掃描;五折交叉驗證報告 Dice 系數的標準差;

??(2)實施細節:將圖像轉換為 256×256 大小的感興趣區域,使用 DINOv2 模型(Sinder)提取特征,得到一個空間尺寸為 64×64 的特征圖。接著應用 SAM 模型(Sam2.1 Hiera 大圖預測)獲取相同空間尺寸 64×64 的特征圖,分別對應高度和寬度。所有實驗都在 NVIDIA RTX-3090 上進行。至于超參數,對于 Synapse-CT 和CHAOS-MRI,δS?Dδ_{S-D}δS?D?δSδ_SδS?δDδ_DδD? 均設定為 0.8、0.1 和 0.1;

3.2、與最先進方法的比較

??
Table 1 | 與最先進方法的比較:除 PerSAM 和 SynPo 外,數據均來自其原始論文;

在這里插入圖片描述

??
Figure 3 | 不同方法的質量結果:

在這里插入圖片描述

3.3、消融實驗

??
Table 2 | 消融模塊研究:
Table 3 | CHAOS 任務中負提示策略的消融研究:

在這里插入圖片描述

??
Figure 4 | 參數 αααβββ 的實驗,β=α?1.5β = α ? 1.5β=α?1.5

在這里插入圖片描述


??prompt 也很值得研究呀( ?? ω ?? )?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/88260.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/88260.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/88260.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

深入理解機器學習

一.前言本章節開始來講解一下機器學習的知識,本期作為一個了解就大概介紹一下,我們不會從機器學習基礎開始介紹,但是后面會來補充,隨著ai的不斷發展,機器學習在ai的領域里面的占比越來約少,我們還是以應用為…

數據結構 順序表(1)

目錄 1.線性表 2.順序表 1.線性表 線性表(linear list)是n個具有相同特性的數據元素的有限序列。線性表是一種在實際中廣泛使用 的數據結構,常見的線性表:順序表、鏈表、棧、隊列、字符串… 線性表在邏輯上是線性結構&#…

openssl 生成國密證書

openssl生成證書生成CA私鑰 openssl ecparam -genkey -name SM2 -out ca.key.pem -noout證書請求 openssl req -new -key ca.key.pem -out ca.cert.req -subj “/CNrtems-strongswan-CA”生成證書 openssl x509 -req -days 3650 -in ca.cert.req -signkey ca.key.pem -out ca.c…

系統架構設計師論文分享-論分布式事務技術及其應用

我的軟考歷程 摘要 2023年9月,我所在的公司通過了研發紗線MES系統的立項,該系統為國內紗線工廠提供SAAS服務,旨在提高紗線工廠的數字化和智能化水平。我在該項目中擔任系統架構設計師一職,負責該項目的架構設計工作。本文結合我…

東土科技智能塔機系統亮相南京,助力智能建造高質量發展

近日,由南京市城鄉建設委員會、江蘇省土木建筑學會主辦的“無人駕駛智能塔機觀摩會”,在中建三局一公司南京揚子江智慧中心項目現場成功舉辦。作為全國首批智能建造試點城市,南京市已出臺20余項支持政策,落地93個試點項目&#xf…

3D Surface Reconstruction with Enhanced High-Frequency Details

3D Surface Reconstruction with Enhanced High-Frequency Details核心問題:當前基于神經隱式表示(如 NeuS)的 3D 表面重建方法,通常采用隨機采樣策略。這種隨機采樣難以充分捕捉圖像中的高頻細節區域(如紋理、邊緣、光…

Science Robotics 耶魯大學開源視觸覺新范式,看出機器人柔性手的力感知

摘要:在機器人視觸覺傳感領域,如何兼顧成本與性能始終是一大挑戰。耶魯大學在《Science Robotics》上發表最新研究,提出了一種“Forces for Free”(F3)新范式。該研究通過觀測一個經過特殊優化的開源柔性手&#xff08…

關于java項目中maven的理解

我的理解:maven是java項目的依賴管理工具,通過pom.xml文件配置要下載的依賴,settings.xml配置maven下載的鏡像沒有就默認在maven中央倉庫下載依賴,本地倉庫是存儲下載好的依賴ai:1. 功能定位局限Maven 不只是依賴管理工具&#xf…

緩存三大問題詳解與工業級解決方案

文章目錄緩存三大問題詳解與工業級解決方案概念總覽問題詳解1. 緩存穿透 (Cache Penetration)問題描述典型場景危害2. 緩存擊穿 (Cache Breakdown)問題描述典型場景危害3. 緩存雪崩 (Cache Avalanche)問題描述典型場景危害工業級解決方案緩存穿透解決方案方案1: 布隆過濾器方案…

FreeRTOS 中主函數 while 循環與任務創建的緊密聯系

FreeRTOS 中主函數 while 循環與任務創建的緊密聯系 在嵌入式開發領域,FreeRTOS 是一款被廣泛應用的輕量級實時操作系統,為開發者提供了高效的多任務調度機制。對于初學者來說,理解主函數中的 while 循環與通過 xTaskCreate 創建的任務之間的…

Flutter基礎(前端教程⑦-Http和卡片)

1. 假設后端返回的數據格式{"code": 200,"data": [{"name": "張三","age": 25,"email": "zhangsanexample.com","avatar": "https://picsum.photos/200/200?random1","statu…

pytorch chunk 切塊

目錄 chunk切塊 chunk???????切塊 import torch# 創建一個形狀為 [2, 3, 4] 的張量 x torch.arange(6).reshape(2, 3) print("原始張量形狀:", x.shape) print("x:", x) # 輸出: 原始張量形狀: torch.Size([2, 3, 4])# 沿著最后一個維度分割成 2 …

PCIe基礎知識之Linux內核中PCIe子系統的架構

5.1 先驗知識 驅動模型:Linux建立了一個統一的設備模型,分別采用總線、設備、驅動三者進行抽象,其中設備和驅動均掛載在總線上面,當有新的設備注冊或者新的驅動注冊的時候,總線會進行匹配操作(match函數),…

2.2 TF-A在ARM生態系統中的角色

目錄2.2.1 作為ARM安全架構的參考實現2.2.2 與ARM處理器內核的協同關系2.2.3 在啟動鏈中的核心地位2.2.4 與上下游軟件的關系與底層固件的協作與上層軟件的接口2.2.5 在ARM生態系統中的標準化作用2.2.6 典型應用場景2.2.1 作為ARM安全架構的參考實現 TF-A(Trusted …

Chrome 開發者警告:`DELETE err_empty_response` 是什么?jQuery AJAX 如何應對?

在Web開發的世界里,我們時常會遇到各種各樣的錯誤信息,它們像一個個謎語,等待我們去破解。今天我們要聊的這個錯誤——DELETE err_empty_response,尤其是在使用 jQuery 的 $.ajax 發送 DELETE 請求時遇到,確實讓人頭疼。它意味著瀏覽器嘗試刪除某個資源,卻收到了一個空蕩…

python作業 1

1.技術面試題 (1)TCP與UDP的區別是什么? 答: TCP建立通信前有三次握手,結束通信后有四次揮手,數據傳輸的可靠性高但效率較低;UDP不需要三次握手就可傳輸數據,數據傳輸完成后也不需要…

centos7 java多版本切換

文章目錄前言一、卸載原來的jdk二、下載jdk三、解壓jdk三、配置環境變量四、切換JAVA環境變量前言 本來是為了安裝jenkins,安裝了對應的java,node,maven,git等環境,然后運行jenkins時候下載插件總是報錯,我下載的jenkins是 2.346.1 版本&…

用Python和OpenCV從零搭建一個完整的雙目視覺系統(四)

本系列文章旨在系統性地闡述如何利用 Python 與 OpenCV 庫,從零開始構建一個完整的雙目立體視覺系統。 本項目github地址:https://github.com/present-cjn/stereo-vision-python.git 在上一篇文章中,我們完成了相機標定這一最關鍵的基礎步驟…

STM32-中斷

中斷分為兩路:12345用于產生中斷;678產生事件外設為NVIC設計流程:使能外設中斷設置中斷優先級分組初始化結構體編寫中斷服務函數初始化結構體:typedef struct {uint8_t NVIC_IRQChannel; 指定要使能或禁用的中斷通道例如: TIM3_I…

Shader面試題100道之(61-80)

Shader面試題(第61-80題) 以下是第61到第80道Shader相關的面試題及答案: 61. 什么是UV展開?它在Shader中有什么作用? UV展開是將3D模型表面映射到2D紋理空間的過程,用于定義紋理如何貼合模型。在Shader中&a…