CVPR 2025|英偉達聯合牛津大學提出面向3D醫學成像的統一分割基礎模型

在 2D 自然圖像和視頻的交互式分割領域,基礎模型已引發廣泛關注,這也促使人們開始構建用于醫學成像的 3D 基礎模型。然而,3D 醫學成像存在的領域差異以及臨床應用場景,要求開發一種有別于現有 2D 解決方案的專用模型。具體而言,這類基礎模型應支持一套完整的工作流程,切實減少人工操作。

將 3D 醫學圖像視為 2D 切片序列,并復用交互式 2D 基礎模型,看似簡單直接,但在 3D 任務中,2D 標注過于耗時。此外,對于大規模隊列分析,高精度的自動分割模型才能最大程度減少人工工作量。然而,這些模型缺乏對交互式修正的支持,也不具備對新型結構的零樣本處理能力 —— 而這正是 “基礎模型” 的關鍵特性。盡管在 3D 模型中復用預訓練的 2D 骨干網絡能增強零樣本潛力,但它們在處理復雜 3D 結構時的性能仍落后于頂尖的 3D 模型。

2025年6月,英偉達公司聯合牛津大學在CVPR 2025?在線發表題為VISTA3D: A Unified Segmentation Foundation Model For 3D Medical Imaging”的研究論文。該研究提出了 VISTA3D(多功能成像分割與標注模型),旨在通過一個統一的基礎模型應對所有這些挑戰和需求。

VISTA3D 基于成熟的 3D 分割流程構建,是首個在 3D 自動分割(支持 127 個類別)和 3D 交互式分割兩方面均達到最先進性能的模型,即便在大型多樣化基準測試中與頂尖的 3D 專業模型相比也是如此。此外,VISTA3D 的 3D 交互式設計支持高效的人工修正,而其創新的 3D 超體素方法(通過提煉 2D 預訓練骨干網絡構建)則賦予了 VISTA3D 頂尖的 3D 零樣本性能。作者認為,該模型、其構建方法以及相關見解,代表著在邁向具有臨床實用性的 3D 基礎模型道路上邁出了充滿希望的一步。

由于促炎巨噬細胞向抗炎巨噬細胞的復極化受損,傳統的骨組織工程材料難以在糖尿病期間恢復生理性骨重塑。

三維醫學成像技術,如計算機斷層掃描(CT),被廣泛用于生成人體各部位的橫截面體素圖像。作為一種主要的解剖成像方式,它能夠清晰呈現人體結構和異常組織的詳細形態信息。在臨床實踐中,手動分割既耗時又繁瑣,因此開發更優的自動分割模型一直是研究的熱點領域之一。其中一個典型方向是改進網絡架構,并為特定任務定制訓練方案。針對每個任務,通常需要精心準備特定的訓練數據集并訓練專業模型,這對工程技術能力提出了較高要求。因此,一種能夠 “開箱即用” 解決多種任務的模型更具應用價值。

與自然圖像中存在無限多目標類別不同,CT 或 MRI 所呈現的臨床相關人體正常解剖結構是有限的(如肝臟、胰腺等),因此從技術層面而言,訓練一個能夠支持大多數標準人體解剖結構的自動分割模型是可行的。然而在實際應用中,臨床醫生可能更關注罕見病變或動物數據,而由于數據稀缺,這些通常不在現有模型的支持范圍內。缺乏處理這類場景的零樣本能力,成為了模型的一大局限性。同時,對于手術規劃等流程,模型還需支持人工介入進行修正,這一點也至關重要。

近年來,大型語言模型在各類任務中展現出強大的泛化能力,被視為基礎模型。“可提示” 系統的理念隨之提出,旨在實現一種能夠 “開箱即用” 解決不同任務的靈活模型。在圖像分割領域,“萬物分割”(Segment Anything,SAM)引發了廣泛關注,并取得了令人矚目的零樣本性能。在醫學領域,近期研究通過模型微調,將 SAM 適配到醫學成像模態中。這些基于 SAM 的方法在 2D 場景中借助交互式用戶輸入,取得了頗具前景的成果。但對于 3D 醫學圖像,此類提示(如點提示)需要綁定到每個類別、每個切片和每個掃描圖像,這往往需要大量人工操作,難以應用于大規模隊列數據分析。

近期的 “視頻萬物分割”(Segment Anything in Video,SAM2)引發了更大關注,因為 3D 掃描圖像可表示為 2D 橫截面圖像(切片)的堆疊,而視頻也是 2D 圖像(幀)的堆疊。然而,實驗表明,即使在 3D 醫學數據集上進行了充分微調,SAM2 框架仍無法與 VISTA3D 相比,尤其是在處理復雜 3D 結構時(詳見補充材料)。SAM2 主要用于追蹤隨時間變化的目標,但醫學成像需要對體素輸入進行空間一致性處理。例如,不同時間幀中的汽車仍是同一輛,但其實時 2D 橫截面圖像可能對應完全不同的物體,如座椅和發動機。這體現了 2D 自然圖像或視頻與橫截面醫學圖像之間的巨大差異。類似地,SAM3D 通過 2D SAM 編碼器逐切片提取 3D 體素特征,并結合 3D 解碼器,但結果遠遜于專業 3D 模型。簡單地將自然圖像領域的方法應用于 3D 醫學圖像,顯然是不夠的。

近期探索醫學圖像分割上下文學習的研究,能夠在示例圖像或文本的引導下分割任意類別。這看似是一種理想方案,因為它無需模型微調或耗時的人工輸入。但這類方法的性能遠落后于特定數據集的有監督模型(如 nnU-Net)。

圖片

圖 1. 圖 (a) 展示了 VISTA3D 支持的完整人機協同工作流程。如果分割任務 X 屬于 127 個支持類別(左側綠色圓圈),VISTA3D 會執行高精度自動分割。醫生可對結果進行檢查,必要時借助 VISTA3D 高效編輯。如果 X 是新型類別(右側藍色圓圈),VISTA3D 會執行 3D 交互式零樣本分割。圖 (b) 展示了 VISTA3D 的架構,它包含兩個分支,共享同一個圖像編碼器。若用戶提供的類別提示屬于 127 個支持類別,頂部的自動分支會啟動 “開箱即用” 的自動分割功能;若用戶提供 3D 點選提示,底部的交互分支會啟動交互式分割功能。若兩個分支同時啟動,基于算法 1 的合并模塊會利用交互結果對自動分割結果進行編輯。

作者認為,3D 醫學圖像分割基礎模型應支持一套完整的工作流程(圖 1 (a)),以減少人工操作,其核心能力包括:1)對常見器官或結構進行高精度自動分割;2)支持與專家的交互,以便對現有分割結果進行有效優化;3)具備零樣本能力,既允許用戶交互式標注未見過的類別,也能通過文本或示例引導進行上下文學習。模型應在 3D 空間中運行,因為 2D 逐切片方法不僅耗時,還可能無法充分利用 3D 視覺上下文;4)具備少樣本 / 遷移學習能力,允許用戶在新類別上快速微調模型,以實現精確的自動分割 —— 鑒于現有上下文學習或開放詞匯分割在精度上仍落后于專業 3D 模型。

為支持這一工作流程并達到與頂尖專業模型相當的性能,模型應基于成熟的 3D 流程構建,依賴 3D 骨干網絡和滑動窗口推理。但這一方向未能充分利用現有具備強大零樣本能力的 2D 預訓練權重(如 SAM)。復用 SAM 權重并添加輕量級 3D 適配模塊看似可行,但由于凍結了大部分權重,其在多類別上的自動分割性能(與 TotalSegmentator 相比)受到限制。因此,面臨的挑戰是:如何構建一個既具備成熟 3D 流程優勢,又能利用 2D 自然圖像領域的見解和檢查點來解決 3D 問題的模型。基于此目標,提出了 VISTA3D,主要貢獻如下:

1.首個支持完整標注工作流程的統一基礎模型,在 14 個具有挑戰性的數據集(含 127 個類別)上進行基準測試,與成熟基線模型相比,在 3D 可提示自動分割和交互式編輯方面均達到最先進性能。

2.提出一種新穎的超體素方法,用于提煉 2D 基礎模型以適配 3D 醫學成像,將 VISTA3D 的零樣本性能提升 50%,在大幅減少標注工作量的情況下,實現了最先進的 3D 零樣本性能。

3.構建了一個包含 11454 次掃描的大型 CT 數據集,結合部分手動標簽、偽標簽和超體素,提出一種新穎的四階段訓練方案,以應對挑戰,實現最先進的性能和編輯體驗。

圖片

圖 2. 由算法 2 生成的超體素,展示了軸位、矢狀位和冠狀位視圖的示例。不同顏色代表不同的超體素。

圖片

圖 3. 用點修正自動分割結果。左圖為肝臟自動分割結果,存在一個假陰性區域。在添加一個正點后,該假陰性區域得到了修正。第三幅圖顯示了另一個切片,其中存在一個假陽性區域,在添加一個負點后,該區域在最后一幅圖中被移除。

圖片

圖 4. 猴類 CT 掃描的一個示例(2 個矢狀位切片)。可以看出,VISTA3D 實現了更穩健的分割。

卓越性能

圖片

圖片

圖 5. 零樣本 Dice 評分。X 軸為點擊點數,Y 軸為整個數據集的平均 Dice 評分。

圖片

圖 6. 腎臟腫瘤的細粒度零樣本交互式分割。第一幅圖顯示了腫瘤區域。步驟 1:在腫瘤上點擊一個正點(紅色)并得到結果。步驟 2:點擊更多點以細化細節。此時結果存在過分割,步驟 3:添加一個負點(藍色),得到最終結果。

參考:

https://arxiv.org/pdf/2406.05285

https://github.com/Project-MONAI/VISTA

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/919320.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/919320.shtml
英文地址,請注明出處:http://en.pswp.cn/news/919320.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

解決“Win7共享文件夾其他電腦網絡無法發現共享電腦名稱”的問題

要讓運行 Windows 7 的電腦被局域網中其他設備(包括另一臺電腦、手機、NAS 等)“發現”,必須同時滿足三個條件: 網絡發現功能已啟用;對應的后臺服務已啟動;防火墻規則放行。 下面給出最簡、最穩妥的 3 步設…

Python pyzmq 庫詳解:從入門到高性能分布式通信

一、前言 在現代軟件開發中,進程間通信(IPC)與分布式系統通信已經成為基礎能力。無論是構建一個微服務架構的后端,還是實現大規模并行計算任務,如何讓不同的進程或節點之間高效地傳遞消息,都是核心問題。 傳…

CentOS 7更換國內鏡像源

第一步:檢查系統版本 在修改任何配置之前,先確定你的 CentOS 版本,因為不同版本的鏡像源配置文件不同。 cat /etc/redhat-release這個命令會顯示你的 CentOS 版本信息,例如 CentOS Linux release 7.9.2009 (Core)。從你的錯誤日志…

詳解 doclayout_yolo:Python 文檔布局檢測

目錄一、doclayout_yolo 核心功能二、安裝方法1. 直接安裝2. 通過 PDF-Extract-Kit 安裝三、使用示例1. 快速體驗(HuggingFace Demo)2. 本地推理代碼3. 批量處理四、技術亮點五、應用場景六、其他說明1.相關資源2. 注意事項doclayout_yolo 是一個基于 Y…

貓頭虎AI分享|一款Coze、Dify類開源AI應用超級智能體Agent快速構建工具:FastbuildAI

貓頭虎AI分享|一款 Coze、Dify 類開源 AI 應用超級智能體快速構建工具:FastbuildAI 區別在于它的易用度和商業閉環功能 摘要:FastbuildAI 是一個開源的 AI 應用“快速構建 商業化閉環”工具。它讓個人開發者與小團隊用 可視化 零代碼 的方…

GitLab 安全漏洞 CVE-2025-6186 解決方案

本分分享極狐GitLab 補丁版本 18.2.2, 18.1.4, 18.0.6 的詳細內容。這幾個版本包含重要的缺陷和安全修復代碼,我們強烈建議所有私有化部署用戶應該立即升級到上述的某一個版本。對于極狐GitLab SaaS,技術團隊已經進行了升級,無需用戶采取任何…

【K8s】harbor安裝與推送鏡像

引言 在開發中,先推送鏡像到docker,然后直接在docker運行。但是在K8S中,需要動態創建或者分配機器,這里需要將鏡像推送到harbor倉庫,然后再從倉庫拉取到每臺集群機器。 docker安裝harbor:https://learnku…

FPGA讀取AHT20溫濕度模塊思路及實現,包含遇到的問題(IIC協議)

一.閱讀官方手冊 手冊在下方網址下載,該模塊在各個網店平臺均有銷售 百度網盤 請輸入提取碼 手冊重點關注IIC地址(讀地址0x71,寫地址0x70)、IIC命令和讀寫數據邏輯,手冊寫的比較簡單(感覺很多細節沒到位…

項目會議怎么開才有效

要提高項目會議的有效性,需要做到以下幾點:明確會議目的、制定具體的會議議程、合理控制會議時長、提前準備會議資料、選擇合適的參會人員、設定清晰的會議目標、確保會議有決策和行動方案、會后及時跟進與落實。其中,明確會議目的尤為重要。…

計算機視覺第一課opencv(二)保姆級教

目錄 簡介 一、邊界填充 1.函數說明 2.案例分析 二、圖像運算 1.號運算 2.cv2.add()函數 3.圖像加權運算 三、閾值處理 四、圖像平滑處理 1.椒鹽噪聲 2.均值濾波(Mean Filtering) 3.方框濾波 4. 高斯濾波(Gaussian Filtering&am…

母豬姿態轉換行為識別:計算機視覺與行為識別模型調優指南

> 在現代智能化養殖中,母豬姿態識別是健康監測的關鍵技術。本文將帶你從0到1構建高精度母豬姿態識別系統,準確率可達95%以上! ## 一、為什么母豬姿態識別如此重要? 母豬的行為姿態是其健康狀況的重要指標: - **站立姿態**:可能表示發情期或進食需求 - **側臥姿態**:…

循序漸進學 Spring (下):從注解、AOP到底層原理與整合實戰

文章目錄7. 自動裝配 (Autowiring)7.1 XML 自動裝配7.2 使用注解實現自動裝配Autowired vs Resource8. 使用注解開發(完全體)8.1 定義 Bean (Component 及其衍生注解)8.2 注入屬性 (Value)8.3 注入對象8.4 定義作用域 (Scope)8.5 小結:XML vs…

C#WPF實戰出真汁06--【系統設置】--餐桌類型設置

1、系統設置的基本概念系統設置是用于配置和管理餐桌類型和菜品類型,是維護整個系統的基礎數據。通過系統設置,用戶可以調整餐桌類型的添加,刪除,編輯,分頁,查詢,重置,列表&#xff…

旋鈕鍵盤項目---foc講解(閉環位置控制)

hello,周六休息了一天,出去打本了。趁著夜色,花費了幾個小時,也是將閉環代碼寫完,參考了燈哥的思路。接下來介紹一下我的整個流程: 一、閉環位置控制思路: 其實懂得了開環,那么閉環…

為什么有些相機“即插即用”,而有些則需要采集卡?

在工業生產中,工業相機是“眼睛”,它幫助我們看到世界,但你知道嗎?不同的工業相機接口就像不同的“通道”,有些“通道”直接就能與計算機連接,而有些則需要一個額外的小配件——圖像采集卡。那么&#xff0…

【計算機網絡 | 第7篇】物理層基本概念

文章目錄物理層基本概念及數據通信系統解析一、物理層的核心定位🥝二、物理層的功能🧾三、數據通信系統的模型🐦?🔥(一)源系統(二)傳輸系統(三)目的系統四、…

一般情況下,python函數都會返回對象,但有時只調用一個函數,這是在修改這個信息

class Model:def __init__(self):self.training Truedef eval(self):self.training Falsereturn Nonem Model() print(m.training) # True m.eval() # 返回 None print(m.training) # False,模型內部狀態已改變m.eval()是在修改m的…

2025-08-17 李沐深度學習17——語義分割

文章目錄1 語義分割1.1 介紹1.2 語義分割應用1.3 實例分割2 轉置卷積2.1 工作原理2.2 為什么叫“轉置”卷積2.3 轉置卷積也是一種卷積3 FCN3.1 核心思想3.2 網絡架構4 樣式遷移4.1 基于 CNN 的樣式遷移4.2 工作流程1 語義分割 1.1 介紹 語義分割(Semantic Segment…

《若依》權限控制

若依內置了強大的權限控制系統,為企業級項目提供了通用的解決方案 以CRM系統為例,演示權限功能(URL:https://huike-crm.itheima.net) demo賬號(超級管理員)查看所有功能菜單 zhangsan賬號(市…

云原生俱樂部-RH134知識點總結(3)

這個系列的第二篇寫了將近5000字,而且還是刪節內容后的,如RAID就沒寫,因為頭已經很大了。第二篇從早上寫到下午,因為偷懶了,寫著寫著就停筆了。不過好在總算磨完了,現在開始寫RH134系列的最后一篇內容。我這…