通過具有一致性嵌入的大語言模型(LMMs)實現端到端乳腺癌放射治療計劃制定|文獻速遞-醫學影像算法文獻分享

Title

題目

End-to-end breast cancer radiotherapy planning via LMMs with consistencyembedding

通過具有一致性嵌入的大語言模型(LMMs)實現端到端乳腺癌放射治療計劃制定

01

文獻速遞介紹

近年來,受大型語言模型(LLM)啟發的新一代人工智能模型(即基礎模型)的出現,標志著其與以往范式存在顯著差異(Moor 等人,2023)。這些模型具有規模龐大、功能多樣的特點,這源于它們在多樣化數據上進行的自監督訓練。目前,這些基礎模型已能夠在多個領域實現最先進(SOTA)的性能,包括多模態推理、圖文生成、圖像 captioning 以及文本引導的圖像分割等任務(Bubeck 等人,2023;Dai 等人,2024;Driess 等人,2023;Li 等人,2023b;Liu 等人,2024;Lai 等人,2024)。 這些特性意味著人工智能與醫療實踐的融合可能迎來范式轉變——醫療實踐本身就依賴多模態信息來制定全面的臨床決策。此外,這也為克服目前 500 多種經 FDA 批準的人工智能模型的局限性提供了契機,這些模型大多僅針對特定任務,且依賴單模態信息(Joshi 等人,2024)。具體而言,與這些單模態人工智能不同,結合基礎模型的通用醫療人工智能能夠全面理解臨床工作流程,可接收多種醫療數據,包括影像模態、電子健康記錄、實驗室結果、基因組學數據,甚至臨床報告(Singhal 等人,2023;Rajpurkar 和 Lungren,2023;Wu 等人,2023b;Moor 等人,2023;Tu 等人,2024)。通過理解各類數據及其相互關系,多模態人工智能能夠提供患者數據的全面視圖,從而助力更準確的診斷、個性化治療方案的制定,并減少醫療差錯。 本文聚焦的放射腫瘤學領域,多模態整合至關重要,使其成為評估基礎模型潛力的最重要臨床領域之一。因此,我們在此介紹 RO-LMM——一種專為支持放射腫瘤學臨床工作流程設計的原型大型多模態模型(LMM)。具體而言,本研究顯著擴展了我們先前的相關工作 LLMSeg(Oh 等人,2024),后者側重于多模態分割。更具體地說,RO-LMM 通過處理放射腫瘤學中更廣泛的臨床任務,擴大了 LLMSeg 的應用范圍:(1)它能將大量患者病史和檢查結果高效總結為簡潔且信息豐富的臨床筆記;(2)能從臨床專家視角提出合適的放射治療策略;(3)在三維(3D)計算機斷層掃描(CT)圖像上勾畫與所提放射治療策略一致的放療靶區。RO-LMM 的這種多方面功能,在支持臨床專業人員的專業工作方面展現出顯著進步。 在訓練 LLM 執行從放療策略建議到靶區分割的一系列連續任務時,我們發現每個任務都存在誤差累積的可能性,這可能導致端到端性能的顯著下降。因此,本研究的另一重要貢獻是采用并擴展了噪聲嵌入微調(NEFTune)技術(Jain 等人,2024),該技術在針對每個目標任務的訓練過程中,會向嵌入中注入均勻噪聲。更具體地說,為進一步增強模型的適用性,我們開發了一種新穎的一致性嵌入微調(CEFTune)技術,通過添加正則化損失來強制模型在噪聲輸入和干凈輸入下的預測保持一致。此外,通過擴展到文本相關任務之外,我們將這些概念應用于 3D 分割任務,提出了新穎的噪聲嵌入分割(NESEG)和一致性嵌入分割(CESEG)技術。這些進展防止了后續任務之間的誤差傳播,共同顯著提升了端到端模型在內部和外部驗證中的泛化能力。 作為概念驗證研究,我們的 RO-LMM 框架被應用于乳腺癌研究——乳腺癌是一種高發癌癥,其放射治療相對標準化,且僅需基于 CT 影像。我們的貢獻可總結如下: - 提出了一個全面的框架 RO-LMM,其中 LMM 為乳腺癌放射治療的廣泛工作流程提供支持。據我們所知,該原型是首個支持放射腫瘤學全面工作流程的模型。 - 為防止在臨床背景總結、放療策略建議和基于計劃的靶區分割等連續臨床任務中可能出現的誤差累積,我們探索了噪聲增強和一致性方法,并提出了新穎的訓練方法(如 CEFTune、NESEG 和 CESEG),顯著增強了我們方法的穩健性。 - 通過在乳腺癌患者的真實臨床數據上進行多種驗證設置的實驗,我們證明了 RO-LMM 的性能優于傳統方法。

Abatract

摘要

Recent advances in AI foundation models have significant potential for lightening the clinical workload bymimicking the comprehensive and multi-faceted approaches used by medical professionals. In the field ofradiation oncology, the integration of multiple modalities holds great importance, so the opportunity offoundational model is abundant. Inspired by this, here we present RO-LMM, a multi-purpose, comprehensivelarge multimodal model (LMM) tailored for the field of radiation oncology. This model effectively managesa series of tasks within the clinical workflow, including clinical context summarization, radiotherapy strategysuggestion, and plan-guided target volume segmentation by leveraging the capabilities of LMM. In particular, toperform consecutive clinical tasks without error accumulation, we present a novel Consistency Embedding FineTuning (CEFTune) technique, which boosts LMM’s robustness to noisy inputs while preserving the consistencyof handling clean inputs. We further extend this concept to LMM-driven segmentation framework, leading to anovel Consistency Embedding Segmentation (CESEG) techniques. Experimental results including multi-centervalidation confirm that our RO-LMM with CEFTune and CESEG results in promising performance for multipleclinical tasks with generalization capabilities.

人工智能基礎模型的最新進展具有巨大潛力,可通過模仿醫療專業人員采用的全面、多層面方法來減輕臨床工作負擔。在放射腫瘤學領域,多模態整合至關重要,因此基礎模型的應用前景十分廣闊。受此啟發,我們提出了RO-LMM——一種專為放射腫瘤學領域設計的多功能、綜合性大型多模態模型(LMM)。該模型借助LMM的能力,有效處理臨床工作流程中的一系列任務,包括臨床背景總結、放射治療策略建議以及基于計劃的靶區分割。 特別地,為了在執行連續臨床任務時避免誤差累積,我們提出了一種新穎的一致性嵌入微調(CEFTune)技術,該技術在增強LMM對噪聲輸入的穩健性的同時,保持了處理干凈輸入時的一致性。我們進一步將這一概念擴展到LMM驅動的分割框架中,形成了一種新穎的一致性嵌入分割(CESEG)技術。包括多中心驗證在內的實驗結果證實,結合了CEFTune和CESEG的RO-LMM在多項臨床任務中表現出良好性能,并具備泛化能力。

Method

方法

In this section, we provide a detailed description of our proposedapproach designed for sequential text generation tasks, including summarization and suggestions, as well as text-driven image segmentation,whose robustness is improved by consistency embedding finetuning.The overall framework is illustrated in Fig. 2.

在本節中,我們將詳細描述所提出的方法,該方法適用于連續的文本生成任務(包括總結和建議)以及文本驅動的圖像分割任務,通過一致性嵌入微調增強了這些任務的穩健性。整體框架如圖2所示。

Conclusion

結論

In this work, we introduce RO-LMM, a multi-purpose, comprehensive foundation model tailored for radiation oncology. Addressinglimitations in current medical AI models confined to specific tasks, ROLMM demonstrates proficiency in diverse tasks encompassing overallworkflow of radiation oncology: clinical report summarization, radiotherapy strategy suggestion, and plan-guided 3D target volume segmentation. Another key contribution of this work is the introductionof consistency technique into both text and segmentation task. Resultsfrom multi-center cohort datasets confirm RO-LMM’s promising performance and noteworthy generalization capabilities across diverse tasks.These findings mark a significant stride towards developing a versatileAI model, hinting at the potential for a multi-purpose medical AI modelin radiation oncology

在本研究中,我們介紹了RO-LMM——一種專為放射腫瘤學設計的多功能、綜合性基礎模型。為解決當前醫療人工智能模型局限于特定任務的問題,RO-LMM在放射腫瘤學的整體工作流程中展現出處理多種任務的能力,包括臨床報告總結、放射治療策略建議以及基于計劃的三維靶區勾畫。本研究的另一核心貢獻是將一致性技術引入文本任務和分割任務中。來自多中心隊列數據集的結果證實,RO-LMM在各類任務中均表現出良好性能,并具備顯著的泛化能力。這些發現標志著在開發多功能人工智能模型方面邁出了重要一步,也為放射腫瘤學領域多功能醫療人工智能模型的發展潛力提供了啟示。

Results

結果

5.1. Clinical report summarization

We present the performance of our model on the clinical reportsummarization task, along with confidence intervals for each method,in Table 2. Our fine-tuned model of RO-LMM-S demonstrate significant improvements over the Defaults, providing consistent margins inall metrics and confidence intervals. Notably, RO-LMM-S outperformsChatGPT with few-shot in-context learning.Moreover, we evaluate the generated summaries using expertisebased rubrics by two clinical experts and compare them to Defaults,including ChatGPT and LLaMa-2. As shown in Table 3, our RO-LMM-Smodel significantly outperforms all Defaults in both internal and external validations, thanks to its domain-specific knowledge. Additionally,Pearson correlation (𝑟) analysis reveals strong positive inter-cliniciancorrelations (> 0.85 and > 0.95 for internal and external validation,respectively), confirming the reliability of our rubrics and the clinicalrelevance of RO-LMM-S. Therefore, our RO-LMM-S provides practicaland meaningful summaries that can assist in the field of radiationoncology

?5.1 臨床報告總結 我們在表2中呈現了模型在臨床報告總結任務上的性能,以及每種方法的置信區間。我們經過微調的RO-LMM-S模型相較于基準模型展現出顯著提升,在所有指標和置信區間中均保持穩定優勢。值得注意的是,RO-LMM-S的性能優于采用少樣本上下文學習的ChatGPT。 此外,我們通過兩位臨床專家基于專業評分標準對生成的總結內容進行評估,并與包括ChatGPT和LLaMa-2在內的基準模型進行對比。如表3所示,得益于其領域特定知識,我們的RO-LMM-S模型在內部和外部驗證中均顯著優于所有基準模型。此外,皮爾遜相關系數(𝑟)分析顯示,臨床專家之間存在強正相關(內部驗證>0.85,外部驗證>0.95),這證實了我們評分標準的可靠性以及RO-LMM-S的臨床相關性。因此,我們的RO-LMM-S能夠提供實用且有意義的總結內容,可為放射腫瘤學領域提供輔助支持。

Figure

圖片

Fig. 1. RO-LMM as an assistant large multimodal model (LMM) in the field of radiation oncology. The model seamlessly covers various tasks such as clinical report summarization,radiation radiotherapy strategy suggestion, and 3D target volume segmentation.

圖1. RO-LMM作為放射腫瘤學領域的輔助大型多模態模型(LMM) ? 該模型可無縫處理多項任務,包括臨床報告總結、放射治療策略建議以及三維靶區勾畫。

圖片

Fig. 2. Schematics of RO-LMM training for three different tasks. (a) RO-LMM-S for clinical note summarization. (b) RO-LMM-P++ for radiotherapy strategy suggestion. (c)RO-LMM-SEG++ for plan-guided target volume segmentation.

圖2. RO-LMM針對三項不同任務的訓練示意圖 ? (a)用于臨床筆記總結的RO-LMM-S; ? (b)用于放射治療策略建議的RO-LMM-P++; ? (c)用于基于計劃的靶區勾畫的RO-LMM-SEG++。

圖片

Fig. 3. Schematics of RO-LMM-SEG++ for plan-guided 3D target volume segmentation task, which composed of (a) image module and (b) text module. These module outputs arealigned through (c) multimodal alignment module

圖3. 用于基于計劃的三維靶區勾畫任務的RO-LMM-SEG++示意圖 ? 該模型由(a)圖像模塊和(b)文本模塊組成,兩個模塊的輸出通過(c)多模態對齊模塊實現對齊。

圖片

Fig. 4. Qualitative comparison on 3D target volume segmentation task. Red arrows indicate errors.

圖4. 三維靶區勾畫任務的定性對比 ? 紅色箭頭指示錯誤區域。

Table

圖片

Table 1Training data details. CRS: Clinical Report Summarization. RSS: Radiotherapy StrategySuggestion. PTS: Plan-guided Target Segmentation. US: Ultrasound. Path: Pathology

表1 訓練數據詳情 ? CRS:臨床報告總結 ? RSS:放射治療策略建議 ? PTS:基于計劃的靶區勾畫 ? US:超聲 ? Path:病理學

圖片

Table 2Quantitative comparison for clinical note summarization. Vanilla: the instruction fine tuning. CI: confidence interval

表2 臨床筆記總結的定量對比 ? Vanilla:指令微調 ? CI:置信區間

圖片

Table 3Clinical expert analysis for report summarization. R#: each rubric, C#:each clinicalexper.

表3 報告總結的臨床專家分析 ? R#:各項評分標準 ? C#:各位臨床專家

圖片

Table 4Clinical expert analysis for radiotherapy strategy suggestion. R#: each rubric, C#: each clinical expert.

表4 放射治療策略建議的臨床專家分析 ? R#:各項評分標準 ? C#:各位臨床專家

圖片

Table 5Comparison of 3D target volume segmentation performance

表5. 三維靶區勾畫性能對比

圖片

Table 6Comparison of 3D target segmentation performance for overall and specific patient types

表6 整體及特定患者類型的三維靶區勾畫性能對比

圖片

Table 7Quantitative comparison results for our RO-LMM’s clinical report summarization andradiotherapy strategy suggestion performance on the publicly available dataset.

表7 我們的RO-LMM在公開數據集上的臨床報告總結和放射治療策略建議性能的定量對比結果

圖片

Table 8Ablation study on adopting separate expertise for each textual task against unifiedstrategy.

表8 針對每項文本任務采用獨立專業知識與統一策略的消融研究

圖片

Table 9Ablation study on CESEG for target segmentation performance with input text variation.

表9 輸入文本變化情況下,CESEG對靶區勾畫性能的消融研究

圖片

Table 10Component analysis of our proposed method on radiotherapy strategy suggestion..

表10 我們提出的方法在放射治療策略建議方面的組件分析

圖片

Table 11Inference computational complexity.

表11 推理計算復雜度

圖片

Table A.1The proposed expertise-based rubrics for assessing the performance of clinical reportsummarization.

表A.1 用于評估臨床報告總結性能的基于專業知識的評分標準

圖片

Table A.2Score rubrics for radiotherapy strategy suggestion.

表A.2 放射治療策略建議的評分標準

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/90916.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/90916.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/90916.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

vscode npm run build打包報ELIFECYCLE

npm run build打包報ELIFECYCLE 是內存溢出解決方案:修改build腳本 :"build": "node --max_old_space_size4096 node_modules/vue/cli-service/bin/vue-cli-service.js build",

【lucene】BlockMaxConjunctionScore

BlockMaxConjunctionScorer 是 Lucene 8.5 引入的一個高性能交集打分器(conjunction scorer),專門用于處理 多條件“與”查詢(AND 查詢) 的場景。它基于 Block-Max WAND(BMW)算法,可…

Androidstudio 上傳當前module 或本地jar包到maven服務器。

1.設置gradle版本到8.0 gradle-wrapper.properties文件中設置: distributionUrlhttps\://mirrors.aliyun.com/macports/distfiles/gradle/gradle-8.0-bin.zip 2.設置項目根目錄build.gradle 設置agp版本和maven插件版本(和gralde版本有對應關系&#xff…

Python動態規劃:從基礎到高階優化的全面指南

動態規劃(Dynamic Programming)是解決復雜優化問題的核心技術,也是算法領域的明珠。本文將深入探討Python實現動態規劃的全方位技術,涵蓋基礎概念、經典問題、優化技巧和實際工程應用,帶您掌握這一強大工具的精髓。一、…

視覺大模型部署實踐篇(Docker+dify+ollama安裝)

一、概述 目的:實現一個本地化部署的大模型,通過工作流對圖像進行一些處理。基于此,我選擇了Docker+Dify+Ollama的部署。 具體實現邏輯:Docker來運行dify,dify用來繪制大模型的工作流或者rag等,Ollama用來部署本地大模型,dify調用Ollama部署的大模型進行推理。 二、Dock…

服務器啟動日志等級

目錄 標準日志等級 服務器啟動階段常見日志 日志配置建議 常見服務器/工具的日志等級配置方式 ET框架 Apache/Nginx 等 Web 服務器 Docker 容器 服務器啟動過程中的日志等級是幫助開發者和運維人員理解系統狀態的重要工具。常見的日志等級及其含義如下: 標準…

linux_centos7安裝jdk8_采用jdk安裝包安裝

你問我為什么不用yum? 我yum安裝不了,我也解決不了qwq. 文章目錄一.下載安裝包1.找到安裝包下載位置2.上傳安裝包到linux3.解壓jdk安裝包4.配置環境一.下載安裝包 1.找到安裝包下載位置 去官網找到你要下載jdk版本: Oracle官網 下面演示安裝jdk8的&am…

Linux驅動23 --- RkMedia 使用

目錄 一、上電自動掛載 二、RkMedia 2.1 認識 RkMedia rtsp rtmp RTSP 和 RTMP 的選擇 2.2 安裝 VLC 2.2 RkMedia 例程使用 一、上電自動掛載 cd /etc/init.d/ vi Smyprofile.sh 添加這個內容 #!/bin/sh ifconfig eth0 192.168.66.88 mount -t nfs 192.168.66.66…

Linux:線程同步與線程互斥

線程互斥競態條件當多個線程(或進程)并發訪問和操作同一個共享資源(如變量、文件、數據庫記錄等)時,最終的結果依賴于這些線程執行的相對時序(即誰在什么時候執行了哪條指令)。 由于操作系統調度…

HTML 常用標簽速查表

HTML 常用標簽速查表 &#x1f9f1; 結構類標簽 標簽含義用途說明<html>HTML文檔根元素所有HTML內容的根節點<head>頭部信息放置元信息&#xff0c;如標題、引入CSS/JS等<body>頁面內容主體所有可視內容的容器&#x1f4dd; 文本與標題標簽 標簽含義用途說…

1.gradle安裝(mac)

1.下載二進制包 官網下載&#xff1a;Gradle Releases 國內鏡像&#xff08;騰訊云&#xff09;&#xff1a;https://mirrors.cloud.tencent.com/gradle/ 2.解壓并配置環境變量 解壓到指定目錄&#xff08;示例&#xff1a;/opt/gradle&#xff09; sudo mkdir -p /opt/gr…

Rust賦能土木工程數字化

基于Rust語言在數字化領域應用 基于Rust語言在土木工程數字 以下是基于Rust語言在土木工程數字化領域的30個實用案例,涵蓋結構分析、BIM、GIS、傳感器數據處理等方向。案例均采用Rust高性能、安全并發的特性實現,部分結合開源庫或算法。 結構分析與計算 有限元分析框架 使…

KTH5791——3D 霍爾位置傳感器--鼠標滾輪專用芯片

1 產品概述 KTH5791是一款基于3D霍爾磁感應原理的鼠標滾輪專用芯片&#xff0c;主要面向鼠標滾輪的旋轉的應用場景。兩個 專用的正交輸出使該產品可直接替代機械和光學旋轉編碼器的輸出方式&#xff0c;使得鼠標磁滾輪的應用開發工作極簡 化即兼容目前所有鼠標的滾輪輸出方式。…

決策樹(Decision Tree)完整解析:原理 + 數學推導 + 剪枝 + 實戰

1?? 什么是決策樹&#xff1f;決策樹&#xff08;Decision Tree&#xff09;是一種常見的監督學習方法&#xff0c;可用于分類和回歸。 其基本思想是&#xff1a;通過特征條件的逐層劃分&#xff0c;將數據集分割成越來越“純凈”的子集&#xff0c;直到子集中的樣本幾乎屬于…

C語言:20250728學習(指針)

回顧/*************************************************************************> File Name: demo01.c> Author: 阮> Description: > Created Time: 2025年07月28日 星期一 09時07分52秒**********************************************************…

esp32s3文心一言/豆包(即火山引擎)大模型實現智能語音對話--流式語音識別

一、引言 在之前的帖子《Esp32S3通過文心一言大模型實現智能語音對話》中&#xff0c;我們介紹了如何使用Esp32S3微控制器與文心一言大模型實現基本的智能語音對話功能&#xff0c;但受限于語音識別技術&#xff0c;只能處理2-3秒的音頻數據。為了提升用戶體驗&#xff0c;滿足…

面試150 最長遞增子序列

思路 定義 dp[i] 表示以第 i 個元素結尾的最長遞增子序列的長度&#xff0c;初始時每個位置的最長子序列長度為 1。然后通過雙重循環遍歷每一對元素 j < i&#xff0c;如果 nums[i] > nums[j]&#xff0c;說明 nums[i] 可以接在 nums[j] 的遞增序列之后&#xff0c;更新 …

TCP 套接字--服務器相關

1.創建 TCP 套接字int server_sockfd socket(AF_INET,SOCK_STREAM, 0);函數原型&#xff1a;#include <sys/socket.h>int socket(int domain, int type, int protocol);domain協議族&#xff08;地址族&#xff09;AF_INET&#xff08;IPv4&#xff09;type套接字類型SO…

六、搭建springCloudAlibaba2021.1版本分布式微服務-admin監控中心

前言Spring Boot Actuator 是 spring-boot 自帶監控功能 &#xff0c;可以幫助實現對程序內部運行情況監控&#xff0c;比如監控狀況、Bean 加載情況、環境變量、日志信息、線程信息等。 Spring Boot Admin是一個針對 spring-boot 的 actuator 接口進行 UI 美化封裝的監控工具。…

輕量級遠程開發利器:Code Server與cpolar協同實現安全云端編碼

前言&#xff1a;作為一款專為Web環境設計的VS Code托管方案&#xff0c;Code Server通過精簡架構重新定義了遠程開發體驗。其核心優勢在于將完整的編輯器功能封裝于輕量容器中——僅需不到200MB內存即可運行基礎服務&#xff0c;并支持在樹莓派等低性能設備上流暢操作。系統采…