基于BERT的醫學影像報告語料庫構建

大模型時代,任何行業,任何企業的數據治理未來將會以“語料庫”的自動化構建為基石。因此這一系列精選的論文還是圍繞在語料庫的建設以及自動化的構建。

通讀該系列的文章,猶如八仙過海,百花齊放。非結構的提取無外乎關注于非結構化的對象以及對象之間的關系,進而提煉為架構化的數據進行治理。目前優質的基座模型甚多,如何準備微調的語料庫樣本庫(如何標注)以及如何設計標注的結構則十分關鍵,好的設計將使得微調過的模型能夠快速學會自動化標注。

在醫學診斷與治療過程中,影像學扮演著至關重要的角色。無論是揭示腫瘤病變、追蹤神經系統狀況、評估心血管功能,還是解析肌肉骨骼問題,放射科醫師通過解讀復雜且非結構化的醫學影像,為臨床決策提供關鍵信息。這些信息通常以詳盡的放射學報告形式呈現,但其自由敘事的特性使得它們在進行二次利用時,如回顧性分析或臨床決策支持系統構建,面臨著結構化轉化的挑戰。如今,這一難題正因一項創新研究而得到突破性進展,本篇論文將創建了“Corpus of Annotated Medical Imaging Reports(CAMIR)”的獨特資源,首次將精細事件結構與概念標準化巧妙融合,革新了醫學影像報告的處理方式。

方法論

數據集:論文使用了一個現有的包含2007年至2020年間來自華盛頓大學醫學系統四個醫院的普通患者群體的臨床數據庫,其中包括1,417,586份CT報告、541,388份MRI報告和39,150份PET-CT報告。從每種成像模態中隨機抽取報告:CT報告203份、MRI報告202份、PET-CT報告204份。這些報告使用神經去標識符自動進行了去標識化處理。

標注模式:CAMIR事件模式中,每個事件包括一個標識事件的觸發器和描述事件的參數。下圖展示了在整個注解過程中使用的BRAT快速注解工具的注解示例。

標注方式:四位醫學生對CAMIR進行了標注。兩兩組隊對357份報告進行了雙重標注,另有252份報告由相同的標注員進行了單次標注。經過五輪雙重標注后,標注員的水平達到了一致的交互式一致性評價(IAA)標準,隨后進行了4輪單次標注。數據集中訓練集、驗證集和測試集的比例為70%:10%:20%。訓練集中有41%為雙重標注,整個驗證集和測試集均為雙重標注,以確保評估的可靠性。雙重標注報告平均每份包含2.65±0.48個指征觸發器、10.15±1.31個醫學問題觸發器和9.77±0.99個病變觸發器,而單次標注報告平均每份包含2.14±0.26個指征觸發器、9.91±2.58個醫學問題觸發器和8.78±1.06個病變觸發器。

信息提取(IE)提取框架:為了提取CAMIR事件,研究團隊考察了兩種基于BERT的語言模型:(1)mSpERT和(2)增強版的PL-Marker,PL-Marker++。對于這兩套系統,研究團隊把事件分解為包含實體和關系的一個組,其中關系頭是觸發器,關系尾是參數。

mSpERT

上圖顯示了mSpERT架構,包括各種主體類型、主體子類型和關系輸出層。這種嘗試較為直接,直接使用BERT聯合提取主體和關系。

輸出層通過外接Adapter負責分類跨度識別以及多標簽之間的關系預測。研究團隊因此也利用它來預測子類型標簽,mSpERT輸出的最終結果可以生成CAMIR預先定義的事件結構,進而完成數據自動化的抽取。

PL-Marker++

PL-Marker是一個多階段提取框架,第一階段識別各種主體信息,第二階段解析關系。為了提取CAMIR事件,研究團隊引入了PL-Marker的增強版PL-Marker++。唯一的區別在于第三個分類階段,用于帶值子類型的標簽。上圖展示了PL-Marker++架構,其中實體類型和關系階段與原始PL-Marker模型相同。

看到這里會比較燒腦,大白話的解釋就是C階段就是傳統的PL-marker框架,主要是提取每一段文字的各種主體信息(含開始和結束位置)、主體之間的關系。因為這樣的操作是并行計算,速度和效率可以得到保障。

而B階段就是所謂的第三分類階段,進一步將C階段的成果再次通過Bert基座識別出對應實體的額外信息。這個過程主要是C階段提煉的每一個實體對象插入標識符生成新的輸入。再講這個輸入利用Bert?CLS標記的隱藏狀態輸入外掛分類器,進而識別出每個主體的二級子類。最終一段文本被自動化的標注為結構化的語料庫。

標注結果

左圖給出了雙重標注報告的一致性(IAA)數據。對雙重標注報告中的所有觸發器和參數進行評估,總體一致性得分為0.762 F1。對于觸發器標注的一致性更高,指示(Indication)、病變(Lesion)和醫學問題(Medical Problem)分別為0.856、0.805和0.854 F1。尺寸(Size)、尺寸趨勢(Size Trend)和計數(Count)參數出現頻率遠低于其他參數,從而導致這些參數的一致性得分較低。特征(Characteristic)參數的語義非常多樣,導致頻繁的假陰性結果。

CAMIR中標注現象的分布情況。雖然成像方式的關注點可能有所不同,但大多數參數類型的標注在各成像方式間的分布相似。

兩種框架的效果對比

從上圖看,PL-Marker++相對于mSpERT取得了顯著更高的整體性能(0.759 F1 對比 0.736 F1)。盡管mSpERT和PL-Marker++模型在提取指示和醫學問題觸發器和參數方面的表現相似,但PL-Marker++在提取病變觸發器和除一種參數類型外的所有參數方面表現出色。PL-Marker++模型在提取病變事件的特征、尺寸和尺寸趨勢參數方面分別獲得了+?0.05 F1的提升。PL-Marker++整體性能的提高可歸因于通過BERT模型的所有層注入觸發器和參數位置信息。

總結

CAMIR語料庫憑借其獨特的事件結構與概念標準化結合的設計,連接了高度專業的放射學語言與機器學習算法。使海量非結構化的影像報告得以轉化為結構化數據,為科研人員、臨床醫生及醫療軟件開發者提供了寶貴的研究素材與開發資源。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/13642.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/13642.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/13642.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

excel轉pdf并且加水印,利用ByteArrayOutputStream內存流不產生中間文件

首先先引入包&#xff1a;加水印和excel轉PDF的 <dependency><groupId>com.itextpdf</groupId><artifactId>itextpdf</artifactId><version>5.5.12</version></dependency><dependency><groupId>org.apache.poi&l…

2024全新爆款好物推薦,618必買數碼好物清單吐血整理!

?距離618購物狂歡節越來越近了&#xff0c;有很多日常價格不菲的產品在這次活動期間都會進行促銷活動&#xff0c;尤其是數碼類產品&#xff0c;加上618的優惠活動更有吸引力了。不過面對大促的熱潮我們消費者在選購商品的同時還是要擦亮眼睛&#xff0c;避免買到質量不好的商…

SSE 與 SASE哪個云原生安全框架更加適合

近年來&#xff0c;隨著云計算和網絡技術的不斷發展&#xff0c;出現了一種新的網絡安全解決方案——SASE&#xff08;安全訪問服務邊緣&#xff09;。SASE是一種將網絡和安全功能融合到單個基于云的服務中的框架&#xff0c;旨在提供更加安全、高效和便捷的網絡訪問體驗。SASE…

云原生周刊:Flux 2.3 發布 | 2024.5.20

開源項目推薦 kubeinvaders kubeinvaders 專為 Kubernetes 用戶設計。它提供了一種有趣而交互式的方式來探索和可視化您的 Kubernetes 集群。通過類似游戲的界面&#xff0c;用戶可以瀏覽他們的集群&#xff0c;發現資源&#xff0c;甚至模擬對 Pod 的攻擊。通過 kubeinvader…

我的前端封裝之路

最近有粉絲提問了我一個面試中遇到的問題&#xff0c;他說面試的時候&#xff0c;面試官問我&#xff1a;你在以前的項目中封裝過組件嗎&#xff1f;或者做過npm公共庫嗎&#xff1f;遇到過什么問題嗎&#xff1f;當時自己突然覺得好像沒什么可回答的啊&#xff0c;但面試結束想…

前端 CSS 經典:弧形邊框選項卡

1. 效果圖 2. 開始 準備一個元素&#xff0c;將元素左上角&#xff0c;右上角設為圓角。 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, i…

thingML的學習——什么是thingML

今天開始建模的學習&#xff0c;thingML是建模的一種工具 &#xff0c;也可以理解為一種建模語言&#xff0c;有自己的語法和語義。 ThingML 支持的多種平臺和通信協議&#xff0c;如UART、I2C、MQTT、WebSocket、REST、ROS、Bluetooth、BLE和Zwave&#xff0c;通過插件機制&a…

Spring Cloud Alibaba-07-RocketMQ消息驅動

Lison <dreamlison163.com>, v1.0.0, 2024.4.20 Spring Cloud Alibaba-07-RocketMQ消息驅動 文章目錄 Spring Cloud Alibaba-07-RocketMQ消息驅動MQ簡介MQ的應用場景常見的MQ產品RocketeMQ的架構及概念 RocketMQ入門RocketMQ環境搭建 SpringBoot 集成 RocketMQ MQ簡介 …

來盤點我的校園生活(3)

來公布上期數學題答案:12 你算對了嗎&#xff1f; 今天我們班真是炸開了鍋。事情是這樣的&#xff0c;我今天早晨上學&#xff0c;學校不讓早到&#xff0c;但我一個不小心早到了&#xff0c;主任的規定是盡量不早到&#xff0c;早到不扣分&#xff0c;倒要站在那兒背書&…

Linux--軟硬鏈接

目錄 0.文件系統 1.軟硬鏈接 1.1見一下軟硬鏈接 1.2軟硬鏈接的特征 1.3軟硬鏈接是什么&#xff0c;有什么作用&#xff08;場景&#xff09; 0.文件系統 Linux--文件系統-CSDN博客 1.軟硬鏈接 1.1見一下軟硬鏈接 1.這是軟鏈接 這個命令在Unix和Linux系統中用于創建一個符號…

基于 Prometheus 的超算彈性計算場景下主機監控最佳實踐

作者&#xff1a;左知 超算場景的業務特點 主機監控&#xff0c;或許是監控/可觀測領域最傳統和普遍的需求。在超算訓練&#xff0c;AI 大規模訓練的業務場景下&#xff0c;主機監控又有哪些痛點和難點呢&#xff1f;根據我們針對多個大規模超算客戶的需求整理&#xff0c;超…

Python案例題目,入門小白題

1.抓取鏈家前十頁的數據 鏈家網址&#xff1a;長沙房產網_長沙房地產_長沙房產門戶(長沙鏈家網) 1.1.計算均價和總價 import time ? from selenium import webdriver from selenium.webdriver.common.by import By ? driver webdriver.Chrome() driver.get("https://c…

linux系統內存持續飆高的排查方法

目錄 前言&#xff1a; 1、查看系統內存的占用情況 2、找出占用內存高的進程 3、解決方法 4、補充&#xff1a;如果物理內存使用完了&#xff0c;會發生的情況 前言&#xff1a; 如果一臺服務器內存使用率持續處于一個高峰值&#xff0c;服務器可能會出現響應慢問題。例如s…

使用@Autowired + Map 實現策略模式

使用Autowired Map 實現策略模式 創建接口 public interface UserService {String getName(); }創建多個類實現上面的接口 實現一 import com.boot.service.UserService; import org.springframework.stereotype.Service;Service("zhangsan") public class Zhangsan…

代碼隨想錄算法訓練營第十六天|LeetCode104 二叉樹的最大深度、LeetCode111 二叉樹的最小深度、LeetCode222完全二叉樹的節點個數

題1&#xff1a; 指路&#xff1a;LeetCode104 二叉樹的最大深度 思路與代碼&#xff1a; 1.遞歸 求左右子樹的最大深度后加1(根到子樹也有1個深度單位)。代碼如下&#xff1a; class Solution { public:int maxDepth(TreeNode* root) {int ans 0;if (root NULL) return…

當他們在說業務的時候,到底在說什么

業務就是通過提供產品和服務給客戶&#xff0c;以獲取某種價值&#xff0c;形成業務閉環&#xff0c;并能自負盈虧。 文章會以生動形象的比喻來介紹業務到底是什么。 什么是業務&#xff1f; 業務&#xff0c;就像一場精彩的舞臺劇&#xff0c;每個角色都有自己的任務和目標…

electron學習記錄

1.下載electron electron/electron-quick-start: Clone to try a simple Electron app (github.com) 下載實例模板 2.安裝依賴 npm源改成中國鏡像 npm config set registry https://registry.npmmirror.com 然后用cnpm i 來安裝 npm換官方源 npm config set registry https:…

QT--TCP網絡通訊工具編寫記錄

QT–TCP網絡通訊工具編寫記錄 文章目錄 QT--TCP網絡通訊工具編寫記錄前言演示如下&#xff1a;一、服務端項目文件&#xff1a;【1.1】server_tcp.h 服務端聲明文件【1.2】thread_1.h 線程處理聲明文件【1.3】main.cpp 執行源文件【1.4】server_tcp.cpp 服務端邏輯實現源文件【…

cuda 內核啟動

C 使用 __global__ 聲明說明符定義內核&#xff0c;并使用新的 <<<...>>> 執行配置語法指定內核調用的 CUDA 線程數&#xff08;請參閱 C 語言擴展&#xff09;。 每個執行內核的線程都有一個唯一的線程 ID&#xff0c;可以通過內置變量在內核中訪問。 示例…

【最全的excel轉json!!!】使用Python腳本提取excel文本中的數據到json中

比如說&#xff1a;我有一個1.xlsx的文件需要轉成對應的json格式。 1&#xff09; excel 文件的大概內容&#xff1a; 2&#xff09;保存的方式類似于以下這種情況&#xff1a; 用Python腳本來實現 import pandas as pd import json# 讀取Excel文件 excel_path r"D:…