人工智能在醫學圖像中的應用:從機器學習到深度學習

目的:人工智能(AI)模型在生物醫學研究和醫療服務中扮演著越來越重要的角色。本綜述聚焦于在現實世界背景下,開發AI應用作為臨床決策支持系統時需要澄清的挑戰性問題。

? ? ? 方法:進行了一項敘述性綜述,包含對1989年至2021年間發表的指導性文章的批判性評估,以指導挑戰性部分。

? ? ? 結果:我們首先闡述了機器學習(ML)/放射組學和深度學習(DL)方法的架構特征。對于ML/放射組學,描述了特征選擇以及訓練、驗證和測試的階段。DL模型被呈現為多層的人工/卷積神經網絡,允許我們直接處理圖像。數據整理部分包括技術步驟,如圖像標注、圖像注釋(其中分割是放射組學的關鍵步驟)、數據統一(能夠補償通常在非AI成像研究中產生噪聲的成像協議差異)以及聯邦學習。隨后,我們專門討論了:樣本量計算,考慮AI方法中的多重檢驗;有限且不平衡數據集的數據增強程序;以及AI模型的可解釋性(所謂的黑箱問題)。最后,以綜述的方式呈現了選擇ML與DL來實現醫學影像AI應用的優缺點。

? ? ? 結論:生物醫學和醫療系統是AI應用最重要的領域之一,醫學影像可能是最適合和最有前景的領域。對具體挑戰性問題的澄清促進了此類系統的發展及其向臨床實踐的轉化。本文發表在Physica Medica雜志。

亮點

  • 提供了將AI應用開發為臨床決策支持系統的策略。

  • 我們關注放射組學機器學習與深度學習應用領域之間的差異。

  • 提供了優缺點、建議以及軟件工具的參考。

關鍵詞:人工智能 深度學習 機器學習 醫學影像 放射組學

1. 背景

? ? ? 人工智能(AI)模型在生物醫學研究和臨床實踐中扮演著越來越重要的角色,展現了其在多個應用領域的潛力,如風險建模與分層、個性化篩查、診斷(包括分子疾病亞型的分類)、治療反應預測以及預后預測?。這些突破性的進展可能通過整合來自異質來源的多重數據流而產生臨床影響。這些來源包括醫學影像(尤其是腫瘤患者的數據占據了患者數據的最大部分)、疾病風險因素、多組學數據、治療程序/方案以及隨訪數據。將這些來源有效整合到能夠提供高性能醫療服務的模型中,將促進人類智能與AI的融合。所有這些研究領域都可以極大地增強當前向精準醫療發展的趨勢,導致更可靠和個性化的方法,對診斷和治療路徑產生高影響 。這意味著從統計和基于人群的視角向個體預測的范式轉變 ,從而允許更有效的預防行動和治療規劃。

? ? ?然而,盡管已經發布了若干關于AI模型開發和使用的指南 ,潛在的AI策略仍然眾多且多樣。在“如何將AI應用開發為臨床決策支持系統”方面,仍存在挑戰和需要進一步澄清的問題。因此,本文將重點關注以下內容:基于經典機器學習(ML)模型和使用多層人工神經網絡,特別是卷積神經網絡(CNN)的深度學習(DL)模型的放射組學應用領域之間的差異;樣本量計算的特定AI問題;有限且不平衡數據集的數據增強程序;數據整理;AI模型的可解釋性(“黑箱”問題)。數據整理部分將包括關鍵的技術步驟,如圖像標注、圖像注釋(其中分割是放射組學的關鍵步驟)、數據統一(能夠補償通常在非AI成像研究中產生噪聲的成像協議差異)以及聯邦學習。最后,結合一些結論性意見,我們將提供選擇ML與DL的優缺點,以及對AI開發者和用戶的一些建議和現有軟件工具的參考,并向讀者傳達一些重要的關鍵信息。

2. AI應用的方法和架構

? ? ? 在醫學影像中開發AI應用可以實現兩種不同的架構及其相關的典型工作流程(見圖1):(i)經典機器學習,利用手工設計的特征,即從分割圖像中提取的放射組學特征;(ii)深度學習,使用深度特征提取或端到端的圖像學習。然而,ML和DL共享一些通用概念,如監督和訓練,這些概念必須在考慮兩種方法的具體方面之前加以澄清。

圖1. 預測建模的人工智能系統的典型架構和工作流程:a) 經典機器學習,涉及手工設計的特征處理步驟,如放射組學;b) 深度學習,考慮深度醫學圖像特征提取或端到端學習。

2.1. 監督學習與無監督學習

? ? ?在基于AI的分類系統中,最常見的學習過程是監督學習,其中分類模型的訓練是通過向學習系統提供“帶標簽”的訓練數據(與其對應的類別或感興趣標簽相關聯的數據樣本)來進行的。學習系統的任務是找到一個關系,將訓練集的每個輸入(數據)映射到一個輸出(標簽)。在醫學中,輸入數據可以包括醫學影像或臨床數據,而輸出標簽可以是疾病診斷、患者狀況(例如,給定隨訪時間點的疾病階段)、治療后的結果(例如,復發、生存)。一旦這種關系被學習(即訓練階段),它就可以用于將未知標簽的新輸入數據分類到訓練階段定義的感興趣類別之一。

? ? ?與監督學習相反,無監督學習中訓練數據不與任何預先存在的類別或感興趣的標簽相關聯,可能是因為缺乏這些信息。然后,學習系統接收一組訓練數據,其任務是在給定特征下搜索可以將這些數據分成相似樣本子集的未檢測模式。一旦這些子集及其特征被檢測和學習(訓練階段),新的輸入數據就可以分類到在學習過程中隱式定義的感興趣類別之一(即測試階段)。

? ? ?本文綜述中貫穿全篇給出了監督和無監督學習算法的相關示例。需要注意的是,還可以使用其他方法,例如半監督學習,其中只有部分訓練數據是帶標簽的,這使得該方法成為監督學習和無監督學習的結合

2.2. 訓練、驗證與測試

? ? ? 如前段所述,分類模型的實施至少涉及兩個階段,訓練和測試。訓練階段是分類模型本身學習的階段。在此階段使用的數據稱為訓練數據,無論是使用監督方法還是無監督方法。為了獲得具有泛化能力的模型,即在應用于新數據時表現良好,訓練數據必須數量足夠大,并且具有代表性,即代表系統將在其上進行測試并最終可能在臨床視角中應用的人群 。

? ? ? 測試階段是使用或測試在訓練階段學習的模型的新樣本的階段。在此階段使用的數據稱為測試數據,模型在正確分類這些數據方面的性能稱為測試性能。需要注意的是,訓練數據中包含的任何樣本在測試階段都不能被使用,因為這將使測試性能失效。

? ? ??為了提高學習性能,并且當可用樣本數量足夠時,引入訓練和測試階段之間的第三個階段,即驗證階段,是有用的。在此階段,訓練階段學習的模型參數被調整和優化,以最大化給定的指標(例如其分類性能)。這些參數可能包括使用的變量數量或它們的相對權重。在此階段使用的數據稱為驗證數據,模型在正確分類這些數據方面的性能稱為驗證性能。重要的是要注意,測試性能代表模型的最終性能,即展示學習模型在一般人群上工作的能力。

2.3. 經典機器學習模型

? ? ?根據圖1a,基于經典機器學習技術的預測建模始于在圖像分割過程中手動或(半)自動勾畫感興趣區域(ROIs)或感興趣體積(VOIs)后,提取大規模的手工設計特征。這一新興的研究領域,最近被稱為“放射組學” ,涉及從醫學影像中提取可挖掘的特征,以非侵入性地表征病變的體內表型,甚至僅僅是組織部分(例如,腫瘤周圍表面看似正常的組織)的表型,通過形態測量(即大小、形狀和直徑)以及組織或功能紋理異質性的測量(包括一階、二階和更高階的統計描述符)來捕捉ROI/VOI的特征。

2.4. 放射組學應用領域

? ? ? 放射組學特征通常對醫學影像采集參數不夠穩健,例如空間分辨率(面內分辨率和層間分辨率,即切片厚度),以及圖像提取設置(例如量化、重采樣)。此外,放射組學特征可能依賴于用于提取它們的軟件包。

? ? ?這些問題已由圖像生物標志物標準化倡議(IBSI)解決,該倡議提供了放射組學特征的標準化定義、計算、歸一化和命名法,還建議了放射組學工作流程中不同步驟的實施方法,包括以標準化單位的數據轉換、采后圖像處理、圖像分割、數據插值、重新分割(即在ROI/VOI內僅涉及特定灰度值范圍內像素的過程,以進行放射組學特征計算)和強度離散化。它們的描述不在本文綜述的范圍之內,因為它們大多數在IBSI指南中已被明確定義。一旦特征被計算和歸一化,必須專門為放射組學領域設計特征選擇過程,以定義穩健的成像生物標志物。為此,選擇過程應執行:(i)消除不可靠的特征(例如通過類內相關系數);(ii)基于零和近零方差消除無信息的特征;以及(iii)消除冗余特征(例如高度相關的特征)。在這些預處理步驟之后,進一步的特征選擇步驟旨在識別最相關的預測特征。

? ? ?重要的是,所有這些技術都可以處理“維度災難”并減少模型過擬合,從而提高模型的泛化能力。特征選擇方法可以細分為三類:

? ? ?(i)過濾方法,利用統計相關性或基于信息理論的指標來評估給定特征子集的有用性;

? ???(ii)包裝方法,使用搜索算法(例如遞歸特征消除、順序特征選擇、元啟發式算法)優化預測模型性能,評估特征組合;

? ???(iii)嵌入方法,允許將特征選擇作為模型的一部分,例如最小絕對收縮和選擇算子(LASSO)或彈性網絡正則化方法(ElasticNet)。在這些方法中,包裝方法功能強大但計算負擔重。實際上,它們依賴于分類性能的評估以獲得最佳特征子集:這種在特征空間中的搜索是一個非確定性多項式時間難題(NP-hard)。窮舉搜索方法計算強度高,對于大規模數據集而言不可行,因此通常使用搜索方法和元啟發式算法在搜索空間中找到次優解 。重要的是,由于多重統計比較,特征子集選擇中準確性的重復估計可能導致特征子集空間中過擬合,從而阻礙泛化能力。

? ? ? ?在通過這些選擇步驟獲得一組可靠、非冗余和相關的特征子集后,仍需定義預測模型。這可以通過多變量分類或回歸方法根據臨床問題來實現,通常是在監督學習設置中。選擇分類或回歸方法取決于響應(目標)變量是分類的還是連續的。值得注意的是,當使用二元或多項邏輯模型時,回歸分析可以用于分類任務。或者,可以使用無監督聚類技術來識別輸入數據的內在屬性和模式(例如,基于相似性指標的類別分組)。

? ? ? ?放射組學模型的驗證是另一個關鍵階段。盡管這一步驟的性能選擇可能取決于可用數據量,但避免在模型訓練和測試中使用相同的數據是基本的。理想情況下,應使用獨立的數據集作為外部測試集。然而,這通常是不可能的,且常常必須利用單一隊列進行模型開發和測試。為此,有幾種可用的策略。

???一種可能的方法是保留法(hold-out approach),即將整個數據集分成一個訓練集和一個測試集(通常為70%對30%或80%對20%)。這種劃分可以是隨機的,也可以基于某個標準(例如,時間或中心獨立性)。

? ? ??其他方案,如交叉驗證(CV)策略,也可以使用。留一交叉驗證(Leave-one-out CV,獲得高方差和低偏差)和k折交叉驗證是最常用的方案。當可用于開發ML模型的數據非常少時,通常使用留一法,但由于其高變異性,基于單個觀察的特性應避免使用。值得注意的是,k折交叉驗證克服了留一法的限制,并比保留法更有效地利用了可用的數據集:數據集被分成k個互斥的、大小大致相等的折疊,允許更高的統計有效性 。所有k折的結果被平均,與保留策略相比,初始隨機劃分數據集的依賴性降低。

? ? ??使用嵌套k折方案(具有外部和內部CV循環)是允許獨立于優化模型超參數進行模型訓練的最嚴格方法。實際上,通過非嵌套k折方案選擇超參數可能導致模型偏倚,提供過于樂觀的性能,因為選擇沒有嵌套k折CV的模型意味著使用相同的數據來調整模型超參數和評估模型性能,可能導致訓練數據過擬合和泛化能力差。

? ? ? 重要的是,放射組學特征可以與額外的信息(例如,人口數據、風險因素、分子數據)整合,以提高模型的預測性能。這種整合對于手工設計的特征來說最為容易,因為補充數據可以作為附加特征添加到ML模型中。特別是,多模態成像和多組學數據可以添加到模型中,以更好地表征所分析圖像區域的潛在病理生理。最近提出了一種放射組學質量評分(Radiomics Quality Score),用于衡量基于放射組學的AI模型的質量,考慮放射組學工作流程中發生的不同步驟。盡管其有效性尚未達成共識,但它可以有用地指導開發者和用戶驗證不同特征和測試的完整性,以提供有效的AI模型。

2.5. 深度學習模型

? ? ? 深度學習(DL)模型(見圖1b)提供了自動提取影像特征以最大化模型在相關任務中的性能的機會。深度學習是機器學習(ML)的一個特定子領域,采用人工神經網絡,允許直接處理原始數據。事實上,深度神經網絡通過執行設計經典ML模型時通常涉及的所有處理步驟,包括特征提取和學習,從而實現端到端的預測模型開發(參見圖1a)。

? ? ? 深度神經網絡是由一堆具有有限數量非線性單元(即人工神經元)的處理層組成的表征學習算法。網絡的第一層和最后一層分別定義為輸入層和輸出層,而它們之間堆疊的所有層稱為隱藏層。深度神經網絡的多層結構使其能夠作為非線性函數逼近器,在多個抽象層次上學習輸入數據的不同表征。根據層數和每層的單元數,DL模型在訓練過程中需要估計的可訓練參數數量可能輕松達到數百萬。因此,DL模型容易過擬合,尤其是在處理相對較小的訓練集時,最適合應用于至少包含數千張圖像的數據集。

? ? ? 由于其在大型數據集內建模非常復雜關系的能力,深度學習在醫學影像和放射腫瘤學中得到了廣泛應用,在醫學影像領域的具體應用包括處理大規模和小規模圖像數據集,盡管其影響不同。

? ? ?在不同的神經網絡架構中,卷積神經網絡(CNNs)是醫學影像處理任務中最常用的。這些網絡的特點是在神經元層之間存在卷積層,通過給定的卷積核函數對輸入圖像進行卷積。在CNN中,可以根據應用目的實現不同的卷積層,因為在訓練過程中學習到的卷積層權重可以提取針對所研究任務量身定制的影像特征。與全連接神經網絡相比,CNN中相同的卷積核參數應用于整個圖像,從而減少了可訓練參數的總數,使訓練過程更加高效。根據輸入和輸出數據的維度,可以使用一維、二維或三維卷積核。

? ? ??池化層是CNN架構的另一個關鍵組成部分:它們通過減少特征圖分辨率,引入對輕微圖像扭曲的平移不變性。此外,卷積層和池化層的結合允許學習特征模式之間的空間層次結構 。

? ? ? 線性(卷積)和非線性(激活)處理層的堆疊作為特征提取器,逐層增加抽象、不可變性和判別能力。在此處理之后,這些特征通過一系列全連接層或其他經典ML算法進行組合,以執行學習任務(見圖1b)。

? ???卷積、池化和激活層并不是CNN架構中唯一可能的組件。由于CNN的模塊化結構,已經提出了多種將CNN與其他類型神經網絡結合的架構。端到端的CNN架構直接將圖像映射到目標類別,已被用于執行篩查和診斷目的的圖像分類任務。特別是,最初在大型自然圖像數據集(如ImageNet)上訓練的多個CNN架構,已通過微調預訓練層以解決數據稀缺問題,被用于醫學圖像分類。自2015年引入以來,U-Net架構仍然是醫學圖像分割中最常用的CNN架構之一。基礎U-Net架構由對稱的編碼器和解碼器路徑組成,通過跳躍連接連接。最初用于處理二維圖像,它已被修改以從三維圖像中獲得體素級分割。然后,為了進一步提高網絡性能,通過添加殘差、注意力或DenseNet塊來訓練更深的網絡、選擇顯著特征和解決梯度消失問題,分別開發了該網絡的多個變體?。上述架構僅是可用架構廣泛范圍的簡要介紹:CNN架構的詳細分類不在本文綜述的范圍之內,但可以在Khan等人的最新綜述中找到。

? ? ?循環神經網絡(RNNs)也已與CNNs結合,用于從影像數據序列中提取時空特征。這些網絡允許處理新的數據(例如,任意大小的圖像序列),同時通過跨時間共享節點權重來感知先前的輸入和輸出。然而,模型復雜性與輸入數據的大小成正比,使得RNNs難以訓練且容易過擬合。為了解決梯度消失/爆炸問題并允許記憶長期信息,引入了門控循環單元和長短期記憶(LSTM)單元。

? ? ? 自編碼器在無監督DL架構中也扮演著關鍵角色,以無監督的方式學習如何重現輸入數據。在這些網絡中,編碼器路徑中逐漸變小的隱藏層、正則化和稀疏性約束,允許學習數據的低維表示,從而防止網絡學習恒等變換(即平凡解)。最近,生成對抗網絡(GANs)由于其建模數據分布和生成逼真數據集的能力,被廣泛用于醫學圖像處理。GANs涉及兩個對抗網絡的互動,其中一個網絡通過從訓練樣本中學習數據分布生成新的逼真數據,另一個網絡則區分假數據和真實數據。這些對抗網絡的互動提高了GAN的整體性能并生成逼真的圖像數據(即對抗訓練框架)。盡管其設計具有創新性,這些網絡通常由于梯度消失/爆炸問題而難以訓練,并且容易生成具有相似外觀的新數據(即模型崩潰)。

? ? ? 在選擇合適的網絡架構之后,超參數調優是一個復雜的步驟。設計正確的架構具有挑戰性,因為多個結構性超參數,如層數/神經元單元數、感受野大小(特定CNN特征所關注的輸入空間區域)和激活函數,可能會強烈影響模型性能。

? ? ? 在學習過程中,網絡參數被優化以解決特定任務。為此,誤差的反向傳播算法調整網絡參數以最小化代表網絡成本函數的損失函數。調整基于損失函數相對于網絡參數的梯度變化。為了改進這一過程,已經提出了多種優化器。除了隨機梯度下降,大多數優化器采用自適應學習率,以改善復雜優化問題中全局最小值的檢測。此外,輸入圖像歸一化以及使用批量歸一化層標準化自動提取的深層特征,已被證明有助于訓練收斂并防止協變量偏移。

? ? ? 網絡的深度應隨所研究任務的復雜性而增加。然而,非常深的神經網絡容易出現梯度消失/爆炸問題,這一問題實際上阻止了權重在訓練過程中改變值,分別可能導致訓練時間非常長或無法收斂。使用修正線性單元(ReLU)激活函數、適當的初始化技術和跳躍連接可以部分緩解這一問題。由于模型復雜性的過度增加也可能導致過擬合,因此可以使用多種正則化技術來提高模型的泛化能力,如L1和L2正則化、批量歸一化、Dropout、早停和數據增強技術。這些技術可以結合使用,以利用不同方法的互補效果,詳見關于最常采用的正則化技術及其對DL模型性能影響的綜合概述。

? ? ? 關于設計選擇,“無免費午餐”理論表明,每個模型需要特定的超參數設置,以最大化其在特定任務中的性能。因此,超參數調優是一個絕對必要但具有挑戰性和耗時的步驟,需要持續評估模型在訓練和驗證數據集上的預測誤差,以找到過擬合和欠擬合之間的可接受折衷。為了找到最佳的超參數集,可以使用多種方法。傳統方法從窮舉到隨機和多步驟的超參數搜索,而最近提出的方法包括自動超參數優化算法,減少了超參數調優對模型設計過程的負擔。在這種情況下,強化學習和元啟發式算法 是對試錯方法的有前景的替代方案。盡管如此,DL模型性能的評估必須強制在測試集上進行,這代表了唯一能夠確保模型泛化能力的獨立和外部數據集。

2.6. 醫學影像應用領域的深度學習

? ? ?在醫學影像中訓練和評估深度神經網絡可能比使用ML進行放射組學分析更具挑戰性,主要是因為通常缺乏足夠數量的標注良好的醫學影像數據。為了解決這一問題,可以使用圖像增強和遷移學習技術。在這方面,GANs可以用來生成合成的額外訓練實例。

? ? ? 或者,深度遷移學習技術(Deep Transfer Learning),其放寬了訓練和測試數據來自相同概率分布的假設,允許避免從頭開始訓練DL模型。深度遷移學習技術已被分類為四類:基于實例的、基于映射的、基于網絡的和基于對抗的,如Tan等人所詳述 。

? ? ??解決缺乏適當標注數據的另一種方法是使用半監督或弱監督方法。在完全監督學習中,帶標簽的實例用于訓練、驗證和測試DL模型,而弱監督方法允許利用部分標注或弱標注的數據。這些策略包括使用部分標注的數據集(不完全監督)、粗粒度標注的數據集(不精確監督)以及不僅包含真實標簽的數據集(不準確監督)。最后,DL研究中的最新進展強調了自監督或無監督預訓練策略的潛力:在自監督方法中,標簽是從數據中自動檢索的,而在無監督方法中,影像特征是在沒有標簽的情況下提取的。

? ? ? 對于DL和ML來說,在日益增長的個性化和精準醫療框架中,另一個重要挑戰是將不同數據模態的特征整合到單一模型中。當影像和臨床數據必須與其他組學數據整合到單一DL模型中時,這一問題尤為重要。在這方面,Li等人發表的綜述文章提供了可用整合策略的全面調查,從ML開始,也涵蓋了多模態DL整合策略。

? ? ?除了用于數據增強和遷移學習的對抗學習應用之外,對抗攻擊也值得一提。通過對醫療影像樣本施加小的修改,生成對抗樣本,這些修改接近分類器學習到的決策邊界,可能影響基于DL的計算機輔助診斷系統,以及基于放射組學的模型。事實上,對像素數據進行的小幅更改可能適當地改變某些放射組學特征的值,從而影響下游分析。在必須在臨床實踐中使用的可靠計算機輔助診斷系統中,這一問題不可忽視。

? ? ?考慮到AI聚焦的醫學影像文獻的不斷擴展,最近提出了一份用于開發可靠的醫學影像分析DL模型的指南(醫學影像中的人工智能檢查表,CLAIM),包括關于AI模型泛化能力和可重復性的建議。

3.1. 樣本量

? ? ? 在腫瘤影像的典型AI分類任務中,AI模型旨在使用影像生物標志物或可能與病變特征相關的放射組學特征來區分良性與惡性病變。在這種情況下,惡性病變的分布預計與良性病變的分布不同,通常通過p值來證明這一點。

? ? ? AI應用通常涉及數百甚至數千個統計假設檢驗。這大大增加了假發現的概率,即導致統計顯著p值(歷史上設定為<0.05)的關聯/相關性實際上并不真實。例如,如果在α(I型)錯誤率為0.05的情況下進行一千次統計檢驗,平均會出現50個假發現。為減輕這種現象,可以在這些特殊情況下采用更低的顯著性閾值。假發現率與樣本量密切相關:樣本量越大,假發現率越低,反之亦然。因此,樣本量是AI模型性能的主要決定因素:訓練集和測試集的樣本量過小會導致偏倚,并增加模型性能的方差。

? ? ? 在經典統計學中,針對多種可能的情境(研究設計、結果、零假設等)的樣本量確定方法已得到充分建立,這些方法基本圍繞以下公式構建:

? ? 該公式根據期望的誤差率(E)和方差(σ)提供了所需的樣本量nnn;Z是給定置信水平下的 Z 分布值。然而,上述公式并未考慮 AI 建模的任何特殊特性。事實上,AI 應用中所需樣本量的計算方法仍不明確,許多研究人員僅遵循 Widrow-Hoff 學習規則,這是一種多變量分析的經驗規則,建議每個將在模型中使用的影像特征對應十個數據(患者)。然而,根據具體情況,這一規則可能會導致樣本量過小或過大。

? ? ? 最近,Balki 等人在一項系統綜述中評估了醫學影像領域樣本量計算的更多分析方法,將不同方法分類為基于模型的方法(即基于算法特性)和曲線擬合方法(即在選定樣本量下經驗性評估模型性能)。基于模型的方法建立在訓練樣本和測試樣本來自同一分布的假設之上。Baum 和 Haussler 對于具有 k 個單元和 d 個權重的單隱藏層前饋神經網絡提出了一種方法。該方法預測,對于分類誤差 ε(0 < ε < 1/8),在 m 個樣本上訓練的網絡,其中 1-ε/2 的樣本被正確分類,在未見過的測試集上,其分類準確率將接近 1-ε,條件是 m ≥ O(d/ε·log?(k/ε))。Haykin 提出的另一種基于模型的方法認為,當滿足條件 m = O((d + k)/ε) 時,泛化是有效的。該方法類似于 Widrow-Hoff 規則,實際上 m ≈ d/ε 。

? ? ??學習曲線擬合方法旨在使用反比例冪函數來模擬訓練集大小與分類準確率之間的關系。Fukunaga和Hayes[提出通過性能測試程序經驗性地獲取接收者操作特征曲線下的面積,并將其與各自的1/Ntrain(Ntrain = 訓練圖像數量)進行繪圖:當Ntrain趨向無窮大時,通過線性回歸來推斷更大樣本量下的性能。盡管這些偽方法提供了事后的樣本量估計,但經驗方法的優勢在于能夠準確地為特定任務建模性能,避免了對分布的假設。

? ? ??另一種有前景的方法基于 Vapnik–Chervonenkis(VC)維度,簡單地估計分類AI算法的能力。通過該方法估計的樣本量基于以下公式:

? ? ?該公式為算法在訓練誤差(ETraining)下生成的測試誤差(ETest)提供了一個概率上的上界;其中,D 是算法的 VC 維度,N 是樣本量,且 0 ≤ η ≤ 1。對于預設的測試誤差和已知的訓練誤差,可以通過求解上述公式得到樣本量 N。當然,所需的測試誤差越低,N 越大。

? ? ?為了探索AI系統的性能,評估其與隨機機會的統計差異,并排除假發現的存在,建議在學習和分類過程結束時應用置換檢驗(即使用隨機置換的黃金標準標簽而非原始真實標簽來訓練、驗證和測試AI系統)。這在以下情況下尤為有用:

? ? ?1.訓練/測試數據集的大小不高;

? ? 2.訓練和/或測試子集不代表總體;

? ? ?3.AI模型的訓練受到訓練/測試數據集中混雜/噪聲變量的嚴重影響。

? ??? 在所有這些情況下,結果AI系統的性能可能比預期的更高。

3.2. 數據增強

? ? ? 數據增強是解決小數據集問題的數據空間解決方案。可以實現多種增強訓練數據集大小和多樣性的技術,主要分為兩大類:數據變換和過采樣。

? ? ? 數據變換通過保留標簽來轉換原始圖像。典型的變換包括幾何和顏色變換、裁剪、噪聲注入、濾波,以及通過平均像素值混合圖像或基于蒙特卡洛模擬投影生成圖像。數據過采樣在特征空間中創建合成實例(見第3.3節)。

? ???另一種完全不同的數據增強解決方案是對抗訓練,即使用兩個或多個網絡,其損失函數中編碼了相互對立的目標。Li 等人進行了對抗訓練實驗,發現對抗實例豐富后的原始測試數據上模型性能有所提升。遵循類似的原理,上述的 GANs從數據集中創建人工實例,使其保留與原始集合相似的特征。GANs 在醫學影像中的應用已在 Yi 等人的調查中得到充分記錄,并在進一步發表的研究中應用于計算機斷層掃描(CT) 、磁共振成像(MRI) 和 X 射線圖像。使用基于 GAN 的數據增強,報告了分類性能提高 4–8%。然而,數據變換、過采樣和對抗訓練也可以結合使用,因為它們并不相互排斥:傳統的手工數據變換技術可以與 GANs 結合使用。

? ? ? 目前仍未就為了改進 AI 模型而最終增強的數據集大小達成共識。過度增強的數據可能導致 AI 模型過擬合,甚至比增強前更嚴重。因此,一個好的方法是在逐步增強過程中監測過擬合,并根據最大訓練準確率和最小損失定義數據增強的最大水平。

3.3. AI應用中的不平衡學習

? ? ? 在與數據量相關的生物醫學 AI 應用中,另一個非常常見的問題是數據分布在不同類別之間存在較大的樣本量差異。這一問題通常是由于某些類別的出現率較低。在開發 AI 應用時,這一問題被稱為不平衡學習。

3.3.1. 數據重采樣

? ? ??不同的數據重采樣方法可以用來緩解這一問題,即欠采樣和過采樣方法。兩種類型的方法都通過調整訓練數據集的大小以實現更平衡的類別分布,使其與其他類別的大小相匹配:在欠采樣中,從多數類中抽取一個子集實例,而過采樣則生成人工樣本以補充少數類。在多類別框架下的不平衡學習中,通常會在類別之間成對應用欠采樣和過采樣。

? ? ? 當每個類別的樣本數量導致欠采樣方法被舍棄時,可以使用以下流行的過采樣方法。

? ? ??合成少數類過采樣技術(SMOTE)是從不平衡數據中學習的標準基準:在特征空間中沿著連接任何或所有k個少數類最近鄰的線段隨機選擇(例如k=2)創建的合成樣本 。合成樣本的生成步驟包括:

? ? ? 1.計算正在考慮的特征向量與其最近鄰之間的差異;

? ? ? 2.將該差異乘以[0, 1]區間內的一個隨機數;

? ? ? 3.將此量添加到正在考慮的特征向量上。

? ? ??這相當于在兩個特定特征之間的線段上選擇一個隨機點。值得注意的是,這種方法在多個領域中取得了成功,還啟發了其他方法來對抗類別不平衡,并顯著促進了新的半監督學習范式,如多標簽分類和增量學習。

? ? ??邊界SMOTE基于原始SMOTE實現,但并不是從所有少數類樣本生成新樣本,而是首先選擇所有邊界少數類樣本,并在考慮這一選擇的基礎上隨后生成合成樣本。對于少數類中的每個樣本,邊界SMOTE計算來自整個訓練集的m個最近鄰,并確定這些最近鄰中多數類樣本的數量。如果其多數最近鄰的數量超過少數類的數量,則該樣本被認為易于被誤分類,并被放入稱為“危險”集的集合中。否則,它被認為是安全的或是噪聲,因此退出過采樣過程。危險集中的少數類樣本代表少數類的邊界數據,最終通過應用SMOTE算法生成合成樣本。這是第一種實現方式,稱為邊界SMOTE1,而第二種實現方式(邊界SMOTE2)不僅從少數類的最近鄰中生成合成樣本,還從其最近的多數類鄰居生成樣本。

? ? ??自適應合成采樣方法(ADASYN)是SMOTE的另一種改進,主要根據不同少數類樣本的學習難度水平使用加權分布,如Haibo等人所描述。在ADASYN中,相對于易于學習的少數類樣本,更難學習的少數類樣本生成更多的合成數據。因此,ADASYN減少了類別不平衡引入的偏差,并將分類決策邊界向困難樣本移動 。

3.3.2. 集成學習

? ? ? 這種方法使用多個學習器的集成,每個組成分類器(Ci)在多數類的一個子集和少數類的一個子集上進行訓練,但仍然考慮少數類樣本的很大一部分。然后,所有Ci對測試樣本所做的決策根據給定規則(如多數投票)進行組合以獲得最終輸出。集成學習的原理在于觀察到分類器集成通常比單個模型表現更好,尤其是在泛化方面。此外,基礎分類器Ci現在在比原始問題更平衡的子問題上進行訓練,還具有包含代表原始集合不同方面的樣本的期望屬性。可以描述三種流行的方法。

? ? ? ?平衡袋裝分類器在不同隨機選擇的數據子集上構建多個學習器,通過對多數類進行欠采樣,使每個數據子集中的樣本數量與少數類的樣本數量匹配。

? ? ? ?隨機森林的變體是原始隨機森林方法的一個變種,它從平衡和下采樣的數據中誘導出一組樹的集成。首先,對于隨機森林中的每次迭代,從少數類中抽取一個自助樣本,并隨機地從多數類中有放回地抽取相同數量的樣本。其次,從這些數據開始分類和回歸樹(CARTs)的分類過程,直到達到最大大小,不進行剪枝。在每個節點,不是搜索所有變量以尋找最佳分裂,而是考慮隨機選擇的一部分變量。第三,重復前兩個步驟,訓練完成后,通過對每棵樹的決策進行多數投票來獲得最終決策。

? ? ? XGBoost是一種優化的、可擴展的、可移植的和分布式的梯度提升實現,其中樹的集成是CART。源自梯度提升的正則化目標化方法,這種方法最近因其被多個團隊用來贏得機器學習競賽而獲得了極大的人氣。與決策樹相比,CART中的葉節點存儲的是實值評分而不是二元決策值。這樣,可以獲得更豐富的解釋。

4. 數據整理

? ? ? 盡管存在差異,機器學習(ML)和深度學習(DL)面臨著若干共同的挑戰。如前所述,數據收集和整理是數據驅動模型開發的基本步驟。特別是在醫學影像的情況下,“垃圾進,垃圾出”原則依然有效:提供給任何處理算法的圖像池的質量決定了結果的可靠性,即使對于AI應用也是如此。用于推斷新知識的圖像的質量檢查是一個特別關鍵的點,考慮到AI應用需要在大樣本量(高數據量)的基礎上工作,而醫學圖像通常是在多中心研究中獲取的(由于不同設備、成像和臨床協議等導致的數據異質性高)。

? ? ? 假設AI只需要輸入隨機收集并大規模組合的數據可能會嚴重適得其反。錯誤的數據集可能以多種形式出現,從事實上的不正確信息到知識缺口、不正確的結論,最終到錯誤的臨床指示:未經整理的數據集可能存在偏見、不準確、不可靠、部分代表、充滿錯誤或模棱兩可的情況。使用未經整理的原始數據集“被發現會降低在遷移任務上評估的特征質量”。

4.1. 數據標注和注釋

? ? ? 數據標注旨在確保數據集適用于模型目標。例如,一個基于醫學圖像開發的AI模型,旨在預測不同的預后結果,將需要將數據標注為預后良好或預后差的圖像。此步驟將圖像與真實信息關聯起來,并意味著需要從針刺活檢或手術標本的組織病理學、實驗室結果、患者的臨床記錄甚至患者的隨訪中收集知識。這些知識也可以作為其他任務的真實基礎,例如用于自動一級篩查閱讀的AI應用(如篩查乳腺攝影),當AI工具提供即時的二分類為陰性病例或召回病例時,前者將被送往下一個篩查輪次,后者將被召回以評估可疑病變。

? ? ?一般來說,圖像可以通過不同的方式進行標注,包括結構化標簽、圖像注釋和圖像分割。雖然按照各種指南建議的診斷影像的結構化報告將大大減少提取標簽所需的工作量,但大多數臨床報告仍然由自由文本組成。因此,大多數希望使用回顧性數據的中心不得不處理與敘述性報告相關的大量醫學圖像,其分析需要巨大的努力。盡管DL本身已被提議用于將自由文本翻譯為結構化報告,例如在CT肺動脈造影中,回顧性基于報告的圖像標注通常是手動完成的。

? ? ? 例如,放射學診斷的圖像注釋可以通過使用分配給病變的放射學報告類別來完成,如乳腺影像報告和數據系統(BI-RADS)或前列腺影像報告和數據系統(PI-RADS)定義的類別。當告知算法病變或其他特定組織區域的位置時,圖像注釋也是必需的。

? ? ?過去,科學家團隊曾被雇傭來執行數據標注和注釋,包括圖像分割。在競賽期間,組織者會提供由共識標注的數據供參與者使用,例如在Crowds Cure Cancer項目中 ,數百名參加2017年和2018年北美放射學會會議的參與者參與了癌癥影像檔案庫(https://www.cancerimagingarchive.net/)的圖像標注任務。

? ? ? AI應用中另一個最常被低估的基本方面是圖像分割。雖然DL方法并不總是需要預先識別ROI或VOI以提取用于模型訓練的影像特征,但對于放射組學而言,此步驟是強制性的:區域/體積的定義越準確,進入ML模型的定量特征越能反映病變或組織的生物學特性。

? ? ? 多年來對圖像分割算法的研究強調了在使用來自不同成像模態和技術的手工設計影像特征時需要考慮的方面,無論是否使用對比劑或放射性藥物。圖像分割方法受所考慮的病變和圖像特性的影響,尤其是在混合和多模態成像的情況下。

? ? ? 由于ROI或VOI的定義定量地影響放射組學特征 ,不同分割方法獲得的放射組學分析結果可能有很大差異。迄今為止,放射組學研究中尚未就圖像分割應使用的具體方法達成共識。IBSI標準化倡議提出了一個良好的折衷方案,建議使用半自動算法,包括使用全自動方法后由操作員進行手動調整,加快了過程速度,同時仍允許人工修正。值得注意的是,這對放射組學特征的穩定性有影響:不同的分割/調整方法以及不同的操作員可能導致計算出的放射組學特征出現變化。

? ? ?對抗特征不穩定性的策略是通過應用不同的分割方法或讓不同的操作員對圖像進行分割,在重復(測試-重測)研究中選擇統計上穩定的放射組學特征,無論是在患者還是在仿真人體模型上。另一種策略是對單個操作員提供的分割ROI/VOI應用適度的隨機變化。此過程生成不同的分割結果,就好像它們是由不同的分割方法或操作員獲得的一樣,而無需其他注釋員或開發和實施替代分割方法的需要。

? ? ? 圖像分割在用于圖像分類和目標檢測的DL模型中是必需的。可以使用各種圖像注釋技術,借助ML算法提供邊界框、多邊形注釋、立方體注釋和圍繞圖像中目標的輪廓。這一過程被稱為語義分割,可以實現對與疾病相關的目標對象的深入檢測,在單一類和單一過程中進行分割。

4.2. 數據協調

? ? ?即使僅考慮單一成像模態,醫學圖像也可能使用不同的掃描儀獲取,或者使用相同的掃描儀但采用不同的臨床協議和/或采集/重建技術參數。這導致動態對比增強研究中空間分辨率、對比噪聲比和時間分辨率的可變性。這些變化對放射組學分析穩健性的影響已經有報道。Meyer 等人表明,考慮不同的圖像重建設置和輻射劑量后,從 CT 圖像中提取的超過 80% 的放射組學特征被發現不可重復。同樣,虛擬模型 和臨床研究 證明,來自正電子發射斷層掃描(PET)的放射組學特征受到重建設置的強烈影響,而磁場強度、掃描儀類型和采集參數對 MRI 研究也有類似的影響。采用深度學習(DL)的研究似乎受此問題的限制較小,但我們仍遠未清楚這是特征提取技術的影響,還是如前所述,由于生物醫學數據穩健性和可重復性增強的固有較大樣本量的影響。最近,已經開發了數據協調技術來補償上述變化:這些方法在從不同系統獲取的相同特征的統計分布上進行歸一化,同時保留圖像的信息內容。

4.3. 圖像強度歸一化、去噪和偽影校正

? ? ? 另一個可能對放射組學和深度學習(DL)方法中的圖像分析算法產生不可忽視影響的問題涉及使用任意單位來測量信號,通常見于 MRI。事實上,PET 和 CT 圖像具有基于明確定義的物理過程的測量單位,因此信號具有可量化的生理意義:根據商定的標準進行校準后,信號中的統計顯著變化可以解釋為真實變化。相反,MRI 提供的圖像信號以任意單位表示,這妨礙了不僅在群體研究中,而且在同一受試者的縱向研究中對圖像的比較。該一般范式的有趣例外包括來自擴散加權序列的表觀擴散系數(ADC)圖、T1 和 T2 映射以及 MRI 指紋識別。因此,在 MRI 中,在從圖像中提取用于 AI 應用的定量生物標志物之前,需要進行去噪和強度歸一化程序。已經描述了不同的歸一化方法:將整個成像值縮放和平移到固定強度范圍;歸一化到整個圖像的均值和標準差 ;歸一化到生物學上可比的參考組織區域;以及將成像直方圖調整到參考直方圖。即使沒有得出明確的結論,幾項研究已顯示這些多參數 MRI 圖像校正如何通過提高 AI 應用的性能來影響放射組學特征的價值。

? ? ? 除了圖像強度歸一化外,MRI 圖像還可以進行去噪和偽影校正。已經提出了廣泛的去噪方法:雙邊濾波方法;非局部均值濾波方法;塊匹配;以及三維濾波方法 或全局濾波器。偏場校正(BFC)指的是補償磁場不均勻性的校正,例如,目前大多數放射組學研究中用于執行 BFC 的 N4ITK 算法。然而,尚無大型研究專門探討這種校正對 AI 性能的影響。

? ? ? 即使是提供定量參數的圖像,如 PET 標準攝取值(SUV)單位或 MRI ADC 圖,通常也會受到廣泛的物理效應的影響,產生可能的偽影。這對于 ADC 圖來說是一個相關問題,使這一“例外”僅是相對的。在這些情況下,放射組學或 DL 研究將受益于影響整個圖像的校正方法,例如在圖像重建過程中補償物理效應的方法。正如 Litjens 等人所指出的,圖像處理算法如強度歸一化和去噪在 DL 算法的背景下尚未被廣泛使用,可能是由于 DL 研究中使用的大量圖像起到了補償因素的作用。然而,一些研究表明,這些校正可能有助于提高 DL 模型的性能,我們預計它們的使用將在未來增加。

? ?

4.4. 聯邦學習的適用性

? ? ? 除了仔細的數據標注和協調外,聯邦學習的潛在適用性也值得討論。事實上,大規模的數據收集不僅由于在不同機構之間交換大量數據集而引入物流問題,多中心和國際的 AI 驅動研究還必須處理有關患者數據交換的倫理和法律方面的嚴格和嚴謹的規定。實際上,在醫學影像中,掃描的存儲和傳輸由醫學數字成像和通信(DICOM)標準促進。傳統的訓練 AI 模型的方法涉及建立服務器,在這些服務器上訓練模型,通常使用基于云的計算平臺。然而,已經出現了一種替代的模型創建方式,稱為聯邦學習,它將機器學習(ML)帶到數據源,而不是將數據帶到模型。

? ? ? 在聯邦學習中,訓練好的共識模型通過利用不同機構收集的數據開發,無需共享數據并維護患者隱私。通過實施分散的數據模型并通過聚合服務器或點對點系統執行計算,這種方法為開發和評估目的提供了對大型、異質且經過整理的多中心數據集的受控和安全訪問。然而,聯邦學習的潛力需要參與者在模型開發過程的每個步驟(從患者招募到模型評估)中確保高標準化和可靠性,特別是在模型泛化性方面。關于聯邦學習基礎設施的實現,每個合作伙伴必須在硬件、軟件和網絡帶寬方面確保有價值的高性能計算(HPC)資源。作為一個良性副作用,這一需求可能導致醫療環境中 HPC 資源的實質性增強。

5. AI應用的可解釋性

? ? ? 如前所述,AI 應用于醫學圖像在學習、自動分類和預測的新技術實施以及在各個領域獲得的內在性能方面表現出持續的改進。然而,技術和開發模型復雜性的增加對應于理解其底層學習和分類過程的難度增加。這種行為的典型例子(圖 2)可以在從 ML 技術到 DL 架構的轉化中看到。

圖2. 人工智能系統的學習性能和可解釋性作為模型復雜性的函數。

? ? ?最近,使 AI 推理對人類讀者透明和易懂的需求強烈出現,目的是觀察、研究和理解輸入如何在數學上映射到輸出 [149],[150],并澄清 AI 系統內部機制中的模式。能夠描述其行為——或 AI 控制實體行為——的 AI 系統被稱為可解釋 AI(XAI),這一術語最早由 Van Lent 等人于 2004 年在仿真游戲應用中引入 [151]。術語“可解釋性”也可以表達為“可理解性” [152]、“可理解性” [153]、“智能性” [154] 或“可解釋性” [149]:然而,從這些定義可以清楚地看出,XAI 系統的開發絕不應以任何方式影響模型的分類/預測性能,而只應影響其可解釋性,如圖 3 所示。

圖3. 人工智能(AI)與可解釋人工智能(XAI)在可解釋性方面的學習性能。

? ? ? XAI 的需求在那些需要高透明度的領域尤為突出,如生物醫學領域,在這些領域中,如果提議使用 AI 系統來支持臨床醫生和患者的決策,AI 系統在決策中的可靠性應得到強有力的文檔支持。其他重要問題涉及放射組學特征的臨床解釋以及對發現的基于放射組學的生物標志物進行生物學驗證的需求 。鑒于可用的 ML 和 DL 算法的數量和異質性,目前尚無共識或標準策略來實施 XAI,盡管最近已經提出了一些潛在的框架。XAI 策略可以根據它們應用的學習階段進行分組,因此根據它們揭示的信息(可解釋的輸出)。考慮到以下階段:特征減少(特征提取和選擇);學習過程(訓練和預測);以及特征減少與學習過程的組合。

? ? ? 關于特征減少,特征提取和選擇技術通常包含在 ML 系統中。報告這一中間階段的輸出是使系統內部機制更易理解的一種方式。當輸出由一組按重要性排序的提取/選擇特征組成,用作訓練和預測的輸入時,排名最高的特征可以根據給定指標解釋為輸入數據中最具代表性的特征。然而,這可能與特定的預測任務無關,因此缺乏信息性。例如,大多數論文報告從輸入數據集中提取的主成分,代表輸入數據集中方差最大的特征,與群體區分無關。其他特征提取技術,如獨立成分分析,也存在類似的問題。相反,諸如偏最小二乘分析或單變量/多變量技術(如 Fisher 判別比率或相關分析)的特征提取技術,可以考慮群體區分的信息。此外,必須注意的是,一些特征提取技術不會返回提取特征的排名列表,因此,應采用不同的可解釋性策略,如下所述。然后,這一階段的輸出可以作為輸入數據集最具代表性的特征列表返回(特別有用,如果輸入數據集由非圖像變量組成)或映射到原始輸入空間(特別有用,如果輸入數據集由圖像組成)。這些技術易于實現,但其可解釋性水平較低,僅限于特征提取/選擇階段,因此無法解釋隨后的訓練和預測過程。

? ? ? 關于學習過程,訓練和預測代表了 ML 系統的核心。為了使這一階段對人類可解釋,實施的技術通常根據每個輸入特征在訓練和分類過程中的重要性生成一個分數。在這種情況下,生成的特征重要性是針對特定 AI 分類/預測任務的。例如,隨機森林應用一種內部優化技術,最小化或最大化給定指標(如基尼不純度或信息增益/熵),從而根據每個特征在這一優化過程中的貢獻返回一個重要性分數。對決策樹也可以做出類似的考慮。對于基于線性或邏輯回歸的分類器,包括 ElasticNet 或 LASSO,重要性分數由在擬合所考慮的分布過程中找到的每個輸入變量的系數表示。在支持向量機(SVM)中,SVM 分類器分配給每個訓練樣本的權重可以被反投影到原始特征空間,從而產生一個表示每個特征在 SVM 分類中的重要性的分數?。然而,這最后一種技術只能在使用線性核時實現。在這一第二階段,輸出也可以作為按重要性排名的特征列表返回,用于分類/預測,或映射到原始輸入空間,例如通過熱圖突出顯示。這些技術的實施難度為低至中等,其可解釋性水平僅限于訓練和預測階段,無法解釋特征提取/選擇過程。

? ? ? 最后,較新的方法旨在整體上解釋 AI 系統的行為,考慮到 ML 和 DL 技術。與 ML 相比,特征提取/選擇和訓練/預測嵌入在更廣泛的過程中,例如優化過程。這個過程可以通過改變輸入到系統的特征數量來迭代,以優化給定指標(例如,分類曲線下面積)。因此,可以根據優化指標的相應值為每個特征分配一個重要性分數。因此,這種技術可以獨立于選擇的特征提取/選擇/分類技術使用,將 AI 系統轉變為 XAI 系統。例如,遞歸 SVM 可以包含在此類別中,因為它們使用迭代過程根據整個 AI 系統性能為每個輸入特征分配重要性分數 。

? ? ? 由于深度架構涵蓋了整個學習流程,從特征提取到分類,DL 算法也可以從 XAI 中受益,考慮到 DL 架構中層數眾多,這增加了人類理解的難度。針對 DL 的 XAI 策略試圖揭示圖像分解在不同深度的工作方式,并將這些信息映射到顯著性/激活圖中,顯示給定圖像的哪些特征對決策貢獻最大。這些技術中最流行的是類激活圖,其中圖是作為最后卷積層中像素級激活的函數生成的,按激活對給定類別最終分數的貢獻進行加權。CAM 可以為任何輸出類別生成,從而即使與錯誤分類相關,也能返回可解釋的信息。另一種針對 DL 系統的 XAI 策略由 Hendricks 等人提出:作者訓練了一個 CNN 來識別圖像中的對象,并實現了一個生成語言的遞歸神經網絡,將 CNN 的特征重要性翻譯成詞語和標題。

? ? ? 提高模型可解釋性是人工智能模型開發中的一個開放性挑戰,旨在保證其向臨床領域的轉化能力。然而,我們注意到,解釋整個人工智能系統行為的可解釋人工智能(XAI)技術在實施上存在較高難度,并可能帶來高昂的計算成本,特別是對于包裝策略而言。圖4展示了醫學領域中可能的人工智能任務的兩個代表性示例,以及相應的人工智能與可解釋人工智能輸出的對比。

圖4. 醫學中人工智能(AI)任務的代表性例子及相應的AI與可解釋人工智能(XAI)輸出。

6. 設計選擇:機器學習(ML)與深度學習(DL)

? ? ? 然而,沒有“一刀切”的解決方案可以開發出可靠的AI工具。根據可用數據的質量和數量、標簽和注釋的存在與可靠性,以及所需的可解釋性水平,AI開發者可以采取不同的策略。

? ? ??圖5展示了在AI模型開發過程中必須做出的主要決策,涉及以下方面:

? ? ? 1.定義可用數據集的樣本量;

? ? ?2.評估是否可以將先前的應用領域適應于當前所考慮的問題;

? ? ? 3.評估標簽和注釋的可靠性;

? ? ? ?4.提供模型結果的可解釋性,考慮模型邏輯/行為和結果解釋。

? ? ??這些選擇在表1中得到了更好的結構化,表1比較了經典機器學習(ML)和深度學習(DL)方法,并建議了針對ML和DL應用中最重要挑戰的最佳解決方案。然而,一些商業和開放獲取的軟件工具已經提供了多種功能,并為在醫學影像中有效開發AI模型提供了經過驗證的解決方案,而無需特定的AI和編碼技能。根據這些軟件工具對本綜述中突出問題的解決方案分類,可以在補充材料中找到。

圖5. 人工智能模型開發中的設計選擇流程圖。每個決策塊表示典型的實際情況,這些情況導致經典機器學習和深度學習模型中不同的解決方案。

表1. 根據決策選擇經典機器學習和深度學習模型的挑戰

7. 結語

? ? ?在本綜述中,我們描述了使用AI的優缺點之間的平衡,特別是區分了機器學習(ML)及其在放射組學中的獨特應用與深度學習(DL)。這些知識是連接數據科學家(開發者)與臨床用戶(醫生)的橋梁,幫助他們選擇最佳解決方案以實施特定的AI應用,包括特殊的高級研究和即時的臨床需求。表2中展示了一些ML和DL的優缺點,這些優缺點既包括每種技術的特有方面,也包括兩者共有的方面。四個主題值得最后強調。

表2. 針對醫學影像應用選擇機器學習或深度學習的優缺點及建議。

ML = 機器學習(machine learning);DL = 深度學習(deep learning);IBSI = 圖像生物標志物標準化倡議(Image Biomarker Standardization Initiative);SVM = 支持向量機(support vector machines)。

? ? ?從一般的角度來看,集成學習在多種情況下都可能有用,而 Vapnik–Chervonenkis 方法可以幫助定義樣本量。

? ??第一,當樣本量較小時,當預測類別是以連續變量表達的標簽,或者當模型需要將附加數據(例如風險因素或生物數據)整合到影像特征中時,應優先選擇在放射組學領域工作的 ML 算法,這與 IBSI 指南一致。在這種情況下,應進行穩健可靠的特征選擇、協調和去噪,以及嵌套或封裝的驗證方案,以避免過擬合并提高相關特征的統計顯著性。所選的相關特征將是向用戶解釋模型的途徑。

? ? ??第二,如果已經存在用于特定領域應用的預訓練 DL 架構,可以將遷移學習作為放射組學的替代方案應用,也可以與適當的數據增強相結合。當這不可能時,如果可用的樣本量大且多樣,則可以從頭開始訓練 DL。應修改和調整 DL 架構以達到所需的特征學習水平,利用優化器加快訓練收斂并通過正則化提高模型泛化能力。將激活特征的顯著性圖疊加在原始圖像上,可以向用戶解釋模型的功能。

? ? ??第三,關于樣本量定義,為了避免主觀評估并涵蓋每個特征十個樣本的經驗規則,可以使用 Vapnik-Chervonenkis 方法(見第3.1節)來適用于任何 AI 方法,并通過仔細監測訓練樣本的學習曲線進行有益的補充。

? ? ? 第四,除了優化單個 AI 架構的性能外,AI 開發者和用戶更好的投入應是構建不同分類器的組合,其整體決策可以提高各個分類器單獨使用時的預測能力。

? ? ?為了將本文中呈現的技術和實際知識置于更廣泛的背景中,我們應該考慮到對 AI 在人類生活中角色的認知僅是相對最近的。由 COVID-19 疫情推動的向更數字化和在線世界的轉變,僅自2015年 AI 系統開始在圖像解釋中超越人類讀者以來才展現出一個正在行動的趨勢,這得益于過去十年我們見證的計算能力的大幅提升。

? ? ?生物醫學和醫療保健系統是 AI 應用最重要的領域之一,醫學影像可能是最適合和最有前景的領域。考慮到向所謂的“P4 醫學”——基于預測、預防、個性化和參與的理想趨勢,AI 工具是促進這一未來方式的良好候選者。最后一個“P”,代表更廣泛的患者賦權,也可以通過良好的 AI 使用得到增強,因為人類智能可以通過向 AI 學習得到提升,前提是人類具備正確的知識和技能。我們可以從面對這一不可避免革命的醫療保健專業人員開始。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/96051.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/96051.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/96051.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于Echarts+HTML5可視化數據大屏展示-智慧小區大數據分析

效果展示&#xff1a;代碼結構&#xff1a;主要代碼實現 index.html布局 <!doctype html> <!DOCTYPE html> <html lang"en"><head><meta charset"utf-8"><title>智慧農業大數據展示</title><link rel"s…

【LeetCode熱題100道筆記】驗證二叉搜索樹

題目描述 給你一個二叉樹的根節點 root &#xff0c;判斷其是否是一個有效的二叉搜索樹。 有效 二叉搜索樹定義如下&#xff1a; 節點的左子樹只包含 嚴格小于 當前節點的數。 節點的右子樹只包含 嚴格大于 當前節點的數。 所有左子樹和右子樹自身必須也是二叉搜索樹。 示例 1&…

Apache Tomcat 教程:從入門到精通(含目錄結構與版本詳解)

??????1. 背景?? Apache Tomcat 是一個開源的 ??Java Servlet 容器??&#xff0c;由 ??Apache 軟件基金會&#xff08;ASF&#xff09;?? 開發和維護&#xff0c;最初由 ??Sun Microsystems?? 的軟件架構師 ??James Duncan Davidson?? 設計&#xff0…

設計模式從入門到精通之(六)策略模式

策略模式&#xff1a;讓算法靈活切換的秘密武器在日常開發中&#xff0c;算法的選擇常常是程序設計的核心&#xff0c;比如支付方式的選擇、排序邏輯的切換、促銷活動的動態調整等。當需求變化時&#xff0c;我們需要在多個算法之間切換&#xff0c;但又不希望修改已有代碼。如…

安裝MATLAB205軟件記錄

安裝MATLAB2025 一臺電腦可以安裝多個版本的MATLAB; 下載資源 微信公眾平臺-MATLAB R2025a v25.1下載及安裝教程 安裝步驟 解壓, 壓縮文件大小為13.8GB 裝載 選中setup.exe右鍵單擊以管理員身份運行 我有文件安裝密鑰 接受許可條款 復制粘貼密鑰 63733-59078-50866-02827-…

MySQL 基礎架構(一):SQL語句的執行之旅

MySQL系列文章 MySQL 基礎架構&#xff08;一&#xff09;&#xff1a;SQL語句的執行之旅 你是否好奇過&#xff0c;一條看似簡單的SQL查詢語句&#xff0c;在MySQL內部究竟經歷了怎樣的"奇幻之旅"&#xff1f;從連接建立到結果返回&#xff0c;MySQL是如何層層處理、…

Spring Boot 使用 Druid 連接池極致優化

在 Spring Boot 中使用 Druid 連接池進行極致優化&#xff0c;需要從核心參數調優、監控體系搭建、安全增強、連接管理及性能適配等多個維度綜合考慮。以下是分階段的詳細優化策略&#xff1a;一、基礎環境準備確保使用最新穩定版 Druid&#xff08;截至 2024 年推薦 1.2.38&am…

【Big Data】Apache Kafka 分布式流處理平臺的實時處理實踐與洞察

目錄 一、Apache Kafka是什么 二、Kafka的誕生背景 三、Kafka的架構設計 四、Kafka解決的技術問題 五、Kafka的關鍵特性 六、Kafka與其他消息隊列系統的對比 七、Kafka的工作原理 八、Kafka的部署與使用方法 1. 集群部署 2. 生產者與消費者配置 3. 安全配置 4. 監控…

23種設計模式——裝飾器模式(Decorator Pattern)詳解

?作者簡介&#xff1a;大家好&#xff0c;我是 Meteors., 向往著更加簡潔高效的代碼寫法與編程方式&#xff0c;持續分享Java技術內容。 &#x1f34e;個人主頁&#xff1a;Meteors.的博客 &#x1f49e;當前專欄&#xff1a;設計模式 ?特色專欄&#xff1a;知識分享 &#x…

《sklearn機器學習——聚類性能指標》Davies-Bouldin Index (戴維斯-博爾丁指數)

Davies-Bouldin Index (戴維斯-博爾丁指數)簡介 概念與定義 Davies-Bouldin Index是由David L. Davies和Donald W. Bouldin于1979年提出的一種用于評估聚類算法效果的內部指標。它通過計算每個簇內數據點之間的相似性和不同簇中心點的距離來衡量聚類結果的質量。DBI的值越低&am…

QT的學習(一)

前言&#xff1a;距離上一次摸QT已經快10年了&#xff0c;時光匆匆&#xff0c;現在已經到6.9版本了 一、安裝QT 1.1、下載鏈接 https://mirrors.tuna.tsinghua.edu.cn/qt/official_releases/online_installers/ 這是國內鏡像&#xff0c;比官網快很多了&#xff0c;官網那個…

亞洲數字能源獨角獸的 “安全密碼”:Parasoft為星星充電筑牢軟件防線

當你在充電樁前等待愛車滿電時&#xff0c;是否想過&#xff1a;這看似簡單的充電過程&#xff0c;背后藏著多少軟件代碼的精密協作&#xff1f;作為亞洲數字能源領域的頭部企業&#xff0c;星星充電用 “移動能源網” 連接著千萬用戶與新能源世界&#xff0c;而支撐這一切的&a…

安裝Codex(需要用npm)

查看已經安裝的包 npm list -g --depth0 npm uninstall -g anthropic-ai/claude-code 如果要卸載什么東西 安裝Codex &#xff1a;npm i -g openai/codex https://openai.com/zh-Hant/codex/ 之后登錄gpt賬號&#xff0c;完成后就是下面的樣子

HarmonyOS 開發學習分享:從入門到認證的完整路徑

HarmonyOS 開發學習分享&#xff1a;從入門到認證的完整路徑 大家好&#xff01;我是趙老師&#xff0c;一個深耕鴻蒙生態的開發者。最近剛通過鴻蒙生態賦能資源豐富度建設活動的講師認證&#xff0c;想和大家分享一下 HarmonyOS 開發的學習心得和認證經驗。 我的鴻蒙開發經歷作…

使用Spring Boot DevTools快速重啟功能

背景 在Spring Boot項目中&#xff0c;修改一些簡單的代碼后&#xff0c;每次手動終止并啟動整個項目比較繁瑣且消耗時間。Spring Boot DevTools 提供了開發時的熱重啟功能&#xff0c;使得在開發過程中修改代碼后可以快速生效&#xff0c;而無需手動重啟整個應用&#xff0c;可…

7.4Element Plus 分頁與表格組件

el-pagination el-table 這兩個組件是后臺管理系統中最常用的數據展示與交互組合&#xff0c;通常配合使用實現 分頁加載、排序、篩選、操作 等功能。一、分頁組件 el-pagination用于控制大量數據的分頁展示。? 基本結構<el-paginationv-model:current-page"currentPa…

搭建機器學習模型的數據管道架構方案

本篇文章Designing Data Pipeline Architectures for Machine Learning Models適合對數據管道架構感興趣的讀者&#xff0c;亮點在于詳細解析了傳統數據倉庫、云原生數據湖和現代湖倉這三種架構&#xff0c;幫助理解如何將原始數據轉化為可操作的預測。文中還強調了不同架構的優…

GitHub 熱榜項目 - 日榜(2025-09-06)

GitHub 熱榜項目 - 日榜(2025-09-06) 生成于&#xff1a;2025-09-06 統計摘要 共發現熱門項目&#xff1a;15 個 榜單類型&#xff1a;日榜 本期熱點趨勢總結 本期GitHub熱榜顯示AI自動化與安全運維為核心趨勢。Bytebot、EvolutionAPI等AI代理項目凸顯自然語言交互和容器化…

Homebrew執行brew install出現錯誤(homebrew-bottles)

問題描述 在使用homebrew安裝軟件時&#xff0c;出現如下報錯&#xff1a; Downloading https://mirrors.aliyun.com/homebrew/homebrew-bottles/bottles-portable-ruby/portable ruby-3.4.5.arm64_big_sur.bottle.tar.gz curl: (22) The requested URL returned error: 404 …

23種設計模式——工廠方法模式(Factory Method Pattern)詳解

?作者簡介&#xff1a;大家好&#xff0c;我是 Meteors., 向往著更加簡潔高效的代碼寫法與編程方式&#xff0c;持續分享Java技術內容。 &#x1f34e;個人主頁&#xff1a;Meteors.的博客 &#x1f49e;當前專欄&#xff1a;設計模式 ?特色專欄&#xff1a;知識分享 &#x…