背景與目的:數字化乳房x光片的腫塊檢測和分割在乳腺癌的早期發現和治療中起著至關重要的作用。此外,臨床經驗表明,它們是乳腺病變病理分類的上游任務。深度學習的最新進展使分析更快、更準確。本研究旨在開發一種用于乳房x線攝影的乳腺癌質量檢測和分割的深度學習模型架構。
方法:結合YOLO (You Only Look Once)和LOGO (Local-Global)結構,提出了一種同時進行大規模檢測和分割的雙鏡頭模型。首先,采用最先進的目標檢測模型YoloV5L6,對乳房x光片中的腫塊進行高分辨率定位和裁剪;其次,為了平衡訓練效率和分割性能,修改了LOGO訓練策略,在變壓器全局分支和局部分支上分別訓練整體圖像和裁剪圖像。然后將兩個分支合并以形成最終的分割決策.
結果:提出的YOLO-LOGO模型在兩個獨立的乳腺造影數據集(CBISDDSM和INBreast)上進行了檢驗。該模型的性能明顯優于以往的工作。在CBIS-DDSM數據集上,質量檢測的真陽性率為95.7%,平均精密度為65.0%。其在CBIS-DDSM數據集上的質量分割性能為F1-score=74.5%, IoU=64.0%。在另一個獨立數據集INBreast中也觀察到類似的性能趨勢。
結論:提出的模型具有更高的效率和更好的性能,減少了計算量,提高了計算機輔助乳腺癌診斷的通用性和準確性。因此,它有可能在早期乳腺癌檢測和治療方面為醫生提供更多幫助,從而降低死亡率。
1. 介紹
????????在過去的幾年中,大多數基于深度學習的圖像分割模型都使用基于深度卷積神經網絡(cnn)的U-Net (Olaf[6])架構來實現其最佳性能,如U-Net+[7]、Attention U-Net[8]、DenseUNet[9]、R2U-Net[10]、UNet 3+[11]、connected_unet[12]等[13-15]。CNN可以從不同抽象層次的不同領域的數據中自動生成重要特征。這一優勢使其成為近年來基于深度學習的計算機視覺研究中最受歡迎的技術。根據Valanarasu等人[16]的研究,CNN模型的一個主要限制是過于關注像素的局部平方。事實上,一種新出現的深度學習架構,名為視覺變壓器(Vision Transformer, ViT),最近已經引領了在計算機視覺中取代cnn的趨勢[17]。與傳統的cnn相比,ViT通過其自注意機制(過程獲得的全局注意或細粒度的局部注意)強大地捕獲局部和全局或遠程視覺依賴。此外,ViT的注意機制可以增加其可解釋性,從而減少在醫療保健領域等關鍵領域應用時對“黑箱”的恐懼[18,19]。
????????這些優點使得ViT很適合解決乳房x線影像分割問題。基于ViT的醫學圖像分割模型的主要挑戰在于訓練這樣的模型需要強大的計算能力[20]。由于GPU等硬件條件的限制,目前的計算資源可能只能分割低分辨率的圖像。最近,有一些作品結合了ViT和cnn的優點。例如,CvT在ViT中引入卷積來提高性能和效率,但它并不是為解決分割問題而設計的[21]。TransUNet是第一個基于變壓器的醫學圖像分割框架,優于其他最先進的分割模型[22]。它也是cnn和ViT的結合。Medical Transformer (MedT)提出了一種門控軸向變壓器模型結構,該模型由卷積層和門控軸向關注層組成[16]。然后為門控軸向變壓器塊配備LOGO (Local-Global)訓練策略,可以充分利用醫學圖像數據來解決小樣本量問題[16]。
????????Yan等人提出,如果能先檢測到ROI,將有利于后續的分割任務[23]。因此,他們使用YoloV3[24]作為檢測器從乳房x光片中識別ROI,然后將檢測到的ROI傳遞給稱為V19U-net++[7]的CNN進行進一步分割。然而,使用的ROI檢測模型YoloV3現在已經更新為YoloV5L6[25,26]。讓YoloV3每張圖像只檢測一個乳房腫塊的ROI。然而,在實踐中,在乳房x光攝影圖像中有可能出現多個腫塊。此外,分割模型V19U-net++是一個傳統的CNN模型,可以通過在其架構中加入Transformer來改進。
????????受MedT[16]和Jocher等人的兩階段檢測-分割工作流程的啟發,提出了一種新的乳房腫塊分割模型,首先使用YoloV5[25]及其最新模型[26]檢測乳房x光片中的乳房腫塊ROI,直接從高分辨率圖像中裁剪,最后使用更新的LOGO訓練策略[27,28]從裁剪后的圖像中分割腫塊。我們的貢獻主要體現在兩個方面:
- 首先測試了最先進的目標檢測模型YoloV5,用于檢測乳房x光片中的乳房腫塊,并提供了特定裁剪的局部圖像,用于后期的分割分析。
- 模型充分利用了ViT在考慮遠程依賴關系方面的優勢。模型的LOGO結構不僅大大提高了原始像素級的分割分辨率,而且保持了分割結果在原始圖像中的位置精度。
2. 材料與方法
2.1 乳房x光檢查數據集?
????????兩個乳房x線照片數據集,DDSM的乳腺成像子集(CBIS-DDSM)[29-31]和INBreast數據集[32](表1),被用來訓練和測試我們的質量檢測和分割模型。兩個數據集均由多對掃描乳房x光片圖像(圖1(a))及其相應的乳腺腫塊二值分割圖像(圖1(b))組成。CBIS-DDSM有其標準化的訓練-測試分割,如表1所示。使用CBIS-DDSM數據集的訓練部分作為質量檢測和質量分割的訓練集,并使用CBIS-DDSM的一半測試數據進行驗證。為了測試我們模型的可靠性和通用性,在INBreast數據集和CBIS-DDSM的另一半測試數據上計算了它的性能。應該注意的是,兩個來源中的每個圖像可能有一個或多個乳房腫塊。
2.2 數據預處理
????????DICOM(醫學數字成像和通信)是一種特殊的醫學圖像文件格式,包含許多詳細的臨床信息。為了使目標檢測模型和分割模型能夠直接讀取圖像,將DICOM格式轉換為PNG格式。在原始圖像中發現了額外的信號,這些信號對人類閱讀有用,但可能會干擾計算機處理,例如原始乳房x線攝影圖像右上角的文本標記(圖1(a))。為了去除這種非信息噪聲并保持尺寸和/或方向風格的一致性,使用自適應去噪算法對所有圖像進行預處理(圖1)。首先進行了自適應裁剪,從原始圖像的頂部和底部裁剪2.5%。然后對圖像進行特定閾值的二值化,然后使用Python包scikitimage[33]在二值化后的圖像中選擇最大的連通區域生成自適應掩碼。只有在這個自適應掩模內的像素被保留以供進一步處理。
????????在二值化后的圖像中,提到的“連通區域”指的是在一個二值圖像中,所有具有相同像素值(通常為黑色或白色)且相鄰的像素構成的連通區域。其中,相鄰的像素指的是在圖像中上下、左右或對角線方向上相鄰的像素。
????????在計算機視覺和圖像處理中,通過對圖像進行連通域分析,可以對圖像進行物體檢測、目標跟蹤、圖像分割等操作。在二值化后的圖像中選擇最大的連通區域生成自適應掩碼,通常是為了進一步處理或分析圖像中的特定對象或區域。
????????需要注意的是,連通域分析通常涉及二值化、連通域標記和連通域處理等步驟。在二值化過程中,將非二值圖像轉化為二值圖像,然后識別出連通區域。最后,可以通過比較各連通區域的大小、形狀等特征,選擇最大的連通區域生成自適應掩碼。
????????有些圖像的自適應掩碼在相反的一側(即,最大的連接區域可以出現在原始圖像的左側或右側)。為了使這一點一致,翻轉了一些圖像,使自適應掩碼始終在左側,一旦圖像被翻轉,這個信息就會被記錄下來,它對應的分割掩碼也會被翻轉。翻轉后,采用對比度限制自適應直方圖均衡化(CLAHE)提高圖像對比度。CLAHE是一種成熟的圖像處理算法,已被證明具有有利于乳房x光檢測任務的能力[34]。最后,通過自適應填充將處理后的圖像縮放到默認大小。確保裁剪、翻轉和填充都是基于圖像大小來操作的。由于在輸入階段圖像和掩碼的大小是相同的,保證自適應操作不會破壞原有的標記質量分割。因此,預處理算法保證了成像處理前后掩模和乳房x光圖像的一致性。整個處理過程是自動的,有兩個指定的超參數要設置:圖像二值化的閾值和成像裁剪的比例。做了簡單的統計,發現在我們90%以上的乳房x光片中,乳房體邊界與圖像邊界之間的差距小于2.5%。因此,成像裁剪比例設置為2.5%。預處理后的圖像作為我們提出的YOLO-LOGO質量檢測和分割模型的輸入。?
2.3?用于乳腺腫塊檢測和分割的YOLO-LOGO模型
????????所提出的用于數字乳房x線照片中乳房腫塊檢測和分割的YOLO-LOGO變壓器模型的整體架構如圖2(a)所示。它包括兩個步驟:首先,使用YoloV5檢測乳房腫塊的ROI,然后直接從高分辨率圖像中裁剪(圖2(b));其次,為了提高訓練效率,采用了更新版本的local-global (LOGO)分割策略,可以大大提高原始像素級的分割分辨率(圖2(a))。
?
2.3.1?YOLO: 乳腺腫塊檢測的結構和方法
????????與傳統的多目標檢測任務不同,我們的目標僅是乳房腫塊(即單類目標檢測)。因此,不需要對檢測到的對象進行分類。在乳房腫塊檢測階段,采用了計算機視覺中最先進的目標檢測模型YoloV5L6作為檢測器(圖2(b))。YOLO是一個經典的目標檢測模型,YoloV5L6是它的第5個版本。YoloV5L6在其架構中包含三個主要子結構:主干、頸部和預測。主干用于從輸入數據中提取特征。YoloV5L6使用跨階段部分網絡(Cross Stage Partial Networks, CSP)[35]作為主干。然后將提取的圖像特征傳遞給模型頸部,用于生成特征金字塔,以便模型可以檢測不同大小和尺度的同一物體。YoloV5L6采用路徑聚合網絡(Path Aggregation Network, PANet)[36]作為模型頸部。然后將PANet生成的特征金字塔傳遞到模型頭部生成最終輸出。
????????使用從掩模圖像中自動提取的放大的邊界矩形作為YoloV5L6目標檢測的真實ROI。在數學上,這些矩形標簽以數值形式存儲在文檔中。如果在ground truth中有n個乳腺腫塊,則在標簽文件中會有n條線,每條線代表一個腫塊的位置和大小信息:中心點的相對坐標X和Y,相對寬度(W)和相對高度(H)。它們的數學定義如下?
?
?
?
?
????????其中x和y分別是質心的坐標。腫塊寬度和腫塊高度由乳房腫塊測量。在ROI標簽準備好后,進一步進行圖像增強,包括圖像旋轉、縮放、水平翻轉、垂直翻轉、裁剪和混合,以擴大YoloV5L6訓練每個輸入數據。使用CBIS-DDSM訓練數據1000次后,YoloV5L6 ROI檢測模型的損失趨于穩定并收斂到一個較小的值。當應用訓練好的腫塊檢測模型識別未標記乳房x光片中的乳房腫塊時,其輸出是腫塊在原始圖像中的位置和大小,并帶有置信度分數。置信度越高,越有可能是質量。關于YoloV5L6的更多細節可以在其原始論文[25,26]中找到。?
2.3.2?LOGO:乳房質量分割的架構和方法
????????借鑒MedT[16]的門控軸向注意機制和LOGO訓練策略來實現這一點。正如在引言中簡要提到的,門控軸向注意機制的發展是為了在樣本量不夠大(醫學成像領域經常出現這種情況)和計算資源有限的情況下更容易被接受。門控軸向注意可以看作是自注意的一種變體或擴展,通過添加門來控制信息流,并將注意本身分解為兩個軸(高度和寬度)以節省計算成本。原ViT中提出的自我注意機制可以表述如下:?
其中,是自注意力層的輸出。?H、W、D分別對應輸入特征映射
的高度、寬度和維度。x和o是高維矩陣,
表示可學習的投影矩陣。
表示輸入特征映射x的坐標。
????????自注意力層可以從整個輸入特征映射中捕獲非局部信息。因此,它是計算成本訓練。為了降低計算復雜度,提出了軸向注意將自注意分解為兩部分[37]。第一部分計算特征圖高度軸上的自關注,第二部分計算特征圖寬度軸上的自關注。
?
?
????????其中、
和
是查詢、鍵和值的相對位置編碼的可學習權矩陣。這些相對位置編碼通常需要大數據來訓練。然而,醫學圖像數據集通常樣本量不大,由于學習到的相對位置編碼不準確,會影響模型的性能。因此,在醫學圖像數據分析的情況下,最好不要總是將學習到的相對位置編碼添加到最終輸出中。根據這一思路,可以在高度軸向注意(Eq.(8))和寬度軸向注意(Eq.(9))的查詢、鍵和值中添加gate機制來控制信息流。?
?
?
Gq, Gk, Gv1, Gv2是可學習的門參數,用來控制學習到的相對位置碼到最終輸出的傳遞
????????上一步YoloV5L6模型檢測到的ROI是乳房腫塊的局部視圖,可以提供乳房腫塊的放大細節,而整個圖像可以提供遠距離的非局部上下文。ROI和整體圖像對于獲得良好的分割性能都很重要。使用LOGO架構來利用ROI和整個圖像作為最終的分割結果。LOGO架構有兩個分支,本地分支和全局分支(圖2B)。乳房腫塊檢測完成后,可以從YoloV5L6的輸出中得到腫塊的相對坐標和大小。然后從高分辨率原始圖像中裁剪質量的區域。裁剪后的圖像保留了盡可能多的局部上下文的詳細信息,從而在該局部分支中生成更精細的分割結果。同時,使用預處理后分辨率降低(128 × 128)的乳腺x線圖像作為全局分割分支的輸入。這是為了保持最終分割結果的位置準確性。總支路和局部支路均由相同數量的門控軸向Transformer層組成。局部和全局并行分割后,嚴格遵守坐標和尺寸信息,將生成的局部分割注入到生成的全局分割中。為完整的乳房x線攝影圖像生成最終的質量分割結果。
2.4 基線和性能指標
????????對于乳腺腫塊檢測,將所提出的YOLO模型的性能與幾種目標檢測基線進行了比較,如Faster Region-based CNN (R-CNN)[38-40]、Single Shot Detector (SSD)[41,13]和其他YOLO版本[23,42-44]。這些是有代表性的目標檢測模型。Faster R-CNN通過一種稱為選擇性搜索的方法來解決目標檢測問題,這種方法減少了傳統目標檢測模型中滑動窗口帶來的計算量。它已被證明在基于乳房x光片的乳房腫塊檢測中具有良好的性能[45]。SSD在不同的尺度上運行卷積,每個尺度可以輸出不同大小的檢測邊界框。這些模型的性能也在前人的著作中進行了討論和比較[23]。使用真陽性率(TPR)[46]和平均平均精度(mAP)[47]來評估性能。?
????????MedT提出了一種門控軸向變壓器模型結構,該模型由卷積層和具有局部和全局分支的門控軸向關注層組成,但不進行YOLO檢測[16]。門控軸向網僅由門控軸向關注層組成[37]。為了評估局部-全局設計對模型性能的影響,以局部方式和全局方式應用了門控軸向網絡:門控軸向網絡(global)僅基于整個圖像。門控軸向網(局部)僅基于YOLO檢測到的roi。使用f1分數和IoU(也稱為Jaccard指數)評估和比較了他們的表現,
2.5?YOLO-LOGO模型的敏感性分析
????????在CBIS-DDSM測試集和INBreast數據集上研究了圖像分辨率和增強對所提出的YOLO-LOGO模型性能的潛在影響。對于數據擴充,使用ThambawitaVajira等人[48]開發的參數模型將數據大小增加到原來的兩倍。對于分辨率,考慮了有和沒有數據增強的64×64、128×128和256×256的分辨率大小。?
3. 結果
3.1 數據預處理
????????圖3(a)中所示,原始乳房x線攝影圖像通常包含一些不相關的信息,這些信息在圖3(b)中已被刪除。還需要注意的是,文件格式從DICOM更改為JPEG,這將文件大小減少了90%,同時保留了圖像的細節。經過預處理,得到了統一尺寸為4096 × 4096的增強JPEG圖像。值得注意的是,對研究中使用的兩個數據集(CBIS-DDSM和INBreast)采用了相同的自動自適應程序。?
(a):一個原始圖像的例子。
(b):采用自適應去噪算法對(a)進行預處理后的圖像。
(c):在(b)預處理后的二值掩模圖像上創建質量區域(s)的邊界矩形(s)。
(d):將大小相同的矩形(s)定位在(b)的相同位置,這就形成了訓練YoloV5L6的ground truth label.?
3.2?基于yolo的乳腺腫塊檢測
????????訓練并測試了YoloV3和YoloV5的幾個變體,它們在兩個數據集上的乳腺腫塊檢測性能如表3所示。在YoloV5第6次更新中,YoloV5s6、YoloV5m6、YoloV5L6能夠以1280 × 1280的更高分辨率處理輸入圖像。盡管包含了最多的可訓練參數(77 M), YoloV5L6在兩個數據集上都取得了最好的mAP性能。因此,我們選擇它作為乳腺腫塊檢測模型 。
????????圖4的第一行顯示了帶有檢測到的邊界框和置信度分數的YoloV5L6輸出的五個示例。它們的基礎真值標簽顯示在圖4第二行相應的列中。圖4(a) - (c)為3個置信度為0.9的成功案例。與圖4(f) - (h)的地面真值相比,邊界框的位置正確,邊界框的大小與地面真值標簽大致一致。圖4(d)顯示了檢測到的ROI邊界框,置信度評分僅為0.4。雖然檢測到的邊界框與其真實值相比似乎是正確的(圖4(i)),但模型對預測沒有置信度。這可能是由于乳腺組織的高密度和乳腺本身的小面積。圖4(e)顯示了由于置信度得分低于指定閾值0.4,模型無法輸出邊界框的失敗情況。可能是因為乳腺腫塊太小且隱藏在正常乳腺組織中。在接下來的分割階段,像這樣沒有對象檢測輸出的圖像直接用作全局分支的輸入。相應地,這種分割的結果不需要輸液(因為在這種情況下不會有局部分支)。?
????????本研究以SSD和Faster R-CNN作為乳腺腫塊檢測模型的基線。圖5(a)在示例圖像上顯示了其乳房腫塊檢測結果。雖然檢測到的ROI與地真ROI之間存在一定的差異。對于邊界框的大小,YoloV5L6獲得了最高的置信度得分和準確的ROI位置。將基線模型的性能指標與圖5(b)中YoloV3和YoloV5的最佳變體進行比較。?
?3.3?基于YOLO-LOGO的乳房腫塊分割
????????本研究采用門控軸向網和MedT作為乳房分割模型YOLO-LOGO的基線。圖6(a)顯示了兩個示例分割。與門控軸向網和MedT相比,所提出的YOLO-LOGO能更好地保留乳腺腫塊的形狀和位置信息。在第一種情況下(第一排),門控軸向網錯誤地預測了乳房腫塊的位置(低于地面真實值,左上角的一塊額外的腫塊被預測為腫塊,盡管它不是)。在第二種情況下(第二行),盡管門控軸向網和MedT正確地預測了腫塊的位置,但它們的分割效果不如YOLO-LOGO,因為它們往往低估了腫塊的面積。F1和IoU指標如圖6(b)所示。YOLO-LOGO在這兩個數據集上的表現都優于以往的工作,并且也保持了局部分辨率。
?4. 討論
????????使用了一種自動自適應去噪圖像預處理框架來處理乳房x線攝影數據。提出了最先進的目標檢測模型YoloV5L6,用于乳腺腫塊的檢測。總體而言,所提出的YOLO-LOGO模型在乳房x線攝影對乳腺腫塊的分割方面優于其他基線。?
????????在CBIS-DDSM測試集和INBreast數據集上研究了圖像分辨率和增強對所提出的YOLO-LOGO模型性能的潛在影響。如表4所示,當圖像分辨率為128×128而不增強時,模型在CBIS-DDSM測試集上獲得最佳F1分數(74.52),第三最佳IoU分數(64.04),在INBreast數據集上獲得第二最佳F1分數(69.37),第二最佳IoU分數(61.09)。總體而言,使用分辨率為128 * 128的數據集而不進行增強,獲得了最佳性能。雖然在假設訓練數據和測試數據來自同一分布的情況下,預計增強可能會提高模型的性能,但是研究樣本量相對較小,這可能不能代表訓練集的分布。因此,應用的增強技術沒有顯示出預期的性能。因此,為了平衡計算成本和模型性能,決定將所提出的YOLO-LOGO模型的圖像分辨率設為不增強的128×128。
????????與Yan等人提出的兩階段模型(每張圖像只能輸出一個乳腺腫塊)不同,為我們的YOLO-LOGO分割模型設置了一個閾值。那些置信度分數高于該閾值的檢測到的roi將被識別為輸出中的腫塊。因此,它不局限于每個圖像只有一個腫塊。因此,對于某些圖像,檢測到的ROI可能為0。在這種情況下,整個圖像將被輸入到我們的YOLO-LOGO模型的全局分支中,而局部分支為空,這意味著最終的分割結果將只依賴于全局分支處理的整個圖像。由于乳腺腫塊體積小,組織密度高,容易被檢測模型遺漏,這使得我們的模型更加靈活,適用于乳腺x線攝影數據。
????????分別對基于YoloV5L6的乳腺腫塊檢測模型和基于門控軸向變壓器加LOGO訓練策略的分割模型進行了訓練。因此,在未來可以考慮將它們的損失函數合并為一個,使系統端到端。盡管我們提出的模型和本研究中使用的基線模型在相同的訓練集、驗證集和測試集上進行了訓練、驗證和測試,但在將我們的模型的性能與其他使用相同的CBIS-DDSM數據但未包括在我們的基線中的已發表作品進行比較時需要謹慎。因為我們沒有使用CBIS-DDSM提供的測試集。相反,將原始測試集分為測試集和驗證集。驗證集對于模型中超參數的微調至關重要。由于INbreast數據是全局數字乳房x線攝影,而CBIS-DDSM是掃描膠片,因此它們可能是使用不同的成像方式獲得的。模型僅在CBIS-DDSM數據上進行訓練,INBreast(作為一個獨立的數據集)作為額外的測試集來評估模型的通用性。我們的模型在CBIS-DDSM測試集上的性能優于INBreast測試集,這可能部分是由于采集模式的差異。