【目標檢測】論文閱讀3

Lightweight tomato ripeness detection algorithm based on the improved RT-DETR

論文地址

摘要

番茄具有很高的營養價值，需要對成熟果實進行準確的成熟度鑒定和選擇性采收，以顯著提高番茄收獲管理的效率和經濟效益。以往對番茄智能收獲的研究往往只以番茄為目標，缺乏對番茄成熟度的細粒度檢測。這一缺陷導致了未成熟腐爛水果的不慎收獲，造成經濟損失。此外，在自然環境中，光照不均勻、葉片遮擋和果實重疊阻礙了機器人系統對番茄成熟度的準確評估。同時，番茄成熟度檢測中對高精度和快速響應的要求與使模型輕量化以降低硬件成本的需要相結合。為了應對這些挑戰，本研究提出了一個輕量級模型PDSI-RTDETR。首先，PConv_Block模塊將部分卷積和殘差塊結合在一起，取代了傳統主干中的Basic_Block結構，從而減輕了計算量，提高了特征提取效率。隨后，將可變形的注意力模塊與尺度內特征交互結構相結合，增強了提取細粒度分類的細節特征的能力。此外，提出的特征融合結構，將尺度序列特征融合框架與細頸設計相結合，利用GSConv和VoVGSCSP模塊，旨在減少計算量和推理延遲。最后，通過將InnerIoU和EIoU合并形成Inner-EIoU，取代原有的GIoU以加快收斂，同時利用輔助幀來增強小目標檢測能力。綜合評估驗證，PDSI-RTDETR模型的平均MAP50精度達到86.8%，比原始RT-DETR模型提高3.9%，FPS提高38.7%。此外，PDSI-RTDETR的GFLOP降低了17.6%。它在精度和速度上超過了基線RT-DETR和其他流行的方法，揭示了它在檢測番茄成熟度方面的巨大潛力。當未來應用于智能收獲機器人時，該方法可以通過減少未成熟和變質水果的收集來提高番茄收獲的質量。

引言

番茄因其富含維生素C、鉀和番茄紅素而廣受青睞。西紅柿在生長過程中，顏色逐漸從綠色變為黃色、橙色，最后變成紅色，硬度下降，甜度和酸度達到平衡，導致營養含量增加。番茄的成熟度直接影響其營養價值、口感和采收時間。傳統的人工檢測方法是主觀的，往往效率低、成本高，無法滿足高效的成熟度判別和收獲的需要。雖然傳感器提供了一種檢測成熟度的非接觸式方法，但它們有時難以準確區分密切相關的成熟期，受到光照和溫度等生態因素的顯著影響，而且成本高昂。因此，建立一種輕量級、高效、精確的番茄成熟度檢測算法對于番茄的智能分級和收獲是非常重要的。然而，番茄的自然生長環境以果實遮擋、細微的顏色分化和光照條件的變化為特征，給番茄成熟度的準確識別帶來了挑戰。

為了提高番茄收獲的質量，降低人工成本，同時準確地區分不同成熟度的水果進行收獲，某些傳統的機器學習方法被用于水果和蔬菜的成熟度檢測。… 雖然傳統的機器學習在番茄成熟度識別方面表現出明顯的優勢，但仍然存在人工特征提取過程繁瑣、模型復雜性高、檢測精度低、處理速度慢等問題。

因此，深度學習被用來解決上述問題困難。近年來，YOLO系列的模型在工業對象識別領域表現出了非凡的有效性，表現優于傳統的兩階段檢測方法。… 然而，當處理嚴重遮擋、雜亂或體積較小的西紅柿時，其檢測能力是有限的。

深度學習在高維數據的自動特征提取和處理方面取代了傳統的機器學習，特別是在圖像識別任務中實現了更高的精度。在農業部門，特別是在水果和蔬菜收獲方面，對低功耗嵌入式設備的需求越來越大，以降低成本和提高效率。因此，考慮到算法的實用性，最大限度地減少模型的占用空間和計算需求，同時提高識別的精度和速度是至關重要的。此外，算法需要具有魯棒性，以抵御非結構化外部因素的干擾，如變化的光照、氣候條件和植被造成的障礙。這些挑戰需要開發創新的深度學習方法，以有效地平衡性能、效率和對真實世界場景的適應性。為解決上述可能出現的問題制定了一種利用增強RT-DETR的輕量級番茄成熟度鑒定方法。我們的主要貢獻如下：
1.“殘差塊與部分卷積的融合”：通過將PConv輕量級卷積與殘差塊合并成一種新的PConv_Block模塊，增強了骨干網絡的殘差架構。這種集成在降低計算量的同時保持了性能，從而提高了特征提取的效率。

2.引入可變形的注意機構：將可變形的注意機構融入變壓器的編碼器中，以取代多頭注意機構，從而產生AIFI-DAT組件。這使得該框架能夠掌握輸入的不同部分之間的復雜關聯，從而在番茄成熟度的細粒度分類任務中提供增強的性能。

3.“輕量級Neck架構的設計”：將ScaleSequence Feature Fusion(SSFF)框架與集成了輕量級GSConv和VoVGSCSP模塊的細頸結構相結合，提出了一種新穎的Slimeck-SSFF結構。該體系結構在頸部階段引入，在保持精度的同時提高了對微小物品的檢測能力，同時降低了計算需求和推理延遲。

4.損失函數優化：將內部IoU與EIoU合并，在EIoU內部引入一個由比例因子比例控制的輔助包圍盒，得到內部IoU。用這個損失函數代替模型使用的原始GIOU，可以得到更快、更有效的回歸結果。

5.“有效性評估”：對番茄成熟度數據集的全面評估表明，所提出的PDSIRTDETR框架在準確率和速度方面優于最初的RT-DETR框架，并且具有更低的計算代價，并且優于其他常見的目標檢測模型。

實驗數據集

分兩批采集了番茄成熟度圖像。
第一批照片是白天在北京市豐臺區中國(東經116°12‘3.7548“，北緯39°47’26.8332”)的番茄采摘園拍攝的，使用的是搭載索尼IMX586鏡頭(48MP，f/1.7光圈，相當于26 mm焦距)的小米9智能手機。這些圖像是在各種光照條件下拍攝的，從明亮的陽光到多云的天空，9月初的溫度在25攝氏度到30攝氏度之間。捕獲的圖像表現出不同的條件，如強光、陰影遮擋和重疊的水果。
第二批圖像來自Kaggle上公開提供的水果和蔬菜圖像識別數據庫(Seth，2020)中的112幅番茄圖像。這些圖像經過了數據增強處理，包括平均模糊(核大小從5×5到15×15)、隨機裁剪(將圖像的隨機部分裁剪到原始圖像大小的40-80%)和隨機旋轉(旋轉-60°到60°之間的隨機角度)，以增強數據集的多樣性。所有放大的圖像都被調整到640x640像素的一致大小。經過數據增強，共獲得3251幅圖像。
在這里插入圖片描述
數據增強后的番茄圖像示例

鑒于本文的重點在于分析計算機視覺算法在番茄成熟度評價中的應用，根據番茄的顏色、色調飽和度、大小和形狀以及腐敗程度等外觀差異進行視覺區分。根據這些特征，西紅柿分為五類：未熟、半熟、成熟、過熟和腐爛。生番茄呈鮮綠色調，體積較小，含糖量低，口感酸性，一般可溶性固形物總含量低于5%。半熟的西紅柿轉變為黃色或粉色，同時保留綠色區域，含糖量約為8%，pH水平約為4.25，TSS略有增加約7%。成熟的番茄呈均勻紅色或深紅色，體積較大，顏色鮮艷，PH值通常在4.2至4.5之間，TSS含量較高，可能在10%至12%之間。過熟的西紅柿是深紅色的，開始失去光澤，顯示出輕微的收縮或皮膚松弛。腐爛的西紅柿可能會形成不規則的棕色或黑色斑點，失去正常的皮膚光澤，表現出顯著的收縮，變軟，甚至破裂。利用Labelme注釋工具，根據上述特征手動標記圖像中的西紅柿。數據集信息如下：
在這里插入圖片描述

PDSI-RTDETR

本研究引入了輕量級的PDSI-RTDETR模型來解決這些問題。本文提出的PConv_Block模塊將部分卷積(PConv)(Chen等人，2023)和殘差塊合并在一起，優化了骨干網絡，以減少計算負擔，實現高效的特征提取。可變形注意機制(Xia等人，2022)被引入編碼器，通過AIFI-DAT模塊增強了細粒度分類。所提出的Slimeck-SSFF結構將尺度序列特征融合框架(Kang等人，2023)與細頸設計相結合，以GSConv和VoVGSCSP模塊(Li等人，2022A)為特色，以降低計算成本和較低的推理延遲來改進小目標檢測。損失函數的優化是通過將內部IOU(Zhang等人，2023a)和EIoU(Zhang等人，2022)整合形成內部EIoU來實現的，從而提高了回歸效率。綜合評價表明，PDSI-RTDETR模型在準確率、速度和計算效率上都優于基線RT-DETR和其他流行的目標檢測方法。
在這里插入圖片描述
總體結構圖

主干網絡的改進

為了避免復雜模型在簡單任務中的計算冗余，從而導致檢測速度降低，本文使用相對較輕的ResNet-18作為骨干網絡的基線。此外，我們用PConv代替BASIC_BLOCK模塊中的傳統卷積來支持特征提取，同時獲得更高的模型亮度。PConv在選定的輸入通道子集上明智地利用了濾波器，從而保留了剩余部分，最終實現了比標準卷積更低的每秒浮點運算(FLOPS)。這種方法在不降低任務精度的情況下，確保在廣泛的設備上提高操作速度。PConv結構如圖所示：
在這里插入圖片描述

高效混合編碼器的改進

可變形自注意力機制

可變形的自我注意模塊基于數據確定自我注意框架內的鍵和值對的位置。該方法便于對不重要的區域進行有針對性的注意，提高了提取有意義的特征的能力。此外，它還解決了與集中注意力相關的過多內存和計算成本的問題。可變形的注意力共享每個查詢的移動鍵和值，降低了空間復雜性，并避免了下采樣技術可能導致的重大信息損失。
在這里插入圖片描述
可變形注意力機制結構

將其應用至AIFI

在該模型的Neck體系結構中，單個變壓器編碼層專門用于處理來自主干網絡的S5功能。利用高級特征的豐富語義屬性，該方法在不犧牲性能健壯性的情況下顯著減少了計算需求并提高了處理速度。這種優化的混合編碼器協調尺度內特征交互，將多尺度特征變形為圖像特征序列的序列化陣列。用可變形的注意力取代傳統的多頭自注意，便于對關鍵特征位置進行自適應采樣，減少了內存使用量，避免了下采樣技術固有的嚴重信息損失，從而提高了模型的計算效率和特征捕獲能力。

特征融合改進

頸部網絡在模型中的作用是協調和支持不同層次的特征表示，以提高識別不同大小目標的精度。RT-DETR模型的Neck網絡使用AIFI模塊來對高層特征進行處理，然后利用CCFM模塊進行多尺度特征的交互和融合。與YOLO相比，該網絡頸部結構的參數數目和計算量有所增加，并且考慮到需要在單個圖像中檢測大量目標以及不同成熟度的番茄之間存在較大的色差，原始模型在卷積和下采樣過程中丟失了小目標信息。為此，本文引入了SSFF模型、GSConv和Slim-Neck技術，提出了Slimeck-SSFF特征融合體系結構，在提高精度的基礎上降低了模型的復雜度和計算量。
在這里插入圖片描述
GSConv模塊結合了傳統卷積和可分離卷積，并使用Shuffle過程整合了兩者生成的特征，確保了通道間的信息交換，同時有效地降低了計算成本。

GSbottleneck由兩個GSConv模塊和一個DWConv模塊組成，每個模塊都有輸入功能，并將它們的輸出相加。VoVGSCSP基于GSbottleneck，采用一次性聚合的方法構建，有效地減少了參數和浮點運算的次數。

為了區分不同大小西紅柿的成熟期，我們使用SSFF模塊來提高網絡在捕捉不同尺度特征方面的熟練程度。SSFF模塊將不同大小的特征圖作為一個尺度空間，將不同分辨率的有效特征圖調整到同一分辨率進行拼接，然后水平堆疊不同尺度的特征圖，并利用三維卷積提取其尺度序列特征圖。與現有文獻中僅采用求和或拼接方法融合金字塔特征不同，SSFF模塊能夠更好地融合深部特征圖中的高維信息和淺層特征圖中的細節信息。這為不同維度的對象提供了更全面和更精細的特征描述，從而增強了網絡捕獲多尺度特征的能力。

損失函數改進

在所進行的研究中，模型的原始GIOU被替換為Inner-EIOU，這提供了更快的收斂速度、更高的評估精度和補充的邊緣。在模型訓練過程中使用較小的輔助邊界來計算損失，對于高IOU樣本的回歸具有增益效應，而對于低IOU樣本則相反。使用比例因數比來管理用于損耗計算的輔助邊的各種比例的創建，可以在不同的情況下產生更快的回歸結果。
在這里插入圖片描述

評價指標

Precision、Recall、mAP、F1 score、GFLOPs、FPS

實驗結果

RT-DETR模型的主干網絡使用ResNet-18進行特征提取，包括四個Basic_Block模塊。為了探索增強骨干網體系結構的合適位置，采用引入的PConv_Block模塊來替代各個Basic_Block模塊，并對增強后的模型進行了性能測試。
在這里插入圖片描述
不同卷積作為主干基礎模塊的對比

加入注意力機制的熱力圖對比

（A-C）圖像標簽；（D-F）RT-DETR熱力圖；（G-I）添加了AIFI-DAT模塊熱力圖

（A-C）陽光下；（D-F）陰涼處；（G-I）密集遮擋下
在這里插入圖片描述
（A-C）Ground Truth；（D-F）RT-DETR檢測；（G-I）PDSI-RTDETR檢測