【目標檢測】論文閱讀3

Lightweight tomato ripeness detection algorithm based on the improved RT-DETR

論文地址

摘要

番茄具有很高的營養價值,需要對成熟果實進行準確的成熟度鑒定和選擇性采收,以顯著提高番茄收獲管理的效率和經濟效益。以往對番茄智能收獲的研究往往只以番茄為目標,缺乏對番茄成熟度的細粒度檢測。這一缺陷導致了未成熟腐爛水果的不慎收獲,造成經濟損失。此外,在自然環境中,光照不均勻、葉片遮擋和果實重疊阻礙了機器人系統對番茄成熟度的準確評估。同時,番茄成熟度檢測中對高精度和快速響應的要求與使模型輕量化以降低硬件成本的需要相結合。為了應對這些挑戰,本研究提出了一個輕量級模型PDSI-RTDETR。首先,PConv_Block模塊將部分卷積和殘差塊結合在一起,取代了傳統主干中的Basic_Block結構,從而減輕了計算量,提高了特征提取效率。隨后,將可變形的注意力模塊與尺度內特征交互結構相結合,增強了提取細粒度分類的細節特征的能力。此外,提出的特征融合結構,將尺度序列特征融合框架與細頸設計相結合,利用GSConv和VoVGSCSP模塊,旨在減少計算量和推理延遲。最后,通過將InnerIoU和EIoU合并形成Inner-EIoU,取代原有的GIoU以加快收斂,同時利用輔助幀來增強小目標檢測能力。綜合評估驗證,PDSI-RTDETR模型的平均MAP50精度達到86.8%,比原始RT-DETR模型提高3.9%,FPS提高38.7%。此外,PDSI-RTDETR的GFLOP降低了17.6%。它在精度和速度上超過了基線RT-DETR和其他流行的方法,揭示了它在檢測番茄成熟度方面的巨大潛力。當未來應用于智能收獲機器人時,該方法可以通過減少未成熟和變質水果的收集來提高番茄收獲的質量。

引言

番茄因其富含維生素C、鉀和番茄紅素而廣受青睞。西紅柿在生長過程中,顏色逐漸從綠色變為黃色、橙色,最后變成紅色,硬度下降,甜度和酸度達到平衡,導致營養含量增加。番茄的成熟度直接影響其營養價值、口感和采收時間。傳統的人工檢測方法是主觀的,往往效率低、成本高,無法滿足高效的成熟度判別和收獲的需要。雖然傳感器提供了一種檢測成熟度的非接觸式方法,但它們有時難以準確區分密切相關的成熟期,受到光照和溫度等生態因素的顯著影響,而且成本高昂。因此,建立一種輕量級、高效、精確的番茄成熟度檢測算法對于番茄的智能分級和收獲是非常重要的。然而,番茄的自然生長環境以果實遮擋、細微的顏色分化和光照條件的變化為特征,給番茄成熟度的準確識別帶來了挑戰。

為了提高番茄收獲的質量,降低人工成本,同時準確地區分不同成熟度的水果進行收獲,某些傳統的機器學習方法被用于水果和蔬菜的成熟度檢測。… 雖然傳統的機器學習在番茄成熟度識別方面表現出明顯的優勢,但仍然存在人工特征提取過程繁瑣、模型復雜性高、檢測精度低、處理速度慢等問題

因此,深度學習被用來解決上述問題困難。近年來,YOLO系列的模型在工業對象識別領域表現出了非凡的有效性,表現優于傳統的兩階段檢測方法。… 然而,當處理嚴重遮擋、雜亂或體積較小的西紅柿時,其檢測能力是有限的

深度學習在高維數據的自動特征提取和處理方面取代了傳統的機器學習,特別是在圖像識別任務中實現了更高的精度。在農業部門,特別是在水果和蔬菜收獲方面,對低功耗嵌入式設備的需求越來越大,以降低成本和提高效率。因此,考慮到算法的實用性,最大限度地減少模型的占用空間和計算需求,同時提高識別的精度和速度是至關重要的。此外,算法需要具有魯棒性,以抵御非結構化外部因素的干擾,如變化的光照、氣候條件和植被造成的障礙。這些挑戰需要開發創新的深度學習方法,以有效地平衡性能、效率和對真實世界場景的適應性。為解決上述可能出現的問題制定了一種利用增強RT-DETR的輕量級番茄成熟度鑒定方法。我們的主要貢獻如下:
1.“殘差塊與部分卷積的融合”:通過將PConv輕量級卷積與殘差塊合并成一種新的PConv_Block模塊,增強了骨干網絡的殘差架構。這種集成在降低計算量的同時保持了性能,從而提高了特征提取的效率。

2.引入可變形的注意機構:將可變形的注意機構融入變壓器的編碼器中,以取代多頭注意機構,從而產生AIFI-DAT組件。這使得該框架能夠掌握輸入的不同部分之間的復雜關聯,從而在番茄成熟度的細粒度分類任務中提供增強的性能。

3.“輕量級Neck架構的設計”:將ScaleSequence Feature Fusion(SSFF)框架與集成了輕量級GSConv和VoVGSCSP模塊的細頸結構相結合,提出了一種新穎的Slimeck-SSFF結構。該體系結構在頸部階段引入,在保持精度的同時提高了對微小物品的檢測能力,同時降低了計算需求和推理延遲。

4.損失函數優化:將內部IoU與EIoU合并,在EIoU內部引入一個由比例因子比例控制的輔助包圍盒,得到內部IoU。用這個損失函數代替模型使用的原始GIOU,可以得到更快、更有效的回歸結果。

5.“有效性評估”:對番茄成熟度數據集的全面評估表明,所提出的PDSIRTDETR框架在準確率和速度方面優于最初的RT-DETR框架,并且具有更低的計算代價,并且優于其他常見的目標檢測模型。

實驗數據集

分兩批采集了番茄成熟度圖像。
第一批照片是白天在北京市豐臺區中國(東經116°12‘3.7548“,北緯39°47’26.8332”)的番茄采摘園拍攝的,使用的是搭載索尼IMX586鏡頭(48MP,f/1.7光圈,相當于26 mm焦距)的小米9智能手機。這些圖像是在各種光照條件下拍攝的,從明亮的陽光到多云的天空,9月初的溫度在25攝氏度到30攝氏度之間。捕獲的圖像表現出不同的條件,如強光、陰影遮擋和重疊的水果。
第二批圖像來自Kaggle上公開提供的水果和蔬菜圖像識別數據庫(Seth,2020)中的112幅番茄圖像。這些圖像經過了數據增強處理,包括平均模糊(核大小從5×5到15×15)、隨機裁剪(將圖像的隨機部分裁剪到原始圖像大小的40-80%)和隨機旋轉(旋轉-60°到60°之間的隨機角度),以增強數據集的多樣性。所有放大的圖像都被調整到640x640像素的一致大小。經過數據增強,共獲得3251幅圖像。
在這里插入圖片描述
數據增強后的番茄圖像示例

鑒于本文的重點在于分析計算機視覺算法在番茄成熟度評價中的應用,根據番茄的顏色、色調飽和度、大小和形狀以及腐敗程度等外觀差異進行視覺區分。根據這些特征,西紅柿分為五類:未熟、半熟、成熟、過熟和腐爛。生番茄呈鮮綠色調,體積較小,含糖量低,口感酸性,一般可溶性固形物總含量低于5%。半熟的西紅柿轉變為黃色或粉色,同時保留綠色區域,含糖量約為8%,pH水平約為4.25,TSS略有增加約7%。成熟的番茄呈均勻紅色或深紅色,體積較大,顏色鮮艷,PH值通常在4.2至4.5之間,TSS含量較高,可能在10%至12%之間。過熟的西紅柿是深紅色的,開始失去光澤,顯示出輕微的收縮或皮膚松弛。腐爛的西紅柿可能會形成不規則的棕色或黑色斑點,失去正常的皮膚光澤,表現出顯著的收縮,變軟,甚至破裂。利用Labelme注釋工具,根據上述特征手動標記圖像中的西紅柿。數據集信息如下:
在這里插入圖片描述

PDSI-RTDETR

本研究引入了輕量級的PDSI-RTDETR模型來解決這些問題。本文提出的PConv_Block模塊將部分卷積(PConv)(Chen等人,2023)和殘差塊合并在一起,優化了骨干網絡,以減少計算負擔,實現高效的特征提取。可變形注意機制(Xia等人,2022)被引入編碼器,通過AIFI-DAT模塊增強了細粒度分類。所提出的Slimeck-SSFF結構將尺度序列特征融合框架(Kang等人,2023)與細頸設計相結合,以GSConv和VoVGSCSP模塊(Li等人,2022A)為特色,以降低計算成本和較低的推理延遲來改進小目標檢測。損失函數的優化是通過將內部IOU(Zhang等人,2023a)和EIoU(Zhang等人,2022)整合形成內部EIoU來實現的,從而提高了回歸效率。綜合評價表明,PDSI-RTDETR模型在準確率、速度和計算效率上都優于基線RT-DETR和其他流行的目標檢測方法。
在這里插入圖片描述
總體結構圖

主干網絡的改進

為了避免復雜模型在簡單任務中的計算冗余,從而導致檢測速度降低,本文使用相對較輕的ResNet-18作為骨干網絡的基線。此外,我們用PConv代替BASIC_BLOCK模塊中的傳統卷積來支持特征提取,同時獲得更高的模型亮度。PConv在選定的輸入通道子集上明智地利用了濾波器,從而保留了剩余部分,最終實現了比標準卷積更低的每秒浮點運算(FLOPS)。這種方法在不降低任務精度的情況下,確保在廣泛的設備上提高操作速度。PConv結構如圖所示:
在這里插入圖片描述

高效混合編碼器的改進

可變形自注意力機制

可變形的自我注意模塊基于數據確定自我注意框架內的鍵和值對的位置。該方法便于對不重要的區域進行有針對性的注意,提高了提取有意義的特征的能力。此外,它還解決了與集中注意力相關的過多內存和計算成本的問題。可變形的注意力共享每個查詢的移動鍵和值,降低了空間復雜性,并避免了下采樣技術可能導致的重大信息損失。
在這里插入圖片描述
可變形注意力機制結構

將其應用至AIFI

在該模型的Neck體系結構中,單個變壓器編碼層專門用于處理來自主干網絡的S5功能。利用高級特征的豐富語義屬性,該方法在不犧牲性能健壯性的情況下顯著減少了計算需求并提高了處理速度。這種優化的混合編碼器協調尺度內特征交互,將多尺度特征變形為圖像特征序列的序列化陣列。用可變形的注意力取代傳統的多頭自注意,便于對關鍵特征位置進行自適應采樣,減少了內存使用量,避免了下采樣技術固有的嚴重信息損失,從而提高了模型的計算效率和特征捕獲能力

特征融合改進

頸部網絡在模型中的作用是協調和支持不同層次的特征表示,以提高識別不同大小目標的精度。RT-DETR模型的Neck網絡使用AIFI模塊來對高層特征進行處理,然后利用CCFM模塊進行多尺度特征的交互和融合。與YOLO相比,該網絡頸部結構的參數數目和計算量有所增加,并且考慮到需要在單個圖像中檢測大量目標以及不同成熟度的番茄之間存在較大的色差,原始模型在卷積和下采樣過程中丟失了小目標信息。為此,本文引入了SSFF模型、GSConv和Slim-Neck技術,提出了Slimeck-SSFF特征融合體系結構,在提高精度的基礎上降低了模型的復雜度和計算量。
在這里插入圖片描述
GSConv模塊結合了傳統卷積和可分離卷積,并使用Shuffle過程整合了兩者生成的特征,確保了通道間的信息交換,同時有效地降低了計算成本。

GSbottleneck由兩個GSConv模塊和一個DWConv模塊組成,每個模塊都有輸入功能,并將它們的輸出相加。VoVGSCSP基于GSbottleneck,采用一次性聚合的方法構建,有效地減少了參數和浮點運算的次數。

為了區分不同大小西紅柿的成熟期,我們使用SSFF模塊來提高網絡在捕捉不同尺度特征方面的熟練程度。SSFF模塊將不同大小的特征圖作為一個尺度空間,將不同分辨率的有效特征圖調整到同一分辨率進行拼接,然后水平堆疊不同尺度的特征圖,并利用三維卷積提取其尺度序列特征圖。與現有文獻中僅采用求和或拼接方法融合金字塔特征不同,SSFF模塊能夠更好地融合深部特征圖中的高維信息和淺層特征圖中的細節信息。這為不同維度的對象提供了更全面和更精細的特征描述,從而增強了網絡捕獲多尺度特征的能力。

損失函數改進

在所進行的研究中,模型的原始GIOU被替換為Inner-EIOU,這提供了更快的收斂速度、更高的評估精度和補充的邊緣。在模型訓練過程中使用較小的輔助邊界來計算損失,對于高IOU樣本的回歸具有增益效應,而對于低IOU樣本則相反。使用比例因數比來管理用于損耗計算的輔助邊的各種比例的創建,可以在不同的情況下產生更快的回歸結果。
在這里插入圖片描述
在這里插入圖片描述

評價指標

Precision、Recall、mAP、F1 score、GFLOPs、FPS

實驗結果

RT-DETR模型的主干網絡使用ResNet-18進行特征提取,包括四個Basic_Block模塊。為了探索增強骨干網體系結構的合適位置,采用引入的PConv_Block模塊來替代各個Basic_Block模塊,并對增強后的模型進行了性能測試。
在這里插入圖片描述
不同卷積作為主干基礎模塊的對比
在這里插入圖片描述
加入注意力機制的熱力圖對比
在這里插入圖片描述
(A-C)圖像標簽;(D-F)RT-DETR熱力圖;(G-I)添加了AIFI-DAT模塊熱力圖
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
(A-C)陽光下;(D-F)陰涼處;(G-I)密集遮擋下
在這里插入圖片描述
(A-C)Ground Truth;(D-F)RT-DETR檢測;(G-I)PDSI-RTDETR檢測

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/94726.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/94726.shtml
英文地址,請注明出處:http://en.pswp.cn/web/94726.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Python音頻分析與線性回歸:探索聲音中的數學之美

摘要:通過Python實現WAV音頻信號處理與線性回歸建模,揭示雙聲道音頻的數學關聯性,為聲音特征分析提供新視角。1. 音頻數據處理流程 1.1 WAV文件讀取與預處理 使用scipy.io.wavfile讀取音頻文件,獲取采樣率與時域信號數據&#xff…

Linux shell腳本數值計算與條件執行

變量的數值計算實踐 1 算術運算符 如果要執行算術運算,就會離不開各種運算符號,和其他編程語言類似,Shell 也有很多算術運算符。 下面就給大家介紹一下常見的 Shell 算術運算符: 、-,一元正號和負號。、-,加…

C#實戰:基于iTextSharp實現PDF加密小工具

目錄 1、技術框架 2、代碼實戰 2.1 創建窗體 2.2 后臺代碼邏輯 2.3 PDF加密用戶類型 2.4 PDF加密權限列表 3、運行效果 4、總結 大家日常辦公中有時候為了文檔資料的安全需要對文檔進行加密,尤其是針對PDF文檔這個場景還是非常廣泛的。今天給大家分享使用C#來實現PDF…

基于Labview的旋轉機械AI智能診斷系統

1.摘要本文基于 CWRU 公開軸承數據集提出了一套“AI 輕量級模型 LabVIEW 智能診斷系統”。首先,LabVIEW 端構建了可視化、可交互的智能診斷平臺。系統能夠加載本地振動信號數據,調用訓練好的深度學習模型進行故障識別與狀態判斷。界面集成信號時域監測、…

Qt從qmake遷移到cmake的記錄

文章目錄1.UI程序[開啟/關閉]控制臺2.增加宏定義3.在主項目中引入子項目4.使用C語言文件1.UI程序[開啟/關閉]控制臺 qmake: CONFIG console DEFINES QT_MESSAGELOGCONTEXTcmake: set(CMAKE_WIN32_EXECUTABLE OFF) # ON為關閉控制臺 OFF為開啟控制臺2…

LangChain4J-(3)-模型參數配置

LangChain4j 提供了靈活的模型參數配置方式,允許你根據不同的 AI 模型(如 OpenAI、GPT-4、Anthropic 等)設置各種參數來控制生成結果。后面手擼代碼繼續在之前章節的代碼上拓展一、日志配置(Logging)在 LangChain4j 中…

LangGraph - API多種訪問方式

本文介紹了Langgraph服務的四種調用方式:1. 通過LangGraph Studio UI界面手動測試;2. 使用Python SDK進行同步/異步調用;3. 通過REST API測試;4. 使用JavaScript SDK接入。Langgraph 服務端代碼 graph.pyfrom langchain_openai im…

HEI-612 HART/EtherNet/IPModbus TCP 網關:打通工業通信壁壘

在工業自動化領域,HART 協議設備的廣泛應用與以太網網絡的高效管理常面臨 “協議孤島” 難題 —— 老舊 HART 傳感器、變送器難以接入 EtherNet/IP 或 Modbus TCP 系統,數據雙向交互卡頓、調試復雜、兼容性差等問題,嚴重制約生產效率提升。上…

OSPF 的工作過程、Router ID 機制、報文結構

視頻版講解>>>>>>>>>>>>>>路由協議深度解析:從靜態路由到 OSPF 實戰 一、回顧靜態路由:拓撲與核心邏輯 我們先回到上周講解的拓撲圖,這張圖是理解靜態路由的核心載體 —— 路由器作為網段分割的…

Qt 6 與 Qt 5 存在的兼容性差異

之前有提到。我的是Qt5,我朋友的是Qt 6,由于版本不兼容問題,在遷移時會有問題。所以這一我們說說這兩個的區別。( 正文開始嘍! 總結來說:Qt5遷移至 Qt 6 需:1. 破壞性變更(必須修改…

本地windows電腦部署html網頁到互聯網:html+node.js+ngrok/natapp

目錄 核心概念:為什么不能直接分享HTML文件? 1,html文件修改 2,安裝設置node.js 3,路由器虛擬服務器 4,采用ngrok工具進行內網穿透(國外工具) 5,采用natapp工具進行…

electron離線開發核心環境變量npm_config_cache

npm_config_cache 這個環境變量。它在離線環境配置中扮演著核心角色。什么是 npm_config_cache?npm_config_cache 是一個環境變量,用于直接設置 npm 的緩存目錄的絕對路徑。npm 在安裝包時,會遵循一個特定的工作流程:檢查緩存&…

CTFshow系列——命令執行web57-60

本篇文章介紹命令執行的另一種情況,CTFshow的Web57-60關的講解解析;要想了解其它關卡可查看我以往的文章,感謝關注。 文章目錄Web57(新方法)Web58(POST型)不可用函數可用函數Web59第二種方法&am…

域名、ip、DSN、URL

目錄 1、ip 2、域名 3、DSN 4、URL 1、ip 每個連接到Internet上的主機都會分配一個IP地址,此ip是該計算機在互聯網上的邏輯地址的唯一標識,計算機之間的訪問就是通過IP地址來進行的。寫法:十進制的形式,用“.”分開&#xff0…

【JAVA實現websocket】

JAVA實現websocket背景依賴問題代碼實現測試背景 近期項目中需要用到websocket&#xff0c;實現即時通信。 依賴 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-websocket</artifactId></depen…

2.6 提示詞調優編碼實戰(一)

目錄 寫在前面 一,需求定義 二,簡單提示詞 2.1 代碼示例 2.2 輸出結果 三,提示詞模版 3.1 提示詞 3.1.1 任務描述 3.1.2 用戶輸入 3.1.3 模型輸出格式 3.1.4 Prompt模版 3.2 輸出結果 寫在前面 前面我們總結了提示詞對于模型的意義,接下來我們來通過向模型輸入…

使用Stone 3D快速制作第一人稱視角在線小游戲

首先得有個怪物模型&#xff0c;怪物帶有idle, attack動作 然后有個場景模型&#xff0c;把怪物&#xff08;如果模型較大&#xff0c;建議使用remote-mesh來加載&#xff09;擺放到想放的位置。 給相機加上fps-controls和character組件 給所有怪物加上character組件 可以在…

嵌入式第三十七課!!!TCP機制與HTTP協議

TCP的其他機制TCP頭部標志位SYN&#xff1a;請求建立連接標志位 ACK&#xff1a;響應報文標志位 PSH&#xff1a;攜帶數據標志位&#xff0c;通知接收方該從緩沖區讀數據 FIN&#xff1a; 請求斷開連接標志位 RST&#xff1a;復位標志位 URG: 緊急數據標志…

【測試】pytest測試環境搭建

使用pytest進行API測試&#xff0c;vscode運行 創建虛擬環境&#xff0c;安裝pytest&#xff0c;httpx&#xff0c;requests&#xff0c;dotenvvscode中ctrlshiftp&#xff0c;選擇python: Configure Tests&#xff0c;選擇pytest&#xff0c;目錄左側插件testing里面可以看到有…

javaweb開發筆記——微頭條項目開發

第八章 微頭條項目開發 一 項目簡介 1.1 微頭條業務簡介 微頭條新聞發布和瀏覽平臺,主要包含業務如下 用戶功能 注冊功能 登錄功能 頭條新聞 新聞的分頁瀏覽 通過標題關鍵字搜索新聞 查看新聞詳情 新聞的修改和刪除 權限控制 用戶只能修改和自己發布的頭條新聞 1.…