利用大語言模型生成的合成數據訓練YOLOv12：提升商業果園蘋果檢測的精度與效率

之前小編分享過關于《YOLO11-CBAM集成：提升商業蘋果園樹干與樹枝分割的精準度》，改進YOLO11算法后，進行蘋果樹的實例分割。本期文章我們將分享關于最新的YOLO12算法改進的蘋果目標檢測。?

圖片1.png

論文題目：Improved YOLOv12 with LLM-Generated Synthetic Data for Enhanced Apple Detection and Benchmarking Against YOLOv11 and YOLOv10

論文鏈接：https://arxiv.org/pdf/2503.00057

一、摘要

二、引言

三、目標

四、研究方法

使用LLM生成數據：DALL-E圖像生成模型

訓練 YOLOv12 物體檢測模型

性能評估

實地評估

五、Coovally AI模型訓練與應用平臺

六、結果與討論

性能指標評估

評估YOLOv12中使用的參數、GFLOP和層數

圖像處理速度評估

利用真實圖像進行實地驗證

關于近期蘋果檢測研究的討論

七、結論

八、未來

一、摘要

本研究評估了YOLOv12物體檢測模型的性能，并與YOLOv11和YOLOv10進行了比較，以使用大型語言模型 (LLM) 生成的合成圖像檢測商業果園中的蘋果。YOLOv12n配置表現出色，精確度最高，為0.916，召回率最高，為0.969，平均精確度 (mAP@50) 最高，為0.978。相比之下，YOLOv11系列由YOLO11x領先，其精確度最高，為0.857，召回率最高，為0.85，mAP@50最高，為0.91。在YOLOv10系列中，YOLOv10b和YOLOv10l的精確度并列最高，分別為0.85，YOLOv10n的召回率最高，為0.8，mAP@50為0.89。研究還強調了處理速度的效率，YOLOv11n的推理時間最少，僅為4.7毫秒，而YOLOv12n為5.6毫秒，YOLOv10n為5.9毫秒。雖然YOLOv12是比YOLOv11和YOLOv10更準確的新算法，但YOLO11n仍是YOLOv10、YOLOv11和YOLOv12中最快的YOLO算法。這些研究結果表明，YOLOv12在高質量的LLM生成的數據集上進行訓練后，不僅在關鍵性能指標上超越，而且還減少了在現場進行大量人工數據收集的需要，從而提供了一種具有成本效益的解決方案。

二、引言

人工智能與圖像分析技術的融合正在推動農業數字化轉型，尤其在果園管理等復雜場景中，YOLO系列模型的持續演進為精準農業提供了關鍵技術支撐。自2016年YOLO開創實時檢測先河以來，該系列通過YOLOv5/v8/v11等迭代逐步強化分割能力與檢測精度。最新發布的YOLOv12通過架構創新實現了性能突破：在標準測試集上達到0.916邊界框精度、0.972 mAP@50和0.969召回率，相較前代模型提升顯著。

該模型系列提供N/S/M/L/X五種配置，其中輕量級YOLOv12-N在T4 GPU實現1.64ms推理速度，較YOLOv11提速37%。這種效率突破使其能夠滿足果園機器人實時作業需求，在復雜光照和枝葉遮擋條件下仍保持93%以上的蘋果識別準確率。實驗數據顯示，YOLOv12-X版本對小型果實（直徑<5cm）的檢測精度較v11提升15.2%，顯著降低自動化采收系統的漏檢率。

模型創新主要體現在三個維度：

引入跨尺度特征融合模塊，增強小目標檢測能力；
優化損失函數設計，提升密集果實場景下的區分度；
采用動態計算架構，使不同配置模型在精度與速度間獲得最佳平衡。

這些改進使YOLOv12成為首個在COCO-Agri專項測試集上mAP突破90%的農業專用檢測模型，為智能農機裝備提供了可靠的技術基座。

YOLO12的架構及創新可參考YOLOv12來襲！打破CNN主導，實現速度精度新高度，實時目標檢測的效率之王！文章

三、目標

YOLOv12在結構上的創新極大地增強了其功效。它采用了基于卷積的注意力機制和分層設計等先進功能，從而增強了模型高精度處理和分析圖像的能力。延長的訓練時間、優化的卷積核大小以及無位置嵌入都對改進模型的性能起到了作用。這些進展不僅推動了物體檢測技術的發展，也為未來人工智能在農業領域的應用奠定了基礎，有望進一步提高自動化系統的效率和有效性Tian等人（2025年）。

生成并利用LLM生成的圖像：利用LLM生成蘋果園合成圖像的綜合數據集，專門用于訓練YOLOv12模型，從而為可控和可擴展的訓練環境提供便利。
評估模型性能：使用LLM生成的合成數據集，系統地評估和比較YOLOv12與其前身YOLOv11和YOLOv10在準確度、精確度和速度方面的性能。
使用真實圖像進行實地驗證：使用商業蘋果園中機器視覺傳感器收集的真實世界圖像來驗證訓練有素的模型，從而測試機器視覺模型的實用性。

四、研究方法

本研究是在Sapkota等人（2024a）先前工作的基礎上開展的，該研究證明了使用OpenAI的DALL-E生成的合成數據集訓練YOLOv10和YOLOv11模型的可行性。本研究開發的合成數據集由489幅人工標注的圖像組成，每幅圖像的尺寸為1024x1024像素。這些圖像是根據 “果園中被遮擋的蘋果 ”等特定文本提示生成的，以確保生態邏輯的有效性。對YOLOv11和YOLOv10的不同配置進行了訓練——YOLOv11有五個變體（YOLOv11n、YOLOv11s、YOLOv11m、YOLOv11l、YOLOv11x），YOLOv10有六個變體（YOLOv10n、YOLOv10s、YOLOv10m、YOLOv10b、YOLOv10l、YOLOv10x）。每個變體都針對果園環境中的特定檢測要求進行了超參數優化。

使用LLM生成數據：DALL-E圖像生成模型

本研究采用了由美國加利福尼亞州OpenAI公司開發的DALL-E 2圖像生成模型。該模型采用分層文本條件圖像生成策略，包括兩階段過程：從給定文本標題進行初始CLIP（對比語言-圖像預訓練）圖像嵌入，以及隨后的解碼階段生成圖像。CLIP階段利用強大的圖像表征，整合文本的主題和風格元素，促進生成不僅逼真而且與上下文相關的圖像。

DALL-E 2的流程分為三個核心階段：編碼器、先驗器和解碼器。首先，通過對大量文本圖像對進行預訓練的神經網絡，將文本輸入轉換為CLIP文本嵌入。通過主成分分析（PCA）對該嵌入進行降維處理，以簡化后續階段。在前一階段，使用配備注意力機制的轉換器模型將該嵌入轉化為圖像嵌入。最后一個階段是解碼器，利用擴散模型將圖像嵌入轉化為詳細的視覺輸出。這一輸出通過兩個階段的連續神經網絡逐步完善，最初從64x64分辨率提升到256x256分辨率，最后提升到1024x1024。這種方法在圖像生成方面具有極大的靈活性，能夠根據文本輸入的細微變化進行調整，生成保持核心語義完整性的各種圖像，有效處理諸如內繪和上下文修改等任務，而無需對編輯任務進行特定的預訓練。

訓練 YOLOv12 物體檢測模型

在本研究中，YOLOv12物體檢測模型的訓練以及隨后與YOLOv11和 YOLOv10的比較涉及到一個詳細和結構化的方法，以最大限度地提高性能并確保不同模型配置之間的重現性。訓練過程如下：模型經過200次訓練，圖像大小為640像素，批次大小為8。

選擇這種設置是為了在計算需求和從訓練圖像中學習詳細特征的能力之間取得最佳平衡。訓練在高性能計算工作站上進行，該工作站配備了主頻為3.30 GHz、擁有20個內核的英特爾至強? W-2155 CPU和英偉達TITAN Xp典藏版顯卡。這一硬件配置輔以31.1 GiB的系統內存，并在Ubuntu 16.04 LTS 64位操作系統上運行，確保了處理大型數據集和密集型計算任務的強大處理能力。

所有訓練過程都是在這個以高效處理深度學習應用而著稱的Linux系統上使用Pytorch框架實現的。為了便于模型管理和未來的可重復性，模型的訓練進度每10個epochs保存在指定目錄中，確保模型性能的任何顯著提高都能被捕獲并在以后進行評估。在YOLOv12的所有五個配置（n、s、m、l、x）中，后端設置和這些方法選擇都是一致的，保并保持統一的超參數設置，以便對所有模型變體及其前身YOLOv11和YOLOv10進行公平比較。

性能評估

為了系統地評估YOLOv12模型在五種配置（n、s、m、l、x）下的功效，我們采用了一套全面的性能指標。這些指標包括方框精確度、方框召回率和平均精確度（mAP），交集大于聯盟（IoU）閾值為50%。這些評估對于確定模型在合成LLM生成的圖像中檢測蘋果的準確性和效率至關重要。這些指標的計算公式如下：

圖片2.png

除了準確度指標外，還通過檢查卷積層數、總參數和GFLOPs來評估模型的復雜性和計算需求：

圖片3.png

這些結構和運行指標提供了YOLOv12的可擴展性和部署可行性，特別是在需要高吞吐量和實時處理的應用中。然后，使用相同的數據集，將YOLOv12的性能與其前代產品YOLOv11和YOLOv10進行直接比較。這種比較分析有助于突出YOLOv12設計中的改進及其對農業環境中實際應用的影響，特別是對涉及在合成數據創建的復雜視覺環境中檢測蘋果的任務的影響。

實地評估

在研究的最后階段，我們在華盛頓州一個商業蘋果園的真實環境中驗證了訓練有素的YOLOv12模型的適用性和有效性。評估于2024年9月29日進行，使用Microsoft Azure Kinect攝像頭系統地捕捉了40幅高清圖像。這種先進的傳感器安裝在一個機器人平臺上，便于精確、可控地獲取圖像。

Microsoft Azure Kinect DK傳感器與我們的數據采集工作密不可分，它配備了一個1200萬像素的RGB攝像頭和一個100萬像素的深度傳感器。深度傳感器根據飛行時間（ToF）原理工作，配備了一個全局快門，可執行模擬二進制。這項技術不僅能同步像素捕捉，還能顯著降低噪點，提高捕捉圖像的質量。傳感器的調制頻率可在200到320 MHz之間調節，從而可以根據不同的環境條件調節分辨率、范圍和幀頻。它支持兩種深度模式：它支持兩種深度模式：窄視場模式（NFOV）和寬視場模式（WFOV）。

Azure Kinect安裝在Universal Robots公司（美國波士頓）生產的UR5e工業機械臂上，而UR5e又安裝在Clearpath Robotics公司（加拿大安大略省）生產的Warthog人地面車上。這種設置不僅在圖像捕捉過程中提供了穩定性，還確保了對果園區域的全面覆蓋，特別是對商用蘋果的覆蓋。此次實地評估所獲得的數據構成了后續分析的基礎，以確定YOLOv12模型在農業環境中的實際適用性。

五、Coovally AI模型訓練與應用平臺

如果你也想要進行模型訓練或模型改進，Coovally平臺滿足你的要求！

Coovally平臺整合了國內外開源社區1000+模型算法和各類公開識別數據集，無論是YOLO系列模型還是Transformer系列視覺模型算法，平臺全部包含，均可一鍵下載助力實驗研究與產業應用。

而且在該平臺上，無需配置環境、修改配置文件等繁瑣操作，一鍵上傳數據集，使用模型進行訓練與結果預測，全程高速零代碼！

具體操作步驟可參考：YOLO11全解析：從原理到實戰，全流程體驗下一代目標檢測

平臺鏈接：https://www.coovally.com

如果你想要另外的模型算法和數據集，歡迎后臺或評論區留言，我們找到后會第一時間與您分享！

六、結果與討論

性能指標評估

在物體檢測模式的比較分析中，YOLOv12配置在從合成LLM生成的圖像中檢測蘋果方面表現出色，精度、召回率和平均平均精度（mAP）在50%交集大于聯合（IoU）閾值下成為關鍵的性能指標。在YOLOv12變體中，YOLOv12n配置是最準確的，其方框精度最高，為0.916，方框召回率最高，為0.969，mAP@50最高，為0.978。YOLOv12s、YOLOv12m和YOLOv12l模型的性能非常接近，每個模型的精確度都達到了0.898，召回率為0.956，mAP@50為0.974，突出了這些配置的一致性。

再看該系列的早期型號，YOLO11和YOLOv10系列在類似條件下也表現出了良好的性能。在YOLO11系列中，YOLO11x配置的精確度最高，為0.857，mAP@50最高，為0.91，而YOLO11m配置的召回率最高，為0.821。在YOLOv10配置中，YOLOv10n和YOLOv10b都達到了0.85的最高預精度，YOLOv10n還記錄了0.89的最高mAP@50。YOLOv10x的召回率最高，為0.81。這些結果清楚地表明，隨著時間的推移，YOLO模型的發展在不斷進步和完善，新的迭代顯示出更高的準確性和效率。要詳細了解每個模型的指標以及YOLOv12、YOLO11和 YOLOv10之間的綜合比較，請參閱表1，其中包含了這些配置的完整性能數據。這項分析明確強調了YOLOv12n在精確度、召回率和mAP方面的優勢，鞏固了其作為本研究框架內合成圖像檢測最佳模型的地位。

圖片4.png

圖3全面展示了YOLOv12n模型的卓越性能，它是YOLOv12、YOLOv11和 YOLOv10系列15個評估配置中的佼佼者。圖3a和3b分別顯示了精確度-召回曲線和F1-置信度曲線，展示了YOLOv12n在檢測合成目標時的穩健性和精確度。圖3c進一步體現了這一性能，顯示了由DALL-E LLM生成的圖像，其中 YOLOv12n高精度地成功識別了蘋果。這些出色的結果凸顯了模型在處理和識別復雜圖像數據方面的有效性，證明YOLOv12n是本次比較研究中處理合成農業圖像能力最強的模型配置。

圖片5.png

圖4顯示了YOLOv12物體檢測算法配置中每個模型的卷積層、參數和GFLOPs。

圖片6.png

評估YOLOv12中使用的參數、GFLOP和層數

在對用于合成蘋果檢測的YOLOv12配置進行比較分析時，YOLOv12n模型使用的卷積層最少（159層），計算需求最低，僅為6.3 GFLOPs。相反，YOLOv12l模型使用了283層和88.5 GFLOPs，對計算資源的需求最高。同時，YOLOv12n配置使用的參數也最少，僅為255.6萬個，這表明其架構比同類產品更精簡、更高效。

這些特性表明，YOLOv12n配置具有最少的層數和較低的GFLOPs，可為實際應用（如使用機器視覺進行現場蘋果檢測）提供更實用、更快速的部署選擇。計算負荷的減少不僅加快了推理時間，還使其更適合集成到移動或嵌入式系統中，因為這些系統的功率和處理能力有限。這種效率可為農業機器人和精準農業技術帶來更廣泛的應用和更可擴展的解決方案。

圖像處理速度評估

在圖像處理速度的評估中，YOLOv12表現出不同的性能水平。YOLOv12的推理時間僅為5.6毫秒，在YOLOv12、YOLOv11和YOLOv10系列的所有測試配置中速度最快，顯示出卓越的效率。與速度最快的YOLOv11模型（YOLO11n，4.7ms）和速度最快的YOLOv10模型（YOLOv10n，5.9ms）相比，這種效率非常顯著。隨著YOLOv12系列模型復雜度的增加，推理時間也在增加，YOLOv12l達到了32.5ms。這一分析凸顯了YOLOv12n在速度方面的優勢，強調了其在商業果園中實時檢測蘋果的潛力，從而為快速田間圖像處理提供了可擴展的解決方案。

圖片7.png

利用真實圖像進行實地驗證

YOLOv12模型只在LLM生成的圖像上進行訓練，其穩健性通過實地驗證得到了證實。在商業蘋果園進行實時檢測時，該模型在識別由安裝在機器人地面平臺上的Microsoft Azure Kinect攝像頭拍攝的圖像中的蘋果時表現出了極高的準確性，如圖5所示。在收獲季節進行的這一驗證階段證實了該模型從合成場景到真實世界場景的有效生成能力。值得注意的是，YOLOv12模型在田間條件下檢測真實蘋果的性能優于其前身YOLOv11和YOLOv10。這一進步凸顯了農業應用中模型訓練模式的重大轉變；訓練時不需要實際的田間圖像，這表明完全合成的數據可用于開發高效的檢測系統。這種方法不僅減少了大量數據收集通常所需的時間和資源，還提高了在多變的農業環境中部署人工智能解決方案的可擴展性。

圖片8.png

關于近期蘋果檢測研究的討論

蘋果檢測領域的最新進展展示了各種方法創新和研究成果。Liu等人（2024 年）推出了一種輕量級模型Faster-YOLO-AP，利用新的高效PDWConv，在邊緣設備上實現了顯著的速度和準確性。Johanson等人（2024 年）開發了一種半監督方法S3AD，利用一個混合了標記和未標記圖像的大型數據集改進了對小蘋果的檢測。Ma等人（2024 年）采用了一種輕量級YOLOv8變體，集成了ShuffleNetv2和Ghost模塊，用于實時監測，顯示出高效率和高精度。Kong Kong等人（2024年）使用基于變壓器的Faster RCNN模型增強了蘋果檢測能力，在復雜的果園環境中表現出色。Jin Jin等人（2025）優化了用于機器人蘋果收獲的YOLOv8n，實現了令人印象深刻的定位和計數精度。最后，Maheswari Maheswari等人（2025年）分析了改進后的DeepLabv3+架構，實現了高精度和高效的水果定位。雖然這些研究在果園自動化方面取得了長足進步，但它們往往因基于傳感器的圖像采集、勞動密集型流程和人工標注而成本高昂。

相比之下，我們的研究利用LLM生成的圖像來訓練YOLOv12模型，避免了傳統的大量現場數據收集和人工標注。我們的YOLOv12n模型的mAP@50為 0.978，優于之前討論的所有方法。YOLOv12s、YOLOv12m和YOLOv12l配置也表現出很高的性能，精確度和召回值分別持續高于0.898和0.956。這些結果不僅證明了使用合成數據進行訓練的有效性，還凸顯了我們的模型在速度和準確性方面的領先優勢。在蘋果檢測領域，近期發表的任何其他文章都無法與我們的研究在精度和處理速度上相媲美，這標志著合成數據集和 LLM 功能在農業人工智能技術應用領域的一個重要里程碑。

七、結論

本研究證明了YOLOv12模型在物體檢測方面的卓越性能，尤其是在農業領域的果園蘋果檢測方面。YOLOv12n配置表現出色，達到了最高的指標，預精度為0.916，召回率為0.969，mAP@50為0.978。這些結果不僅展示了YOLO系列最新版本的能力，還凸顯了它與之前版本相比的改進。相比之下，YOLOv11系列中表現最好的是YOLO11x，其精確度、召回率和mAP@50分別為0.857、0.85和0.91，而YOLOv10系列中表現最好的是YOLOv10n，其精確度、召回率和mAP@50分別為0.84、0.8和0.89。

YOLOv12性能的意義不僅在于數值上的優勢，它還說明了該模型能夠有效地利用通過LLM生成的合成數據，在現實世界中進行穩健的應用。這一進步表明，深度學習模型的訓練方式發生了關鍵性轉變，特別是在精準農業領域，通過自動化系統準確檢測和分析作物的能力可以顯著提高作業效率，減少對大量人工數據收集的需求。此外，YOLOv12模型在田間級驗證中的成功（根據商業蘋果園的真實圖像進行測試）證實了其實用性和魯棒性。這一驗證不僅證明了該模型在真實世界條件下的有效性，還證明了它作為農業監測和自動化的可擴展解決方案的潛力，為該領域更先進的人工智能驅動應用鋪平了道路。因此，YOLOv12樹立了該領域的新標桿，有望大幅改進農業技術和管理系統。

八、未來

人工智能的快速發展有望顯著提高物體檢測模型的準確性、速度和效率，尤其是在YOLO系列中。在我們的研究中，YOLOv12的開發展示了這一進步，它實現了前所未有的性能指標，推理時間比前代產品更短。預計YOLO的未來迭代將進一步完善這些屬性，可能會提供更低的推理時間和更高的檢測精度。集成由 LLM（如OpenAI的DALL-E）生成的合成數據集代表了我們在訓練物體檢測模型方面的一次突破性轉變。這種方法無需進行大量的實地數據收集，從而降低了人工數據收集和注釋的成本和后勤負擔。對于YOLOv12來說，在LLM生成的圖像上進行訓練不僅可行，而且非常有效，為果園環境中蘋果等物體的檢測精度和速度設定了新的基準。展望未來，通過LLM生成更逼真的圖像與不斷完善YOLOv12等模型相結合，將使精準農業煥然一新。這種進步可以在不同地區和條件下部署高精度模型，而無需傳統的大量本地化數據收集。這對于那些難以獲得一致、高質量實地數據的地區的應用來說，尤其具有變革意義。此外，利用 LLMs 提供訓練數據的概念也有可能擴展到數據收集風險高、成本高或不切實際的其他領域。這種方法可以使YOLOv12及其后續產品得到更廣泛的應用，提高它們在從環境監測到城市發展等不同領域的實用性，同時還能確保這些強大的人工智能工具在各種情況下都能保持適應性和穩健性。