Python----目標檢測(YOLO簡介)

一、?YOLO簡介

?

????????[YOLO](You Only Look Once)是一種流行的物體檢測和圖像分割模型, 由華盛頓大學的約瑟夫-雷德蒙(Joseph Redmon)和阿里-法哈迪(Ali Farhadi)開發,YOLO 于 2015 年推出,因其高速度和高精確度而迅速受 到歡迎。

????????在計算機視覺(Computer Vision)領域,目標檢測(Object Detection)一直是最為基礎且至關重要的研究方向之一。隨著深度學習的興起與硬件性能的不斷提高,目標檢測算法在過去十年間取得了長足的進步,從早期的?R-CNN系列到?SSD、RetinaNet,再到YOLO(You Only Look Once)系列,每一次技術迭代都在速度與精度之間尋找新的平衡點。如今,YOLO 系列已走過了近十年的發展歷程,從最初的?YOLOv1(2015)到當下最新的YOLOv12?,每一個版本都體現了學術界與工業界在網絡結構、訓練策略、特征融合、損失函數設計等方面的不斷探索與突破。

????????YOLO 系列的核心思路在于將目標檢測看作是一個單階段(One-Stage)的回歸問題:它將輸入圖像劃分為若干網格(Grid),并在每個網格中直接回歸邊界框(Bounding Box)與類別置信度,從而實現了高效的目標檢測。這種端到端、一次性完成檢測與分類的思路,極大地提升了檢測速度,同時在后續版本中,通過引入更加成熟的特征提取網絡與多尺度預測策略,也逐步提升了檢測精度。YOLO?系列在無人駕駛、視頻監控、機器人視覺等對實時性要求高的應用場景中得到了廣泛采用。

二、YOLO v1-v12特點

模型核心思路/創新點主要優點主要缺點
YOLOv1單階段檢測,全局信息速度快,端到端訓練定位精度不高,對小目標不友好,Recall 較低
YOLOv2Anchor Boxes,高分辨率預訓練,Batch Normalization精度提升,對不同尺度目標適應性增強,訓練更穩定對小目標仍有漏檢,推理速度在高分辨率下變慢,引入 Anchor 使后處理更復雜
YOLOv3多尺度預測,殘差網絡,邏輯回歸分類小目標檢測性能提升顯著,多標簽檢測極小目標檢測仍有挑戰,網絡更深,顯存需求增加,精度相比雙階段方法在復雜場景仍有差距
YOLOv4SOTA 技術融合(CSPNet, Mish, Mosaic, CIoU等)精度和速度平衡達到 SOTA 水平,數據增強效果好,邊界框回歸更精確網絡規模大,顯存需求高
YOLOv5Focus 模塊,自適應 Anchor,工程化優化易用性強,速度快,多尺寸模型選擇靈活?
YOLOv6RepVGG 結構,高效推理優化推理速度快,易于工業級部署,適合低算力場景精度與 YOLOv5 大致相當
YOLOv7E-ELAN 結構,多種技巧融合實時檢測精度進一步提升?
YOLOv8端到端訓練,新網絡模塊,更好的兼容性訓練和推理流程更緊湊,速度快(尤其小模型),部署方便?
YOLOv9引入注意力機制(CBAM/ECA),優化多尺度融合小目標檢測 mAP 提升?
YOLOv10Transformer-CNN 融合,EIoU 損失,自適應多尺度訓練,半監督學習捕捉全局上下文信息,邊界框回歸更精確,對多尺度更魯棒,可利用無標注數據提升性能?
YOLOv11可解釋性(注意力熱圖),自適應 Anchor V2提供模型可解釋性,更好地適應不同數據集目標分布?
YOLOv12注意力機制深度集成,FlashAttention 優化,分布式訓練,大規模數據特征表達能力強,高分辨率下注意力計算高效,泛化性能極佳,特定任務性能突出?

三、YOLO發展歷程?

3.1、YOLOv1

????????YOLOv1,即“You Only Look Once”的第一個版本,由 Joseph Redmon 等人在 2015 年提出,其論文標志著目標檢測領域向端到端、單階段方法的重要轉變。YOLOv1 首次將目標檢測視為一個可以直接從圖像像素到邊界框和類別預測的回歸問題,這與當時主流的兩階段檢測器有著顯著的不同。

????????YOLOv1 的網絡結構借鑒了 GoogLeNet 的思想,采用卷積神經網絡作為其主干網絡。最初版本包含 24 個卷積層,經過微調后增加到 28 個。網絡中交替使用 1×1 和 3×3 的卷積核來提取圖像特征。最終,網絡在一個特征圖上輸出一個維度為 S×S×(B×5+C) 的張量。其中,S 代表網格的大小(例如 7×7),B 是每個網格預測的邊界框數量(例如 2),5 表示每個邊界框包含的 4 個坐標值以及 1 個置信度分數,C 則是目標類別的數量。

????????YOLOv1 的核心創新在于其單階段檢測流程、對全局信息的利用以及其高速的檢測能力。與需要先生成候選區域的 Faster R-CNN 等兩階段檢測器不同,YOLOv1 直接在整個圖像的網格上預測邊界框和類別,極大地簡化了檢測流程。此外,YOLOv1 將整張輸入圖像作為一個整體進行處理,在預測時能夠考慮到全局的上下文信息,而不僅僅關注局部的候選區域。由于只需進行一次網絡前向傳播,YOLOv1 的推理速度遠高于傳統的兩階段檢測器。

????????然而,YOLOv1 也存在一些局限性。由于每個網格單元只能預測有限數量的目標,當圖像中目標過多、尺寸過小或分布較為復雜時,其檢測效果會顯著下降,導致定位精度不高。同時,網格劃分限制了特征圖的分辨率,使得模型對小目標的檢測能力較弱,容易發生漏檢。在早期版本中,邊界框的回歸方式較為簡單粗糙,也導致了較低的召回率。

????????盡管存在不足,YOLOv1 在 PASCAL VOC 2007 數據集上取得了 63.4% 的平均精度均值(mAP),在當時已具備一定的競爭力,但與 Faster R-CNN 相比仍有差距。YOLOv1 的提出在學術界引發了對單階段目標檢測器的廣泛關注,并為后續 YOLO 系列的快速發展奠定了重要的基礎。

3.2、YOLOv2

????????YOLOv2,由 Joseph Redmon 和 Ali Farhadi 于 2017 年提出,其論文標題為 “YOLO9000: Better, Faster, Stronger”,旨在改進 YOLOv1 的不足,進一步提升目標檢測的精度以及對不同尺度目標的適應性。YOLOv2 在前代的基礎上引入了多項關鍵創新,使其性能得到了顯著提升。

????????YOLOv2 的主干網絡采用了更深的網絡結構——Darknet-19,它包含了 19 個卷積層和 5 個最大池化層。Darknet-19 網絡廣泛使用 3×3 卷積與 1×1 卷積的組合來提取豐富的特征,并且在所有的卷積層之后都加入了 Batch Normalization 層,這有助于加速網絡收斂并提高訓練的穩定性。

????????YOLOv2 的核心創新點包括引入 Anchor Boxes(先驗框)、采用 Batch Normalization、進行高分辨率預訓練以及使用 Dimension Clusters。借鑒 Faster R-CNN 和 SSD 等模型的思想,YOLOv2 引入了 Anchor Boxes,使得每個網格單元能夠預測多個不同大小和長寬比的候選邊界框,從而顯著提高了模型對多目標和不同尺度目標的檢測能力。Batch Normalization 的應用有效減少了過擬合的風險,加快了訓練速度,并使網絡更加穩定。YOLOv2 還采用了先在低分辨率(224×224)圖像上進行分類預訓練,然后再切換到高分辨率(448×448)進行檢測的方式,以保證網絡能夠適應高分辨率的特征。此外,YOLOv2 通過對訓練集中目標框的尺寸分布進行聚類分析,自動學習得到更優的 Anchor Boxes 尺寸,減少了人工設置的工作量,并提升了網絡對目標尺度的適應性。

????????得益于這些改進,YOLOv2 在 PASCAL VOC 2007 數據集上的平均精度均值(mAP)達到了 76.8%,相較于 YOLOv1 提升了約 13%。在 COCO 數據集上,YOLOv2 也取得了不錯的性能表現。雖然在精度上與當時最先進的檢測器相比仍有差距,但其在檢測速度方面依然保持著明顯的優勢。

????????盡管 YOLOv2 相較于 YOLOv1 有了顯著的提升,但它仍然存在一些不足之處。例如,對于非常小的目標,模型仍然容易出現漏檢的情況。此外,在高分辨率輸入下,網絡的推理速度也會相應減慢。Anchor Boxes 的引入雖然提升了檢測性能,但也使得網絡的預測過程更加復雜,需要進行更多的后處理步驟。這些問題也為后續的 YOLO 系列模型提供了改進的方向。

3.3、YOLOv3

????????YOLOv3 由 Joseph Redmon 和 Ali Farhadi 于 2018 年在論文 “YOLOv3: An Incremental Improvement” 中提出。相較于 YOLOv2,YOLOv3 在網絡結構和檢測頭的設計上進行了顯著的改進,旨在進一步提升目標檢測的性能,尤其是在小目標檢測方面。

????????YOLOv3 的核心網絡結構是 Darknet-53,這是一個比 YOLOv2 的 Darknet-19 更深的網絡,并且引入了殘差連接(Residual Connections)以緩解深層網絡中常見的梯度消失問題。Darknet-53 不僅在目標檢測任務中表現出色,在圖像分類任務上也展現了優秀的性能。此外,YOLOv3 借鑒了特征金字塔網絡(FPN)的思想,在網絡的不同深度層輸出多個尺度的特征圖,分別用于預測不同大小的目標:高分辨率的淺層特征圖用于檢測小目標,中等分辨率的特征圖用于檢測中等大小的目標,而低分辨率的深層特征圖則用于檢測大目標。

????????YOLOv3 的核心創新點包括多尺度預測、改進的邊界框預測以及分類方式的改變。通過在三個不同的尺度上進行檢測,YOLOv3 顯著提升了對小目標的檢測性能。在邊界框預測方面,YOLOv3 對每個網格單元預測 3 個 Anchor Boxes,并在網絡輸出層對坐標進行相對偏移量的回歸,從而提高了邊界框的精確度。此外,YOLOv3 使用邏輯回歸(Logistic)代替了 Softmax 來預測每個類別的置信度,這一改變使得模型能夠支持多標簽檢測,即一個目標可以同時屬于多個類別。

????????在性能表現方面,YOLOv3 在 COCO 數據集上的平均精度均值(AP50)達到了 57.9%,相較于 YOLOv2 有了進一步的提升。同時,YOLOv3 依然保持了較高的推理速度,能夠達到每秒數十幀的水平。尤其值得一提的是,YOLOv3 對小目標的檢測精度有了顯著的提高,使其更適用于無人機航拍、視頻監控等需要檢測小目標的場景。

????????盡管 YOLOv3 在性能和速度上都取得了顯著的進步,但它在極小目標檢測方面仍然面臨挑戰。此外,由于網絡規模的增大,YOLOv3 對顯存的需求也相應增加。與雙階段檢測方法(如 Faster R-CNN)相比,YOLOv3 在某些復雜的場景下的精度仍然存在差距,但其在實時性方面所擁有的巨大優勢使其在許多應用中更具吸引力。

3.4、YOLOv4

????????YOLOv4 由 Bochkovskiy 等人在 2020 年的論文 “YOLOv4: Optimal Speed and Accuracy of Object Detection” 中提出。該工作通過整合當時最先進(SOTA)的技術,例如 Mosaic 數據增強、CSPNet 和 Mish 激活函數等,旨在進一步提升 YOLO 系列的檢測精度和速度,實現了性能上的顯著飛躍。

????????YOLOv4 的核心網絡結構是 CSPDarknet53。它結合了 Cross Stage Partial Network(CSPNet)的思想,將主干網絡分成兩個部分并行計算,然后在后續階段進行融合。這種結構設計有效地減輕了重復梯度計算,降低了計算量,并提升了模型的推理速度。此外,YOLOv4 在網絡的某些層中使用了 Mish 激活函數。相較于傳統的 ReLU 和 Leaky ReLU,Mish 激活函數對梯度的平滑性更好,有助于網絡更好地收斂。

????????YOLOv4 的核心創新在于系統性地總結并應用了大量能夠提升目標檢測精度和速度的“技巧”,作者將其歸納為 “Bag of Freebies” 和 “Bag of Specials”。“Bag of Freebies” 指的是那些在不增加推理開銷的情況下能夠提升模型精度的改進方法,例如 Mosaic 和 CutMix 等數據增強技術以及標簽平滑(Label Smoothing)等。“Bag of Specials” 則指的是那些會帶來少量額外推理開銷,但能夠顯著提升模型精度的組件,例如空間金字塔池化(SPP)以及 DIoU(Distance IoU)或 CIoU(Complete IoU)等改進的 NMS(Non-Maximum Suppression)方法。特別值得一提的是 Mosaic 數據增強,它通過將多張圖像隨機拼接成一張用于訓練,顯著提升了網絡的泛化能力。同時,YOLOv4 在邊界框回歸時使用了 CIoU 或 DIoU 損失,這增強了對預測框形狀和中心點位置的約束,從而提高了定位的準確性。

????????在性能表現方面,YOLOv4 在 COCO 數據集上達到了 43.5% 的 AP(val2017),在速度和精度之間取得了當時最優的平衡,達到了 SOTA 水平。相較于 YOLOv3,YOLOv4 在檢測精度上有了明顯的提升,并且依然保持了實時檢測所需的推理速度。這使得 YOLOv4 在實際應用中具有很高的價值。

3.5、YOLOv5

????????YOLOv5 的出現頗具爭議,因為它并非由 YOLO 系列的原始作者 Joseph Redmon 提出,而是由 Ultralytics 團隊于 2020 年在 GitHub 上開源。盡管其命名引發了一些社區討論,但 YOLOv5 基于 PyTorch 實現,并采用了更加現代化的工程化手段進行打包,這極大地便利了開發者的使用和部署。

????????YOLOv5 引入了一些關鍵的改進。首先是 Focus 模塊,它被應用于網絡的輸入端,用于對圖像進行切分和拼接操作。與直接的卷積下采樣相比,Focus 模塊能夠保留更多的特征信息。其次,YOLOv5 采用了自適應 Anchor 機制,在訓練開始前通過 K-Means 聚類算法自動生成更符合數據集特性的 anchor 框,從而減少了手動調整 anchor 參數的成本。此外,YOLOv5 非常注重工程化優化,提供了完善的訓練和推理腳本,并且在 GitHub 上保持著積極的更新和維護,使其在實際項目中更易于集成和應用。

????????YOLOv5 衍生出了多個不同規模的版本,包括 YOLOv5s、YOLOv5m、YOLOv5l 和 YOLOv5x 等。這些不同尺寸的模型在精度和速度上有所權衡,能夠滿足從輕量級應用到追求高精度的各種需求。在后續的版本中,YOLOv5 還引入了 PANet 作為特征融合網絡以及空間金字塔池化(SPP)等組件,以進一步提升性能。

????????在 COCO 數據集上,YOLOv5 的各個版本在速度和精度之間形成了一個分布式的性能譜。開發者可以根據具體的應用需求在這兩者之間進行選擇。例如,YOLOv5s 作為最小的模型,在普通的 GPU 上即可實現超過 100 FPS 的超實時推理速度,而 YOLOv5x 作為最大的模型,則在目標檢測精度方面更具競爭力。

3.6、YOLOv6

????????YOLOv6 由曠視(Megvii)于 2022 年開源,其主要目標是構建一個工業級的高效目標檢測系統。YOLOv6 在設計上特別強調推理速度和易部署性,并為此進行了大量的優化工作,使其更適用于實際的工業應用場景。

????????YOLOv6 的核心創新點包括采用 RepVGG 結構、優化訓練策略以及實現高效推理。模型使用了 RepVGG 等結構化的卷積模塊,這種設計將網絡的結構在訓練階段和推理階段進行了解耦。在訓練時,RepVGG 使用多分支結構以獲得更高的精度,而在推理時,這些分支會被等效地合并成一個簡單的卷積層,從而簡化了推理圖,減少了計算量,并提高了推理速度。此外,YOLOv6 還對數據增強、損失函數等訓練策略進行了改進,以提升模型在復雜工業場景下的魯棒性。針對 TensorRT 等主流推理引擎,YOLOv6 進行了專門的優化,減少了算子的冗余,使得模型在實際部署中能夠達到更優的速度表現。

????????在性能方面,YOLOv6 在 COCO 數據集上取得了與 YOLOv5 相當的檢測精度,但在推理速度方面可能更具優勢。由于其高度的工業化特性和對高效推理的優化,YOLOv6 非常適合在嵌入式設備和低算力等資源受限的場景中進行快速部署和應用。

3.7、YOLOv7

????????YOLOv7 由 Wang 等人在 2022 年提出,并在 GitHub 上開源。其核心目標是在實時目標檢測領域實現新的突破,通過更有效地利用網絡結構,在速度和精度之間取得更優的平衡點。

????????YOLOv7 的關鍵創新在于引入了 E-ELAN(Extended Efficient Layer Aggregation Network)結構。E-ELAN 是對 YOLOv5 中使用的 ELAN 結構的擴展和改進,它使得特征在網絡中能夠更充分地流動和重用,從而顯著提高了網絡的學習能力和效率。此外,YOLOv7 還繼承了 YOLOv4 和 YOLOv5 中的許多有效技巧,例如自適應 Anchor 框、Mosaic 和 MixUp 等數據增強方法,以及 DIoU 或 CIoU 損失函數和 NMS 等后處理技術。

????????在性能表現方面,YOLOv7 在 COCO 數據集上實現了多種模型規模下的最先進(SOTA)實時檢測性能。相較于 YOLOv5 和 YOLOv6,YOLOv7 在精度上均有一定程度的提升,同時保持了較高的推理速度,使其在需要實時目標檢測的應用場景中更具競爭力。

3.8、YOLOv8

????????YOLOv8 由 Ultralytics 團隊于 2023 年初發布,代表了 YOLO 系列在社區開源項目層面的一次重大更新,它在 YOLOv5 的基礎上進行了多方面的重構,并提供了更加靈活的命令行工具和模型定義。

????????YOLOv8 的核心創新點包括強調端到端的訓練流程,以及探索了新的網絡模塊設計。在網絡設計上,YOLOv8 致力于減少中間環節,使得模型的訓練和推理流程更加緊湊高效。同時,它引入了一些新的卷積模塊和特征融合方式,旨在通過更簡潔和優化的結構,在相同的推理速度下實現更高的平均精度均值(mAP)。此外,YOLOv8 還注重提升兼容性,提供了官方的 Docker 鏡像和持續集成/持續部署(CI/CD)腳本,方便開發者在各種不同的環境下進行快速部署。

????????YOLOv8 同樣面臨了與 YOLOv5 類似的命名爭議,但這并未影響其在社區中獲得的廣泛認可,其易用性和性能依然備受肯定。在一些性能測試中,YOLOv8 相對于 YOLOv5、YOLOv6 甚至 YOLOv7 展現出一定的優勢,尤其是在小型模型(如 YOLOv8s)上,其推理速度更快。

3.9、YOLOv9

????????YOLOv9 的核心思路在于通過在主干網絡的關鍵位置引入注意力機制,例如 CBAM(Convolutional Block Attention Module)或 ECA(Efficient Channel Attention)等模塊,來增強網絡對圖像中目標區域的關注度。此外,YOLOv9 還優化了多尺度特征融合的策略,旨在使網絡在檢測小目標和被遮擋目標時表現出更強的優勢。

????????在性能方面,YOLOv9 相較于 YOLOv8 在小目標檢測場景下的平均精度均值(mAP)取得了 1% 至 2% 的提升,并且在推理速度上基本保持了與 YOLOv8 相當的水平。這意味著 YOLOv9 在提高對具有挑戰性目標(如小目標)的檢測能力的同時,依然能夠維持較高的實時性。

3.10、YOLOv10

????????YOLOv10 的核心思路是在特征提取階段引入輕量級的 Transformer 模塊,并將其與卷積神經網絡(CNN)并行或串行地融合,以更好地捕捉圖像的全局上下文信息。此外,YOLOv10 還采用了更精細的 IoU 變體損失函數,例如 EIoU(Efficient Intersection over Union),來進行更精確的邊界框回歸。

????????YOLOv10 的改進之處在于引入了自適應多尺度訓練策略,該策略在訓練過程中動態調整輸入圖像的分辨率,從而增強模型對不同尺度目標的魯棒性。此外,YOLOv10 還探索了半監督學習的方法,在部分應用場景下,可以利用無標注的數據來進一步提升檢測性能。

3.10、YOLOv11

????????YOLOv11 的一個關鍵目標是提升模型的可解釋性。為此,它在網絡中嵌入了可視化模塊,能夠實時輸出注意力熱圖,從而幫助研究人員分析網絡在進行目標檢測時所關注的關鍵區域,這對于理解模型的工作機制至關重要。

????????YOLOv11 還引入了自適應 Anchor V2 機制。與之前的自適應 Anchor 方法不同,V2 版本在訓練過程中能夠動態地更新 Anchor 框的大小和比例,以便更好地適應不同數據集中的目標分布特性,從而提高模型對各種目標尺寸和形狀的適應能力。

3.10、YOLOv12

????????YOLOv12 的核心設計理念是“注意力集成”。它在骨干網絡和特征融合層中深度整合了多種類型的注意力機制,包括自注意力、CBAM 和 ECA 等。這種設計旨在在不顯著增加計算量的前提下,大幅提升網絡對圖像特征的表達能力。值得一提的是,YOLOv12 的部分實現還結合了 FlashAttention 等硬件級優化技術,使得注意力計算即使在高分辨率的輸入下依然能夠保持高效。

????????為了追求極致的性能,YOLOv12 采用了分布式訓練框架,例如 ZeRO 和 Megatron-LM。借助這些框架,YOLOv12 能夠在數億甚至數十億圖像的超大規模數據集上進行訓練,從而獲得了極佳的泛化性能,使其在面對各種復雜的真實世界場景時都能表現出色。

????????在性能表現方面,YOLOv12 在 COCO、OpenImages 等大型目標檢測數據集上,依然保持著速度與精度平衡方面的行業領先地位。更令人矚目的是,在一些特定的應用任務中,例如無人機航拍和自動駕駛場景,YOLOv12 的平均精度均值(mAP)和推理幀率都達到了新的高度,展現了其強大的實力。

四、YOLO系列信息匯總

4.1、YOLOv1

  • 論文: "You Only Look Once: Unified, Real-Time Object Detection"

  • 論文地址: https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Redmon_You_Only_Look_CVPR_2016_paper.pdf

4.2、YOLOv2 / YOLO9000

  • 論文: "YOLO9000: Better, Faster, Stronger"

  • 論文地址: https://arxiv.org/pdf/1612.08242

4.3、YOLOv3

  • 論文: "YOLOv3: An Incremental Improvement"

  • 論文地址: https://arxiv.org/pdf/1804.02767

4.4、YOLOv4

  • 論文: "YOLOv4: Optimal Speed and Accuracy of Object Detection"

  • 論文地址: https://arxiv.org/pdf/2004.10934

  • 代碼地址: GitHub - AlexeyAB/darknet: YOLOv4 / Scaled-YOLOv4 / YOLO - Neural Networks for Object Detection (Windows and Linux version of Darknet )

4.5、YOLOv5

  • 發布日期: 無論文發表

  • 開源地址: GitHub - ultralytics/yolov5: YOLOv5 🚀 in PyTorch > ONNX > CoreML > TFLite

4.6、 YOLOv6

  • 論文: "YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications"

  • 論文地址: https://arxiv.org/pdf/2209.02976

  • 代碼地址: GitHub - meituan/YOLOv6: YOLOv6: a single-stage object detection framework dedicated to industrial applications.

4.7、YOLOv7

  • 論文: "YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors"

  • 論文地址: https://openaccess.thecvf.com/content/CVPR2023/papers/Wang_YOLOv7_Trainable_Bag-of-Freebies_Sets_New_State-of-the-Art_for_Real-Time_Object_Detectors_CVPR_2023_paper.pdf

  • 代碼地址: GitHub - WongKinYiu/yolov7: Implementation of paper - YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors

4.8、YOLOv8

  • 發布日期: 2023年1月

  • 作者: Ultralytics 團隊

  • 論文: 無論文發表

  • 開源地址: https://github.com/Pertical/YOLOv8

4.9、YOLOv9

  • 發布日期: 2024年2月

  • 作者/貢獻者: WongKinYiu 等

  • 論文: "YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information"

  • 論文地址: https://arxiv.org/pdf/2402.13616

  • 代碼地址: GitHub - WongKinYiu/yolov9: Implementation of paper - YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

4.10、YOLOv10

  • 發布日期: 2024年5月

  • 作者: 清華大學

  • 論文: "YOLOv10: Real-Time End-to-End Object Detection"

  • 論文地址: https://arxiv.org/pdf/2405.14458

  • 代碼地址: GitHub - THU-MIG/yolov10: YOLOv10: Real-Time End-to-End Object Detection [NeurIPS 2024]

4.11、YOLOv11

  • 發布日期: 2024年9月

  • 作者: Ultralytics 團隊

  • 論文: 無論文發表

  • 開源地址: GitHub - ultralytics/ultralytics: Ultralytics YOLO11 🚀

4.12、YOLOv12

  • 論文: "YOLOv12: Attention-Centric Real-Time Object Detectors"

  • 代碼地址: sunsmarterjie/yolov12: YOLOv12: Attention-Centric Real-Time Object Detectors

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/908443.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/908443.shtml
英文地址,請注明出處:http://en.pswp.cn/news/908443.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

OLED(SSD306)移植全解-基于IIC

OLED(SSD306)移植全解-基于IIC 一,什么是oled?二,什么是IIC協議三,IIC通信流程:四,針對SSD1306的IIC通信流程(結合芯片手冊版)1,主機發送起始信號2&#xff…

LangChain【7】之工具創建和錯誤處理策略

文章目錄 一 LangChain 自定義工具概述二創建自定義工具的三種方法2.1 方法一:tool 裝飾器2.1.1 同步方法案例2.1.2 工具描述方式1:傳參2.1.3 工具描述方式2:文檔字符串 2.2 方法二:StructuredTool類2.2.1 StructuredTool創建自定…

【信息系統項目管理師-選擇真題】2025上半年(第二批)綜合知識答案和詳解(回憶版)

更多內容請見: 備考信息系統項目管理師-專欄介紹和目錄 文章目錄 【第1題】【第2題】【第3題】【第4題】【第5題】【第6題】【第7題】【第8題】【第9題】【第10題】【第11題】【第12題】【第13題】【第14題】【第15題】【第16題】【第17題】【第18題】【第19題】【第20題】【第…

「EN 18031」訪問控制機制(ACM - 1):智能路由器的安全守衛

家用路由器要是出口歐洲,可得留意歐盟EN18031標準里的訪問控制機制。以路由器為例,訪問控制機制(ACM)能決定誰能連入網絡、訪問哪些網站。比如通過設置不同的用戶角色和權限,家長可以限制孩子設備的上網時間和可訪問的…

關于項目多語言化任務的概述

今天的任務一個是關于多語言化的,也就是i18n,我需要做的呢首先是知道項目多語言是怎么實現的,一般情況下沒有多語言化這個功能的時候,我們會寫一個頁面,默認是英文,然后里面的文本都是英文,那么…

護網行動面試試題(2)

文章目錄 51、常見的安全工具有哪些?52、說說Nmap工具的使用?53、近幾年HW常見漏洞有哪些?54、HW 三(四)大洞56、獲得文件讀取漏洞,通常會讀哪些文件57、了解過反序列化漏洞嗎?58、常見的框架漏…

Transformer-BiGRU多變量時序預測(Matlab完整源碼和數據)

Transformer-BiGRU多變量時序預測(Matlab完整源碼和數據) 目錄 Transformer-BiGRU多變量時序預測(Matlab完整源碼和數據)效果一覽基本介紹程序設計參考資料 效果一覽 基本介紹 1.Matlab實現Transformer-BiGRU多變量時間序列預測&…

SOC-ESP32S3部分:31-ESP-LCD控制器庫

飛書文檔https://x509p6c8to.feishu.cn/wiki/Syy3wsqHLiIiQJkC6PucEJ7Snib ESP 系列芯片可以支持市場上常見的 LCD(如 SPI LCD、I2C LCD、并行 LCD (Intel 8080)、RGB/SRGB LCD、MIPI DSI LCD 等)所需的各種時序。esp_lcd 控制器為上述各類 LCD 提供了一…

蘋果電腦深度清理,讓老舊Mac重煥新生

在日常使用蘋果電腦的過程中,隨著時間推移,系統內會積累大量冗余數據,導致電腦運行速度變慢、磁盤空間緊張。想要讓設備恢復流暢,蘋果電腦深度清理必不可少。那么,如何進行蘋果電腦深度清理呢?接下來為你詳…

如何處理React中表單的雙向數據綁定?

在前端開發中,雙向數據綁定(Two-way Data Binding)是指視圖(View)與數據模型(Model)之間保持同步:當模型發生變化時,視圖會自動更新;當視圖(用戶輸…

手機上網可以固定ip地址嗎?詳細解析

在移動互聯網時代,手機已成為人們日常上網的主要設備之一。無論是工作、學習還是娛樂,穩定的網絡連接都至關重要。許多用戶對IP地址的概念有所了解,尤其是固定IP地址的需求。那么,手機上網能否固定IP地址?又該如何實現…

Spring Boot + Prometheus 實現應用監控(基于 Actuator 和 Micrometer)

文章目錄 Spring Boot Prometheus 實現應用監控(基于 Actuator 和 Micrometer)環境準備示例結構啟動和驗證驗證 Spring Boot 應用Prometheus 抓取配置(靜態方式)Grafana 面板配置總結 Spring Boot Prometheus 實現應用監控&…

rk3588 上運行smolvlm-realtime-webcam,將視頻轉為文字描述

smolvlm-realtime-webcam 是一個開源項目,結合了輕量級多模態模型 SmolVLM 和本地推理引擎 llama.cpp,能夠在本地實時處理攝像頭視頻流,生成自然語言描述, 開源項目地址 https://github.com/ngxson/smolvlm-realtime-webcamhttps…

原生js操作元素類名(classList,classList.add...)

1、classList classList屬性是一個只讀屬性&#xff0c;返回元素的類名&#xff0c;作為一個DOMTokenList集合(用于在元素中添加&#xff0c;移除及切換css類) length:返回類列表中類的數量&#xff0c;該屬性是只讀的 <style> .lis { width: 200px; …

九.C++ 對引用的學習

一.基本概念 引用即內存的別名 int a 10; int& b a; 引用本身不占用內存&#xff0c;并非實體&#xff0c;對引用的所有操作都是在對目標內存進行操作 引用必須初始化&#xff0c;且不能更換對象 int c 5; b c; // 僅僅是在對引用的目標內存進行賦值 #include <ios…

7.2.1_順序查找

知識總覽&#xff1a; 順序查找&#xff1a; 算法思想&#xff1a; 從頭到腳挨個找或者從腳到頭挨個找適用于線性表(順序存儲和鏈式存儲都適用)&#xff0c;又叫線性查找 實現&#xff1a; 1個數組elem指向數組的起始位置&#xff0c;索引從0開始遍歷數組直到找到目標值返回…

視覺SLAM基礎補盲

3D Gaussian Splatting for Real-Time Radiance Field Rendering SOTA方法3DGS contribution傳統重建基于點的渲染NeRF 基礎知識補盲光柵化SFM三角化極線幾何標準的雙目立體視覺立體匹配理論與方法立體匹配的基本流程李群和李代數 李群和李代數的映射李代數的求導李代數解決求導…

如何利用 Redis 實現跨多個無狀態服務實例的會話共享?

使用 Redis 實現跨多個無狀態服務實例的會話共享是一種非常常見且有效的方案。無狀態服務本身不存儲會話信息&#xff0c;而是將用戶的會話數據集中存儲在外部存儲中&#xff08;如 Redis&#xff09;&#xff0c;這樣任何一個服務實例都可以通過查詢外部存儲來獲取和更新用戶的…

《chipyard》docker使用

一、啟動/重啟服務 二、登入/退出 容器對象查看 sudo docker ps -a # 查看容器列表 登入已例化的容器 sudo docker exec -it -u root 737ed3ddd5ff bash # 737ed3ddd5ff<容器名稱/ID> 三、容器編輯 刪除單個容器 sudo docker stop <容器ID> #停止容器 s…

瀏覽器工作原理06 [#]渲染流程(下):HTML、CSS和JavaScript是如何變成頁面的

引用 瀏覽器工作原理與實踐 簡單回顧下上節前三個階段的主要內容&#xff1a;在HTML頁面內容被提交給渲染引擎之后&#xff0c;渲染引擎首先將HTML解析為瀏覽器可以理解的DOM&#xff1b;然后根據CSS樣式表&#xff0c;計算出DOM樹所有節點的樣式&#xff1b;接著又計算每個元素…